Los motores de búsqueda están equipados con robots, también conocidos como arañas o bots, que rastrean e indexan páginas web. Si su sitio o página está en desarrollo o contiene contenido confidencial, es posible que desee bloquear los bots para que no rastreen e indexen su sitio. Aprenda a bloquear sitios web, páginas y enlaces completos con archivos robots.txt y a bloquear páginas y enlaces específicos con etiquetas html. Siga leyendo para descubrir cómo bloquear el acceso de bots específicos a su contenido.
Pasos
Método 1 de 2: bloqueo de motores de búsqueda con archivos robots.txt
Paso 1. Comprenda los archivos robots.txt
Un archivo robots.txt es un archivo de texto simple o ASCII que informa a las arañas de los motores de búsqueda a qué pueden acceder en su sitio. Los archivos y carpetas incluidos en un archivo robots.txt no pueden ser rastreados ni indexados por arañas de un motor de búsqueda. Es posible que necesite un archivo robots.txt si:
- Quieres bloquear contenido específico de las arañas de los motores de búsqueda.
- Está desarrollando un sitio en vivo y no está preparado para que las arañas de los motores de búsqueda rastreen e indexen el sitio.
- Quieres limitar el acceso a bots de buena reputación.
Paso 2. Cree y guarde un archivo robots.txt
Para crear el archivo, inicie un editor de texto sin formato o un editor de código. Guarde el archivo como: robots.txt. El nombre del archivo debe estar en minúsculas.
- No olvide las "s".
- Cuando guarde el archivo, elija la extensión “'.txt”'. Si está utilizando Word, seleccione la opción "Texto sin formato".
Paso 3. Escriba un archivo robots.txt completamente prohibido
Es posible bloquear a todos los motores de búsqueda de buena reputación para que no rastreen e indexen su sitio con un archivo robots.txt "completamente prohibido". Escriba las siguientes líneas en su archivo de texto:
Agente de usuario: * No permitir: /
Paso 4. Escriba un archivo robots.txt con permiso condicional
En lugar de bloquear todos los bots, considere bloquear arañas específicas de ciertas áreas de su sitio. Los comandos de permiso condicional comunes incluyen:
- Bloquear un bot específico: reemplace los asteriscos junto a Agente de usuario con googlebot, googlebot-news, googlebot-image, bingbot, o teoma.
-
Bloquear un directorio y su contenido:
Agente de usuario: * No permitir: / directorio de muestra /
-
Bloquear una página web:
Agente de usuario: * Disallow: /private_file.html
-
Bloquear una imagen:
User-agent: googlebot-image Disallow: /images_mypicture.jpg
-
Bloquear todas las imágenes:
User-agent: googlebot-image Disallow: /
-
Bloquear un formato de archivo específico:
Agente de usuario: * No permitir: /p*.gif$
Paso 5. Anime a los bots a indexar y rastrear su sitio
Muchas personas quieren dar la bienvenida, en lugar de bloquear, a las arañas de los motores de búsqueda porque quieren que se indexe todo su sitio. Para lograr esto, tiene tres opciones. Primero, puede optar por no crear un archivo robots.txt; cuando el robot no encuentre un archivo robots.txt, continuará rastreando e indexando todo su sitio. En segundo lugar, puede crear un archivo robots.txt vacío: el robot encontrará el archivo robots.txt, reconocerá que está vacío y continuará rastreando e indexando su sitio. Por último, puede escribir un archivo robots.txt con permisos completos. Usa el código:
Usuario-agente: * No permitir:
Paso 6. Guarde el archivo txt en la raíz de su dominio
Una vez que haya escrito el archivo robots.txt, guarde los cambios. Sube el archivo al directorio raíz de tu sitio. Por ejemplo, si su dominio es www.tudominio.com, coloque el archivo robots.txt en www.yourdomain.com/robots.txt.
Método 2 de 2: bloqueo de motores de búsqueda con metaetiquetas
Paso 1. Comprender las metaetiquetas de robots HTML
La metaetiqueta robots permite a los programadores establecer parámetros para bots o arañas de motores de búsqueda. Estas etiquetas se utilizan para evitar que los bots indexen y rastreen un sitio completo o solo partes del sitio. También puede utilizar estas etiquetas para impedir que un motor de búsqueda específico indexe su contenido. Estas etiquetas aparecen en el encabezado de su archivo HTML.
Este método es comúnmente utilizado por programadores que no tienen acceso al directorio raíz de un sitio web
Paso 2. Bloquear bots desde una sola página
Es posible bloquear a todos los bots para que no indexen una página o sigan los enlaces de una página. Esta etiqueta se usa comúnmente cuando se está desarrollando un sitio en vivo. Una vez que el sitio esté completo, se recomienda encarecidamente que elimine esta etiqueta. Si no elimina la etiqueta, su página no se indexará ni se podrá buscar a través de los motores de búsqueda.
- Puede bloquear a los bots para que no indexen la página y sigan cualquiera de los enlaces:
- Puede bloquear todos los bots para que no indexen la página:
- Puede bloquear a todos los bots para que no sigan los enlaces de la página:
Paso 3. Permita que los bots indexen una página, pero no sigan sus enlaces
Si permite que los bots indexen la página, la página se indexará; Si evita que las arañas sigan los enlaces, la ruta del enlace desde esta página específica a otras páginas se romperá. Inserta la siguiente línea de código en tu encabezado:
Paso 4. Deje que las arañas de los motores de búsqueda sigan los enlaces pero no indexen la página
Si permite que los bots sigan los enlaces, la ruta del enlace desde esta página específica a otras páginas permanecerá intacta; si les restringe la indexación de la página, su página web no aparecerá en el índice. Inserta la siguiente línea de código en tu encabezado:
Paso 5. Bloquear un solo enlace saliente
Para ocultar un solo enlace en una página, inserte un rel etiqueta dentro de la etiqueta de enlace. Es posible que desee utilizar esta etiqueta para bloquear enlaces en otras páginas que conducen a la página específica que desea bloquear.
Insertar enlace a página bloqueada
Paso 6. Bloquear una araña de motor de búsqueda específica
En lugar de bloquear todos los bots de su página web, es posible que desee evitar que un bot rastree e indexe la página. Para lograr esto, reemplace "'robot"' dentro de la metaetiqueta con el nombre de un bot específico. Ejemplos incluyen: googlebot, googlebot-news, googlebot-image, bingbot, y teoma.
Paso 7. Anime a los bots a rastrear e indexar su página
Si desea asegurarse de que su página será indexada y sus enlaces serán seguidos, puede insertar un permiso de seguimiento. meta "robot" etiqueta en su encabezado. Utilice el siguiente código: