Cómo bloquear motores de búsqueda (con imágenes)

Tabla de contenido:

Cómo bloquear motores de búsqueda (con imágenes)
Cómo bloquear motores de búsqueda (con imágenes)

Video: Cómo bloquear motores de búsqueda (con imágenes)

Video: Cómo bloquear motores de búsqueda (con imágenes)
Video: ¿Cómo abrir un achivo .ODS en cualquier dispositivo? - Windows, Linux y Mac 2024, Abril
Anonim

Los motores de búsqueda están equipados con robots, también conocidos como arañas o bots, que rastrean e indexan páginas web. Si su sitio o página está en desarrollo o contiene contenido confidencial, es posible que desee bloquear los bots para que no rastreen e indexen su sitio. Aprenda a bloquear sitios web, páginas y enlaces completos con archivos robots.txt y a bloquear páginas y enlaces específicos con etiquetas html. Siga leyendo para descubrir cómo bloquear el acceso de bots específicos a su contenido.

Pasos

Método 1 de 2: bloqueo de motores de búsqueda con archivos robots.txt

576315 1
576315 1

Paso 1. Comprenda los archivos robots.txt

Un archivo robots.txt es un archivo de texto simple o ASCII que informa a las arañas de los motores de búsqueda a qué pueden acceder en su sitio. Los archivos y carpetas incluidos en un archivo robots.txt no pueden ser rastreados ni indexados por arañas de un motor de búsqueda. Es posible que necesite un archivo robots.txt si:

  • Quieres bloquear contenido específico de las arañas de los motores de búsqueda.
  • Está desarrollando un sitio en vivo y no está preparado para que las arañas de los motores de búsqueda rastreen e indexen el sitio.
  • Quieres limitar el acceso a bots de buena reputación.
576315 2
576315 2

Paso 2. Cree y guarde un archivo robots.txt

Para crear el archivo, inicie un editor de texto sin formato o un editor de código. Guarde el archivo como: robots.txt. El nombre del archivo debe estar en minúsculas.

  • No olvide las "s".
  • Cuando guarde el archivo, elija la extensión “'.txt”'. Si está utilizando Word, seleccione la opción "Texto sin formato".
576315 3 1
576315 3 1

Paso 3. Escriba un archivo robots.txt completamente prohibido

Es posible bloquear a todos los motores de búsqueda de buena reputación para que no rastreen e indexen su sitio con un archivo robots.txt "completamente prohibido". Escriba las siguientes líneas en su archivo de texto:

    Agente de usuario: * No permitir: /

  • No se recomienda encarecidamente utilizar un archivo robots.txt "totalmente prohibido". Cuando un bot, como Bingbot, lee este archivo, no indexará su sitio y el motor de búsqueda no mostrará su sitio web.
  • Agentes de usuario: este es otro término para las arañas de los motores de búsqueda o robots
  • *: el asterisco significa que el código se aplica a todos los agentes de usuario
  • No permitir: /: la barra inclinada indica que todo el sitio está fuera del alcance de los bots
576315 4 1
576315 4 1

Paso 4. Escriba un archivo robots.txt con permiso condicional

En lugar de bloquear todos los bots, considere bloquear arañas específicas de ciertas áreas de su sitio. Los comandos de permiso condicional comunes incluyen:

  • Bloquear un bot específico: reemplace los asteriscos junto a Agente de usuario con googlebot, googlebot-news, googlebot-image, bingbot, o teoma.
  • Bloquear un directorio y su contenido:

    Agente de usuario: * No permitir: / directorio de muestra /

  • Bloquear una página web:

    Agente de usuario: * Disallow: /private_file.html

  • Bloquear una imagen:

    User-agent: googlebot-image Disallow: /images_mypicture.jpg

  • Bloquear todas las imágenes:

    User-agent: googlebot-image Disallow: /

  • Bloquear un formato de archivo específico:

    Agente de usuario: * No permitir: /p*.gif$

576315 5
576315 5

Paso 5. Anime a los bots a indexar y rastrear su sitio

Muchas personas quieren dar la bienvenida, en lugar de bloquear, a las arañas de los motores de búsqueda porque quieren que se indexe todo su sitio. Para lograr esto, tiene tres opciones. Primero, puede optar por no crear un archivo robots.txt; cuando el robot no encuentre un archivo robots.txt, continuará rastreando e indexando todo su sitio. En segundo lugar, puede crear un archivo robots.txt vacío: el robot encontrará el archivo robots.txt, reconocerá que está vacío y continuará rastreando e indexando su sitio. Por último, puede escribir un archivo robots.txt con permisos completos. Usa el código:

    Usuario-agente: * No permitir:

  • Cuando un bot, como googlebot, lea este archivo, podrá visitar todo su sitio con total libertad.
  • Agentes de usuario: este es otro término para las arañas de los motores de búsqueda o robots
  • *: el asterisco significa que el código se aplica a todos los agentes de usuario
  • Rechazar: el comando de no permitir en blanco indica que todos los archivos y carpetas son accesibles
576315 6
576315 6

Paso 6. Guarde el archivo txt en la raíz de su dominio

Una vez que haya escrito el archivo robots.txt, guarde los cambios. Sube el archivo al directorio raíz de tu sitio. Por ejemplo, si su dominio es www.tudominio.com, coloque el archivo robots.txt en www.yourdomain.com/robots.txt.

Método 2 de 2: bloqueo de motores de búsqueda con metaetiquetas

576315 7
576315 7

Paso 1. Comprender las metaetiquetas de robots HTML

La metaetiqueta robots permite a los programadores establecer parámetros para bots o arañas de motores de búsqueda. Estas etiquetas se utilizan para evitar que los bots indexen y rastreen un sitio completo o solo partes del sitio. También puede utilizar estas etiquetas para impedir que un motor de búsqueda específico indexe su contenido. Estas etiquetas aparecen en el encabezado de su archivo HTML.

Este método es comúnmente utilizado por programadores que no tienen acceso al directorio raíz de un sitio web

576315 8
576315 8

Paso 2. Bloquear bots desde una sola página

Es posible bloquear a todos los bots para que no indexen una página o sigan los enlaces de una página. Esta etiqueta se usa comúnmente cuando se está desarrollando un sitio en vivo. Una vez que el sitio esté completo, se recomienda encarecidamente que elimine esta etiqueta. Si no elimina la etiqueta, su página no se indexará ni se podrá buscar a través de los motores de búsqueda.

  • Puede bloquear a los bots para que no indexen la página y sigan cualquiera de los enlaces:
  • Puede bloquear todos los bots para que no indexen la página:
  • Puede bloquear a todos los bots para que no sigan los enlaces de la página:
576315 9
576315 9

Paso 3. Permita que los bots indexen una página, pero no sigan sus enlaces

Si permite que los bots indexen la página, la página se indexará; Si evita que las arañas sigan los enlaces, la ruta del enlace desde esta página específica a otras páginas se romperá. Inserta la siguiente línea de código en tu encabezado:

576315 10
576315 10

Paso 4. Deje que las arañas de los motores de búsqueda sigan los enlaces pero no indexen la página

Si permite que los bots sigan los enlaces, la ruta del enlace desde esta página específica a otras páginas permanecerá intacta; si les restringe la indexación de la página, su página web no aparecerá en el índice. Inserta la siguiente línea de código en tu encabezado:

576315 11
576315 11

Paso 5. Bloquear un solo enlace saliente

Para ocultar un solo enlace en una página, inserte un rel etiqueta dentro de la etiqueta de enlace. Es posible que desee utilizar esta etiqueta para bloquear enlaces en otras páginas que conducen a la página específica que desea bloquear.

    Insertar enlace a página bloqueada

576315 12
576315 12

Paso 6. Bloquear una araña de motor de búsqueda específica

En lugar de bloquear todos los bots de su página web, es posible que desee evitar que un bot rastree e indexe la página. Para lograr esto, reemplace "'robot"' dentro de la metaetiqueta con el nombre de un bot específico. Ejemplos incluyen: googlebot, googlebot-news, googlebot-image, bingbot, y teoma.

576315 13
576315 13

Paso 7. Anime a los bots a rastrear e indexar su página

Si desea asegurarse de que su página será indexada y sus enlaces serán seguidos, puede insertar un permiso de seguimiento. meta "robot" etiqueta en su encabezado. Utilice el siguiente código:

Recomendado: