» » Que Es El Robots.txt o Googlebot

Que Es El Robots.txt o Googlebot

Que es el archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

Especificaciones de la metaetiqueta "robots" y de la cabecera HTTP "X-Robots-Tag"

En este Tutoriales En Linea se explica cómo interpreta Google la configuración de la indexación de páginas que permite controlar la forma en que Google muestra el contenido a través de los resultados de búsqueda. Esta información se puede especificar incluyendo una metaetiqueta en páginas HTML (X) o en una cabecera HTTP.
<meta name="robots" content="index,follow">
Nota: Ten en cuenta que la configuración solo se puede leer y seguir si los rastreadores pueden acceder a las páginas en las que se encuentra esta información.

Usar la metaetiqueta "robots"

La metaetiqueta "robots" permite utilizar un enfoque preciso y específico de una página para controlar la forma en que se debe indexar una página en concreto y cómo se debe mostrar a los usuarios en los resultados de búsqueda. Incluye la metaetiqueta "robots" en la sección <head> de una página determinada. Por ejemplo:
<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>
La metaetiqueta "robots" introducida en el ejemplo anterior indica a todos los motores de búsqueda que no muestren la página en los resultados de búsqueda. El valor del atributo name (robots) especifica que la directiva se aplica a todos los rastreadores. Para actuar sobre un rastreador en concreto, sustituye el valor robots del atributo name por el nombre del rastreador que te interese. Los rastreadores específicos también se conocen como agentes de usuario (un rastreador utiliza su agente de usuario para solicitar acceso a una página). El nombre de agente de usuario del rastreador web estándar de Google es Googlebot. Si quieres impedir que Googlebot rastree tu página, modifica la etiqueta como se indica a continuación:
<meta name="googlebot" content="noindex" />
Esta etiqueta impedirá que Google (pero no otros motores de búsqueda) muestre la página en los resultados de búsqueda web. Tanto el atributo name como el atributo content no distinguen entre mayúsculas y minúsculas.

Los motores de búsqueda pueden tener distintos rastreadores con propiedades y fines diferentes. Consulta una lista completa de los rastreadores de Google. Por ejemplo, para mostrar una página en los resultados de búsqueda web de Google, pero no en Google Noticias, utiliza la siguiente metaetiqueta:
<meta name="googlebot-news" content="noindex" />
Si necesitas especificar varios rastreadores de forma individual, puedes utilizar varias metaetiquetas "robots":
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">
Si nuestros rastreadores se encuentran con directivas en conflicto, utilizarán la más restrictiva.

Ejemplos

Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín * especifica todos los robots:
User-agent: *
Disallow:
Cabe destacar que el comodín (*) significa "ALL" (en español «todos»)

Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/]), en todos los archivos almacenados en el directorio raíz:
User-agent: *
Disallow: /
Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.
Este ejemplo permite el acceso a un solo bot:
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso
Disallow: 
User-agent: *
Disallow: /
El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Ejemplo que dice a un robot específico no entrar en un directorio
User-agent: BadBot # sustituir 'BadBot' con el nombre del bot
Disallow: /private/
Ejemplo que dice a todos los bots no entrar en un archivo en concreto
User-agent: *
Disallow: /directory/file.html
El resto de archivos del directorio seguirán estando disponibles

Ejemplo usando comentarios
# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio
User-agent: * # todos los bots
Disallow: / # impedir su entrada
robots.txt de una página ficticia
User-agent: *
Disallow:/portal/
Disallow:/portal/
Disallow:/wp-*
Disallow:/?FICTICIA=LADRONES=MONOPOLIO
Disallow:/?Monopolio
Disallow:/?Ficticia
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/sg2-no-tocar/
Disallow:/sg3-no-tocar/
Disallow:/sg4-no-tocar/
Disallow:/sg5-no-tocar/
Disallow:/sg-5-no-tocar/
Disallow:/sg-4-no-tocar/
Disallow:/sg-3-no-tocar/
Disallow:/sg-2-no-tocar/
Disallow:/sg-1-no-tocar/
Disallow:/sg*
Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Disallow:/search/search-es.jsp?texto=%3Ca%20href=%22%22%3Eladrones%3C/a%3E
Disallow:/?utm_source=example.com/blog

Comentarios 0

Deja un comentario

Información
Atención! Usuarios que están en este grupo no pueden dejar comentarios en la página...Primero debes Registrarse!