» » Que Es El Robots.txt o Googlebot

Que Es El Robots.txt o Googlebot

Que es el archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

Especificaciones de la metaetiqueta "robots" y de la cabecera HTTP "X-Robots-Tag"

En este Tutoriales En Linea se explica cómo interpreta Google la configuración de la indexación de páginas que permite controlar la forma en que Google muestra el contenido a través de los resultados de búsqueda. Esta información se puede especificar incluyendo una metaetiqueta en páginas HTML (X) o en una cabecera HTTP.
<meta name="robots" content="index,follow">
Nota: Ten en cuenta que la configuración solo se puede leer y seguir si los rastreadores pueden acceder a las páginas en las que se encuentra esta información.

Usar la metaetiqueta "robots"

La metaetiqueta "robots" permite utilizar un enfoque preciso y específico de una página para controlar la forma en que se debe indexar una página en concreto y cómo se debe mostrar a los usuarios en los resultados de búsqueda. Incluye la metaetiqueta "robots" en la sección <head> de una página determinada. Por ejemplo:
<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>
La metaetiqueta "robots" introducida en el ejemplo anterior indica a todos los motores de búsqueda que no muestren la página en los resultados de búsqueda. El valor del atributo name (robots) especifica que la directiva se aplica a todos los rastreadores. Para actuar sobre un rastreador en concreto, sustituye el valor robots del atributo name por el nombre del rastreador que te interese. Los rastreadores específicos también se conocen como agentes de usuario (un rastreador utiliza su agente de usuario para solicitar acceso a una página). El nombre de agente de usuario del rastreador web estándar de Google es Googlebot. Si quieres impedir que Googlebot rastree tu página, modifica la etiqueta como se indica a continuación:
<meta name="googlebot" content="noindex" />
Esta etiqueta impedirá que Google (pero no otros motores de búsqueda) muestre la página en los resultados de búsqueda web. Tanto el atributo name como el atributo content no distinguen entre mayúsculas y minúsculas.

Los motores de búsqueda pueden tener distintos rastreadores con propiedades y fines diferentes. Consulta una lista completa de los rastreadores de Google. Por ejemplo, para mostrar una página en los resultados de búsqueda web de Google, pero no en Google Noticias, utiliza la siguiente metaetiqueta:
<meta name="googlebot-news" content="noindex" />
Si necesitas especificar varios rastreadores de forma individual, puedes utilizar varias metaetiquetas "robots":
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">
Si nuestros rastreadores se encuentran con directivas en conflicto, utilizarán la más restrictiva.

Ejemplos

Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín * especifica todos los robots:
User-agent: *
Disallow:
Cabe destacar que el comodín (*) significa "ALL" (en español «todos»)

Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/]), en todos los archivos almacenados en el directorio raíz:
User-agent: *
Disallow: /
Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.
Este ejemplo permite el acceso a un solo bot:
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso
Disallow: 
User-agent: *
Disallow: /
El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Ejemplo que dice a un robot específico no entrar en un directorio
User-agent: BadBot # sustituir 'BadBot' con el nombre del bot
Disallow: /private/
Ejemplo que dice a todos los bots no entrar en un archivo en concreto
User-agent: *
Disallow: /directory/file.html
El resto de archivos del directorio seguirán estando disponibles

Ejemplo usando comentarios
# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio
User-agent: * # todos los bots
Disallow: / # impedir su entrada
robots.txt de una página ficticia
User-agent: *
Disallow:/portal/
Disallow:/portal/
Disallow:/wp-*
Disallow:/?FICTICIA=LADRONES=MONOPOLIO
Disallow:/?Monopolio
Disallow:/?Ficticia
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/sg2-no-tocar/
Disallow:/sg3-no-tocar/
Disallow:/sg4-no-tocar/
Disallow:/sg5-no-tocar/
Disallow:/sg-5-no-tocar/
Disallow:/sg-4-no-tocar/
Disallow:/sg-3-no-tocar/
Disallow:/sg-2-no-tocar/
Disallow:/sg-1-no-tocar/
Disallow:/sg*
Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Disallow:/search/search-es.jsp?texto=%3Ca%20href=%22%22%3Eladrones%3C/a%3E
Disallow:/?utm_source=example.com/blog

Deja un comentario

Información
Atención! Usuarios que están en este grupo no pueden dejar comentarios en la página...Primero debes Registrarse!

Redes Sociales

Recupera Tus Mensajes O Chats De WhatsApp Borrados

Recupera Tus Mensajes O Chats De WhatsApp Borrados

  Recuperar mensajes y chats borrados de tu aplicación WhatsApp para Android es una tarea que puede resultar  necesaria alguna vez. A menudo, estamos tratando de liberar espacio físico de nuestro dispositivo Android y llegamos incluso a borrar...
Integrar El Boton de Whatsapp En Tu Web

Integrar El Boton de Whatsapp En Tu Web

  De todos es conocido que WhatsApp se ha convertido en una herramienta para compartir fotos y vídeos con tus amigos, familiares y compañeros de trabajo. También cada vez más usado, para compartir enlaces de contenidos de la web y otras aplicaciones móviles. Para ayudar a compartir los contenidos...
Crees que las redes sociales te están haciendo bien o mal

Crees que las redes sociales te están haciendo bien o mal

Las redes sociales te ofrecen una forma única de observar a la gente. Por ejemplo, el lenguaje utilizado en Twitter puede usarse para predecir si alguien está en riesgo de morir de una enfermedad cardíaca. El análisis de las actualizaciones de Facebook muestra que las mujeres son generalmente más...
Crea una imagen para las redes sociales

Crea una imagen para las redes sociales

Aprenda a combinar una foto, texto y material gráfico en Photoshop para su Facebook, Twitter y otras publicaciones en redes sociales. Utilice estas habilidades para crear sus propias imágenes de redes sociales o cualquier diseño que cree en Photoshop. Adobe Photoshop es un editor de gráficos...
Comparte instantáneamente tus fotos y diseños

Comparte instantáneamente tus fotos y diseños

Muestre rápidamente su trabajo a clientes y compañeros de trabajo, o comparta una idea al instante por correo electrónico, texto, redes sociales y más, todo dentro de Adobe Photoshop CC. Nota: Necesitará la última versión de Photoshop CC para usar esta función. Comparte tu trabajo ahoraHaz clic en...