Googlebot: qué sueño. Es como si nos conociera <head>, <body> y soul. Probablemente no esté buscando nada exclusivo; ve miles de millones de otros sitios (aunque también compartimos nuestros datos con otros bots :), pero esta noche realmente nos conoceremos como sitio web y rastreador.
Lo sé, nunca es bueno analizar en exceso una primera cita. Vamos a conocer Googlebot un poco más lentamente, en una serie de publicaciones:
Nuestra primera cita (esta noche): encabezados que envía el robot de Google, formatos de archivo que "nota", si es mejor comprimir datos
Juzgando su respuesta: códigos de respuesta (301s, 302s), cómo maneja las redirecciones y If-Modified-Since
Próximos pasos: seguir los enlaces, hacer que se arrastre más rápido o más lento (para que no se ponga demasiado fuerte)
Y esta noche es solo la primera cita...
***************
Googlebot: ACK
Website: Googlebot, you're here!
Googlebot: I am.
GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Accept-Encoding: gzip,deflate
Sitio web: ¡Esos encabezados son tan llamativos! ¿Se arrastraría con los mismos encabezados si mi sitio estuviera en los EE. UU., Asia o Europa? ¿Alguna vez usaste diferentes encabezados?
Googlebot: mis encabezados suelen ser consistentes en todo el mundo. Estoy tratando de ver cómo se ve una página para el idioma y la configuración predeterminados para el sitio. A veces, el User-Agent es diferente, por ejemplo, las búsquedas de AdSense usan "Mediapartners-Google":
Agente de usuario: *
Permitir: /
Luego, durante un momento pico con alto tráfico de usuarios, el sitio cambia el archivo robots.txt a algo restrictivo:
# ¿Puedes irte por un tiempo? Te dejare volver
# de nuevo en el futuro. Realmente, lo prometo!
Agente de usuario: *
No permitir: /
El problema con el intercambio de archivos robots.txt anterior es que una vez que veo el restrictivo robots.txt, es posible que deba comenzar a tirar el contenido que ya rastreé en el índice. Y luego tengo que volver a rastrear una gran cantidad de contenido una vez que se me permite volver al sitio. Al menos un código de respuesta 503 habría sido temporal.
Por lo general, solo vuelvo a verificar el archivo robots.txt una vez al día (de lo contrario, en muchos sitios de alojamiento virtual, gastaría una gran parte de mis búsquedas solo para obtener el archivo robots.txt, y ninguna fecha quiere "conocer a los padres" tan a menudo) . Para los webmasters, tratar de controlar la frecuencia de rastreo a través del intercambio de robots.txt generalmente es contraproducente. Es mejor establecer la velocidad en "más lenta" en las Herramientas para webmasters de Google.
Googlebot: sitio web, gracias por todas sus preguntas, ha sido maravilloso, pero voy a tener que decir "FIN, mi amor".
Sitio web: Oh, Googlebot ... ACK / FIN. :)
Lo sé, nunca es bueno analizar en exceso una primera cita. Vamos a conocer Googlebot un poco más lentamente, en una serie de publicaciones:
Nuestra primera cita (esta noche): encabezados que envía el robot de Google, formatos de archivo que "nota", si es mejor comprimir datos
Juzgando su respuesta: códigos de respuesta (301s, 302s), cómo maneja las redirecciones y If-Modified-Since
Próximos pasos: seguir los enlaces, hacer que se arrastre más rápido o más lento (para que no se ponga demasiado fuerte)
Y esta noche es solo la primera cita...
***************
Googlebot: ACK
Website: Googlebot, you're here!
Googlebot: I am.
GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Accept-Encoding: gzip,deflate
Sitio web: ¡Esos encabezados son tan llamativos! ¿Se arrastraría con los mismos encabezados si mi sitio estuviera en los EE. UU., Asia o Europa? ¿Alguna vez usaste diferentes encabezados?
Googlebot: mis encabezados suelen ser consistentes en todo el mundo. Estoy tratando de ver cómo se ve una página para el idioma y la configuración predeterminados para el sitio. A veces, el User-Agent es diferente, por ejemplo, las búsquedas de AdSense usan "Mediapartners-Google":
- User-Agent: Mediapartners-Google
O para la búsqueda de imágenes:Or for image search:
- User-Agent: Googlebot-Image/1.0
Las recuperaciones inalámbricas a menudo tienen agentes de usuario específicos del operador, mientras que las recuperaciones RSS de Google Reader incluyen información adicional, como el número de suscriptores.
Por lo general, evito las cookies (así que no el encabezado "Cookie:") ya que no quiero que el contenido se vea afectado demasiado por la información específica de la sesión. Y, si un servidor usa una identificación de sesión en una URL dinámica en lugar de una cookie, generalmente puedo resolver esto, de modo que no termine rastreando su misma página un millón de veces con un millón de identificadores de sesión diferentes.
Sitio web: soy muy complejo. Tengo muchos tipos de archivos. Sus encabezados dicen "Aceptar: * / *". ¿Indiza todas las URL o ciertas extensiones de archivo se filtran automáticamente?
Googlebot: Eso depende de lo que esté buscando.
Si estoy indexando para una búsqueda web regular y veo enlaces a MP3 y videos, probablemente no los descargue. Del mismo modo, si veo un webp, lo trataré de manera diferente a un enlace HTML o PDF. Por ejemplo, es mucho menos probable que webp cambie con frecuencia que HTML, por lo que revisaré webp para ver los cambios con menos frecuencia para ahorrar ancho de banda. Mientras tanto, si busco enlaces como Google Scholar, me interesará mucho más el artículo PDF que el archivo webp. Descargar garabatos (como webp) y videos de perros que andan en patineta es una distracción para un erudito. ¿Estás de acuerdo?
Sitio web: Sí, pueden ser una distracción. Estoy asombrado de tu dedicación. Me encantan los garabatos (webp) y los encuentro difíciles de resistir.
Googlebot: yo también; No siempre soy tan erudito. Cuando me arrastro para buscar imágenes, estoy muy interesado en los webp. Y para las noticias, principalmente estoy viendo HTML e imágenes cercanas.
También hay muchas extensiones (exe, dll, zip, dmg ...), que tienden a ser grandes y menos útiles para un motor de búsqueda.
Por lo general, evito las cookies (así que no el encabezado "Cookie:") ya que no quiero que el contenido se vea afectado demasiado por la información específica de la sesión. Y, si un servidor usa una identificación de sesión en una URL dinámica en lugar de una cookie, generalmente puedo resolver esto, de modo que no termine rastreando su misma página un millón de veces con un millón de identificadores de sesión diferentes.
Sitio web: soy muy complejo. Tengo muchos tipos de archivos. Sus encabezados dicen "Aceptar: * / *". ¿Indiza todas las URL o ciertas extensiones de archivo se filtran automáticamente?
Googlebot: Eso depende de lo que esté buscando.
Si estoy indexando para una búsqueda web regular y veo enlaces a MP3 y videos, probablemente no los descargue. Del mismo modo, si veo un webp, lo trataré de manera diferente a un enlace HTML o PDF. Por ejemplo, es mucho menos probable que webp cambie con frecuencia que HTML, por lo que revisaré webp para ver los cambios con menos frecuencia para ahorrar ancho de banda. Mientras tanto, si busco enlaces como Google Scholar, me interesará mucho más el artículo PDF que el archivo webp. Descargar garabatos (como webp) y videos de perros que andan en patineta es una distracción para un erudito. ¿Estás de acuerdo?
Sitio web: Sí, pueden ser una distracción. Estoy asombrado de tu dedicación. Me encantan los garabatos (webp) y los encuentro difíciles de resistir.
Googlebot: yo también; No siempre soy tan erudito. Cuando me arrastro para buscar imágenes, estoy muy interesado en los webp. Y para las noticias, principalmente estoy viendo HTML e imágenes cercanas.
También hay muchas extensiones (exe, dll, zip, dmg ...), que tienden a ser grandes y menos útiles para un motor de búsqueda.
Sitio web: Si vio mi URL, www.example.com/page1.LOL111, ¿lo rechazaría (whimper whimper) solo porque contiene una extensión de archivo desconocida?
Googlebot: sitio web, déjame darte un poco más de información. Después de descargar un archivo, utilizo el encabezado Content-Type para verificar si realmente es HTML, una imagen, texto u otra cosa. Si se trata de un tipo de datos especial, como un archivo PDF, un documento de Word o una hoja de cálculo de Excel, me aseguraré de que esté en el formato válido y extraeré el contenido del texto. Tal vez tiene un virus; nunca sabes. Si el documento o tipo de datos es realmente confuso, generalmente no hay mucho que hacer además de descartar el contenido.
Entonces, si estoy rastreando www.example.com/page1.LOL111 con una extensión de archivo desconocida, es probable que comience a descargarlo. Si no puedo descifrar el tipo de contenido del encabezado, o es un formato que no indexamos (por ejemplo, mp3), entonces se dejará de lado. De lo contrario, procedemos a indexar el archivo.
Sitio web: Mis disculpas por examinar su estilo, Googlebot, pero noté que sus encabezados de codificación de aceptación dicen:
Aceptar-codificación: gzip, desinflar
¿Me puede explicar estos encabezados?
Googlebot: claro. Todos los principales motores de búsqueda y navegadores web admiten la compresión gzip de contenido para ahorrar ancho de banda. Otras entradas que puede ver aquí incluyen "x-gzip" (igual que "gzip"), "desinflar" (que también admitimos) e "identidad" (ninguna).
Sitio web: ¿Puede hablar más sobre la compresión de archivos y "Accept-Encoding: gzip, deflate"? Muchas de mis URL consisten en grandes archivos Flash e imágenes impresionantes, no solo HTML. ¿Te ayudaría a gatear más rápido si comprimo mis archivos más grandes?
Googlebot: no hay una respuesta simple a esta pregunta. En primer lugar, muchos formatos de archivo, como swf (Flash), webp, webp, webp y pdf ya están comprimidos (también hay optimizadores Flash especializados).
Sitio web: ¿Quizás he estado comprimiendo mis archivos Flash y ni siquiera lo sabía? Obviamente soy muy eficiente.
Googlebot: tanto Apache como IIS tienen opciones para habilitar gzip y desinflar la compresión, aunque hay un costo de CPU involucrado por el ancho de banda guardado. Por lo general, solo está habilitado para contenido HTML / CSS / PHP de texto fácilmente comprimible. Y solo se usa si el navegador del usuario o yo (un rastreador de motores de búsqueda) lo permitimos. Personalmente, prefiero "gzip" sobre "desinflar". Gzip es una codificación ligeramente más robusta: siempre hay una suma de verificación y un encabezado completo, lo que me da menos conjeturas que con desinflar. De lo contrario, son algoritmos de compresión muy similares.
Si tiene alguna CPU de repuesto en sus servidores, puede valer la pena experimentar con la compresión (enlaces: Apache, IIS). Pero, si está sirviendo contenido dinámico y sus servidores ya están muy cargados de CPU, es posible que desee esperar.
Sitio web: gran información. Me alegro mucho de que hayas venido esta noche. Gracias a Dios, mi robots.txt lo permitió. ¡Ese archivo puede ser como un padre sobreprotector!
Googlebot: Ah sí; conociendo a los padres, el robots.txt. He conocido a muchos locos. En realidad, algunas son solo páginas de error HTML en lugar de robots.txt válidos. Algunos tienen redireccionamientos infinitos en todo el lugar, tal vez a sitios totalmente no relacionados, mientras que otros son enormes y tienen miles de URL diferentes enumeradas individualmente. Aquí hay un patrón desafortunado. El sitio normalmente está ansioso por que rastree:
Googlebot: sitio web, déjame darte un poco más de información. Después de descargar un archivo, utilizo el encabezado Content-Type para verificar si realmente es HTML, una imagen, texto u otra cosa. Si se trata de un tipo de datos especial, como un archivo PDF, un documento de Word o una hoja de cálculo de Excel, me aseguraré de que esté en el formato válido y extraeré el contenido del texto. Tal vez tiene un virus; nunca sabes. Si el documento o tipo de datos es realmente confuso, generalmente no hay mucho que hacer además de descartar el contenido.
Entonces, si estoy rastreando www.example.com/page1.LOL111 con una extensión de archivo desconocida, es probable que comience a descargarlo. Si no puedo descifrar el tipo de contenido del encabezado, o es un formato que no indexamos (por ejemplo, mp3), entonces se dejará de lado. De lo contrario, procedemos a indexar el archivo.
Sitio web: Mis disculpas por examinar su estilo, Googlebot, pero noté que sus encabezados de codificación de aceptación dicen:
Aceptar-codificación: gzip, desinflar
¿Me puede explicar estos encabezados?
Googlebot: claro. Todos los principales motores de búsqueda y navegadores web admiten la compresión gzip de contenido para ahorrar ancho de banda. Otras entradas que puede ver aquí incluyen "x-gzip" (igual que "gzip"), "desinflar" (que también admitimos) e "identidad" (ninguna).
Sitio web: ¿Puede hablar más sobre la compresión de archivos y "Accept-Encoding: gzip, deflate"? Muchas de mis URL consisten en grandes archivos Flash e imágenes impresionantes, no solo HTML. ¿Te ayudaría a gatear más rápido si comprimo mis archivos más grandes?
Googlebot: no hay una respuesta simple a esta pregunta. En primer lugar, muchos formatos de archivo, como swf (Flash), webp, webp, webp y pdf ya están comprimidos (también hay optimizadores Flash especializados).
Sitio web: ¿Quizás he estado comprimiendo mis archivos Flash y ni siquiera lo sabía? Obviamente soy muy eficiente.
Googlebot: tanto Apache como IIS tienen opciones para habilitar gzip y desinflar la compresión, aunque hay un costo de CPU involucrado por el ancho de banda guardado. Por lo general, solo está habilitado para contenido HTML / CSS / PHP de texto fácilmente comprimible. Y solo se usa si el navegador del usuario o yo (un rastreador de motores de búsqueda) lo permitimos. Personalmente, prefiero "gzip" sobre "desinflar". Gzip es una codificación ligeramente más robusta: siempre hay una suma de verificación y un encabezado completo, lo que me da menos conjeturas que con desinflar. De lo contrario, son algoritmos de compresión muy similares.
Si tiene alguna CPU de repuesto en sus servidores, puede valer la pena experimentar con la compresión (enlaces: Apache, IIS). Pero, si está sirviendo contenido dinámico y sus servidores ya están muy cargados de CPU, es posible que desee esperar.
Sitio web: gran información. Me alegro mucho de que hayas venido esta noche. Gracias a Dios, mi robots.txt lo permitió. ¡Ese archivo puede ser como un padre sobreprotector!
Googlebot: Ah sí; conociendo a los padres, el robots.txt. He conocido a muchos locos. En realidad, algunas son solo páginas de error HTML en lugar de robots.txt válidos. Algunos tienen redireccionamientos infinitos en todo el lugar, tal vez a sitios totalmente no relacionados, mientras que otros son enormes y tienen miles de URL diferentes enumeradas individualmente. Aquí hay un patrón desafortunado. El sitio normalmente está ansioso por que rastree:
Agente de usuario: *
Permitir: /
Luego, durante un momento pico con alto tráfico de usuarios, el sitio cambia el archivo robots.txt a algo restrictivo:
# ¿Puedes irte por un tiempo? Te dejare volver
# de nuevo en el futuro. Realmente, lo prometo!
Agente de usuario: *
No permitir: /
El problema con el intercambio de archivos robots.txt anterior es que una vez que veo el restrictivo robots.txt, es posible que deba comenzar a tirar el contenido que ya rastreé en el índice. Y luego tengo que volver a rastrear una gran cantidad de contenido una vez que se me permite volver al sitio. Al menos un código de respuesta 503 habría sido temporal.
Por lo general, solo vuelvo a verificar el archivo robots.txt una vez al día (de lo contrario, en muchos sitios de alojamiento virtual, gastaría una gran parte de mis búsquedas solo para obtener el archivo robots.txt, y ninguna fecha quiere "conocer a los padres" tan a menudo) . Para los webmasters, tratar de controlar la frecuencia de rastreo a través del intercambio de robots.txt generalmente es contraproducente. Es mejor establecer la velocidad en "más lenta" en las Herramientas para webmasters de Google.
Googlebot: sitio web, gracias por todas sus preguntas, ha sido maravilloso, pero voy a tener que decir "FIN, mi amor".
Sitio web: Oh, Googlebot ... ACK / FIN. :)
Comentarios