Inicia sesión




Encabezados y compresión del robot de Google

Encabezados y compresión del robot de GoogleGooglebot: qué sueño. Es como si nos conociera <head>, <body> y soul. Probablemente no esté buscando nada exclusivo; ve miles de millones de otros sitios (aunque también compartimos nuestros datos con otros bots :), pero esta noche realmente nos conoceremos como sitio web y rastreador.
Lo sé, nunca es bueno analizar en exceso una primera cita. Vamos a conocer Googlebot un poco más lentamente, en una serie de publicaciones:

Nuestra primera cita (esta noche): encabezados que envía el robot de Google, formatos de archivo que "nota", si es mejor comprimir datos
Juzgando su respuesta: códigos de respuesta (301s, 302s), cómo maneja las redirecciones y If-Modified-Since

Próximos pasos: seguir los enlaces, hacer que se arrastre más rápido o más lento (para que no se ponga demasiado fuerte)
Y esta noche es solo la primera cita...

***************
Googlebot:  ACK
Website:  Googlebot, you're here!
Googlebot:  I am.

GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

Sitio web: ¡Esos encabezados son tan llamativos! ¿Se arrastraría con los mismos encabezados si mi sitio estuviera en los EE. UU., Asia o Europa? ¿Alguna vez usaste diferentes encabezados?

Googlebot: mis encabezados suelen ser consistentes en todo el mundo. Estoy tratando de ver cómo se ve una página para el idioma y la configuración predeterminados para el sitio. A veces, el User-Agent es diferente, por ejemplo, las búsquedas de AdSense usan "Mediapartners-Google":

  • User-Agent: Mediapartners-Google
O para la búsqueda de imágenes:Or for image search:

  • User-Agent: Googlebot-Image/1.0
Las recuperaciones inalámbricas a menudo tienen agentes de usuario específicos del operador, mientras que las recuperaciones RSS de Google Reader incluyen información adicional, como el número de suscriptores.

Por lo general, evito las cookies (así que no el encabezado "Cookie:") ya que no quiero que el contenido se vea afectado demasiado por la información específica de la sesión. Y, si un servidor usa una identificación de sesión en una URL dinámica en lugar de una cookie, generalmente puedo resolver esto, de modo que no termine rastreando su misma página un millón de veces con un millón de identificadores de sesión diferentes.

Sitio web: soy muy complejo. Tengo muchos tipos de archivos. Sus encabezados dicen "Aceptar: * / *". ¿Indiza todas las URL o ciertas extensiones de archivo se filtran automáticamente?

Googlebot: Eso depende de lo que esté buscando.

Si estoy indexando para una búsqueda web regular y veo enlaces a MP3 y videos, probablemente no los descargue. Del mismo modo, si veo un JPG, lo trataré de manera diferente a un enlace HTML o PDF. Por ejemplo, es mucho menos probable que JPG cambie con frecuencia que HTML, por lo que revisaré JPG para ver los cambios con menos frecuencia para ahorrar ancho de banda. Mientras tanto, si busco enlaces como Google Scholar, me interesará mucho más el artículo PDF que el archivo JPG. Descargar garabatos (como JPG) y videos de perros que andan en patineta es una distracción para un erudito. ¿Estás de acuerdo?

Sitio web: Sí, pueden ser una distracción. Estoy asombrado de tu dedicación. Me encantan los garabatos (JPG) y los encuentro difíciles de resistir.

Googlebot: yo también; No siempre soy tan erudito. Cuando me arrastro para buscar imágenes, estoy muy interesado en los JPG. Y para las noticias, principalmente estoy viendo HTML e imágenes cercanas.

También hay muchas extensiones (exe, dll, zip, dmg ...), que tienden a ser grandes y menos útiles para un motor de búsqueda.


Sitio web: Si vio mi URL, www.example.com/page1.LOL111, ¿lo rechazaría (whimper whimper) solo porque contiene una extensión de archivo desconocida?

Googlebot: sitio web, déjame darte un poco más de información. Después de descargar un archivo, utilizo el encabezado Content-Type para verificar si realmente es HTML, una imagen, texto u otra cosa. Si se trata de un tipo de datos especial, como un archivo PDF, un documento de Word o una hoja de cálculo de Excel, me aseguraré de que esté en el formato válido y extraeré el contenido del texto. Tal vez tiene un virus; nunca sabes. Si el documento o tipo de datos es realmente confuso, generalmente no hay mucho que hacer además de descartar el contenido.

Entonces, si estoy rastreando www.example.com/page1.LOL111 con una extensión de archivo desconocida, es probable que comience a descargarlo. Si no puedo descifrar el tipo de contenido del encabezado, o es un formato que no indexamos (por ejemplo, mp3), entonces se dejará de lado. De lo contrario, procedemos a indexar el archivo.

Sitio web: Mis disculpas por examinar su estilo, Googlebot, pero noté que sus encabezados de codificación de aceptación dicen:
Aceptar-codificación: gzip, desinflar

¿Me puede explicar estos encabezados?

Googlebot: claro. Todos los principales motores de búsqueda y navegadores web admiten la compresión gzip de contenido para ahorrar ancho de banda. Otras entradas que puede ver aquí incluyen "x-gzip" (igual que "gzip"), "desinflar" (que también admitimos) e "identidad" (ninguna).

Sitio web: ¿Puede hablar más sobre la compresión de archivos y "Accept-Encoding: gzip, deflate"? Muchas de mis URL consisten en grandes archivos Flash e imágenes impresionantes, no solo HTML. ¿Te ayudaría a gatear más rápido si comprimo mis archivos más grandes?

Googlebot: no hay una respuesta simple a esta pregunta. En primer lugar, muchos formatos de archivo, como swf (Flash), jpg, png, gif y pdf ya están comprimidos (también hay optimizadores Flash especializados).

Sitio web: ¿Quizás he estado comprimiendo mis archivos Flash y ni siquiera lo sabía? Obviamente soy muy eficiente.

Googlebot: tanto Apache como IIS tienen opciones para habilitar gzip y desinflar la compresión, aunque hay un costo de CPU involucrado por el ancho de banda guardado. Por lo general, solo está habilitado para contenido HTML / CSS / PHP de texto fácilmente comprimible. Y solo se usa si el navegador del usuario o yo (un rastreador de motores de búsqueda) lo permitimos. Personalmente, prefiero "gzip" sobre "desinflar". Gzip es una codificación ligeramente más robusta: siempre hay una suma de verificación y un encabezado completo, lo que me da menos conjeturas que con desinflar. De lo contrario, son algoritmos de compresión muy similares.

Si tiene alguna CPU de repuesto en sus servidores, puede valer la pena experimentar con la compresión (enlaces: Apache, IIS). Pero, si está sirviendo contenido dinámico y sus servidores ya están muy cargados de CPU, es posible que desee esperar.

Sitio web: gran información. Me alegro mucho de que hayas venido esta noche. Gracias a Dios, mi robots.txt lo permitió. ¡Ese archivo puede ser como un padre sobreprotector!

Googlebot: Ah sí; conociendo a los padres, el robots.txt. He conocido a muchos locos. En realidad, algunas son solo páginas de error HTML en lugar de robots.txt válidos. Algunos tienen redireccionamientos infinitos en todo el lugar, tal vez a sitios totalmente no relacionados, mientras que otros son enormes y tienen miles de URL diferentes enumeradas individualmente. Aquí hay un patrón desafortunado. El sitio normalmente está ansioso por que rastree:

  Agente de usuario: *
  Permitir: /

Luego, durante un momento pico con alto tráfico de usuarios, el sitio cambia el archivo robots.txt a algo restrictivo:

  # ¿Puedes irte por un tiempo? Te dejare volver
  # de nuevo en el futuro. Realmente, lo prometo!
  Agente de usuario: *
  No permitir: /

El problema con el intercambio de archivos robots.txt anterior es que una vez que veo el restrictivo robots.txt, es posible que deba comenzar a tirar el contenido que ya rastreé en el índice. Y luego tengo que volver a rastrear una gran cantidad de contenido una vez que se me permite volver al sitio. Al menos un código de respuesta 503 habría sido temporal.

Por lo general, solo vuelvo a verificar el archivo robots.txt una vez al día (de lo contrario, en muchos sitios de alojamiento virtual, gastaría una gran parte de mis búsquedas solo para obtener el archivo robots.txt, y ninguna fecha quiere "conocer a los padres" tan a menudo) . Para los webmasters, tratar de controlar la frecuencia de rastreo a través del intercambio de robots.txt generalmente es contraproducente. Es mejor establecer la velocidad en "más lenta" en las Herramientas para webmasters de Google.

Googlebot: sitio web, gracias por todas sus preguntas, ha sido maravilloso, pero voy a tener que decir "FIN, mi amor".

Sitio web: Oh, Googlebot ... ACK / FIN. :)
    Encabezados y compresión del robot de Google
  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2015-05-30
  • Categorias: Google Indexar Internet Red Noticias Tutorial

Te sugiero seguir leyendo...



Encabezados y compresión del robot de Google
Encabezados y compresión del robot de Google Encabezados y compresión del robot de GoogleGooglebot: qué sueño. Es como si nos conociera <head>, <body> y soul. Probablemente no esté buscando nada exclusivo; ve miles de millones de otros sitios (aunque también compartimos nuestros datos con otros bots :), pero esta noche realmente nos conoceremos como sitio web y rastreador.
Lo sé, nunca es bueno analizar en exceso una primera cita. Vamos a conocer Googlebot un poco más lentamente, en una serie de publicaciones:
Tutoriales en linea


Comentarios 1
    image
    omegayalfa 2015-05-30
    Click Derecho traducir a español smile
    Spam
    ------
    Un tutorial normalmente consiste en una serie de pasos que van aumentando el nivel de dificultad y entendimiento. Por este motivo, es mejor seguir los tutoriales en su secuencia logica para que el usuario entienda todos los componentes


Información
Usuarios que no esten registrados no pueden dejar comentarios, te invitamos a que te registre!






Como registrar una marca o nombre comercial

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-02-18
  • Categorias: WebSite Trucos y tips Noticias Tutorial

Como poner reCAPTCHA en HTML

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-02-18
  • Categorias: Google Diseño Web WebSite Noticias Tutorial

Como crear un Sitemap online

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-02-16
  • Categorias: RSS XML WebSite webmasters Marketing SEO Herramientas Noticias Tutorial

Curso de CSS avanzado

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-01-18
  • Categorias: Diseño Web CSS3 html5 Html Cursos Noticias Tutorial

Curso de Introducción a CSS

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-01-18
  • Categorias: Diseño Web CSS3 WebSite webmasters Cursos Noticias Tutorial

Curso básico de Javascript

  • Autor:
  • Editor: Tutoriales En Linea
  • Fecha:2020-01-17
  • Categorias: Diseño Web javascript Cursos Noticias Tutorial