Como funcionan los motores de busqueda
3 Junio, 2019

Cómo funcionan los motores de búsqueda: rastreo, indexación y clasificación – Parte 2

By Patricio Cuevas-39 Views-No Comment

La forma más segura de asegurarse de que algo sea encontrado, comprendido e indexado por Google es ponerlo en el HTML.

Errores de navegación comunes que pueden impedir que los rastreadores vean todo su sitio:

Tener una navegación móvil muestra resultados diferentes a los de su escritorio.

Google ha mejorado mucho el rastreo y la comprensión de JavaScript, pero aún no es un proceso perfecto. La forma más segura de asegurarse de que algo sea encontrado, comprendido e indexado por Google es ponerlo en el HTML.

La personalización, o mostrar una navegación única a un tipo específico de visitante frente a otros, puede parecer estar oculta a un rastreador de motores de búsqueda.

Olvídese de vincularse a una página principal de su sitio web a través de su navegación: recuerde, los enlaces son las rutas que los rastreadores siguen a las nuevas páginas.

Por esta razón, es esencial que su sitio web tenga una navegación clara y una estructura de carpetas URL útil.

¿Tienes arquitectura de información limpia?

La arquitectura de la información es la práctica de organizar y etiquetar contenido en un sitio web para mejorar la eficiencia y la capacidad de búsqueda para los usuarios.

La mejor arquitectura de información es intuitiva, lo que significa que los usuarios no deberían tener que pensar mucho para fluir a través de su sitio web o para encontrar algo.

¿Está utilizando sitemaps?

Un mapa del sitio es exactamente lo que parece: una lista de URL en su sitio que los rastreadores pueden usar para descubrir e indexar su contenido.

Una de las maneras más fáciles de asegurarse de que Google encuentre sus páginas de mayor prioridad es crear un archivo que cumpla con los estándares de Google y enviarlo a través de la Consola de búsqueda de Google.

Si bien el envío de un mapa del sitio no reemplaza la necesidad de una buena navegación del sitio, ciertamente puede ayudar a los rastreadores a seguir una ruta a todas sus páginas importantes.

Asegúrese de que solo haya incluido las URL que desea que indiquen los motores de búsqueda y asegúrese de darles a los rastreadores instrucciones coherentes. Por ejemplo, no incluya una URL en su sitemap si ha bloqueada esa URL a través de robots.txt o incluya URL en su sitemap que sean duplicados en lugar de la versión canónica preferida.

Aprende más sobre XML sitemaps

Si su sitio no tiene otros sitios que lo vinculen, es posible que pueda indexarlo al enviar su sitemap XML a la Consola de búsqueda de Google. No hay garantía de que incluyan una URL enviada en su índice, ¡pero vale la pena intentarlo!

¿Los rastreadores obtienen errores cuando intentan acceder a sus URL?

En el proceso de rastreo de las URL en su sitio, un rastreador puede encontrar errores. Puede ir al informe “Errores de rastreo” de la Consola de búsqueda de Google para detectar las URL en las que esto podría estar sucediendo.

Este informe le mostrará los errores del servidor y los errores no encontrados. Los archivos de registro del servidor también pueden mostrarle esto, así como un tesoro de otra información como la frecuencia de rastreo, pero debido a que se accede y diseccionan los archivos de registro del servidor, es una táctica más avanzada, no lo analizaremos en detalle.

Antes de poder hacer algo significativo con el informe de errores de rastreo, es importante comprender los errores del servidor y los errores “no encontrados”.

Códigos 4xx: cuando los rastreadores de los motores de búsqueda no pueden acceder a su contenido debido a un error del cliente.

Los errores 4xx son errores del cliente, lo que significa que la URL solicitada contiene una sintaxis incorrecta o no se puede cumplir.

Uno de los errores 4xx más comunes es el error “404 – no encontrado”. Esto puede ocurrir debido a un error tipográfico en la URL, una página eliminada o un redireccionamiento roto, solo por nombrar algunos ejemplos.

Cuando los motores de búsqueda alcanzan un 404, no pueden acceder a la URL. Cuando los usuarios alcanzan un 404, pueden frustrarse y marcharse.

Códigos 5xx: cuando los rastreadores de los motores de búsqueda no pueden acceder a su contenido debido a un error del servidor.

Los errores 5xx son errores del servidor, lo que significa que el servidor en el que se encuentra la página web no cumplió con la solicitud del buscador o del motor de búsqueda para acceder a la página.

En el informe “Error de rastreo” de Google Search Console, hay una pestaña dedicada a estos errores. Esto suele suceder porque la solicitud de la URL se agotó, por lo que Googlebot abandonó la solicitud.

Consulte la documentación de Google para obtener más información sobre cómo solucionar problemas de conectividad del servidor.

Afortunadamente, hay una manera de decirle a los buscadores y a los motores de búsqueda que su página se ha movido: la redirección 301 (permanente).

¡Crea 404 páginas personalizadas!

Personalice su página 404 agregando enlaces a páginas importantes de su sitio, una función de búsqueda de sitios e incluso información de contacto. Esto debería hacer que sea menos probable que los visitantes reboten en su sitio cuando alcancen un 404.

Digamos que mueves una página de example.com/young-dogs/ a example.com/puppies/ . Los motores de búsqueda y los usuarios necesitan un puente para cruzar desde la antigua URL a la nueva. Ese puente es un redireccionamiento 301.

El código de estado 301 en sí mismo significa que la página se ha movido permanentemente a una nueva ubicación, por lo tanto, evite redirigir las URL a páginas irrelevantes: La URL donde el contenido de la antigua URL en realidad no existe.

Si una página está clasificada para una consulta y la convierte en una URL con un contenido diferente, podría caer en la posición de clasificación porque el contenido que la hizo relevante para esa consulta en particular ya no existe. Los 301 son potentes: mueva las URL con responsabilidad.

También tiene la opción de redirigir 302 a una página, pero esto debe reservarse para movimientos temporales y en los casos en los que pasar la equidad del enlace no sea tan importante. Los 302 son una especie de desvío del camino. Está desviando temporalmente el tráfico a través de una determinada ruta, pero no será así para siempre.

¡Cuidado con las cadenas de redireccionamiento!

Puede ser difícil para Googlebot llegar a su página si tiene que pasar por varias redirecciones. Google llama a estas “cadenas de redireccionamiento” y recomiendan limitarlas lo más posible. Si redirige example.com/1 a example.com/2, luego decide redirigirlo a example.com/3, es mejor eliminar al intermediario y simplemente redirigir example.com/1 a example.com/3.

Aprenda más sobre las cadenas de redireccionamiento

Una vez que se haya asegurado de que su sitio esté optimizado para el rastreo, la siguiente tarea es asegurarse de que se pueda indexar.

Indexación: ¿Cómo los motores de búsqueda interpretan y almacenan sus páginas?

Una vez que haya asegurado que su sitio haya sido rastreado, la siguiente tarea es asegurarse de que pueda ser indexado. Eso es correcto: solo porque un motor de búsqueda pueda descubrir y rastrear su sitio no significa necesariamente que se almacenará en su índice.

En la sección anterior sobre rastreo, analizamos cómo los motores de búsqueda descubren sus páginas web. El índice es donde se almacenan las páginas descubiertas. Después de que un rastreador encuentre una página, el motor de búsqueda la muestra tal como lo haría un navegador. En el proceso de hacerlo, el motor de búsqueda analiza los contenidos de esa página. Toda esa información se almacena en su índice.

¿Puedo ver cómo un rastreador de Googlebot ve mis páginas?

Sí, la versión en caché de su página reflejará una instantánea de la última vez que Googlebot la rastreó.

Google rastrea y almacena páginas web en diferentes frecuencias. Los sitios más conocidos y conocidos que publican con frecuencia como https://www.nytimes.com se rastrearán con más frecuencia que el sitio mucho menos famoso para el ajetreo del lado de Roger the Mozbot, http://www.rogerlovescupcakes.com (si solo fuera real …)

Puede ver cómo se ve su versión en caché de una página haciendo clic en la flecha desplegable junto a la URL en el SERP y seleccionando “En caché”:

También puede ver la versión de solo texto de su sitio para determinar si su contenido importante se está rastreando y almacenando en caché de manera efectiva.

¿Se eliminan las páginas del índice?

¡Sí, las páginas se pueden eliminar del índice! Algunas de las razones principales por las que se puede eliminar una URL incluyen:

La URL está devolviendo un error “no encontrado” (4XX) o un error del servidor (5XX) – Esto podría ser accidental (la página se movió y no se configuró un redireccionamiento 301) o intencional (la página se eliminó y se introdujo en 404 con el fin de sacarlo del índice)

La URL tenía una metaetiqueta noindex agregada: los propietarios del sitio pueden agregar esta etiqueta para indicar al motor de búsqueda que omita la página de su índice.

La URL ha sido penalizada manualmente por violar las Directrices para webmasters del motor de búsqueda y, como resultado, se eliminó del índice.

La URL ha sido bloqueada de rastrear con la adición de una contraseña requerida antes de que los visitantes puedan acceder a la página.

Si cree que una página en su sitio web que estaba anteriormente en el índice de Google ya no se muestra, puede usar la herramienta de inspección de URL para conocer el estado de la página, o usar Fetch como Google, que tiene la función “Solicitar indexación” para enviar URLs individuales al índice. (Bonificación: la herramienta de “búsqueda” de GSC también tiene una opción de “render” que le permite ver si hay algún problema con la forma en que Google interpreta su página).

Indica a los motores de búsqueda cómo indexar tu sitio.

Las directivas meta (o “etiquetas meta”) son instrucciones que puede dar a los motores de búsqueda sobre cómo desea que se trate su página web.

Puede decirles a los rastreadores de motores de búsqueda cosas como “no indexar esta página en los resultados de búsqueda” o “no pasar ningún enlace a ningún enlace en la página”.

Estas instrucciones se ejecutan a través de metaetiquetas de robots en el <encabezado> de sus páginas HTML (que se utilizan con mayor frecuencia) o a través de la etiqueta de X-Robots en el encabezado HTTP.

Metaetiqueta de robots

La etiqueta meta de robots se puede utilizar dentro del <head> del HTML de su página web. Puede excluir todos o motores de búsqueda específicos. Las siguientes son las metas directivas más comunes, junto con las situaciones en las que podría aplicarlas.

index / noindex les dice a los motores si la página debe rastrearse y mantenerse en un índice de búsqueda de los motores de búsqueda. Si opta por usar “noindex”, se está comunicando a los rastreadores que desea que la página sea excluida de los resultados de búsqueda.

De forma predeterminada, los motores de búsqueda asumen que pueden indexar todas las páginas, por lo que no es necesario utilizar el valor “índice”.

Cuando podría usar: Puede optar por marcar una página como “noindex” si está tratando de recortar páginas delgadas del índice de Google de su sitio (por ejemplo, páginas de perfil generadas por el usuario) pero aún desea que sean accesibles para los visitantes.

Follow / nofollow le dice a los motores de búsqueda si se deben seguir o no los enlaces de la página. Los resultados de “Seguir” en los bots siguen los enlaces de su página y pasan el enlace equitativo a esas URL. o, si elige emplear “nofollow”, los motores de búsqueda no seguirán ni pasarán ningún enlace de enlace a los enlaces en la página. De forma predeterminada, se supone que todas las páginas tienen el atributo “seguir”.

Cuando puede usar: nofollow a menudo se usa junto con noindex cuando intenta evitar que se indexe una página, así como evitar que el rastreador siga los enlaces de la página.

Noarchive se utiliza para impedir que los motores de búsqueda guarden una copia en caché de la página. De forma predeterminada, los motores mantendrán copias visibles de todas las páginas que han indexado, a las que los buscadores pueden acceder a través del enlace en caché en los resultados de búsqueda.

Cuándo puede usar: Si ejecuta un sitio de comercio electrónico y sus precios cambian regularmente, podría considerar la etiqueta noarchive para evitar que los usuarios vean precios obsoletos.

Aquí hay un ejemplo de un meta robot noindex, etiqueta nofollow:

<! DOCTYPE html>

<html>

<head>

<meta name = “robots” content = “noindex, nofollow” />

</head>

<body> … </body>

</html>

Este ejemplo excluye a todos los motores de búsqueda de indexar la página y de seguir cualquier enlace en la página. Si desea excluir múltiples rastreadores, como googlebot y bing, por ejemplo, está bien usar múltiples etiquetas de exclusión de robots.

Las directivas meta afectan a la indexación, no al rastreo

Googlebot necesita rastrear su página para ver sus directivas meta, por lo que, si intenta evitar que los rastreadores accedan a ciertas páginas, las directivas meta no son la forma de hacerlo. Las etiquetas de los robots deben ser rastreadas para ser respetadas.

X-Robots-Tag

La etiqueta x-robots se usa dentro del encabezado HTTP de su URL, proporcionando más flexibilidad y funcionalidad que las meta etiquetas si desea bloquear los motores de búsqueda a escala porque puede usar expresiones regulares, bloquear archivos que no sean HTML y aplicar etiquetas noindex en todo el sitio.

Por ejemplo, podría excluir fácilmente carpetas enteras o tipos de archivos (como moz.com/no-bake/old-recipes-to-noindex):

<Archivos ~ “\ /? No \ -bake \ /.*”>

 Conjunto de encabezado X-Robots-Tag “noindex, nofollow”

</Files>

Los derivados utilizados en una metaetiqueta de robots también pueden usarse en una X-Robots-Tag.

O tipos de archivos específicos (como archivos PDF):

<Archivos ~ “\ .pdf $”>

 Conjunto de encabezado X-Robots-Tag “noindex, nofollow”

</Files>

Para obtener más información sobre las etiquetas Meta Robot, explore las especificaciones de la etiqueta Meta Robots de Google.

Consejo de WordPress:

En Panel de control > Configuración> Lectura, asegúrese de que la casilla “Visibilidad del motor de búsqueda” no esté marcada. ¡Esto impide que los motores de búsqueda ingresen a su sitio a través de su archivo robots.txt!

Comprender las diferentes formas en que puede influir en el rastreo y la indexación lo ayudará a evitar las dificultades comunes que pueden impedir que se encuentren sus páginas importantes.

Clasificación: ¿Cómo clasifican los motores de búsqueda las URL?

¿Cómo se aseguran los motores de búsqueda que cuando alguien escribe una consulta en la barra de búsqueda, obtiene resultados relevantes a cambio? Ese proceso se conoce como clasificación, o el orden de los resultados de búsqueda por el más relevante para el menos relevante para una consulta en particular.

Una interpretación artística del ranking, son tres perros sentados en los pedestales de primero, segundo y tercer lugar.

Para determinar la relevancia, los motores de búsqueda utilizan algoritmos, procesos o fórmulas mediante los cuales la información almacenada se recupera y ordena de manera significativa.

Estos algoritmos han pasado por muchos cambios a lo largo de los años para mejorar la calidad de los resultados de búsqueda.

Google, por ejemplo, realiza ajustes de algoritmos todos los días; algunas de estas actualizaciones son pequeños ajustes de calidad, mientras que otras son actualizaciones de algoritmos centrales / generales implementadas para abordar un problema específico, como Penguin para abordar el spam de enlaces.

¿Por qué el algoritmo cambia tan a menudo? ¿Google está tratando de mantenernos en estado de alerta? Si bien Google no siempre revela detalles sobre por qué hacen lo que hacen, sabemos que el objetivo de Google al realizar ajustes de algoritmos es mejorar la calidad general de la búsqueda.

Es por eso que, en respuesta a las preguntas de actualización del algoritmo, Google responderá con algo como: “Estamos haciendo actualizaciones de calidad todo el tiempo”. Esto indica que, si su sitio sufrió después de un ajuste de algoritmo, compárelo con las Pautas de calidad de Google o las pautas de evaluación de calidad de búsqueda, ambos son muy reveladores en cuanto a lo que desean los motores de búsqueda.

¿Qué quieren los motores de búsqueda?

Los motores de búsqueda siempre han querido lo mismo: proporcionar respuestas útiles a las preguntas de los buscadores en los formatos más útiles. Si eso es cierto, ¿por qué parece que el SEO es diferente ahora que en años anteriores?

Piénsalo en términos de alguien que esté aprendiendo un nuevo idioma.

Al principio, su comprensión del idioma es muy rudimentaria: “Vea Spot Run”. Con el tiempo, su comprensión comienza a profundizarse y aprenden semántica: el significado detrás del lenguaje y la relación entre palabras y frases.

Finalmente, con suficiente práctica, el estudiante conoce el idioma lo suficientemente bien como para comprender los matices, y puede proporcionar respuestas incluso a preguntas vagas o incompletas.

Cuando los motores de búsqueda apenas estaban empezando a aprender nuestro idioma, era mucho más fácil jugar con el sistema usando trucos y tácticas que realmente van en contra de las pautas de calidad.

Tomemos el relleno de palabras clave, por ejemplo. Si quisiera posicionarse para una palabra clave en particular como “chistes divertidos”, puede agregar las palabras “chistes divertidos” un montón de veces en su página, y hacerlo en negrita, con la esperanza de aumentar su clasificación para ese término:

Bienvenido a chistes divertidos. Contamos los chistes más divertidos del mundo. Las bromas divertidas son divertidas y locas. Tu chiste divertido te espera. Siéntate y lee chistes divertidos, ya que los chistes divertidos pueden hacerte feliz y divertido. Algunos chistes divertidos favoritos graciosos.

Esta táctica se creó para las terribles experiencias de los usuarios y, en lugar de reírse de bromas divertidas, la gente fue bombardeada por un texto molesto y difícil de leer. Puede que haya funcionado en el pasado, pero esto nunca fue lo que querían los motores de búsqueda.

Los enlaces de rol que se juegan en SEO

Cuando hablamos de enlaces, podríamos decir dos cosas. Los vínculos de retroceso o “enlaces entrantes” son enlaces de otros sitios web que apuntan a su sitio web, mientras que los enlaces internos son enlaces de su propio sitio que apuntan a sus otras páginas (en el mismo sitio).

Los enlaces han jugado históricamente un gran papel en SEO. Muy pronto, los motores de búsqueda necesitaban ayuda para descubrir qué URL eran más confiables que otros para ayudarlos a determinar cómo clasificar los resultados de búsqueda. Calcular la cantidad de enlaces que apuntan a un sitio determinado les ayudó a hacerlo.

Los vínculos de retroceso funcionan de manera muy similar a los referidos de la vida real (Word-of-Mouth). Tomemos como ejemplo una cafetería hipotética, Jenny’s Coffee:

Referencias de otros = buena señal de autoridad

Ejemplo: muchas personas diferentes le han dicho que Jenny’s Coffee es el mejor de la ciudad

Referencias de usted mismo = parcial, por lo que no es un buen signo de autoridad

Ejemplo: Jenny afirma que el café de Jenny es el mejor de la ciudad.

Referencias de fuentes irrelevantes o de baja calidad = no es un buen signo de autoridad e incluso podrían dejarte marcado por correo no deseado.

Ejemplo: Jenny pagó para que las personas que nunca han visitado su cafetería le digan a los demás lo bueno que es.

Sin referencias = autoridad incierta

Ejemplo: Jenny’s Coffee puede ser bueno, pero no ha podido encontrar a nadie que tenga una opinión, por lo que no puede estar seguro.

Por eso se creó el PageRank. PageRank (parte del algoritmo central de Google) es un algoritmo de análisis de enlaces que lleva el nombre de uno de los fundadores de Google, Larry Page.

PageRank estima la importancia de una página web al medir la calidad y la cantidad de enlaces que la apuntan. El supuesto es que cuanto más relevante, importante y confiable sea una página web, más enlaces se habrá ganado.

Cuantos más backlinks naturales tengas de sitios web de alta autoridad (de confianza), mejores serán tus posibilidades de posicionarte en los resultados de búsqueda.

Leave a Comment