Cómo funcionan los motores de búsqueda: rastreo, indexación y clasificación

Errores de navegación comunes que pueden impedir que los rastreadores
vean todo su sitio:

Tener una
navegación móvil muestra resultados diferentes a los de su escritorio.

Google ha
mejorado mucho el rastreo y la comprensión de JavaScript, pero aún no es un
proceso perfecto. La forma más segura de asegurarse de que algo sea encontrado,
comprendido e indexado por Google es ponerlo en el HTML.

La
personalización, o mostrar una navegación única a un tipo específico de
visitante frente a otros, puede parecer estar oculta a un rastreador de motores
de búsqueda.

Olvídese de
vincularse a una página principal de su sitio web a través de su navegación:
recuerde, los enlaces son las rutas que los rastreadores siguen a las nuevas
páginas.

Por esta
razón, es esencial que su sitio web tenga una navegación clara y una estructura
de carpetas URL útil.

¿Tienes arquitectura de información limpia?

La
arquitectura de la información es la práctica de organizar y etiquetar
contenido en un sitio web para mejorar la eficiencia y la capacidad de búsqueda
para los usuarios.

La mejor
arquitectura de información es intuitiva, lo que significa que los usuarios no
deberían tener que pensar mucho para fluir a través de su sitio web o para
encontrar algo.

¿Está utilizando sitemaps?

Un mapa del
sitio es exactamente lo que parece: una lista de URL en su sitio que los
rastreadores pueden usar para descubrir e indexar su contenido.

Una de las maneras más fáciles de asegurarse de que Google encuentre sus
páginas de mayor prioridad es crear un archivo que cumpla con los estándares de
Google y enviarlo a través de la Consola de búsqueda de Google.

Si bien el
envío de un mapa del sitio no reemplaza la necesidad de una buena navegación
del sitio, ciertamente puede ayudar a los rastreadores a seguir una ruta a todas
sus páginas importantes.

Asegúrese de
que solo haya incluido las URL que desea que indiquen los motores de búsqueda y
asegúrese de darles a los rastreadores instrucciones coherentes. Por ejemplo,
no incluya una URL en su sitemap si ha bloqueada esa URL a través de robots.txt
o incluya URL en su sitemap que sean duplicados en lugar de la versión canónica
preferida.

Aprende más sobre XML sitemaps

Si su sitio
no tiene otros sitios que lo vinculen, es posible que pueda indexarlo al enviar
su sitemap XML a la Consola de búsqueda de Google. No hay garantía de que
incluyan una URL enviada en su índice, ¡pero vale la pena intentarlo!

¿Los rastreadores obtienen errores cuando intentan acceder a sus URL?

En el proceso
de rastreo de las URL en su sitio, un rastreador puede encontrar errores. Puede
ir al informe «Errores de rastreo» de la Consola de búsqueda de
Google para detectar las URL en las que esto podría estar sucediendo.

Este informe
le mostrará los errores del servidor y los errores no encontrados. Los archivos
de registro del servidor también pueden mostrarle esto, así como un tesoro de
otra información como la frecuencia de rastreo, pero debido a que se accede y
diseccionan los archivos de registro del servidor, es una táctica más avanzada,
no lo analizaremos en detalle.

Antes de
poder hacer algo significativo con el informe de errores de rastreo, es importante
comprender los errores del servidor y los errores «no encontrados».

Códigos 4xx: cuando los rastreadores de los
motores de búsqueda no pueden acceder a su contenido debido a un error del
cliente.

Los errores
4xx son errores del cliente, lo que significa que la URL solicitada contiene
una sintaxis incorrecta o no se puede cumplir.

Uno de los
errores 4xx más comunes es el error «404 – no encontrado». Esto puede
ocurrir debido a un error tipográfico en la URL, una página eliminada o un
redireccionamiento roto, solo por nombrar algunos ejemplos.

Cuando los
motores de búsqueda alcanzan un 404, no pueden acceder a la URL. Cuando los
usuarios alcanzan un 404, pueden frustrarse y marcharse.

Códigos 5xx: cuando los rastreadores de los
motores de búsqueda no pueden acceder a su contenido debido a un error del
servidor.

Los errores
5xx son errores del servidor, lo que significa que el servidor en el que se
encuentra la página web no cumplió con la solicitud del buscador o del motor de
búsqueda para acceder a la página.

En el informe
«Error de rastreo» de Google Search Console, hay una pestaña dedicada
a estos errores. Esto suele suceder porque la solicitud de la URL se agotó, por
lo que Googlebot abandonó la solicitud.

Consulte la
documentación de Google para obtener más información sobre cómo solucionar
problemas de conectividad del servidor.

Afortunadamente,
hay una manera de decirle a los buscadores y a los motores de búsqueda que su
página se ha movido: la redirección 301 (permanente).

¡Crea 404 páginas personalizadas!

Personalice
su página 404 agregando enlaces a páginas importantes de su sitio, una función
de búsqueda de sitios e incluso información de contacto. Esto debería hacer que
sea menos probable que los visitantes reboten en su sitio cuando alcancen un
404.

Digamos que
mueves una página de example.com/young-dogs/ a example.com/puppies/ . Los motores
de búsqueda y los usuarios necesitan un puente para cruzar desde la antigua URL
a la nueva. Ese puente es un redireccionamiento 301.

El código de
estado 301 en sí mismo significa que la página se ha movido permanentemente a
una nueva ubicación, por lo tanto, evite redirigir las URL a páginas
irrelevantes: La URL donde el contenido de la antigua URL en realidad no
existe.

Si una página
está clasificada para una consulta y la convierte en una URL con un contenido
diferente, podría caer en la posición de clasificación porque el contenido que
la hizo relevante para esa consulta en particular ya no existe. Los 301 son
potentes: mueva las URL con responsabilidad.

También tiene
la opción de redirigir 302 a una página, pero esto debe reservarse para
movimientos temporales y en los casos en los que pasar la equidad del enlace no
sea tan importante. Los 302 son una especie de desvío del camino. Está
desviando temporalmente el tráfico a través de una determinada ruta, pero no
será así para siempre.

¡Cuidado con las cadenas de redireccionamiento!

Puede ser
difícil para Googlebot llegar a su página si tiene que pasar por varias
redirecciones. Google llama a estas «cadenas de redireccionamiento» y
recomiendan limitarlas lo más posible. Si redirige example.com/1 a
example.com/2, luego decide redirigirlo a example.com/3, es mejor eliminar al
intermediario y simplemente redirigir example.com/1 a example.com/3.

Aprenda más sobre las cadenas de redireccionamiento

Una vez que
se haya asegurado de que su sitio esté optimizado para el rastreo, la siguiente
tarea es asegurarse de que se pueda indexar.

Indexación: ¿Cómo los motores de búsqueda
interpretan y almacenan sus páginas?

Una vez que
haya asegurado que su sitio haya sido rastreado, la siguiente tarea es
asegurarse de que pueda ser indexado. Eso es correcto: solo porque un motor de búsqueda pueda descubrir y rastrear su sitio no
significa necesariamente que se almacenará en su índice.

En la sección
anterior sobre rastreo, analizamos cómo los motores de búsqueda descubren sus
páginas web. El índice es donde se almacenan las páginas descubiertas. Después
de que un rastreador encuentre una página, el motor de búsqueda la muestra tal
como lo haría un navegador. En el proceso de hacerlo, el motor de búsqueda
analiza los contenidos de esa página. Toda esa información se almacena en su
índice.

¿Puedo ver cómo un rastreador de Googlebot ve mis páginas?

Sí, la
versión en caché de su página reflejará una instantánea de la última vez que
Googlebot la rastreó.

Google
rastrea y almacena páginas web en diferentes frecuencias. Los sitios más
conocidos y conocidos que publican con frecuencia como https://www.nytimes.com
se rastrearán con más frecuencia que el sitio mucho menos famoso para el
ajetreo del lado de Roger the Mozbot, http://www.rogerlovescupcakes.com (si
solo fuera real …)

Puede ver cómo se ve su versión en caché de una página haciendo clic en
la flecha desplegable junto a la URL en el SERP y seleccionando «En
caché»:

También puede ver la versión de solo texto de su sitio para determinar
si su contenido importante se está rastreando y almacenando en caché de manera
efectiva.

¿Se eliminan las páginas del índice?

¡Sí, las
páginas se pueden eliminar del índice! Algunas de las razones principales por
las que se puede eliminar una URL incluyen:

La URL está
devolviendo un error «no encontrado» (4XX) o un error del servidor
(5XX) – Esto podría ser accidental (la página se movió y no se configuró un
redireccionamiento 301) o intencional (la página se eliminó y se introdujo en
404 con el fin de sacarlo del índice)

La URL tenía
una metaetiqueta noindex agregada: los propietarios del sitio pueden agregar
esta etiqueta para indicar al motor de búsqueda que omita la página de su
índice.

La URL ha
sido penalizada manualmente por violar las Directrices para webmasters del
motor de búsqueda y, como resultado, se eliminó del índice.

La URL ha
sido bloqueada de rastrear con la adición de una contraseña requerida antes de
que los visitantes puedan acceder a la página.

Si cree que
una página en su sitio web que estaba anteriormente en el índice de Google ya
no se muestra, puede usar la herramienta de inspección de URL para conocer el
estado de la página, o usar Fetch como Google, que tiene la función
«Solicitar indexación» para enviar URLs individuales al índice.
(Bonificación: la herramienta de «búsqueda» de GSC también tiene una
opción de «render» que le permite ver si hay algún problema con la
forma en que Google interpreta su página).

Indica a los motores de búsqueda cómo indexar tu sitio.

Las
directivas meta (o «etiquetas meta») son instrucciones que puede dar
a los motores de búsqueda sobre cómo desea que se trate su página web.

Puede decirles
a los rastreadores de motores de búsqueda cosas como «no indexar esta
página en los resultados de búsqueda» o «no pasar ningún enlace a
ningún enlace en la página».

Estas
instrucciones se ejecutan a través de metaetiquetas de robots en el
<encabezado> de sus páginas HTML (que se utilizan con mayor frecuencia) o
a través de la etiqueta de X-Robots en el encabezado HTTP.

Metaetiqueta de robots

La etiqueta
meta de robots se puede utilizar dentro del <head> del HTML de su página
web. Puede excluir todos o motores de búsqueda específicos. Las siguientes son
las metas directivas más comunes, junto con las situaciones en las que podría
aplicarlas.

index / noindex les dice a los motores si la página
debe rastrearse y mantenerse en un índice de búsqueda de los motores de
búsqueda. Si opta por usar «noindex», se está comunicando a los
rastreadores que desea que la página sea excluida de los resultados de
búsqueda.

De forma
predeterminada, los motores de búsqueda asumen que pueden indexar todas las
páginas, por lo que no es necesario utilizar el valor «índice».

Cuando podría usar: Puede optar por marcar una página
como «noindex» si está tratando de recortar páginas delgadas del
índice de Google de su sitio (por ejemplo, páginas de perfil generadas por el
usuario) pero aún desea que sean accesibles para los visitantes.

Follow / nofollow le dice a los motores de búsqueda si
se deben seguir o no los enlaces de la página. Los resultados de
«Seguir» en los bots siguen los enlaces de su página y pasan el
enlace equitativo a esas URL. o, si elige emplear «nofollow», los
motores de búsqueda no seguirán ni pasarán ningún enlace de enlace a los
enlaces en la página. De forma predeterminada, se supone que todas las páginas
tienen el atributo «seguir».

Cuando puede usar: nofollow a menudo se usa junto con
noindex cuando intenta evitar que se indexe una página, así como evitar que el
rastreador siga los enlaces de la página.

Noarchive se utiliza para impedir que los
motores de búsqueda guarden una copia en caché de la página. De forma
predeterminada, los motores mantendrán copias visibles de todas las páginas que
han indexado, a las que los buscadores pueden acceder a través del enlace en
caché en los resultados de búsqueda.

Cuándo puede usar: Si ejecuta un sitio de comercio
electrónico y sus precios cambian regularmente, podría considerar la etiqueta
noarchive para evitar que los usuarios vean precios obsoletos.

Aquí hay un
ejemplo de un meta robot noindex, etiqueta nofollow:

<! DOCTYPE html>

<html>

<head>

</head>

</html>

Este ejemplo
excluye a todos los motores de búsqueda de indexar la página y de seguir
cualquier enlace en la página. Si desea excluir múltiples rastreadores, como
googlebot y bing, por ejemplo, está bien usar múltiples etiquetas de exclusión
de robots.

Las directivas meta afectan a la indexación, no al rastreo

Googlebot
necesita rastrear su página para ver sus directivas meta, por lo que, si
intenta evitar que los rastreadores accedan a ciertas páginas, las directivas
meta no son la forma de hacerlo. Las etiquetas de los robots deben ser rastreadas
para ser respetadas.

X-Robots-Tag

La etiqueta
x-robots se usa dentro del encabezado HTTP de su URL, proporcionando más
flexibilidad y funcionalidad que las meta etiquetas si desea bloquear los
motores de búsqueda a escala porque puede usar expresiones regulares, bloquear
archivos que no sean HTML y aplicar etiquetas noindex en todo el sitio.

Por ejemplo,
podría excluir fácilmente carpetas enteras o tipos de archivos (como moz.com/no-bake/old-recipes-to-noindex):

Conjunto de encabezado X-Robots-Tag
«noindex, nofollow»

</Files>

Los derivados
utilizados en una metaetiqueta de robots también pueden usarse en una
X-Robots-Tag.

O tipos de
archivos específicos (como archivos PDF):

Conjunto de encabezado X-Robots-Tag
«noindex, nofollow»

</Files>

Para obtener
más información sobre las etiquetas Meta Robot, explore las especificaciones de
la etiqueta Meta Robots de Google.

Consejo de WordPress:

En Panel de
control > Configuración> Lectura, asegúrese de que la casilla
«Visibilidad del motor de búsqueda» no esté marcada. ¡Esto impide que
los motores de búsqueda ingresen a su sitio a través de su archivo robots.txt!

Comprender
las diferentes formas en que puede influir en el rastreo y la indexación lo
ayudará a evitar las dificultades comunes que pueden impedir que se encuentren
sus páginas importantes.

Clasificación: ¿Cómo clasifican los motores de búsqueda las URL?

¿Cómo se
aseguran los motores de búsqueda que cuando alguien escribe una consulta en la
barra de búsqueda, obtiene resultados relevantes a cambio? Ese proceso se
conoce como clasificación, o el orden de los resultados de búsqueda por el más
relevante para el menos relevante para una consulta en particular.

Una
interpretación artística del ranking, son tres perros sentados en los
pedestales de primero, segundo y tercer lugar.

Para
determinar la relevancia, los motores de búsqueda utilizan algoritmos, procesos
o fórmulas mediante los cuales la información almacenada se recupera y ordena de
manera significativa.

Estos
algoritmos han pasado por muchos cambios a lo largo de los años para mejorar la
calidad de los resultados de búsqueda.

Google, por
ejemplo, realiza ajustes de algoritmos todos los días; algunas de estas
actualizaciones son pequeños ajustes de calidad, mientras que otras son
actualizaciones de algoritmos centrales / generales implementadas para abordar
un problema específico, como Penguin para abordar el spam de enlaces.

¿Por qué el
algoritmo cambia tan a menudo? ¿Google está tratando de mantenernos en estado
de alerta? Si bien Google no siempre revela detalles sobre por qué hacen lo que
hacen, sabemos que el objetivo de Google al realizar ajustes de algoritmos es
mejorar la calidad general de la búsqueda.

Es por eso
que, en respuesta a las preguntas de actualización del algoritmo, Google
responderá con algo como: «Estamos haciendo actualizaciones de calidad
todo el tiempo». Esto indica que, si su sitio sufrió después de un ajuste
de algoritmo, compárelo con las Pautas de calidad de Google o las pautas de
evaluación de calidad de búsqueda, ambos son muy reveladores en cuanto a lo que
desean los motores de búsqueda.

¿Qué quieren los motores de búsqueda?

Los motores de búsqueda siempre han querido lo mismo: proporcionar
respuestas útiles a las preguntas de los buscadores en los formatos más útiles.
Si eso es cierto, ¿por qué parece que el SEO es diferente ahora que en años
anteriores?

Piénsalo en
términos de alguien que esté aprendiendo un nuevo idioma.

Al principio,
su comprensión del idioma es muy rudimentaria: “Vea Spot Run”. Con el tiempo,
su comprensión comienza a profundizarse y aprenden semántica: el significado
detrás del lenguaje y la relación entre palabras y frases.

Finalmente,
con suficiente práctica, el estudiante conoce el idioma lo suficientemente bien
como para comprender los matices, y puede proporcionar respuestas incluso a
preguntas vagas o incompletas.

Cuando los
motores de búsqueda apenas estaban empezando a aprender nuestro idioma, era
mucho más fácil jugar con el sistema usando trucos y tácticas que realmente van
en contra de las pautas de calidad.

Tomemos el
relleno de palabras clave, por ejemplo. Si quisiera posicionarse para una
palabra clave en particular como «chistes divertidos», puede agregar
las palabras «chistes divertidos» un montón de veces en su página, y
hacerlo en negrita, con la esperanza de aumentar su clasificación para ese
término:

Bienvenido a
chistes divertidos. Contamos los chistes más divertidos del mundo. Las bromas
divertidas son divertidas y locas. Tu chiste divertido te espera. Siéntate y
lee chistes divertidos, ya que los chistes divertidos pueden hacerte feliz y divertido.
Algunos chistes divertidos favoritos graciosos.

Esta táctica
se creó para las terribles experiencias de los usuarios y, en lugar de reírse
de bromas divertidas, la gente fue bombardeada por un texto molesto y difícil
de leer. Puede que haya funcionado en el pasado, pero esto nunca fue lo que
querían los motores de búsqueda.

Los enlaces de rol que se juegan en SEO

Cuando
hablamos de enlaces, podríamos decir dos cosas. Los vínculos de retroceso o
«enlaces entrantes» son enlaces de otros sitios web que apuntan a su
sitio web, mientras que los enlaces internos son enlaces de su propio sitio que
apuntan a sus otras páginas (en el mismo sitio).

Los enlaces
han jugado históricamente un gran papel en SEO. Muy pronto, los motores de
búsqueda necesitaban ayuda para descubrir qué URL eran más confiables que otros
para ayudarlos a determinar cómo clasificar los resultados de búsqueda.
Calcular la cantidad de enlaces que apuntan a un sitio determinado les ayudó a
hacerlo.

Los vínculos
de retroceso funcionan de manera muy similar a los referidos de la vida real
(Word-of-Mouth). Tomemos como ejemplo una cafetería hipotética, Jenny’s Coffee:

Referencias
de otros = buena señal de autoridad

Ejemplo:
muchas personas diferentes le han dicho que Jenny’s Coffee es el mejor de la
ciudad

Referencias
de usted mismo = parcial, por lo que no es un buen signo de autoridad

Ejemplo:
Jenny afirma que el café de Jenny es el mejor de la ciudad.

Referencias
de fuentes irrelevantes o de baja calidad = no es un buen signo de autoridad e
incluso podrían dejarte marcado por correo no deseado.

Ejemplo:
Jenny pagó para que las personas que nunca han visitado su cafetería le digan a
los demás lo bueno que es.

Sin
referencias = autoridad incierta

Ejemplo:
Jenny’s Coffee puede ser bueno, pero no ha podido encontrar a nadie que tenga
una opinión, por lo que no puede estar seguro.

Por eso se creó el PageRank. PageRank
(parte del algoritmo central de Google) es un algoritmo de análisis de enlaces
que lleva el nombre de uno de los fundadores de Google, Larry Page.

PageRank
estima la importancia de una página web al medir la calidad y la cantidad de
enlaces que la apuntan. El supuesto es que cuanto más relevante, importante y
confiable sea una página web, más enlaces se habrá ganado.

Cuantos más backlinks naturales tengas de sitios web de alta autoridad
(de confianza), mejores serán tus posibilidades de posicionarte en los
resultados de búsqueda.

Posts Relacionados

Dejar un comentario Cancelar la respuesta