Cómo funcionan los motores de búsqueda: rastreo, indexación y clasificación
BLOG

En primer
lugar, aparecer.

Como
mencionamos en el Capítulo 1, los motores de búsqueda son máquinas de
respuesta. Existen para descubrir, comprender y organizar el contenido de
Internet con el fin de ofrecer los resultados más relevantes a las preguntas
que hacen los buscadores.

Para aparecer
en los resultados de búsqueda, su contenido debe ser visible primero para los
motores de búsqueda. Podría decirse que es la pieza más importante del
rompecabezas de SEO: si su sitio no se puede encontrar, no hay forma de que
aparezca en las SERPs (página de resultados del motor de búsqueda).

¿Cómo funcionan los motores de búsqueda?

Los motores
de búsqueda tienen tres funciones principales:

Rastreo: recorra la Internet en busca de contenido,
revisando el código / contenido de cada URL que encuentre.

Índice: almacena y organiza el contenido encontrado
durante el proceso de rastreo. Una vez que una página está en el índice, está
en ejecución para mostrarse como resultado de las consultas relevantes.

Rango: proporciona las piezas de contenido que mejor
respondan a la consulta de un buscador, lo que significa que los resultados se
ordenan por más relevantes a menos relevantes.

¿Qué es el rastreo de motores de búsqueda?

Rastreo es el
proceso de descubrimiento en el cual los motores de búsqueda envían a un equipo
de robots (conocidos como rastreadores o arañas) para encontrar contenido nuevo
y actualizado. El contenido puede variar (puede ser una página web, una imagen,
un video, un PDF, etc.) pero, independientemente del formato, el contenido se
descubre mediante enlaces.

Los robots de
los motores de búsqueda, también llamados arañas, se arrastran de página en
página para encontrar contenido nuevo y actualizado.

Googlebot comienza por buscar algunas páginas web y luego sigue los enlaces de esas páginas para encontrar nuevas URL. Al saltar a lo largo de esta ruta de enlaces, el rastreador puede encontrar contenido nuevo y agregarlo a su índice llamado cafeína, una base de datos masiva de URL descubiertas, que luego se recuperará cuando un buscador busque información de que el contenido de esa URL es un buen partido.

Los motores de búsqueda envían a un equipo de robots -conocidos como rastreadores o arañas-

¿Qué es un índice de motor de búsqueda?

Los motores
de búsqueda procesan y almacenan la información que encuentran en un índice,
una enorme base de datos de todo el contenido que han descubierto y que consideran
lo suficientemente bueno como para servir a los usuarios.

Posicionamiento en buscadores

Cuando
alguien realiza una búsqueda, los motores de búsqueda rastrean su índice en
busca de contenido altamente relevante y luego ordenan ese contenido con la
esperanza de resolver la consulta del buscador.

Este orden de
los resultados de búsqueda por relevancia se conoce como clasificación. En
general, puede suponer que cuanto más alto es el ranking de un sitio web, más
relevante es para el motor de búsqueda que considera que el sitio es para la
consulta.

Es posible
bloquear a los rastreadores de los motores de búsqueda en parte o la totalidad
de su sitio, o instruir a los motores de búsqueda para que eviten almacenar
ciertas páginas en su índice.

Si bien puede
haber razones para hacerlo, si quiere que los buscadores encuentren su
contenido, primero debe asegurarse de que sea accesible para los rastreadores y
que sea indexable. De lo contrario, es tan bueno como invisible.

Al final de
este capítulo, tendrá el contexto que necesita para trabajar con el motor de
búsqueda, en lugar de hacerlo en contra.

En SEO, no
todos los motores de búsqueda son iguales.

Muchos
principiantes se preguntan acerca de la importancia relativa de los motores de
búsqueda particulares.

La mayoría de
la gente sabe que Google tiene la mayor cuota de mercado, pero ¿qué tan
importante es optimizar para Bing, Yahoo! y otros?

La verdad es que,
a pesar de la existencia de más de 30 motores de búsqueda web importantes, la
comunidad SEO solo presta atención a Google. ¿Por qué? La respuesta corta es
que Google es donde la gran mayoría de la gente busca en la web.

Si incluimos
Google Images, Google Maps y YouTube (una propiedad de Google), más del 90% de
las búsquedas en Internet se realizan en Google, lo que equivale a casi 20
veces que Bing y Yahoo! combinados.

Rastreo: ¿Los motores de búsqueda pueden encontrar sus páginas?

Como acaba de
aprender, asegurarse de que su sitio sea rastreado e indexado es un requisito
previo para aparecer en los SERP.

Si ya tiene
un sitio web, puede ser una buena idea comenzar por ver cuántas de sus páginas
están en el índice. Esto le dará una gran idea de si Google está rastreando y
encontrando todas las páginas que desea, y ninguna que no.

Una forma de
verificar sus páginas indexadas es «site: yourdomain.com», un
operador de búsqueda avanzada. Dirígete a Google y escribe «site:
yourdomain.com» en la barra de búsqueda. Esto devolverá los resultados que
Google tiene en su índice para el sitio especificado.

La cantidad
de resultados que muestra Google no es exacta, pero le da una idea sólida de
qué páginas están indexadas en su sitio y cómo se muestran actualmente en los
resultados de búsqueda.

Para obtener
resultados más precisos, supervise y use el informe de cobertura de índice en
la Consola de búsqueda de Google. Puede registrarse para obtener una cuenta
gratuita de Google Search Console si actualmente no tiene una.

Con esta
herramienta, puede enviar sitemaps para su sitio y controlar cuántas páginas
enviadas realmente se han agregado al índice de Google, entre otras cosas.

Si no aparece
en ningún lugar de los resultados de búsqueda, hay algunas razones posibles por
las que:

Su sitio es
completamente nuevo y aún no se ha rastreado.

Su sitio no
está vinculado a ningún sitio web externo.

La navegación
de su sitio hace que sea difícil para un robot rastrearlo de manera efectiva.

Su sitio
contiene un código básico llamado directivas de rastreo que está bloqueando los
motores de búsqueda.

Su sitio ha
sido penalizado por Google por tácticas de spam.

Indica a los
motores de búsqueda cómo rastrear tu sitio.

Si usó la
Consola de búsqueda de Google o el operador de búsqueda avanzada «site:
domain.com» y encontró que algunas de sus páginas importantes faltan en el
índice y / o que algunas de sus páginas no importantes han sido indexadas por
error, hay algunas optimizaciones que puede implementar para dirigir mejor a
Googlebot en la forma en que deseas que tu contenido web sea rastreado. Decirles
a los motores de búsqueda cómo rastrear su sitio puede darle un mejor control
de lo que termina en el índice.

La mayoría de
la gente se asegura de que Google pueda encontrar sus páginas importantes, pero
es fácil olvidar que existen páginas que probablemente no quiera que Googlebot
encuentre. Estos pueden incluir cosas como las URL antiguas que tienen
contenido delgado, URL duplicadas (como los parámetros de clasificación y
filtro para el comercio electrónico), páginas de códigos promocionales
especiales, páginas de prueba o de ensayo, etc.

Para alejar a
Googlebot de ciertas páginas y secciones de su sitio, utilice robots.txt.

Robots.txt

Los archivos
Robots.txt se encuentran en el directorio raíz de los sitios web (por ejemplo,
sudominio.com/robots.txt) y sugieren qué partes de su sitio deben y no deben
rastrear los motores, así como la velocidad a la que rastrean su sitio. , a
través de directivas específicas de robots.txt .

Cómo trata Googlebot los archivos robots.txt

Si Googlebot
no puede encontrar un archivo robots.txt para un sitio, procede a rastrear el
sitio.

Si Googlebot
encuentra un archivo robots.txt para un sitio, generalmente cumplirá con las
sugerencias y procederá a rastrear el sitio.

Si Googlebot
encuentra un error al intentar acceder al archivo robots.txt de un sitio y no
puede determinar si existe o no, no rastreará el sitio.

¡Optimizar para el presupuesto de rastreo!

El presupuesto
de rastreo es el número promedio de URL que Googlebot rastreará en su sitio
antes de irse, por lo que la optimización del presupuesto de rastreo garantiza
que Googlebot no pierda tiempo en rastrear sus páginas sin importancia y corra
el riesgo de ignorar sus páginas importantes.

El
presupuesto de rastreo es más importante en sitios muy grandes con decenas de
miles de URL, pero nunca es una mala idea bloquear el acceso de los
rastreadores al contenido que definitivamente no le importa. Solo asegúrese de
no bloquear el acceso de un rastreador a las páginas en las que ha agregado
otras directivas, como las etiquetas canónicas o noindex. Si Googlebot está
bloqueado desde una página, no podrá ver las instrucciones en esa página.

No todos los
robots web siguen a robots.txt. Las personas con malas intenciones (por
ejemplo, los raspadores de direcciones de correo electrónico) crean robots que
no siguen este protocolo. De hecho, algunos actores malos utilizan archivos
robots.txt para encontrar dónde ha localizado su contenido privado.

Aunque
parezca lógico bloquear los rastreadores desde páginas privadas, como las
páginas de inicio de sesión y administración, para que no aparezcan en el
índice, colocar la ubicación de esas URL en un archivo robots.txt de acceso
público también significa que las personas con intenciones maliciosas Puede
encontrarlos más fácilmente. Es mejor no indexar estas páginas y colocarlas
detrás de un formulario de inicio de sesión en lugar de colocarlas en su
archivo robots.txt.

Definiendo parámetros de URL en GSC

Algunos
sitios (los más comunes con el comercio electrónico) hacen que el mismo
contenido esté disponible en varias URL diferentes agregando ciertos parámetros
a las URL. Si alguna vez ha comprado en línea, es probable que haya reducido su
búsqueda a través de filtros. Por ejemplo, puede buscar «zapatos» en
Amazon y luego refinar su búsqueda por tamaño, color y estilo. Cada vez que refinas,
la URL cambia ligeramente:

https://www.example.com/products/women/dresses/green.htm

https://www.example.com/products/women?category=dresses&color=green

https://example.com/shopindex.php?product_id=32&highlight=green+dress

& cat_id
= 1 & sessionid = 123 $ affid = 43

¿Cómo sabe
Google qué versión de la URL debe servir a los usuarios? Google hace un buen
trabajo para averiguar la URL representativa por sí misma, pero puede usar la
función Parámetros de URL en la Consola de búsqueda de Google para decirle a
Google exactamente cómo quiere que traten sus páginas.

Si usa esta
función para indicar a Googlebot que «no rastree las URL con el parámetro
____», entonces esencialmente está pidiendo que se oculte este contenido
de Googlebot, lo que podría resultar en la eliminación de esas páginas de los
resultados de búsqueda. Eso es lo que desea si esos parámetros crean páginas
duplicadas, pero no es ideal si desea que esas páginas se indexen.

¿Los rastreadores pueden encontrar todo tu contenido importante?

Ahora que
conoce algunas tácticas para garantizar que los rastreadores de los motores de
búsqueda se mantengan alejados de su contenido sin importancia, aprendamos
acerca de las optimizaciones que pueden ayudar a Googlebot a encontrar sus
páginas importantes.

A veces, un
motor de búsqueda podrá encontrar partes de su sitio rastreando, pero otras
páginas o secciones pueden estar ocultas por una razón u otra. Es importante
asegurarse de que los motores de búsqueda puedan descubrir todo el contenido
que desea indexar, y no solo su página de inicio.

Pregúntese
esto: ¿Puede el bot rastrear a través de su sitio web, y no solo a él?

Una puerta
tapiada, que representa un sitio al que se puede rastrear pero que no se puede
rastrear, no es viable.

¿Está tu contenido oculto detrás de los formularios de inicio de sesión?

Si necesita
que los usuarios inicien sesión, completen formularios o respondan encuestas
antes de acceder a cierto contenido, los motores de búsqueda no verán esas
páginas protegidas. Un rastreador definitivamente no va a iniciar sesión.

¿Estás confiando en los formularios de búsqueda?

Los robots no
pueden utilizar formularios de búsqueda. Algunas personas creen que, si colocan
un cuadro de búsqueda en su sitio, los motores de búsqueda podrán encontrar
todo lo que buscan sus visitantes.

¿Está el texto oculto dentro del contenido no textual?

Los
formularios multimedia que no sean de texto (imágenes, videos, GIF, etc.) no
deben usarse para mostrar el texto que desea indexar. Si bien los motores de
búsqueda están mejorando en el reconocimiento de imágenes, no hay ninguna
garantía de que puedan leerlo y entenderlo todavía. Siempre es mejor agregar
texto dentro del marcado <HTML> de su página web.

¿Los motores de búsqueda pueden seguir la navegación de su sitio?

Al igual que un
rastreador necesita descubrir su sitio a través de enlaces de otros sitios,
necesita una ruta de enlaces en su propio sitio para guiarlo de una página a
otra. Si tiene una página que desea que los motores de búsqueda encuentren,
pero no está vinculada a ninguna otra página, es tan buena como invisible.

Muchos sitios
cometen el error crítico de estructurar su navegación en formas que son
inaccesibles para los motores de búsqueda, lo que dificulta su capacidad para
aparecer en los resultados de búsqueda.

Los
rastreadores pueden encontrar una descripción de cómo las páginas que están
vinculadas a ellas pueden encontrarse, mientras que una página no vinculada a
la navegación de su sitio existe como una isla, que no se puede descubrir.

Posts Relacionados

Dejar un comentario