COmo funcionan los motores de busqueda rastreo indexacion y clasificacion
1 Junio, 2019

Cómo funcionan los motores de búsqueda: rastreo, indexación y clasificación

By Patricio Cuevas-107 Views-No Comment

Para aparecer en los resultados de búsqueda, su contenido debe ser visible primero para los motores de búsqueda.

En primer lugar, aparecer.

Como mencionamos en el Capítulo 1, los motores de búsqueda son máquinas de respuesta. Existen para descubrir, comprender y organizar el contenido de Internet con el fin de ofrecer los resultados más relevantes a las preguntas que hacen los buscadores.

Para aparecer en los resultados de búsqueda, su contenido debe ser visible primero para los motores de búsqueda. Podría decirse que es la pieza más importante del rompecabezas de SEO: si su sitio no se puede encontrar, no hay forma de que aparezca en las SERPs (página de resultados del motor de búsqueda).

¿Cómo funcionan los motores de búsqueda?

Los motores de búsqueda tienen tres funciones principales:

Rastreo: recorra la Internet en busca de contenido, revisando el código / contenido de cada URL que encuentre.

Índice: almacena y organiza el contenido encontrado durante el proceso de rastreo. Una vez que una página está en el índice, está en ejecución para mostrarse como resultado de las consultas relevantes.

Rango: proporciona las piezas de contenido que mejor respondan a la consulta de un buscador, lo que significa que los resultados se ordenan por más relevantes a menos relevantes.

¿Qué es el rastreo de motores de búsqueda?

Rastreo es el proceso de descubrimiento en el cual los motores de búsqueda envían a un equipo de robots (conocidos como rastreadores o arañas) para encontrar contenido nuevo y actualizado. El contenido puede variar (puede ser una página web, una imagen, un video, un PDF, etc.) pero, independientemente del formato, el contenido se descubre mediante enlaces.

Los robots de los motores de búsqueda, también llamados arañas, se arrastran de página en página para encontrar contenido nuevo y actualizado.

Googlebot comienza por buscar algunas páginas web y luego sigue los enlaces de esas páginas para encontrar nuevas URL. Al saltar a lo largo de esta ruta de enlaces, el rastreador puede encontrar contenido nuevo y agregarlo a su índice llamado cafeína, una base de datos masiva de URL descubiertas, que luego se recuperará cuando un buscador busque información de que el contenido de esa URL es un buen partido.

Los motores de búsqueda envían a un equipo de robots -conocidos como rastreadores o arañas-

¿Qué es un índice de motor de búsqueda?

Los motores de búsqueda procesan y almacenan la información que encuentran en un índice, una enorme base de datos de todo el contenido que han descubierto y que consideran lo suficientemente bueno como para servir a los usuarios.

Posicionamiento en buscadores

Cuando alguien realiza una búsqueda, los motores de búsqueda rastrean su índice en busca de contenido altamente relevante y luego ordenan ese contenido con la esperanza de resolver la consulta del buscador.

Este orden de los resultados de búsqueda por relevancia se conoce como clasificación. En general, puede suponer que cuanto más alto es el ranking de un sitio web, más relevante es para el motor de búsqueda que considera que el sitio es para la consulta.

Es posible bloquear a los rastreadores de los motores de búsqueda en parte o la totalidad de su sitio, o instruir a los motores de búsqueda para que eviten almacenar ciertas páginas en su índice.

Si bien puede haber razones para hacerlo, si quiere que los buscadores encuentren su contenido, primero debe asegurarse de que sea accesible para los rastreadores y que sea indexable. De lo contrario, es tan bueno como invisible.

Al final de este capítulo, tendrá el contexto que necesita para trabajar con el motor de búsqueda, en lugar de hacerlo en contra.

En SEO, no todos los motores de búsqueda son iguales.

Muchos principiantes se preguntan acerca de la importancia relativa de los motores de búsqueda particulares.

La mayoría de la gente sabe que Google tiene la mayor cuota de mercado, pero ¿qué tan importante es optimizar para Bing, Yahoo! y otros?

La verdad es que, a pesar de la existencia de más de 30 motores de búsqueda web importantes, la comunidad SEO solo presta atención a Google. ¿Por qué? La respuesta corta es que Google es donde la gran mayoría de la gente busca en la web.

Si incluimos Google Images, Google Maps y YouTube (una propiedad de Google), más del 90% de las búsquedas en Internet se realizan en Google, lo que equivale a casi 20 veces que Bing y Yahoo! combinados.

Rastreo: ¿Los motores de búsqueda pueden encontrar sus páginas?

Como acaba de aprender, asegurarse de que su sitio sea rastreado e indexado es un requisito previo para aparecer en los SERP.

Si ya tiene un sitio web, puede ser una buena idea comenzar por ver cuántas de sus páginas están en el índice. Esto le dará una gran idea de si Google está rastreando y encontrando todas las páginas que desea, y ninguna que no.

Una forma de verificar sus páginas indexadas es “site: yourdomain.com”, un operador de búsqueda avanzada. Dirígete a Google y escribe “site: yourdomain.com” en la barra de búsqueda. Esto devolverá los resultados que Google tiene en su índice para el sitio especificado.

La cantidad de resultados que muestra Google no es exacta, pero le da una idea sólida de qué páginas están indexadas en su sitio y cómo se muestran actualmente en los resultados de búsqueda.

Para obtener resultados más precisos, supervise y use el informe de cobertura de índice en la Consola de búsqueda de Google. Puede registrarse para obtener una cuenta gratuita de Google Search Console si actualmente no tiene una.

Con esta herramienta, puede enviar sitemaps para su sitio y controlar cuántas páginas enviadas realmente se han agregado al índice de Google, entre otras cosas.

Si no aparece en ningún lugar de los resultados de búsqueda, hay algunas razones posibles por las que:

Su sitio es completamente nuevo y aún no se ha rastreado.

Su sitio no está vinculado a ningún sitio web externo.

La navegación de su sitio hace que sea difícil para un robot rastrearlo de manera efectiva.

Su sitio contiene un código básico llamado directivas de rastreo que está bloqueando los motores de búsqueda.

Su sitio ha sido penalizado por Google por tácticas de spam.

Indica a los motores de búsqueda cómo rastrear tu sitio.

Si usó la Consola de búsqueda de Google o el operador de búsqueda avanzada “site: domain.com” y encontró que algunas de sus páginas importantes faltan en el índice y / o que algunas de sus páginas no importantes han sido indexadas por error, hay algunas optimizaciones que puede implementar para dirigir mejor a Googlebot en la forma en que deseas que tu contenido web sea rastreado. Decirles a los motores de búsqueda cómo rastrear su sitio puede darle un mejor control de lo que termina en el índice.

La mayoría de la gente se asegura de que Google pueda encontrar sus páginas importantes, pero es fácil olvidar que existen páginas que probablemente no quiera que Googlebot encuentre. Estos pueden incluir cosas como las URL antiguas que tienen contenido delgado, URL duplicadas (como los parámetros de clasificación y filtro para el comercio electrónico), páginas de códigos promocionales especiales, páginas de prueba o de ensayo, etc.

Para alejar a Googlebot de ciertas páginas y secciones de su sitio, utilice robots.txt.

Robots.txt

Los archivos Robots.txt se encuentran en el directorio raíz de los sitios web (por ejemplo, sudominio.com/robots.txt) y sugieren qué partes de su sitio deben y no deben rastrear los motores, así como la velocidad a la que rastrean su sitio. , a través de directivas específicas de robots.txt .

Cómo trata Googlebot los archivos robots.txt

Si Googlebot no puede encontrar un archivo robots.txt para un sitio, procede a rastrear el sitio.

Si Googlebot encuentra un archivo robots.txt para un sitio, generalmente cumplirá con las sugerencias y procederá a rastrear el sitio.

Si Googlebot encuentra un error al intentar acceder al archivo robots.txt de un sitio y no puede determinar si existe o no, no rastreará el sitio.

¡Optimizar para el presupuesto de rastreo!

El presupuesto de rastreo es el número promedio de URL que Googlebot rastreará en su sitio antes de irse, por lo que la optimización del presupuesto de rastreo garantiza que Googlebot no pierda tiempo en rastrear sus páginas sin importancia y corra el riesgo de ignorar sus páginas importantes.

El presupuesto de rastreo es más importante en sitios muy grandes con decenas de miles de URL, pero nunca es una mala idea bloquear el acceso de los rastreadores al contenido que definitivamente no le importa. Solo asegúrese de no bloquear el acceso de un rastreador a las páginas en las que ha agregado otras directivas, como las etiquetas canónicas o noindex. Si Googlebot está bloqueado desde una página, no podrá ver las instrucciones en esa página.

No todos los robots web siguen a robots.txt. Las personas con malas intenciones (por ejemplo, los raspadores de direcciones de correo electrónico) crean robots que no siguen este protocolo. De hecho, algunos actores malos utilizan archivos robots.txt para encontrar dónde ha localizado su contenido privado.

Aunque parezca lógico bloquear los rastreadores desde páginas privadas, como las páginas de inicio de sesión y administración, para que no aparezcan en el índice, colocar la ubicación de esas URL en un archivo robots.txt de acceso público también significa que las personas con intenciones maliciosas Puede encontrarlos más fácilmente. Es mejor no indexar estas páginas y colocarlas detrás de un formulario de inicio de sesión en lugar de colocarlas en su archivo robots.txt.

Definiendo parámetros de URL en GSC

Algunos sitios (los más comunes con el comercio electrónico) hacen que el mismo contenido esté disponible en varias URL diferentes agregando ciertos parámetros a las URL. Si alguna vez ha comprado en línea, es probable que haya reducido su búsqueda a través de filtros. Por ejemplo, puede buscar “zapatos” en Amazon y luego refinar su búsqueda por tamaño, color y estilo. Cada vez que refinas, la URL cambia ligeramente:

https://www.example.com/products/women/dresses/green.htm

https://www.example.com/products/women?category=dresses&color=green

https://example.com/shopindex.php?product_id=32&highlight=green+dress

& cat_id = 1 & sessionid = 123 $ affid = 43

¿Cómo sabe Google qué versión de la URL debe servir a los usuarios? Google hace un buen trabajo para averiguar la URL representativa por sí misma, pero puede usar la función Parámetros de URL en la Consola de búsqueda de Google para decirle a Google exactamente cómo quiere que traten sus páginas.

Si usa esta función para indicar a Googlebot que “no rastree las URL con el parámetro ____”, entonces esencialmente está pidiendo que se oculte este contenido de Googlebot, lo que podría resultar en la eliminación de esas páginas de los resultados de búsqueda. Eso es lo que desea si esos parámetros crean páginas duplicadas, pero no es ideal si desea que esas páginas se indexen.

¿Los rastreadores pueden encontrar todo tu contenido importante?

Ahora que conoce algunas tácticas para garantizar que los rastreadores de los motores de búsqueda se mantengan alejados de su contenido sin importancia, aprendamos acerca de las optimizaciones que pueden ayudar a Googlebot a encontrar sus páginas importantes.

A veces, un motor de búsqueda podrá encontrar partes de su sitio rastreando, pero otras páginas o secciones pueden estar ocultas por una razón u otra. Es importante asegurarse de que los motores de búsqueda puedan descubrir todo el contenido que desea indexar, y no solo su página de inicio.

Pregúntese esto: ¿Puede el bot rastrear a través de su sitio web, y no solo a él?

Una puerta tapiada, que representa un sitio al que se puede rastrear pero que no se puede rastrear, no es viable.

¿Está tu contenido oculto detrás de los formularios de inicio de sesión?

Si necesita que los usuarios inicien sesión, completen formularios o respondan encuestas antes de acceder a cierto contenido, los motores de búsqueda no verán esas páginas protegidas. Un rastreador definitivamente no va a iniciar sesión.

¿Estás confiando en los formularios de búsqueda?

Los robots no pueden utilizar formularios de búsqueda. Algunas personas creen que, si colocan un cuadro de búsqueda en su sitio, los motores de búsqueda podrán encontrar todo lo que buscan sus visitantes.

¿Está el texto oculto dentro del contenido no textual?

Los formularios multimedia que no sean de texto (imágenes, videos, GIF, etc.) no deben usarse para mostrar el texto que desea indexar. Si bien los motores de búsqueda están mejorando en el reconocimiento de imágenes, no hay ninguna garantía de que puedan leerlo y entenderlo todavía. Siempre es mejor agregar texto dentro del marcado <HTML> de su página web.

¿Los motores de búsqueda pueden seguir la navegación de su sitio?

Al igual que un rastreador necesita descubrir su sitio a través de enlaces de otros sitios, necesita una ruta de enlaces en su propio sitio para guiarlo de una página a otra. Si tiene una página que desea que los motores de búsqueda encuentren, pero no está vinculada a ninguna otra página, es tan buena como invisible.

Muchos sitios cometen el error crítico de estructurar su navegación en formas que son inaccesibles para los motores de búsqueda, lo que dificulta su capacidad para aparecer en los resultados de búsqueda.

Los rastreadores pueden encontrar una descripción de cómo las páginas que están vinculadas a ellas pueden encontrarse, mientras que una página no vinculada a la navegación de su sitio existe como una isla, que no se puede descubrir.

Leave a Comment