Proceso de indexación de las páginas web de los buscadores de información


    Para analizar como es el proceso de indexación de los buscadores que hace de toda la internet, primero necesitamos conocer como los sitios web están diseñados y como permiten a las arañas acceder a sus contenidos.
    Todos los sitios web están diseñados con el lenguaje HTML donde a través de instrucciones de programación se define todo lo relacionado al aspecto del mismo, como ser el color de fondo, el tamaño y tipo de letra que utilizar en su contenido, sus enlaces con otras webs, los videos, imágenes y todo lo relacionado a su temática. A su vez existen otras instrucciones más específicas llamadas metadatos que los propietarios de los sitios webs pueden introducir en su diseño como ser: definir que palabras claves refiere el sitio web a través del metadato “keywords”, definir que descripción se desea mostrar en los buscadores, otorgar permisos a los buscadores para que la indexen completamente por medio de los rastreadores/arañas (spyder bot) , no la indexen o indexen una parte del sitio web.
    Veamos el ejemplo 1 de un sitio web escrito con el lenguaje HTML, en el cual en su cabecera otorga permisos a los buscadores para indexar su contenido y la web:
    <html lang="es">
    <head>
    <title> Responsabilidad de los buscadores </title>
    <meta name="description" content="Trabajo Final de Carrera de Abogacía Siglo 21">
    <meta name= "keywords" content="buscadores, responsabilidad, argentina ">
    <meta name="robots" content="all|index|follow">
    </head>
    <body>
    Contenido de la página web:
    <a href=”http://www.21.edu.ar”> Enlace al sitio 1: </a>
    <a href=http://universojus.com”> Enlace al sitio 2: </a>
    </body>
    </html>

    Ejemplo 1: Código fuente en lenguaje HTML (Datos recabados por el autor)
    La etiqueta HTML por excelencia y más usada es el meta robots (enfatizado con negrita para su legibilidad), el cual indica a los buscadores -motores de búsqueda- que esa url puede o no indexarse y/o mostrarse o no en los resultados del buscador.
    En el ejemplo 1, tiene el valor “ all|index|follow” que indica, que siga absolutamente todos los enlaces.-
    El ejemplo 2 es para mostrar como un sitio no autoriza a indexar en los resultados de los buscadores, colocando la siguiente instrucción en la cabecera del sitio web:
    <html lang="es">
    <head>
    <title> Revista Siglo21</title>
    <meta name="description" content="Revista de la Carrera de Abogacía Siglo 21">
    <meta name= "keywords" content="contenedor, imagenes ">
    <meta name="robots" content="noindex,follow">
    </head>
    <body>
    Contenido de la página web
    </body>
    </html>
    Ejemplo 2: Código fuente en lenguaje HTML (Datos recabados por el autor)

    Otra manera que tiene el propietario del sitio web para decirle a los buscadores que contenidos indexar y que contenidos no indexar, es crear un archivo robots.txt. A esto se lo llama protocolo de robots.txt y el siguiente ejemplo muestra como una web puede decirle a las arañas o rastreadores que no indexen un directorio llamado “imagenes”:
    User-agent: *
    Disallow: /imagenes/
    El “*” indica a todos los robots rastreadores que no indexe el directorio “imagenes”. Recordemos brevemente que también los buscadores como bing, yahoo, altavista, etc, tienen sus propios programas informáticos -arañas- rastreadoras que indexan en sus propios índices.
    Ahora que sabemos como los sitios web permiten ser indexados por las arañas de los distintos buscadores que existen en el mundo, pasaremos a describir el funcionamiento de los sistemas de búsquedas. Así encontramos 3 pasos bien marcados:
    1) Rastreo e indexación: arañas (spyder bot) guardando las páginas en el índice central y rastreando a su vez los enlaces que contienen esas páginas guardadas.
    2) Clasificación y ranking: cada sitio web posee una nota o calificación de 0 a 10 llamada pagerank. Esa calificación junto con otros 200 criterios, dan un ranking general del portal web que permite mostrar los resultados más relevantes a una búsqueda específica por palabra clave introducida.
    3) Búsquedas propiamente dicha: empieza con la introducción de palabras claves, y de resultados sugerentes antes de introducir “intro”. El usuario al omitir los resultados sugerentes por el buscador, puede optar los resultados que muestra, divididos por páginas de resultados. Cada página muestra los sitios web más relevantes respecto a las palabras claves introducidas por el usuario.

    <<Volver al Indice

    1.1.1. Rastreo e indexación


    El primer paso de los sistemas de búsquedas como Google, consiste en rastrear e indexar toda la web, o al menos la parte a la que tiene acceso.
    En esta etapa -como se ha dicho anteriormente-, existen rastreadores o arañas que son sistemas informáticos que se conectan con una lista de sitios web que tiene almacenado Google en sus bases de datos y van agregándolos en un gran índice, siguiendo a su vez en forma recursiva cada enlace que van encontrando a su paso (Brin, S. and Page, L. ,1998).



    Figura 2: Imagen que muestra los rastreadores guardando los sitios web en Google 1

    La Figura 2 muestra en forma sintética y muy ilustrativa como los robots arañas van recorriendo toda la Internet a través de los miles de millones de sitios webs existentes y los hipervínculos -enlaces- que poseen en su contenido, y en el mismo instante van guardando una copia HTML del sitio web visitado.
    Este primer y gran paso de descargar la web en los centros de datos de Google, fue revolucionario cuando fue presentado como tesis de doctorado en “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, ya que permite su análisis y clasificación posterior, sin dejar de mencionar la importancia de tener una copia cache de la web ante una caída momentánea (Brin, S. and Page, L. ,1998).
    Hemos distinguido como los propietarios pueden darle acceso a ciertas partes del sitio web o darle un acceso total a los robots rastreadores, lo cual será importante a la hora de analizar la regulación jurídica con respecto al alcance las responsabilidades de estos intermediarios.

    <<Volver al Indice

    1.1.2. Clasificación y posicionamiento


    Este paso es quizás el más difícil de analizar, ya que los 200 criterios y el mismo Pagerank son la fórmula secreta de Google para mostrar resultados relevantes ante una búsqueda.
    La pregunta que nos inquieta responder es quizás, ¿como hace Google para mostrarnos los resultados ordenados por orden de importancia para una búsqueda aleatoria como ser: “hoteles en córdoba capital”?
    Hemos visto hasta ahora, como las arañas -Googlebot- van creando el gran índice que guarda Google en sus centros de datos guardando cada sitio web que van encontrando a su paso como una gran aspiradora de datos.
    Ahora queremos analizar como realiza Google la clasificación y posicionamiento -ranking- que realiza de los sitios webs guardados en su índice.
    El pagerank es un nota o calificación que realiza Google a un sitio web y va de 0 a 10. Esa calificación es un valor que se calcula contabilizando los sitios que apuntan a aquel (Brin, S. and Page, L. ,1998). Para explicar como funciona el PageRank, nos basaremos en un modelo gráfico para que de esta manera sea fácil su comprensión representando cada círculo con un sitio web.
    Imaginemos que el sitio web https://www.nytimes.com que en la Figura 3 está representado por el color amarillo, en el cual vemos que muchos sitios apuntan a ese círculo, por lo tanto ese sitio web es muy importante y tiene un valor alto de pagerank y gráficamente se lo representa como un círculo más grande que el resto. En contraposición tenemos distintos círculos más pequeños en color verde que no tienen ningún vínculo señalándolo directamente, por lo tanto tendrá un valor bajo -puntaje- de pagerank.
    Por consiguiente en este modelo abstracto el tamaño del círculo representa la importancia en la Internet, es decir un número alto de pagerank, o lo que es lo mismo la cantidad de sitios que apuntan a aquel.
    Del mismo modo se observa además que hay un círculo rojo que es apuntado por el círculo amarillo y sólo es ese círculo que lo apunta, y sin embargo notamos que el tamaño del círculo rojo es notoriamente mayor al resto. Y es aquí que nace otro de los pilares del pagerank, ya que si un sitio web es apuntado por una prestigiosa web -con alto pagerank-, le transfiere parte de ese prestigio a la web destinataria.
    En resumen, un portal de internet como ser http://www.21.edu.ar, puede tener un alto pagerank, por ser apuntado por un sitio de prestigio -alto pagerank- como ser http://www.lanacion.com.ar ó tener muchos sitios web que lo apuntan.
    Resuelto lo del puntaje o indicador de pagerank de un sitio web, existen otros 200 criterios que le permite a Google darle un ranking al sitio web, que no son más que señales o “pistas” que le permiten adivinar lo que realmente el usuario podría estar buscando .



    Figura 3: PageRank de Google 2

    De esos 200 criterios que analiza Google para su clasificación y posicionamiento -ranking- se conocen sólo algunos:
    a) palabras claves que posee un sitio web que coinciden con la búsqueda del usuario: retomando el ejemplo de “hoteles en córdoba capital”, el buscador traería de su índice las páginas que contengan en su contenido esas 4 palabras.
    b) actualización constante de contenidos del sitio web
    c) que tan bien diseñado está la web
    y así sucesivamente.
    Finalmente, la nota global que posee un sitio web está determinado por el pagerank y los 200 criterios (Brin, S. and Page, L. ,1998).

    <<Volver al Indice

    Bibliografia


Tema: Internet, Responsabilidad de motores de búsquedas, SEO, Tecnología

'Proceso de indexación de las páginas web de los buscadores de información' aparece también en las siguientes entradas:


¿Mejoramos la definición?
Puntos: 5( 2 votos)



Publicado el 1/08/2018.

Los comentarios están cerrados.