Google y la tecnología PageRank

 

Muchas veces os habréis preguntado cómo los motores de búsqueda, especialmente Google, calculan la relevancia de una página. La verdad es que los algoritmos encargados de ello suelen ser secretos. Sin embargo, una pequeña parte del algoritmo de Google es pública. Y es que el caso que nos ocupa hoy es el de Google y su sistema PageRank

Google recibe hoy el Principe de Asturias en Comunicación y Humanidades 2008
¿Qué es un motor de búsqueda? 
  • Es un sistema de almacenamiento y recuperación de datos.
  • Base de datos diseñada para indexar direcciones web (url, ftp, etc.)

Basados en índices o directorio

  • Los índices o directorios basan la recuperación en la clasificación por un indexador humano.

Basados en crawlers (Google)

  • Rastrean servidores Web con el fin de indexar la información que almacenan. Los programas encargados de hacer el rastreo son los crawlers o indexadores automáticos.

Meta motores de búsqueda

  • Los meta-motores permiten buscar en varios motores de búsqueda simultáneamente.

Características de Google

  • Utiliza la información hipertextual de los documentos Web para calcular la relevancia de cada página, utilizando lo que se denomina PageRank.
  • Utiliza los enlaces (links) y el texto de los mismos para mejorar los resultados de la búsqueda.
  • Mantiene información de la posición de los términos que aparecen dentro de los documentos indexados, lo que permite búsquedas por proximidad.
  • Mantiene información de la apariencia visual de los documentos (p.e: a las palabras marcadas en negrita o con un tamaño de letra mayor se les concede mayor peso al calcular la relevancia).
  • También se sabe que mejora la relevancia las palabras inlcuidas en la URL.
PageRank
PageRank es un valor numérico que representa la importancia que una página Web tiene en Internet, según Google.

 

 

  •   r(i) es el PageRank de la página.
  •   N(i) es el número de enlaces (salientes) de la página.
  •   B(i) es el número de páginas que apuntan a la página.
  •   m es el número total de nodos en el grafo.
  •   d es el factor de decaimiento (entre 0 y 1).


Por lo tanto:

  • El PageRank para una página será alto:
  • Si existen muchas páginas apuntándola
  • o aunque la apunten pocas páginas, éstas tienen PageRank alto. 

  • Prestaciones
  • Ranking ordenado y ponderado de acuerdo al PageRank de cada página.
  • Prioridad de la calidad de las búsquedas sobre la eficiencia (en tiempo) de las mismas.
  • Límite del tiempo de respuesta: una vez que se ha encontrado un número determinado de documentos se devuelven resultados parciales.

Responder

El contenido de este campo se mantiene como privado y no se muestra públicamente.
CAPTCHA
Esta pregunta es para evitar spam automático.
Image CAPTCHA
Copiar los caracteres (respetando mayúsculas y minúsculas) de la imagen.