Les moteurs de recherches
Comment fonctionenent-ils ?
C'est à la fois simple dans certains principes généraux et complexe pour de nombreux détails importants. C'est à la fois connu dans sa généralité et bien caché dans ses détails. Nous nous contentons ici de simples généralités.
Les moteurs de recherche construisent constamment, car le web évolue sans cesse, un index. L'index, c'est comme dans un livre, un moyen d'aller directement à une page à partir d'un mot. Pour construire un tel index, il faut avoir lu toutes les pages du livre et consigné pour tous les mots, la liste des pages où ils se trouvent. Les moteurs de recherche téléchargent toutes les ressources du web en permanence pour extraire la liste des mots qu'on y trouve et garder l'énorme liste des URLs où ces mots se trouvent. Ce ne sont pas des hommes qui parcourent le web pour eux, mais des programmes, appelés des robots.
Mais afficher simplement la liste de ces ressources quand l'internaute saisit quelques mots dans le formulaire de recherche n'est pas satisfaisant. La liste est bien trop longue. Le deuxième ingrédient du moteur de recherche est le programme qui permet d'interroger cet index, simplement en lui donnant quelques mots, et qui construit une liste, présentée par ordre d'importance, d'URLs désignant les ressources où ces mots se trouvent.
La magie des moteurs de recherche tient dans les détails qui permettent à l'ensemble de fonctionner tels que l'existence d'un index à jour, la forme de l'index qui permet d'y retrouver extrêmement rapidement les pages associées à un mot, ou encore l'ordre d'importance dans lequel les résultats de l'interrogation de l'index apparaissent.
L'avance technologique des grands moteurs de recherche se cache dans les détails de la construction de l'index mais surtout du programme qui permet de l'interroger et de la détermination de l'ordre des URLs affichées en retour. Ces détails sont protégés par de nombreux secrets industriels.
Complément : Pour aller plus loin
Pour en savoir plus, consultez la page dédiée aux moteurs de recherche sur le site de la CNIL