Présentation
Auteur(s)
-
Olivier ANDRIEU : Consultant, éditeur du site Abondance.com
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le web...
VERSIONS
- Version archivée 2 de mars 2017 par Olivier ANDRIEU
- Version courante de avr. 2022 par Olivier ANDRIEU
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Système de crawl d'un moteur de recherche
Comme nous l'avons vu précédemment, plusieurs étapes sont nécessaires pour le bon fonctionnement d'un moteur de recherche :
-
dans un premier temps, des logiciels explorent le Web de lien en lien et récupèrent les informations contenues dans les pages Web (phase dite de crawl) ;
-
ces informations sont ensuite indexées par des moteurs d'indexation, les termes répertoriés enrichissant un index – une base de données des mots contenus dans les pages – régulièrement mis à jour ;
-
enfin, une interface de recherche permet de restituer des résultats aux utilisateurs en les classant par ordre de pertinence (phase dite de ranking).
2.1 Spiders
Les spiders (également appelés agents, crawlers, robots ou encore bots) sont des programmes de navigation visitant en permanence les pages web et leurs liens en vue d'indexer leurs contenus. Ils parcourent les liens hypertextes et reviennent périodiquement visiter les pages retenues pour prendre en compte leurs éventuelles modifications.
Un spider est donc un logiciel très simple mais redoutablement efficace. Il ne sait faire que deux choses (mais il les fait remarquablement bien pour les moteurs majeurs) (figure 2) :
-
lire des pages web et stocker leur contenu (code HTML) sur les disques du moteur ;
-
détecter les liens dans ces pages et les suivre pour identifier de nouvelles pages web.
Le processus est alors immuable : le spider trouve une page, la sauvegarde, détecte les liens qu'elle contient, se rend sur les pages de destination de ces liens, les sauvegarde, y détecte les liens, etc., et cela, 24 h/24... L'outil parcourt donc inlassablement le Web pour y détecter des pages web (puis les sauvegarder) en suivant des liens... (figure 3).
Une image communément répandue pour un spider serait celle d'un internaute fou qui lirait et mémoriserait toutes les pages web qui lui sont proposées, tout en cliquant sur tous les liens qu'elles contiennent pour aller sur d'autres documents, etc.
Tous les spiders ont un nom spécifique du moteur à qui ils appartiennent. Parmi les plus connus, citons notamment :
-
« Googlebot » de Google ;
-
« Slurp » de Yahoo! (lorsque cette...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Système de crawl d'un moteur de recherche
BIBLIOGRAPHIE
-
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. - Google http://infolab.stanford.edu/~backrub/google.html
-
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages. - Google http://www.google.com/research/pubs/archive/34570.pdf
-
(3) - O'BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW'08 : Proceedings of the 17th International World Wide Web Conference (2008) http://www.google.com/research/pubs/archive/34428.pdf
-
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(6)...
ANNEXES
ComScore http://www.comscore.com/
Baromètres du référencement d'AT Internet http://www.atinternet.com/Ressources/Etudes/Barometre-des-moteurs/index-1-1-6-0.aspx
Abondance http://www.abondance.com
Secrets2Moteurs http://www.secrets2moteurs.com
HAUT DE PAGE
SEO Campus http://www.seo-campus.org
SMX Paris http://www.smxparis.com
HAUT DE PAGE
Veille disponible sur http://www.seobythesea.com/
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive