Présentation
Auteur(s)
-
Olivier ANDRIEU : Consultant, éditeur du site Abondance.com
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le web...
VERSIONS
- Version archivée 2 de mars 2017 par Olivier ANDRIEU
- Version courante de avr. 2022 par Olivier ANDRIEU
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Système de ranking
Le ranking est un processus qui consiste pour le moteur à classer automatiquement les données de l'index de façon à ce que, suite à une interrogation, les pages les plus pertinentes apparaissent en premier dans la liste de résultats. Le but du classement est d'afficher dans les 10 premières réponses les documents répondant le mieux à la question.
Pour cela, les moteurs élaborent en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents). Ces algorithmes sont bien sûr un véritable facteur différenciant entre eux et ne sont jamais publiés dans leur intégralité. Dans certains cas, ils sont même protégés par des brevets et font parfois l'objet de « secrets défense », voire de mythes comparables à celui du 7X (principal composant du Coca-Cola) pour ce qui est de l'algorithme utilisé par Google...
Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange de ces différentes techniques.
– Les critères « in page » : le moteur prend en compte la requête de l'internaute (la suite de termes saisies dans le formulaire de recherche) et analyse quels documents contiennent ce(s) terme(s). Une première extraction des documents contenant au moins une fois chaque mot est effectuée. Le classement est ensuite effectué comme dans notre exemple précédent sur « corbeau » et « renard » en prenant en compte plusieurs critères : nombre d'occurrences du mot, proximité, présence dans certaines balises HTML (TITLE, H1, STRONG), dans l'URL, etc.
– Les critères « off page », qui vont donner au moteur certaines indications « au sujet de la page » : popularité (appelée PageRank chez Google : analyse de la qualité des liens pointant vers une page), réputation (analyse du texte des liens pointant vers une page), confiance (TrustRank), etc.
Tous les moteurs actuels mixent aujourd'hui les critères « in page » et « off page » pour améliorer au maximum leur algorithme de pertinence. Google communique le plus souvent sur 200 critères pris en compte pour juger de la qualité d'une page et sa pertinence par rapport à une requête donnée.
4.1 Critères in page
Les critères « in page »...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Système de ranking
BIBLIOGRAPHIE
-
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. - Google http://infolab.stanford.edu/~backrub/google.html
-
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages. - Google http://www.google.com/research/pubs/archive/34570.pdf
-
(3) - O'BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW'08 : Proceedings of the 17th International World Wide Web Conference (2008) http://www.google.com/research/pubs/archive/34428.pdf
-
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(6)...
ANNEXES
ComScore http://www.comscore.com/
Baromètres du référencement d'AT Internet http://www.atinternet.com/Ressources/Etudes/Barometre-des-moteurs/index-1-1-6-0.aspx
Abondance http://www.abondance.com
Secrets2Moteurs http://www.secrets2moteurs.com
HAUT DE PAGE
SEO Campus http://www.seo-campus.org
SMX Paris http://www.smxparis.com
HAUT DE PAGE
Veille disponible sur http://www.seobythesea.com/
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive