Système de ranking

1.1 - Définitions
1.2 - Portails et moteurs de recherche

Tableau 1 Tableau 2
1.3 - Parts de trafic dans le monde

Tableau 3
1.4 - Un marché qui se rétrécit petit à petit

2 - SYSTÈME DE CRAWL D'UN MOTEUR DE RECHERCHE

2.1 - Spiders
2.2 - Fichier robots.txt

Tableau 4
2.3 - Mise à jour de l'index par le crawl

3 - MOTEUR D'INDEXATION

3.1 - Index
3.2 - Index inversé

Tableau 5
3.3 - Taille des index

4 - SYSTÈME DE RANKING

4.1 - Critères « in page »
4.2 - Critères « off page »
4.3 - Spamdexing

5 - AFFICHAGE DES RÉSULTATS

5.1 - Recherche universelle

6 - CONCLUSION

7 - GLOSSAIRE ET ACRONYME

Bibliographie & annexes

Présentation

NOTE DE L'ÉDITEUR

03/04/2017

Cet article est la réédition actualisée de l’article H7240 intitulé « Moteurs de recherche web. Google, Bing et leurs challengers » paru en 2011, rédigé par le même auteur, Olivier ANDRIEU.

RÉSUMÉ

Les moteurs de recherche font partie de notre quotidien numérique et sont des carrefours essentiels pour nous permettre de rechercher de l'information sur Internet. Quels ont les principaux moteurs ? Comment fonctionnent-ils ? Cet article décrit les différentes phases de traitement de l'information par des outils comme Google ou Bing : crawl du Web, indexation des pages, analyse et utilisation de critères de pertinence in page /off page permettant de donner des notes aux documents explorés, puis affichage des résultats.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Olivier ANDRIEU : Consultant, Éditeur du site Abondance.com

INTRODUCTION

Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le Web…

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

moteur de recherche index Google Bing spiders robots crawl

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de mai 2011 par Olivier ANDRIEU
Version courante de avr. 2022 par Olivier ANDRIEU

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7240

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Archives > [Archives] Documents numériques - Gestion de contenu > Moteurs de recherche web - Google, Bing et leurs challengers > Système de ranking

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Affichage des résultats

4. Système de ranking

Le ranking est un processus qui consiste pour le moteur à classer automatiquement les données de l'index de façon à ce que, suite à une interrogation, les pages les plus pertinentes apparaissent en premier dans la liste de résultats. Le but du classement est d'afficher dans les 10 premières réponses les documents répondant le mieux à la question.

Pour cela, les moteurs élaborent en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents). Ces algorithmes sont bien sûr un véritable facteur différenciant entre eux et ne sont jamais publiés dans leur intégralité. Dans certains cas, ils sont même protégés par des centaines de brevets (souvent analysés par le site anglophone SEO by the Sea) et font parfois l'objet de « secrets défense », voire de mythes comparables à celui du 7X (principal composant du Coca-Cola) pour ce qui est de l'algorithme utilisé par Google.

Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange de ces différentes techniques.

– Les critères « in page » où le moteur prend en compte la requête de l'internaute (la suite de termes saisis dans le formulaire de recherche) et analyse quels documents contiennent ce(s) terme(s). Une première extraction des documents contenant au moins une fois chaque mot est effectuée. Le classement est ensuite effectué comme dans notre exemple précédent sur « corbeau » et « renard » en prenant en compte plusieurs critères tels que nombre d'occurrences du mot, proximité, présence dans certaines balises HTML (TITLE, H1, STRONG), dans l'URL, etc.

– Les critères « off page », qui vont donner au moteur certaines indications « au sujet de la page » : par exemple, la popularité, appelée PageRank chez Google par l'analyse de la qualité des liens pointant vers une page, la réputation par l'analyse du texte des liens pointant vers une page, la confiance (TrustRank), etc.

Tous les moteurs actuels mixent aujourd'hui les critères « in page » et « off page » pour améliorer au maximum leur algorithme de pertinence.

4.1 Critères « in page »

Les critères « in page » sont, historiquement, les premiers à avoir été...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.