Présentation

Article interactif

1 - DÉFINITIONS ET DONNÉES GÉNÉRALES

2 - SYSTÈME DE CRAWL D’UN MOTEUR DE RECHERCHE

3 - MOTEUR D’INDEXATION

4 - COMPRÉHENSION DE LA REQUÊTE

5 - SYSTÈME DE RANKING

6 - AFFICHAGE DES RÉSULTATS

7 - CONCLUSION

8 - GLOSSAIRE ET ACRONYME

Article de référence | Réf : H7240 v3

Moteur d’indexation
Moteurs de recherche web - Google, Bing et leurs challengers

Auteur(s) : Olivier ANDRIEU

Relu et validé le 29 févr. 2024

Cet article offert jusqu'au 31/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais English

RÉSUMÉ

Les moteurs de recherche font partie de notre quotidien numérique et sont des carrefours essentiels pour nous permettre de rechercher de l'information sur Internet. Quels ont les principaux moteurs ? Comment fonctionnent-ils ? Cet article décrit les différentes phases de traitement de l'information par des outils comme Google ou Bing : crawl du Web, indexation des pages, analyse et utilisation de critères de pertinence in page /off page permettant de donner des notes aux documents explorés, puis affichage des résultats.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

INTRODUCTION

Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le Web…

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article offert jusqu'au 31/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v3-h7240


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation
Version en anglais English

3. Moteur d’indexation

3.1 Index

Une fois les pages du Web crawlées, le spider envoie au moteur d’indexation les informations collectées. L’indexation s’effectue en texte intégral : tous les mots d’une page, et plus globalement son code HTML, sont alors pris en compte.

Les systèmes d’indexation se chargent ensuite d’identifier en « plein texte » l’ensemble des mots des textes contenus dans les pages ainsi que leur position à l’intérieur de celle-ci. Certains moteurs peuvent cependant limiter leur capacité d’indexation. Ainsi, pendant de longues années, Google s’est limité aux 101 premiers kilooctets des pages (ce qui représentait cependant une taille assez conséquente). Cette limite n’est plus d’actualité aujourd’hui. D’autres moteurs peuvent effectuer une sélection en fonction des formats de document (Excel, Powerpoint, PDF…).

Enfin, comme pour les logiciels documentaires et les bases de données, une liste de mots « vides » (par exemple, « le », « la », « les », « et »…), appelés stop words en anglais, est le plus souvent automatiquement exclue (pour économiser de l’espace de stockage) ou ces mots sont systématiquement éliminés à l’occasion d’une requête (pour améliorer la rapidité des recherches).

HAUT DE PAGE

3.2 Index inversé

Au fur et à mesure de l’indexation et de l’analyse du contenu des pages web, un index des mots rencontrés est automatiquement enrichi. Cet index est constitué :

  • d’un index principal ou maître, contenant l’ensemble du corpus de données capturé par le spider ;

  • de fichiers inverses ou index inversés, créés autour de l’index principal et contenant tous les termes d’accès (mots-clés) associés aux URL exactes des documents contenant ces termes sur le Web.

Les fichiers inverses sont des espaces où sont répertoriés les différents termes rencontrés, chaque terme étant associé à toutes les pages où il figure. La recherche des documents dans lesquels ils sont présents s’en trouve ainsi fortement accélérée.

Pour...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article offert jusqu'au 31/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Moteur d’indexation
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BRIN (S.), PAGE (L.) -   The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN Systems.  -  https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf (1998).

  • (2) - FORD (D.), GRIMES (C.), TASSONE (E.) -   Keeping a search engine index fresh: risk and optimality in estimating refresh rates for web pages.  -  Google https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34570.pdf

  • (3) - O’BRIEN (S.), GRIMES (C.) -   Microscale evolution of web pages.  -  In WWW’08: Proceedings of the 17th International World Wide Web Conference (2008) https://www.researchgate.net/publication/221022492_Microscale_evolution_of_web_pages

  • (4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) -   Detecting near-duplicates for web crawling.  -  Stanford University. WWW 2007 - Track: Data Mining (2007) https://www2007.org/papers/paper215.pdf

  • (5) - NAJORK (M.), WIENER (J.L.) -   Breadth-first search crawling yields high-quality pages.  -  Compaq WWW10 (2001) http://www.www10.org/cdrom/papers/208/.

  • ...

1 Sites Internet

Statistiques sur les motours de recherche dans le monde

https://gs.statcounter.com/

La problématique de la mesure (et comparaison) des parts de marché des moteurs de recherche

https://www.abondance.com/20190912-40652-la-problematique-de-la-mesure-et-comparaison-des-parts-de-marche-des-moteurs-de-recherche.html

Abondance

https://www.abondance.com

Secrets2Moteurs

https://www.secrets2moteurs.com/

Veille disponible sur http://www.seobythesea.com/

HAUT DE PAGE

2 Événements

SEO Campus et SEO Camp Days

https://www.seo-camp.org/agenda-des-evenements-seo-et-webmarketing/

SMX Paris

https://smxfrance.com/

HAUT DE PAGE

3 Annuaire

Organismes – Fédérations – Associations (liste non exhaustive)

Seo Camp

...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article offert jusqu'au 31/12/2024
Consulter en libre accès

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS