Présentation
NOTE DE L'ÉDITEUR
Cet article est la réédition actualisée de l’article H7240 intitulé « Moteurs de recherche web. Google, Bing et leurs challengers » paru en 2011, rédigé par le même auteur, Olivier ANDRIEU.
RÉSUMÉ
Les moteurs de recherche font partie de notre quotidien numérique et sont des carrefours essentiels pour nous permettre de rechercher de l'information sur Internet. Quels ont les principaux moteurs ? Comment fonctionnent-ils ? Cet article décrit les différentes phases de traitement de l'information par des outils comme Google ou Bing : crawl du Web, indexation des pages, analyse et utilisation de critères de pertinence in page /off page permettant de donner des notes aux documents explorés, puis affichage des résultats.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
Search engines are part of our daily digital life and are essential hubs for seeking information on the Internet. What are the main ones? How do they work? This article describes the different phases of information processing used by tools such as Google or Bing: web crawling, page indexing, relevancy criteria analysis and use of in page / off page rating and display of the results.
Auteur(s)
-
Olivier ANDRIEU : Consultant, Éditeur du site Abondance.com
INTRODUCTION
Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le Web…
KEYWORDS
search engine | index | Google | Bing | spiders | robots | crawl
VERSIONS
- Version archivée 1 de mai 2011 par Olivier ANDRIEU
- Version courante de avr. 2022 par Olivier ANDRIEU
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Archives > [Archives] Technologies logicielles et architecture des systèmes > Moteurs de recherche web - Google, Bing et leurs challengers > Définitions et données générales
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
1. Définitions et données générales
1.1 Définitions
Un moteur de recherche est un ensemble de logiciels visant à créer une gigantesque banque de données de pages et de documents, pour les mettre par la suite à disposition de l'internaute. Ces logiciels parcourent le Web, indexent automatiquement les pages visitées puis les analysent et renvoient les résultats qui leur semblent les plus pertinents par rapport à la demande préalable de l'internaute.
Quatre étapes sont indispensables au bon fonctionnement d'un moteur de recherche :
-
la collecte d'informations (ou crawl) grâce à des robots (également appelés spiders, crawlers ou agents) ;
-
l'indexation des données collectées et la constitution d'une base de données de documents nommée « index » ;
-
le traitement des requêtes, avec tout particulièrement un système d'interrogation de l'index et de classement des résultats en fonction de critères de pertinence, suite à la saisie de mots-clés par l'utilisateur ;
-
la restitution des résultats identifiés, dans ce que l'on appelle communément des SERP (Search Engine Result Pages) ou pages de résultats, le plus souvent présentées sous la forme d'une liste de dix liens affichés les uns au-dessous des autres.
Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu : les liens « organiques » ou « naturels », obtenus grâce au crawl du web et les liens sponsorisés, ou liens commerciaux (Adwords chez Google). Nous allons nous concentrer dans cet article sur les techniques utilisées par les moteurs de recherche pour indexer et retrouver des liens naturels. Nous n'abordons pas le traitement spécifique des liens sponsorisés qui obéissent à d'autres règles et ne font pas l'objet de cet article.
HAUT DE PAGE1.2 Portails et moteurs de recherche
En dehors des deux leaders du marché en 2017 Google et Microsoft Bing, de nombreux sites n'utilisent pas leurs propres technologies de recherche mais sous-traitent cette partie auprès de grands moteurs. C'est par exemple le cas de Yahoo !, qui utilise Bing, la technologie de Microsoft, pour son moteur de recherche, suite à la signature d'un accord entre les deux sociétés fin...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Définitions et données générales
BIBLIOGRAPHIE
-
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. Computer networks audISDN Systems. - Google http://infolab.stanford.edu/∼backrub/google.html (1998)
-
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages. - Google http://www.google.com/research/pubs/archive/34570.pdf.
-
(3) - O'BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW'08 : Proceedings of the 17th International World Wide Web Conference http://www.google.com/research/pubs/archive/34428.pdf (2008).
-
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps.
-
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps.
-
...
ANNEXES
-
ComScore
-
Statistiques sur les motours de recherche dans le monde
-
Abondance
-
Secrets2Moteurs
-
Veille disponible sur http://www.seobythesea.com/
-
SEO Campus
-
SMX Paris
...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive