Présentation
Auteur(s)
-
Olivier ANDRIEU : Consultant, éditeur du site Abondance.com
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le web...
VERSIONS
- Version archivée 2 de mars 2017 par Olivier ANDRIEU
- Version courante de avr. 2022 par Olivier ANDRIEU
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
1. Définitions et données générales
1.1 Définitions
Un moteur de recherche est un ensemble de logiciels visant à créer une gigantesque banque de données de pages et de documents, pour les mettre à disposition de l'internaute par la suite. Ces logiciels parcourent le Web, indexent automatiquement les pages visitées puis les analysent et renvoient les résultats qui leur semblent les plus pertinents par rapport à la demande préalable de l'internaute.
Quatre étapes sont indispensables au bon fonctionnement d'un moteur de recherche :
-
la collecte d'informations (ou crawl ) grâce à des robots (également appelés spiders, crawlers ou agents) ;
-
l'indexation des données collectées et la constitution d'une base de données de documents nommée « index » ;
-
le traitement des requêtes, avec tout particulièrement un système d'interrogation de l'index et de classement des résultats en fonction de critères de pertinence, suite à la saisie de mots-clés par l'utilisateur ;
-
la restitution des résultats identifiés, dans ce que l'on appelle communément des SERP (Search Engine Result Pages ) ou pages de résultats, le plus souvent présentées sous la forme d'une liste de dix liens affichés les uns au-dessous des autres.
Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu : les liens « organiques » ou « naturels », obtenus grâce au crawl du Web et les liens sponsorisés, ou liens commerciaux. Nous allons nous concentrer dans cette description sur les techniques utilisées par les moteurs de recherche pour indexer et retrouver des liens naturels. Nous n'abordons pas le traitement spécifique des liens sponsorisés qui obéissent à d'autres règles et ne font pas l'objet de la présente étude.
HAUT DE PAGE1.2 Portails et moteurs de recherche
En dehors des deux leaders actuels (en 2011) du marché Google et Microsoft Bing, de nombreux sites n'utilisent pas leurs propres technologies de recherche mais sous-traitent cette partie auprès de grands moteurs. C'est par exemple le cas de Yahoo!, qui utilise Bing, la technologie de Microsoft, pour son moteur de recherche, suite à la signature d'un accord entre les deux sociétés fin juillet 2009. Bing...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Définitions et données générales
BIBLIOGRAPHIE
-
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. - Google http://infolab.stanford.edu/~backrub/google.html
-
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages. - Google http://www.google.com/research/pubs/archive/34570.pdf
-
(3) - O'BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW'08 : Proceedings of the 17th International World Wide Web Conference (2008) http://www.google.com/research/pubs/archive/34428.pdf
-
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps
-
(6)...
ANNEXES
ComScore http://www.comscore.com/
Baromètres du référencement d'AT Internet http://www.atinternet.com/Ressources/Etudes/Barometre-des-moteurs/index-1-1-6-0.aspx
Abondance http://www.abondance.com
Secrets2Moteurs http://www.secrets2moteurs.com
HAUT DE PAGE
SEO Campus http://www.seo-campus.org
SMX Paris http://www.smxparis.com
HAUT DE PAGE
Veille disponible sur http://www.seobythesea.com/
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive