Présentation
Auteur(s)
-
Jean-Pierre DAMIANO : Ingénieur de recherches Laboratoire d’électronique, antennes et télécommunications (LEAT) Université de Nice-Sophia-Antipolis
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
L’impact stratégique et les enjeux financiers du marché mondial de l’information électronique professionnelle sont énormes. Aujourd’hui, c’est bien l’industrie du contenu informationnel qui devrait être la première au monde. Elle allie les technologies des télécommunications, de l’informatique et de l’interactivité. La France est dans le peloton de tête des fournisseurs d’informations scientifiques, techniques et économiques, mais elle n’en est encore qu’un utilisateur moyen.
Le volume sans cesse croissant des données disponibles sur l’Internet nécessite des outils de recherche, de sélection, d’analyse et de traduction de plus en plus performants, pour localiser et identifier précisément l’information désirée. L’absence de structure de l’information à l’échelle de la planète est telle que la sélection des documents pertinents n’est pas aisée. Les chercheurs et les ingénieurs, par exemple, doivent mettre en œuvre des méthodes d’identification et d’authentification des ressources disponibles et de leur maintenance, déter-miner les meilleurs moyens d’accès. Il ne s’agit plus de collecter de grandes quantités de documents, mais d’extraire de ces masses, l’information utile à la prise de décision.
Les données scientifiques et techniques constituent des mines d’informations stratégiques pour les décideurs (intelligence économique, veille stratégique) et pour les chercheurs et les ingénieurs (veille scientifique et technologique). Certaines ressources méritent que l’on y prête attention comme la messagerie électronique, les listes de diffusion, les forums, etc. À celles-ci s’ajoutent évidemment les importants gisements documentaires constitués par les fonds numérisés et les collections des bibliothèques et par les bases de brevets.
Il ne faut pas oublier les serveurs des laboratoires universitaires ou des instituts de recherche, les thèses, les projets de recherche, les rapports techniques, les publications, les actes de congrès, etc., qui constituent une bonne part de ce que l’on nomme aujourd’hui l’Internet invisible. Ces sources ne sont pas toujours accessibles par les moteurs classiques.
Pour trouver, nous interrogeons généralement les moteurs de recherche mais ils ne constituent pas la solution idéale. Ils n’indexent pas la totalité des données disponibles sur l’Internet et leur mode d’interrogation est parfois ardu. Les agents de recherche sont des logiciels qui réagissent avec l’environnement, s’adaptent aux circonstances, peuvent prendre une décision, enrichir leur comportement sur la base d’observations qu’ils effectuent. À partir d’une équation de recherche ou d’un profil défini, l’agent sélectionne alors les documents, les filtre et les classe par ordre de pertinence, de proximité et de concept suivant leur algorithme.
L’Europe s’est intéressée très tôt à l’ingénierie linguistique pour la maîtrise de l’information textuelle. Cela est dû au fait que la plupart des langues européennes présentent des difficultés qui n’existent pas en anglais et qui ne peuvent se résoudre dans de bonnes conditions que par un traitement linguistique automatique. Ainsi, des systèmes multilingues ont été développés. Ils sont capables de traiter avec le même logiciel, différentes langues séparément. La commutation de langues est réalisée par changement des ressources linguistiques (dictionnaires, grammaires, ontologies) utilisées par le système. Parallèlement, des systèmes d’interrogation translingues (question dans une langue permettant de retrouver des documents dans d’autres langues) se sont développés en Europe.
Ainsi, de plus en plus d’agents de recherche effectuent un traitement linguis-tique des résultats ou donnent une représentation graphique des résultats sous forme d’une carte interactive. D’autres utilisent une recherche basée sur les hyperliens le plus souvent parcourus. De nouveaux services apparaissent : ce sont des sites de recherche assistée par des experts dans des domaines spécialisés, qui répondent aux requêtes exprimées en langage naturel, d’où un gain de pertinence dans l’information retournée.Aujourd’hui, les projets sur le « web sémantique » développent les outils nécessaires à la description et au traitement du sens des contenus informationnels. Il permet de mettre l’accent sur la représentation du contenu, alors que l’Internet a permis jusqu’ici à mettre en exergue le document. Les différentes approches tendent à mettre en place un environnement facilitant l’intégration de technologies issues de l’ingénierie des connaissances, des langages tels que XML, par exemple, de la recherche d’informations et des récentes recherches en sémantique.
Une page, un document ne constitue pas de la connaissance, c’est une simple information. Pour que cette information devienne de la connaissance, il faut lui ajouter du sens. Il faut donc prendre cette information, la replacer dans son contexte et la restituer pour qu’elle soit exploitable comme du savoir. Cet aspect est incontournable aujourd’hui, car un nombre croissant d’utilisateurs est demandeur de connaissances sur des sujets de plus en plus ciblés.Information, connaissance, savoir, communication, partage, recherche, développement, concurrence, rentabilité, modèle économique, veille, intelligence économique, analyse sémantique, flux informationnels, documentation, bibliothèque, etc., sont autant de concepts aujourd’hui mis en exergue dans tous les médias. Mais qu’en est-il vraiment lorsqu’ils sont appliqués à l’Internet ?
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Comment chercher et trouver ?
-
Métamoteurs
Si la source de l’information n’est pas connue et localisée, il est nécessaire d’interroger, par leur module de recherche avancée, des métamoteurs performants (encadré 11). Les références du document sont structurées en diverses zones : auteur, titre, source, résumé, descripteurs, qui correspondent à des index. Il faut alors particulariser la recherche dans le titre, le résumé ou le corps du texte lorsque l’interface des requêtes de l’agent l’autorise.
Parmi les nouveaux venus, SurfWax est un métamoteur interrogeant 250 sources incluant la plupart des moteurs les plus performants du marché et des répertoires. En version payante, le nombre de sources peut dépasser le millier. Bien que disposant de moins de sources, Vivisimo donne d’excellents résultats. Une mention particulière pour qbSearch qui est peut-être un peu déroutant quant à sa conception de pages de résultats et de navigation, mais qui offre un large panel de possibilités.
– MétamoteursCyber411
EasyAsk
iPhrase
IxQuick (très rapide)
Mamma
Méga Francité (pour les documents francophones)
MetaCrawler (de manière générale)
ProFusion (sélection des meilleurs moteurs)
qbSearch
SurfWax
The Big Hub (variété des ressources)
Vivisimo
-
Coordonnées d’un...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Comment chercher et trouver ?
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive