Présentation

Article

1 - L’INFORMATION

2 - AGENTS DE RECHERCHE

  • 2.1 - Comment analyser les documents trouvés ?
  • 2.2 - L’Internet invisible

3 - COMMENT CHERCHER ET TROUVER ?

4 - CONCLUSION ET PERSPECTIVES

| Réf : H7800 v1

L’information
L’Internet et les agents de recherche d’informations

Auteur(s) : Jean-Pierre DAMIANO

Date de publication : 10 nov. 2002

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

  • Jean-Pierre DAMIANO : Ingénieur de recherches Laboratoire d’électronique, antennes et télécommunications (LEAT) Université de Nice-Sophia-Antipolis

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’impact stratégique et les enjeux financiers du marché mondial de l’information électronique professionnelle sont énormes. Aujourd’hui, c’est bien l’industrie du contenu informationnel qui devrait être la première au monde. Elle allie les technologies des télécommunications, de l’informatique et de l’interactivité. La France est dans le peloton de tête des fournisseurs d’informations scientifiques, techniques et économiques, mais elle n’en est encore qu’un utilisateur moyen.

Le volume sans cesse croissant des données disponibles sur l’Internet nécessite des outils de recherche, de sélection, d’analyse et de traduction de plus en plus performants, pour localiser et identifier précisément l’information désirée. L’absence de structure de l’information à l’échelle de la planète est telle que la sélection des documents pertinents n’est pas aisée. Les chercheurs et les ingénieurs, par exemple, doivent mettre en œuvre des méthodes d’identification et d’authentification des ressources disponibles et de leur maintenance, déter-miner les meilleurs moyens d’accès. Il ne s’agit plus de collecter de grandes quantités de documents, mais d’extraire de ces masses, l’information utile à la prise de décision.

Les données scientifiques et techniques constituent des mines d’informations stratégiques pour les décideurs (intelligence économique, veille stratégique) et pour les chercheurs et les ingénieurs (veille scientifique et technologique). Certaines ressources méritent que l’on y prête attention comme la messagerie électronique, les listes de diffusion, les forums, etc. À celles-ci s’ajoutent évidemment les importants gisements documentaires constitués par les fonds numérisés et les collections des bibliothèques et par les bases de brevets.

Il ne faut pas oublier les serveurs des laboratoires universitaires ou des instituts de recherche, les thèses, les projets de recherche, les rapports techniques, les publications, les actes de congrès, etc., qui constituent une bonne part de ce que l’on nomme aujourd’hui l’Internet invisible. Ces sources ne sont pas toujours accessibles par les moteurs classiques.

Pour trouver, nous interrogeons généralement les moteurs de recherche mais ils ne constituent pas la solution idéale. Ils n’indexent pas la totalité des données disponibles sur l’Internet et leur mode d’interrogation est parfois ardu. Les agents de recherche sont des logiciels qui réagissent avec l’environnement, s’adaptent aux circonstances, peuvent prendre une décision, enrichir leur comportement sur la base d’observations qu’ils effectuent. À partir d’une équation de recherche ou d’un profil défini, l’agent sélectionne alors les documents, les filtre et les classe par ordre de pertinence, de proximité et de concept suivant leur algorithme.

L’Europe s’est intéressée très tôt à l’ingénierie linguistique pour la maîtrise de l’information textuelle. Cela est dû au fait que la plupart des langues européennes présentent des difficultés qui n’existent pas en anglais et qui ne peuvent se résoudre dans de bonnes conditions que par un traitement linguistique automatique. Ainsi, des systèmes multilingues ont été développés. Ils sont capables de traiter avec le même logiciel, différentes langues séparément. La commutation de langues est réalisée par changement des ressources linguistiques (dictionnaires, grammaires, ontologies) utilisées par le système. Parallèlement, des systèmes d’interrogation translingues (question dans une langue permettant de retrouver des documents dans d’autres langues) se sont développés en Europe.

Ainsi, de plus en plus d’agents de recherche effectuent un traitement linguis-tique des résultats ou donnent une représentation graphique des résultats sous forme d’une carte interactive. D’autres utilisent une recherche basée sur les hyperliens le plus souvent parcourus. De nouveaux services apparaissent : ce sont des sites de recherche assistée par des experts dans des domaines spécialisés, qui répondent aux requêtes exprimées en langage naturel, d’où un gain de pertinence dans l’information retournée.Aujourd’hui, les projets sur le « web sémantique » développent les outils nécessaires à la description et au traitement du sens des contenus informationnels. Il permet de mettre l’accent sur la représentation du contenu, alors que l’Internet a permis jusqu’ici à mettre en exergue le document. Les différentes approches tendent à mettre en place un environnement facilitant l’intégration de technologies issues de l’ingénierie des connaissances, des langages tels que XML, par exemple, de la recherche d’informations et des récentes recherches en sémantique.

Une page, un document ne constitue pas de la connaissance, c’est une simple information. Pour que cette information devienne de la connaissance, il faut lui ajouter du sens. Il faut donc prendre cette information, la replacer dans son contexte et la restituer pour qu’elle soit exploitable comme du savoir. Cet aspect est incontournable aujourd’hui, car un nombre croissant d’utilisateurs est demandeur de connaissances sur des sujets de plus en plus ciblés.Information, connaissance, savoir, communication, partage, recherche, développement, concurrence, rentabilité, modèle économique, veille, intelligence économique, analyse sémantique, flux informationnels, documentation, bibliothèque, etc., sont autant de concepts aujourd’hui mis en exergue dans tous les médias. Mais qu’en est-il vraiment lorsqu’ils sont appliqués à l’Internet ?

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7800


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

1. L’information

La recherche de l’information, sa qualité, sa sauvegarde, sa confidentialité ne sont pas un problème récent. Autrefois, à peine quelques milliers d’ouvrages étaient répertoriés ; de nos jours, c’est le cas de millions d’ouvrages, de manuscrits, de cartes, de photographies. Dans le domaine scientifique, par exemple, les articles publiés annuellement se comptent par millions. De manière générale, il existe environ trois milliards de pages accessibles par l’Internet. Cela représente quelques dizaines de milliers de gigaoctets (ou milliards de caractères, environ), y compris les images incluses réparties sur près de dix millions de serveurs publics. Ces chiffres ne sont rien en comparaison des cent mille sites et plus constituant ce que l’on appelle couramment l’Internet invisible : c’est un gisement de plusieurs millions de gigaoctets. En effet, les bases de données internes ne sont accessibles que si l’on est connecté directement au site lui-même : les moteurs classiques n’y parviennent pas facilement à ce jour.

Comme Michel Serres l’a fait justement remarquer, le savoir a déjà changé deux fois de support : de l’oral à l’écrit, puis de l’écrit à l’imprimé, ce qui a permis une très large diffusion des connaissances. Et aujourd’hui, les nouvelles technologies préparent une nouvelle mutation. Si autrefois, il existait des espaces de savoir (les bibliothèques, les universités, par exemple), c’est le savoir qui de nos jours peut arriver à nous grâce à l’apparition des réseaux de télécommunication.

La manière de lire et d’écrire change : il y a plusieurs siècles, nous tenions le rouleau manuscrit avec les deux mains ; il y a quelques centaines d’années, nous pouvions lire et écrire en même temps : une main pouvait tourner les pages d’un livre posé à plat sur une table et on pouvait prendre des notes avec l’autre main. Aujourd’hui, les textes, les contenus des livres ne sont plus figés, coincés entre deux pages de couverture, mais au contraire nous entrons à l’intérieur du contenu et naviguons suivant l’ordre des clics de la souris ou celui de la parole du lecteur.

Le contenu informationnel d’un site devient une arme économique à part entière, d’où la naissance des infomédiaires dont le rôle est de consolider des secteurs d’information produits par les fournisseurs de contenu (médecine, sciences de la Terre, électro-nique,...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
L’information
Sommaire
Sommaire

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS