Présentation
Auteur(s)
-
Jean-Pierre DAMIANO : Ingénieur de recherches Laboratoire d’électronique, antennes et télécommunications (LEAT) Université de Nice-Sophia-Antipolis
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
L’impact stratégique et les enjeux financiers du marché mondial de l’information électronique professionnelle sont énormes. Aujourd’hui, c’est bien l’industrie du contenu informationnel qui devrait être la première au monde. Elle allie les technologies des télécommunications, de l’informatique et de l’interactivité. La France est dans le peloton de tête des fournisseurs d’informations scientifiques, techniques et économiques, mais elle n’en est encore qu’un utilisateur moyen.
Le volume sans cesse croissant des données disponibles sur l’Internet nécessite des outils de recherche, de sélection, d’analyse et de traduction de plus en plus performants, pour localiser et identifier précisément l’information désirée. L’absence de structure de l’information à l’échelle de la planète est telle que la sélection des documents pertinents n’est pas aisée. Les chercheurs et les ingénieurs, par exemple, doivent mettre en œuvre des méthodes d’identification et d’authentification des ressources disponibles et de leur maintenance, déter-miner les meilleurs moyens d’accès. Il ne s’agit plus de collecter de grandes quantités de documents, mais d’extraire de ces masses, l’information utile à la prise de décision.
Les données scientifiques et techniques constituent des mines d’informations stratégiques pour les décideurs (intelligence économique, veille stratégique) et pour les chercheurs et les ingénieurs (veille scientifique et technologique). Certaines ressources méritent que l’on y prête attention comme la messagerie électronique, les listes de diffusion, les forums, etc. À celles-ci s’ajoutent évidemment les importants gisements documentaires constitués par les fonds numérisés et les collections des bibliothèques et par les bases de brevets.
Il ne faut pas oublier les serveurs des laboratoires universitaires ou des instituts de recherche, les thèses, les projets de recherche, les rapports techniques, les publications, les actes de congrès, etc., qui constituent une bonne part de ce que l’on nomme aujourd’hui l’Internet invisible. Ces sources ne sont pas toujours accessibles par les moteurs classiques.
Pour trouver, nous interrogeons généralement les moteurs de recherche mais ils ne constituent pas la solution idéale. Ils n’indexent pas la totalité des données disponibles sur l’Internet et leur mode d’interrogation est parfois ardu. Les agents de recherche sont des logiciels qui réagissent avec l’environnement, s’adaptent aux circonstances, peuvent prendre une décision, enrichir leur comportement sur la base d’observations qu’ils effectuent. À partir d’une équation de recherche ou d’un profil défini, l’agent sélectionne alors les documents, les filtre et les classe par ordre de pertinence, de proximité et de concept suivant leur algorithme.
L’Europe s’est intéressée très tôt à l’ingénierie linguistique pour la maîtrise de l’information textuelle. Cela est dû au fait que la plupart des langues européennes présentent des difficultés qui n’existent pas en anglais et qui ne peuvent se résoudre dans de bonnes conditions que par un traitement linguistique automatique. Ainsi, des systèmes multilingues ont été développés. Ils sont capables de traiter avec le même logiciel, différentes langues séparément. La commutation de langues est réalisée par changement des ressources linguistiques (dictionnaires, grammaires, ontologies) utilisées par le système. Parallèlement, des systèmes d’interrogation translingues (question dans une langue permettant de retrouver des documents dans d’autres langues) se sont développés en Europe.
Ainsi, de plus en plus d’agents de recherche effectuent un traitement linguis-tique des résultats ou donnent une représentation graphique des résultats sous forme d’une carte interactive. D’autres utilisent une recherche basée sur les hyperliens le plus souvent parcourus. De nouveaux services apparaissent : ce sont des sites de recherche assistée par des experts dans des domaines spécialisés, qui répondent aux requêtes exprimées en langage naturel, d’où un gain de pertinence dans l’information retournée.Aujourd’hui, les projets sur le « web sémantique » développent les outils nécessaires à la description et au traitement du sens des contenus informationnels. Il permet de mettre l’accent sur la représentation du contenu, alors que l’Internet a permis jusqu’ici à mettre en exergue le document. Les différentes approches tendent à mettre en place un environnement facilitant l’intégration de technologies issues de l’ingénierie des connaissances, des langages tels que XML, par exemple, de la recherche d’informations et des récentes recherches en sémantique.
Une page, un document ne constitue pas de la connaissance, c’est une simple information. Pour que cette information devienne de la connaissance, il faut lui ajouter du sens. Il faut donc prendre cette information, la replacer dans son contexte et la restituer pour qu’elle soit exploitable comme du savoir. Cet aspect est incontournable aujourd’hui, car un nombre croissant d’utilisateurs est demandeur de connaissances sur des sujets de plus en plus ciblés.Information, connaissance, savoir, communication, partage, recherche, développement, concurrence, rentabilité, modèle économique, veille, intelligence économique, analyse sémantique, flux informationnels, documentation, bibliothèque, etc., sont autant de concepts aujourd’hui mis en exergue dans tous les médias. Mais qu’en est-il vraiment lorsqu’ils sont appliqués à l’Internet ?
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Agents de recherche
S’y retrouver parmi la masse d’informations disponible n’est pas chose aisée. L’information utile pour un dirigeant ne le sera pas forcément pour un commercial de terrain. La valeur d’une information peut être subjective et dépendante du temps. Il est en effet plus facile de générer de l’information que de l’analyser, la traiter et d’en extraire de la connaissance.
Les agents de recherche permettent de cibler les informations utiles pour chaque intervenant mais ceux-ci souffrent des effets de surinformation, de l’hétérogénéité des formats, de la barrière linguistique. Les outils disponibles permettent l’extraction des données, leur reformulation, le filtrage, la diffusion et la représentation du sens. Associés à des techniques documentaires, ils permettront une meilleure gestion des connaissances.
Généralement, les agents, ou du moins ceux qui méritent d’être appelés ainsi, sont des entités logicielles déclinant leur savoir-faire en trois phases : perception de l’environnement, cognition (raisonnement pour décider des actions à effectuer), action.
Pour une bonne représentation de l’information, il est nécessaire de considérer un système complet depuis la recherche de l’information, sa cartographie, la constitution d’une base de connaissances et sa mise à disposition des utilisateurs au sein de l’intranet de l’entreprise, par exemple. La présence de différentes langues dans les documents trouvés implique le développement de moyens de traduction parfaitement adaptés pour en permettre l’accès et la compréhension à tous les utilisateurs. Saviez-vous que près de 80 % des documents accessibles sont rédigés en anglais ? Ce pourcentage devrait se situer autour de 50 % en 2003-2004 ! Ce sont les langues asiatiques qui devraient émerger. D’ores et déjà, le français, avec un peu plus de 4 %, est passé derrière l’espagnol, avec près de 5 % !
Parmi les outils permettant d’effectuer une recherche d’information, les annuaires ou les répertoires qui sont des sites proposant un catalogue de sites classés suivant divers domaines de connaissances sont connus. L’utilisateur descend dans l’arborescence proposée pour affiner sa recherche. Celle-ci s’effectue sur les sites enregistrés dans l’annuaire. La classification est établie par les responsables du service. L’organisation se fait donc en rubriques, sous-rubriques, etc., selon une classification...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Agents de recherche
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive