Présentation
EnglishRÉSUMÉ
La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. La veille, technologique ou économique, consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. Toutes les méthodes de veille appliquées aux données textuelles utilisent des systèmes de traitement automatique des langues, dit TAL, et de fouille de textes. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Mathieu ROCHE : Maître de conférences à l’université de Montpellier-2Laboratoire d’informatique, de robotique et de microélectronique de Montpellier (LIRMM)
INTRODUCTION
La masse des informations textuelles disponibles, notamment sur le Web, nécessite un traitement automatique pour une analyse pertinente de ces données. Cela s’avère particulièrement utile pour découvrir les informations stratégiques afin d’anticiper et de prendre des décisions sur les environnements socio-économiques. On utilise alors le terme de veille technologique pour l’étude de l’évolution des données techniques et scientifiques (articles scientifiques, brevets technologiques, etc.). Un domaine de veille en développement croissant concerne la veille économique (ou intelligence économique). Elle consiste à rechercher, traiter et diffuser des renseignements utiles à l’entreprise. La veille économique comprend notamment la veille à la concurrence et au marché. L’ensemble de ces méthodes de veille appliquées aux données textuelles utilise des systèmes de TAL (traitement automatique des langues) et de fouille de textes décrits ici. Pour rendre ces outils plus efficaces, l’utilisation de connaissances du domaine telles que des classifications conceptuelles se révèle essentielle. Nous verrons en particulier de quelle manière les ressources du Web peuvent aider à la construction automatique ou semi-automatique de classifications conceptuelles.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Conclusion
Différentes approches afin de construire des classifications conceptuelles à partir de corpus issus du Web ont été présentées. Pour effectuer une telle tâche, il est nécessaire d’appliquer un processus global de fouille de textes. Dans ce processus, deux étapes essentielles ont été mises en relief. La première phase du processus global de fouille de textes qui a été décrite concerne l’acquisition du corpus à partir du Web. Une telle approche n’est pas toujours aisée, en particulier dans le cas où l’objectif est de construire une classification conceptuelle spécifique. Cela nécessite alors l’acquisition de corpus spécialisés. Après cette première phase, des étapes de normalisation des textes et d’extraction de la terminologie (processus décrit dans ) doivent être appliquées. La phase suivante consiste à mettre en place des méthodes et algorithmes pour proposer des classes conceptuelles à l’utilisateur. Nous avons présenté une description précise des méthodes mixtes (statistiques et linguistiques) ainsi que des approches intégralement statistiques pour la construction de ces classes sémantiques.
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Conclusion
BIBLIOGRAPHIE
-
(1) - WATRIN (P.) - Extraction d’information et lexique-grammaire de spécialité. - Actes du 23e Colloque international « Grammaires et lexiques comparés » (2004).
-
(2) - KODRATOFF (Y.) - Induction extensionnelle : définition et application d’acquisition de concepts à partir de textes. - Revue RNTI E2, numéro spécial EGC’04, 247-252 (2004).
-
(3) - FAURE (D.) - Conception de méthode d’apprentissage symbolique et automatique pour l’acquisition de cadres de sous-catégorisation de verbes et de connaissances sémantiques à partir de textes : le système ASIUM. - Thèse de doctorat, université Paris-Sud (2000).
-
(4) - NÉDELLEC (C.), NAZARENKO (A.) - Application de l’apprentissage à la recherche et à l’extraction d’information – Un exemple, le projet Caderige : identification d’interactions géniques. - Actes de la Journée thématique Exploration de données issues d’Internet (2001).
-
(5) - AZÉ (J.), ROCHE (M.) - Une...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive