Présentation
En anglaisRÉSUMÉ
Ce dossier est consacré à la présentation des techniques de traitement automatique des textes qui sont utilisées aujourd’hui pour permettre de gérer de façon plus pertinente et plus efficace l’information qu’ils contiennent. L’article présente tout d’abord les besoins qui se manifestent actuellement dans les activités professionnelles pour des modes d’accès fins et variés au contenu des documents. Il fournit ensuite une présentation des applications, des méthodes et des ressources linguistiques qui sont mobilisées pour mener à bien ces procédures d’analyse de l’information textuelle.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
This paper describes techniques from the field of natural language processing that are used today to retrieve textual information in a more reliable and accurate way. It first presents the need for intelligent access to information in various work activities. It then provides a description of the applications and the linguistic methods and resources that are used to perform the automatic analysis of textual information.
Auteur(s)
-
Cécile FABRE : Professeur en sciences du langage Université Toulouse 2 - Le Mirail et laboratoire CLLE-ERSS (UMR 5263)
INTRODUCTION
Les documents disponibles sous forme électronique constituent une source d"informations majeure et suscitent le développement d"applications visant à faciliter leur gestion et leur exploitation. Ces données textuelles sont de natures très diverses :
-
documentation produite par l'entreprise, ses partenaires et ses clients (rapports techniques, documentation de maintenance, contrats, compte rendu de réunion, messages électroniques, etc.) ;
-
informations de nature technologique et économique que les entreprises doivent collecter et exploiter dans un environnement documentaire large et diversifié (brevets, rapports d'étude, littérature grise, actualités commerciales et techniques accessibles sur le web, etc.).
C'est par le biais de ces documents que l'essentiel des informations circule et il est donc crucial pour les organisations de disposer de techniques pour accéder aux connaissances métier qui sont contenues dans ces données. De fait, l"information stratégique est en grande partie de nature textuelle. Il est indispensable d'en prendre connaissance et de l'analyser pour :
-
assurer des tâches de veille scientifique et technologique, de gestion et de transfert de connaissances ;
-
assister la prise de décision, l'identification des risques, etc.
Or, ces données ont pour caractéristique d'être volumineuses et non structurées. Elles sont de natures très hétérogènes. Leur rédaction est rarement soumise à des normes explicites et peut être effectuée sous contrainte temporelle (production de rapports, de notes, de compte rendu, de courriers). Ces caractéristiques en font un matériau très difficile à traiter : les informations pertinentes doivent être extraites du flot textuel ; cette extraction est complexe du fait de l'ambiguïté et de la variabilité qui caractérisent l'expression langagière. L"exploitation de ces textes tout-venant est donc devenue un enjeu technologique majeur. De nouvelles solutions techniques, souvent qualifiées de « sémantiques » et d'« intelligentes » sont proposées aux entreprises pour :
-
maîtriser la profusion des documents électroniques – procédures pour classer les documents, les sélectionner, les synthétiser, les structurer ;
-
extraire et organiser les informations qu'ils contiennent.
Ces solutions font appel à des techniques de traitement automatique des langues TAL. L'objectif de ce dossier est de faire le point sur les traitements linguistiques automatisés qui sont mis en œuvre, et, en facilitant la compréhension de ces traitements, de permettre un choix raisonné parmi les solutions proposées dans le domaine du traitement de l'information.
VERSIONS
- Version archivée 1 de févr. 2001 par Cécile FABRE
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Représentation et traitement des documents numériques > Traitement automatique des textes - Techniques linguistiques > Techniques de base du traitement automatique des textes
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Techniques de base du traitement automatique des textes
Une panoplie de traitements est mise en œuvre sur les textes au cours de leur exploitation. Délimiter les mots du texte, leur attribuer une étiquette linguistique, identifier les relations syntaxiques qui s'établissent entre eux constituent des traitements préalables à l'exploitation des données dans les applications que nous venons de décrire . La chaîne de traitement standard transforme le texte brut en une liste de formes présentées ligne par ligne (texte segmenté et verticalisé), auxquelles sont associées des propriétés linguistiques d'ordre morphologique, grammatical et éventuellement sémantique.
Les techniques développées sont généralement caractérisées par une articulation entre des méthodes linguistiques à base de règles et des méthodes statistiques. On parle de méthodes hybrides pour qualifier l'association entre ces deux types d'approche.
3.1 Identifier les « mots » : segmenter
La première étape du traitement automatique des textes est la segmentation (tokenization ), qui transforme une séquence continue de caractères en unités lexicales distinctes, appelées tokens ; celles-ci forment les objets de base du traitement et vont donc déterminer les étapes ultérieures de l'analyse.
C'est par conséquent un moment crucial du traitement automatique, qui conditionne la qualité de toute la chaîne de traitement, et dont la facilité apparente est trompeuse.
Définir ce qu'est un mot est la première difficulté qui se pose pour l'analyse automatique des textes. La solution la plus évidente consiste à identifier une unité lexicale comme une suite de caractères bornée par ce que l'on appelle des délimiteurs (ou séparateurs) de mots : caractère, espace, ponctuations, parenthèses, tiret, etc.
délimiteurs proposés par défaut dans le logiciel de statistique...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Techniques de base du traitement automatique des textes
BIBLIOGRAPHIE
-
(1) - JURAFSKY (D.), MARTIN (J.H.) - Speech and language processing – An introduction to natural language processing, computational linguistics, and speech recognition. - (2009).
-
(2) - LALLICH-BOIDIN (G.), MARET (D.) - Recherche d'information et traitement de la langue. : fondements linguistiques et applications. - Les Cahiers de l'ENSSIB, no 3, Les Presses de l'ENSSIB, Lyon (2005).
-
(3) - MANNING (C.), SCHÜTZE (H.) - Foundations of statistical natural language processing. - MIT Press, Cambridge, MA (1999).
-
(4) - MITKOV (R.) (Éd.) - The Oxford Handbook of Computational Linguistics. - Oxford University Press, Oxford (2002).
-
(5) - PIERREL (J.-M.) (Éd.) - Ingénierie des langues. - Hermès, Paris (2000).
-
(6) - POIBEAU (T.) - Traitement automatique du contenu textuel. - ...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Références des outils et ressources cités dans l'article :
TreeTagger : étiquetage morpho-syntaxique et lemmatization. Université de Stuttgart http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
Lexico : outil de statistique textuelle. Université Paris 3 http://www.tal.univ-paris3.fr/lexico/
GATE : plate-forme pour l'analyse de textes. Université de Sheffield http://gate.ac.uk/
Lexique-grammaire : lexique syntaxique, l'équipe LIGM, Université Paris Est, Marne-la-Vallée http://infolingu.univ-mlv.fr/
WORDNET : Cognitive Science Laboratory, Princeton University http://wordnet.princeton.edu/
HAUT DE PAGECet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive