1.1 - Accéder aux connaissances contenues dans les documents
1.2 - Difficultés du traitement automatique de données textuelles

Tableau 1 - Illustration de l'opposition entre information structurée et non structurée
1.3 - Appréhender les différents niveaux de l'analyse linguistique

2 - RECHERCHE ET EXTRACTION D'INFORMATIONS TEXTUELLES

2.1 - Recherche de documents ou recherche d'information
2.2 - Extraction d'informations

3 - TECHNIQUES DE BASE DU TRAITEMENT AUTOMATIQUE DES TEXTES

3.1 - Identifier les « mots » : segmenter
3.2 - Identifier les propriétés grammaticales des mots : étiqueter
3.3 - Analyser les relations syntaxiques entre les mots : parseur
3.4 - Analyser les relations de sens entre les mots

4 - RESSOURCES POUR LE TRAITEMENT AUTOMATIQUE DES TEXTES

4.1 - Ressources textuelles
4.2 - Ressources lexicales
4.3 - Ressources logicielles

5 - CONCLUSION

Bibliographie & annexes

Article de référence | Réf : H7258 v2

Ressources pour le traitement automatique des textes
Traitement automatique des textes - Techniques linguistiques

Auteur(s) : Cécile FABRE

Date de publication : 10 mai 2012

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

English

RÉSUMÉ

Cet article est consacré à la présentation des techniques de traitement automatique des textes qui sont utilisées aujourd’hui pour permettre de gérer de façon plus pertinente et plus efficace l’information qu’ils contiennent. Sont tout d'abord présentés les besoins qui se manifestent actuellement dans les activités professionnelles pour des modes d’accès fins et variés au contenu des documents. Ensuite, sont abordées les applications, les méthodes et les ressources linguistiques qui sont mobilisées pour mener à bien ces procédures d’analyse de l’information textuelle.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Cécile FABRE : Professeur en sciences du langage Université Toulouse 2 - Le Mirail et laboratoire CLLE-ERSS (UMR 5263)

INTRODUCTION

Les documents disponibles sous forme électronique constituent une source d"informations majeure et suscitent le développement d"applications visant à faciliter leur gestion et leur exploitation. Ces données textuelles sont de natures très diverses :

documentation produite par l'entreprise, ses partenaires et ses clients (rapports techniques, documentation de maintenance, contrats, compte rendu de réunion, messages électroniques, etc.) ;
informations de nature technologique et économique que les entreprises doivent collecter et exploiter dans un environnement documentaire large et diversifié (brevets, rapports d'étude, littérature grise, actualités commerciales et techniques accessibles sur le web, etc.).

C'est par le biais de ces documents que l'essentiel des informations circule et il est donc crucial pour les organisations de disposer de techniques pour accéder aux connaissances métier qui sont contenues dans ces données. De fait, l"information stratégique est en grande partie de nature textuelle. Il est indispensable d'en prendre connaissance et de l'analyser pour :

assurer des tâches de veille scientifique et technologique, de gestion et de transfert de connaissances ;
assister la prise de décision, l'identification des risques, etc.

Or, ces données ont pour caractéristique d'être volumineuses et non structurées. Elles sont de natures très hétérogènes. Leur rédaction est rarement soumise à des normes explicites et peut être effectuée sous contrainte temporelle (production de rapports, de notes, de compte rendu, de courriers). Ces caractéristiques en font un matériau très difficile à traiter : les informations pertinentes doivent être extraites du flot textuel ; cette extraction est complexe du fait de l'ambiguïté et de la variabilité qui caractérisent l'expression langagière. L"exploitation de ces textes tout-venant est donc devenue un enjeu technologique majeur. De nouvelles solutions techniques, souvent qualifiées de « sémantiques » et d'« intelligentes » sont proposées aux entreprises pour :

maîtriser la profusion des documents électroniques – procédures pour classer les documents, les sélectionner, les synthétiser, les structurer ;
extraire et organiser les informations qu'ils contiennent.

Ces solutions font appel à des techniques de traitement automatique des langues TAL. L'objectif de ce dossier est de faire le point sur les traitements linguistiques automatisés qui sont mis en œuvre, et, en facilitant la compréhension de ces traitements, de permettre un choix raisonné parmi les solutions proposées dans le domaine du traitement de l'information.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de févr. 2001 par Cécile FABRE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7258

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Représentation et traitement des documents numériques > Traitement automatique des textes - Techniques linguistiques > Ressources pour le traitement automatique des textes

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Conclusion

English

4. Ressources pour le traitement automatique des textes

Les systèmes de TAL s'appuient sur des ressources de plusieurs types :

les ressources textuelles ; les données textuelles, appelées corpus, sont utilisées pour réaliser des bancs d'essai, pour entraîner les systèmes d'apprentissage, pour extraire des données lexicales, etc. ;
les ressources lexicales ; les lexiques constituent le cœur des informations linguistiques qu'exploite un système. Ils sont de nature variée selon les applications, et incorporent des informations plus ou moins complexes, depuis de simples listes de mots jusqu'à des ressources sémantiques structurées. En raison du coût engendré par la construction du lexique pour une application donnée, la tendance est à la réutilisabilité et à l'acquisition automatique de données lexicales ;
les ressources logicielles ; lemmatiseurs, segmenteurs, étiqueteurs constituent des briques de base du traitement des textes. La complexité d'une application de TAL rend nécessaire la réutilisabilité de composants existants ; ce type d'outils devient de plus en plus accessible et partagés ; ils sont l'objet de procédures d'évaluation et de standardisation.

4.1 Ressources textuelles

On parle de corpus pour désigner des collections de données textuelles rassemblées dans un objectif précis. Leur rôle est devenu prépondérant dans les applications du TAL. Ils ont principalement deux fonctions :

en tant que données de référence, ils permettent d'évaluer les systèmes, qui peuvent ainsi confronter leurs résultats et tester leurs performances sur des corpus de nature différente ;
en tant que réservoirs de données linguistiques, ils permettent d'alimenter les lexiques et les bases de règles des systèmes, par exemple dans le cas d'étiqueteurs et de parseurs basés sur des techniques statistiques et probabilistes.

La constitution de corpus de textes est une tâche stratégique puisque le corpus constitue l'univers langagier sur lequel porte le traitement. Il s'agit tout d'abord de rassembler des textes qui forment une collection représentative du phénomène que l'on veut traiter. On injecte ensuite dans les textes des informations sur lesquelles va reposer l'analyse.

Données textuelles enrichies

On oppose les corpus bruts,...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Ressources pour le traitement automatique des textes

Page
précédenteTechniques de base du traitement automatique des textes

Page
suivante

Conclusion

BIBLIOGRAPHIE

(1) - JURAFSKY (D.), MARTIN (J.H.) - Speech and language processing – An introduction to natural language processing, computational linguistics, and speech recognition. - (2009).
(2) - LALLICH-BOIDIN (G.), MARET (D.) - Recherche d'information et traitement de la langue. : fondements linguistiques et applications. - Les Cahiers de l'ENSSIB, no 3, Les Presses de l'ENSSIB, Lyon (2005).
(3) - MANNING (C.), SCHÜTZE (H.) - Foundations of statistical natural language processing. - MIT Press, Cambridge, MA (1999).
(4) - MITKOV (R.) (Éd.) - The Oxford Handbook of Computational Linguistics. - Oxford University Press, Oxford (2002).
(5) - PIERREL (J.-M.) (Éd.) - Ingénierie des langues. - Hermès, Paris (2000).
(6) - POIBEAU (T.) - Traitement automatique du contenu textuel. - Lavoisier,...

DANS NOS BASES DOCUMENTAIRES

Valorisation de l'information non structurée.

ANNEXES

1 Outils logiciels
2 Sites Internet
1. 2.1 Portails sur les technologies du langage et les ressources linguistiques
3 Normes et standards
4 Événements
5 Annuaire
1. 5.1 Associations (liste non exhaustive)

1 Outils logiciels

Références des outils et ressources cités dans l'article :

TreeTagger : étiquetage morpho-syntaxique et lemmatization. Université de Stuttgart http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

Lexico : outil de statistique textuelle. Université Paris 3 http://www.tal.univ-paris3.fr/lexico/

GATE : plate-forme pour l'analyse de textes. Université de Sheffield http://gate.ac.uk/

Lexique-grammaire : lexique syntaxique, l'équipe LIGM, Université Paris Est, Marne-la-Vallée http://infolingu.univ-mlv.fr/

WORDNET : Cognitive Science Laboratory, Princeton University http://wordnet.princeton.edu/

HAUT DE PAGE

2 Sites...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS