Traitement automatique de textes : techniques linguistiques : Techniques

1.1 - Besoins en traitement automatique des langues
1.2 - Difficultés du traitement linguistique
1.3 - Des données textuelles formatées mais bruitées

2 - PRINCIPALES APPLICATIONS

2.1 - Recherche d’informations

Figure 1 - Recherche d’informations
2.2 - Acquisition terminologique
2.3 - Extraction d’information
2.4 - Résumé automatique
2.5 - Correction automatique
2.6 - Traduction automatique

3 - TECHNIQUES

3.1 - Identifier les « mots » : segmenter
3.2 - Catégoriser
3.3 - Parser
3.4 - Acquérir des données lexicales

4 - RESSOURCES

4.1 - Ressources textuelles : les corpus
4.2 - Ressources lexicales
4.3 - Ressources logicielles

5 - CONCLUSION

Présentation

Auteur(s)

Cécile FABRE : Maître de conférences, université de Toulouse-Le Mirail, équipe de recherche en Syntaxe et Sémantique (UMR 5610)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

De plus en plus nombreux et de plus en plus facilement accessibles, les documents sous forme électronique constituent une ressource d’informations majeure et suscitent le développement d’applications nouvelles. À l’origine, le traitement automatique des langues (TAL) se fixait pour objectifs la compréhension du langage naturel et la traduction automatique, et visait un dialogue optimal entre l’homme et la machine. Aujourd’hui, l’apparition de nouveaux besoins en traitement de la langue a simultanément augmenté les perspectives applicatives de cette discipline et réduit dans l’immédiat ses ambitions. L’exploitation des textes tout-venant, qu’il s’agisse par exemple des documents produits dans les entreprises ou de l’ensemble des textes transitant sur Internet, est devenue un enjeu majeur de ce domaine. Aux objectifs traditionnels du TAL – traduction et génération automatique de textes, interrogation de bases de données en langage naturel – s’ajoutent ainsi de nouvelles applications qui alimentent le champ plus vaste de l’ingénierie linguistique. Elles sont liées en particulier à la profusion des documents électroniques transitant sur les réseaux : l’usager a besoin de l’aide de l’ordinateur pour les sélectionner, les classer, y repérer l’information qui l’intéresse, les synthétiser, les structurer, etc. Des techniques de traitement des données textuelles ont ainsi fait leur apparition. Elles s’imposent peu à peu comme des composantes spécifiques dans un certain nombre de logiciels commerciaux et prennent place dans notre environnement de travail professionnel sous forme de traducteurs, correcteurs orthographiques et grammaticaux, moteurs de recherche, outils de veille scientifique et d’aide à la décision. L’information stratégique est de nature essentiellement textuelle. Cet article fait le point sur les techniques linguistiques mises en œuvre pour faciliter l’accès à cette information.

Dans ce contexte qui voit l’explosion des échanges de données écrites sous forme électronique, l’accent est mis sur le traitement de l’écrit.

Nota :

D’autres aspects de ce domaine, comme la reconnaissance et la synthèse de la parole ou la consultation de bases de données non textuelles, ne seront pas décrits ici mais font l’objet de développements dans d’autres articles de ce traité (Reconnaissance de la parole et dialogue oral homme-machine [H 3 728], Systèmes à base de connaissance [H 3 740], Synthèse de la parole à partir du texte [H 1 960], Bases de données géographiques .

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

Version courante de mai 2012 par Cécile FABRE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7258

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Ressources

3. Techniques

Une panoplie de traitements est mise en œuvre sur les textes au cours de leur exploitation. Délimiter les mots du texte, leur attribuer une étiquette linguistique, identifier les relations syntaxiques qui s’établissent entre eux constituent des traitements préalables à l’exploitation des données dans les applications que nous venons de décrire. La chaîne de traitement standard (figure 6) transforme le texte brut en une liste de mots présentés ligne par ligne (texte segmenté et verticalisé), auxquels on associe dans un second temps des indications de catégorie lexicale (texte catégorisé). La phase finale d’identification des relations syntaxiques (texte analysé) se limite la plupart du temps à un simple parenthésage de groupes de mots 3.3 .

Les techniques développées sont caractérisées par une articulation entre des méthodes linguistiques à base de règles et des méthodes statistiques [9] [10].

3.1 Identifier les « mots » : segmenter

La première étape du traitement automatique des textes est la segmentation (tokenization ), qui transforme une séquence indifférenciée de caractères en unités lexicales distinctes ; celles-ci formeront les objets de base du traitement. Comme dans le cas de la reconnaissance de l’écriture manuscrite, où la segmentation conditionne la reconnaissance et réciproquement, cette phase de segmentation va donc déterminer les étapes ultérieures du traitement. Définir ce qu’est un mot est la première difficulté qui se pose pour l’analyse automatique des textes, car la linguistique ne lui propose pas de réponse facile à mettre en œuvre. La solution la plus évidente consiste à identifier une unité lexicale...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Techniques

Page
précédentePrincipales applications

Page
suivante

Ressources

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Techniques Traitement automatique de textes : techniques linguistiques

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

VERSIONS

DOI (Digital Object Identifier)

3. Techniques

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

Techniques
Traitement automatique de textes : techniques linguistiques

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.