Présentation
Auteur(s)
-
Cécile FABRE : Maître de conférences, université de Toulouse-Le Mirail, équipe de recherche en Syntaxe et Sémantique (UMR 5610)
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
De plus en plus nombreux et de plus en plus facilement accessibles, les documents sous forme électronique constituent une ressource d’informations majeure et suscitent le développement d’applications nouvelles. À l’origine, le traitement automatique des langues (TAL) se fixait pour objectifs la compréhension du langage naturel et la traduction automatique, et visait un dialogue optimal entre l’homme et la machine. Aujourd’hui, l’apparition de nouveaux besoins en traitement de la langue a simultanément augmenté les perspectives applicatives de cette discipline et réduit dans l’immédiat ses ambitions. L’exploitation des textes tout-venant, qu’il s’agisse par exemple des documents produits dans les entreprises ou de l’ensemble des textes transitant sur Internet, est devenue un enjeu majeur de ce domaine. Aux objectifs traditionnels du TAL – traduction et génération automatique de textes, interrogation de bases de données en langage naturel – s’ajoutent ainsi de nouvelles applications qui alimentent le champ plus vaste de l’ingénierie linguistique. Elles sont liées en particulier à la profusion des documents électroniques transitant sur les réseaux : l’usager a besoin de l’aide de l’ordinateur pour les sélectionner, les classer, y repérer l’information qui l’intéresse, les synthétiser, les structurer, etc. Des techniques de traitement des données textuelles ont ainsi fait leur apparition. Elles s’imposent peu à peu comme des composantes spécifiques dans un certain nombre de logiciels commerciaux et prennent place dans notre environnement de travail professionnel sous forme de traducteurs, correcteurs orthographiques et grammaticaux, moteurs de recherche, outils de veille scientifique et d’aide à la décision. L’information stratégique est de nature essentiellement textuelle. Cet article fait le point sur les techniques linguistiques mises en œuvre pour faciliter l’accès à cette information.
Dans ce contexte qui voit l’explosion des échanges de données écrites sous forme électronique, l’accent est mis sur le traitement de l’écrit.
D’autres aspects de ce domaine, comme la reconnaissance et la synthèse de la parole ou la consultation de bases de données non textuelles, ne seront pas décrits ici mais font l’objet de développements dans d’autres articles de ce traité (Reconnaissance de la parole et dialogue oral homme-machine [H 3 728], Systèmes à base de connaissance [H 3 740], Synthèse de la parole à partir du texte [H 1 960], Bases de données géographiques .
VERSIONS
- Version courante de mai 2012 par Cécile FABRE
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
5. Conclusion
Les techniques d’ingénierie linguistique s’intègrent peu à peu dans notre environnement de travail, dès lors qu’il s’agit de mieux tirer parti des informations contenues dans les documents électroniques. Les objectifs du traitement automatique des langues se sont diversifiés et l’ambition de simulation de la compétence langagière est à l’heure actuelle supplantée par un impératif de robustesse : les systèmes doivent être capables de traiter des données textuelles réelles, dans des environnements bruités pour servir des objectifs applicatifs précis (rechercher des textes, extraire des informations, corriger, synthétiser, etc.). Dans ce contexte, les techniques privilégiées sont souvent basées sur des traitements linguistiques partiels, assortis de méthodes statistiques. L’articulation des deux démarches prend des formes variées, qu’il s’agisse par exemple de filtrer par des mesures statistiques des patrons déterminés a priori, ou d’ajouter des probabilités à des règles syntaxiques. Parmi les changements observés dans la discipline au cours des dix dernières années, le recours aux corpus de textes constitue une donnée majeure : ils représentent un réservoir de données réelles qui permettent d’évaluer les performances des systèmes, et fournissent les informations linguistiques nécessaires à leur mise en œuvre. Le développement de systèmes dédiés à l’annotation automatique des corpus, la mise en place de protocoles pour la constitution de ces ressources textuelles, la mise au point de techniques d’apprentissage pour leur exploitation, témoignent de cette intense activité autour des corpus. Une des limites au développement des techniques de TAL reste en effet la difficulté à disposer de connaissances linguistiques suffisantes (par exemple dans le domaine de l’extraction d’informations ou de la traduction). La constitution de ressources lexicales et textuelles assortie d’une réflexion approfondie sur les conditions de leur réutilisabilité apparaît donc comme une voie prometteuse.
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Conclusion
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive