1.1 - Filtrage des pourriels
1.2 - De l’ordre des mots
1.3 - Modélisations neuronales : complexification du contexte
1.4 - Questions de vocabulaire

2.1 - L’attention, un mécanisme fondamental
2.2 - Le Transformer causal comme « pur » modèle de langue
2.3 - Les Transformers comme représentations : BERT et ses clones
2.4 - Les calculs du Transformer

Tableau 1
2.5 - Conclusion

3.1 - Traduction automatique neuronale : génération conditionnelle de textes
3.2 - Représentations multilingues, traductions multilingues
3.3 - Un modèle pour traduire toutes les langues
3.4 - La traduction comme modèle

4 - CONCLUSION

5 - GLOSSAIRE

6 - NOTATIONS

Bibliographie & annexes

RECHERCHE ET INNOVATION | Réf : IN195 v1

Glossaire
Transformer : des réseaux de neurones pour le traitement automatique des langues

Auteur(s) : François YVON

Relu et validé le 20 nov. 2024 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Cet article présente un survol de l’état de l’art en traitement automatique des langues, en explorant une architecture computationnelle, le modèle Transformer, qui joue un rôle central dans une large gamme d’applications. Cette architecture condense de nombreuses avancées des méthodes d’apprentissage neuronales et peut être exploitée de multiples manières : pour apprendre à représenter les entités linguistiques ; pour générer des énoncés cohérents et répondre à des questions ; pour réaliser des transformations des énoncés, une illustration étant leur traduction automatique. Ces différentes facettes de l’architecture seront successivement présentées, ce qui permettra également d’évoquer ses limitations.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

François YVON : Directeur de recherche, université Paris-Saclay, CNRS, LISN, France

INTRODUCTION

Les technologies linguistiques figurent en bonne place parmi les applications de l’intelligence artificielle (IA) et touchent aujourd’hui le grand public. Elles sont essentielles pour accéder efficacement aux informations textuelles disponibles sur le Web ou dans des grandes bases documentaires ; elles permettent de nouvelles formes d’interactions avec la machine, par la voix ou par le biais de dispositifs d’aide à la saisie ou à la rédaction ; elles nous aident à communiquer avec d’autres humains, par exemple par le biais de systèmes de traduction automatique ; de manière plus souterraine, ces algorithmes structurent, organisent, filtrent, sélectionnent, transforment et rendent possible la gestion des monceaux de textes et d’enregistrements audio qui circulent continuellement sur la toile ou sur les réseaux sociaux.

Cette transition s’est accélérée au fur et à mesure que ces technologies devenaient progressivement plus performantes pour des utilisations toujours plus larges et variées. Ces progrès résultent de la conjonction de plusieurs facteurs : d’une part le développement d’algorithmes d’apprentissage automatique de plus en plus sophistiqués, capables de tirer profit de l’amélioration des dispositifs matériel (hardware) de calcul ; d’autre part la possibilité d’accéder à de très grandes masses de données textuelles, annotées ou non annotées, pour réaliser ces apprentissages. Parmi les algorithmes, les algorithmes neuronaux et en particulier l’architecture Transformer figurent au premier rang. Cette architecture est en effet devenue centrale pour réaliser trois types de traitements qui jusqu’alors nécessitaient des architectures dédiées : d’une part les algorithmes de fouille de texte et de recherche d’information, qui bénéficient de la richesse des représentations internes calculées par ce modèle, ensuite les algorithmes d’analyse linguistique qui tirent parti de la capacité des Transformers à prendre en compte des dépendances à très longue distance, enfin les algorithmes de génération de texte, qui utilisent ces modèles principalement pour leur capacité prédictive. Si l’on ajoute que cette même architecture se prête également au traitement de données orales, voire multimodales, et qu’elle permet des calculs efficaces à très grande échelle, on comprend mieux pourquoi ce modèle s’est imposé comme le véritable couteau suisse de l’ingénieur linguiste.

Points clés

Domaine : Transformers pour le traitement automatique des langues et de la parole

Degré de diffusion de la technologie : Croissance

Technologies impliquées : Apprentissage automatique, réseaux neuronaux

Domaines d'application : Traduction automatique, recherche d'information, systèmes de dialogue, transcription vocale, etc.

Principaux acteurs français :

Centres de compétence : INRIA Centre de Paris, laboratoire d'Informatique de Grenoble (université Grenoble Alpes et CNRS), laboratoire interdisciplinaire des Sciences du Numérique (université Paris Saclay et CNRS), LIP6 (Sorbonne Université et CNRS), laboratoire Informatique et Systèmes (université Aix-Marseille et CNRS)

Industriels : Facebook AI Research (Paris), Naver Labs (Grenoble), Systran (Paris)

Autres acteurs dans le monde : Google (Mountain View, USA), Huawei (Shenzhen, Chine), HuggingFace (New York, USA), Microsoft (Redmond, USA), Nvidia (Santa Clara, USA), Open AI (Seattle, USA), Tencent (Shenzhen, Chine)

Contact : [email protected]

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Notations

5. Glossaire

Annotation ; Labeling

Les données annotées sont nécessaires pour guider l’apprentissage supervisé. Les annotations peuvent porter sur un texte, une phrase, ou encore des mots isolés ; elles peuvent être de nature linguistique (morphologique, syntaxique, sémantique), ou encore représenter la sortie d’une tâche de traitement (par exemple la polarité d’un texte, ou encore l’équivalence sémantique entre deux phrases).

Affinage ; Finetuning

Un modèle entraîné pour une tâche particulière (par exemple un sur une tâche de modèle de langue) peut être transféré vers une autre tâche en prolongeant l’apprentissage avec d’autres types de données ou d’annotations : c’est l’étape d’affinage. Ainsi, les paramètres d’un modèle comme BERT pourront être spécialisés en utilisant quelques exemples d’une tâche d’analyse de sentiments. L’affinage de modèles est une des méthodes pour apprendre par transfert.

Apprentissage par transfert ; Transfer Learning

L’apprentissage par tranfert consiste à apprendre un modèle probabiliste ou neuronal avec des textes annotés pour une tâche, un domaine ou une langue A, puis à l’exploiter pour traiter des textes d’un autre domaine ou d’une autre langue B. Pour le transfert entre tâches ou domaines, on peut utiliser des méthodes de finessage. Pour le transfert entre langues (cross-lingual transfer), il est rendu possible par l’utilisation de représentations multilingues, qui représentent des mots de langues différentes dans un même espace, en rapprochant les mots qui sont des traductions mutuelles.

Apprentissage few shot ; few-shot learning

L’apprentissage « few-shot » d’un modèle consiste à l’exploiter pour réaliser des traitements ou des annotations après un entraînement minimal avec quelques exemples, en exploitant des mécanismes de transfert. Un cas extrême (zero-shot) est quand aucun exemple de la tâche n’a été présenté lors de l’apprentissage. C’est le cas par exemple d’un modèle de traduction multilingue qui peut réaliser des traductions entre des paires de langues pour lesquelles aucune donnée parallèle n’a été utilisée à l’apprentissage.

Modèle de langue ; Language Model

Un...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Glossaire

Page
précédenteConclusion

Page
suivante

Notations

BIBLIOGRAPHIE

(1) - AHARONI (R.), JOHNSON (M.), FIRAT (O.) - Massively multilingual neural machine translation. - Proceedings of the 2019 conference of the north American chapter of the association for computational linguistics : Human language technologies, volume 1 (long and short papers), Association for Computational Linguistics, p. 3874-3884 (2019).
(2) - BAEVSKI (A.), ZHOU (Y.), MOHAMED (A.), AULI (M.) - Wav2vec 2.0 : A framework for self-supervised learning of speech representations. - Advances in neural information processing systems, Curran Associates, Inc., p. 12449-12460 (2020).
(3) - BAHDANAU (D.), CHO (K.), BENGIO (Y.) - Neural machine translation by jointly learning to align and translate. - Proceedings of the first international conference on learning representations (2015).
(4) - BARBIERI (F.), CAMACHO-COLLADOS (J.), ESPINOSA ANKE (L.), NEVES (L.) - Tweet-Eval : Unified benchmark and comparative evaluation for tweet classification. - Findings of the association for computational linguistics : EMNLP 2020, Association for Computational Linguistics, p. 1644-1650 (2020).
(5)...

DANS NOS BASES DOCUMENTAIRES

Traitement automatique des textes. Techniques linguistiques.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Glossaire Transformer : des réseaux de neurones pour le traitement automatique des langues

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

5. Glossaire

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

Glossaire
Transformer : des réseaux de neurones pour le traitement automatique des langues

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.