Présentation
En anglaisRÉSUMÉ
Cet article présente un survol de l’état de l’art en traitement automatique des langues, en explorant une architecture computationnelle, le modèle Transformer, qui joue un rôle central dans une large gamme d’applications. Cette architecture condense de nombreuses avancées des méthodes d’apprentissage neuronales et peut être exploitée de multiples manières : pour apprendre à représenter les entités linguistiques ; pour générer des énoncés cohérents et répondre à des questions ; pour réaliser des transformations des énoncés, une illustration étant leur traduction automatique. Ces différentes facettes de l’architecture seront successivement présentées, ce qui permettra également d’évoquer ses limitations.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
This paper presents an overview of the state of the art in natural language processing, exploring one specific computational architecture, the Transformer model, which plays a central role in a wide range of applications. This architecture condenses many advances in neural learning methods and can be exploited in many ways: to learn representations for linguistic entities; to generate coherent utterances and answer questions; to perform utterance transformations, an illustration being their automatic translation. These different facets of the architecture will be successively presented, which will also allow us to discuss its limitations.
Auteur(s)
-
François YVON : Directeur de recherche, université Paris-Saclay, CNRS, LISN, France
INTRODUCTION
Les technologies linguistiques figurent en bonne place parmi les applications de l’intelligence artificielle (IA) et touchent aujourd’hui le grand public. Elles sont essentielles pour accéder efficacement aux informations textuelles disponibles sur le Web ou dans des grandes bases documentaires ; elles permettent de nouvelles formes d’interactions avec la machine, par la voix ou par le biais de dispositifs d’aide à la saisie ou à la rédaction ; elles nous aident à communiquer avec d’autres humains, par exemple par le biais de systèmes de traduction automatique ; de manière plus souterraine, ces algorithmes structurent, organisent, filtrent, sélectionnent, transforment et rendent possible la gestion des monceaux de textes et d’enregistrements audio qui circulent continuellement sur la toile ou sur les réseaux sociaux.
Cette transition s’est accélérée au fur et à mesure que ces technologies devenaient progressivement plus performantes pour des utilisations toujours plus larges et variées. Ces progrès résultent de la conjonction de plusieurs facteurs : d’une part le développement d’algorithmes d’apprentissage automatique de plus en plus sophistiqués, capables de tirer profit de l’amélioration des dispositifs matériel (hardware) de calcul ; d’autre part la possibilité d’accéder à de très grandes masses de données textuelles, annotées ou non annotées, pour réaliser ces apprentissages. Parmi les algorithmes, les algorithmes neuronaux et en particulier l’architecture Transformer figurent au premier rang. Cette architecture est en effet devenue centrale pour réaliser trois types de traitements qui jusqu’alors nécessitaient des architectures dédiées : d’une part les algorithmes de fouille de texte et de recherche d’information, qui bénéficient de la richesse des représentations internes calculées par ce modèle, ensuite les algorithmes d’analyse linguistique qui tirent parti de la capacité des Transformers à prendre en compte des dépendances à très longue distance, enfin les algorithmes de génération de texte, qui utilisent ces modèles principalement pour leur capacité prédictive. Si l’on ajoute que cette même architecture se prête également au traitement de données orales, voire multimodales, et qu’elle permet des calculs efficaces à très grande échelle, on comprend mieux pourquoi ce modèle s’est imposé comme le véritable couteau suisse de l’ingénieur linguiste.
Points clés
Domaine : Transformers pour le traitement automatique des langues et de la parole
Degré de diffusion de la technologie : Croissance
Technologies impliquées : Apprentissage automatique, réseaux neuronaux
Domaines d'application : Traduction automatique, recherche d'information, systèmes de dialogue, transcription vocale, etc.
Principaux acteurs français :
Centres de compétence : INRIA Centre de Paris, laboratoire d'Informatique de Grenoble (université Grenoble Alpes et CNRS), laboratoire interdisciplinaire des Sciences du Numérique (université Paris Saclay et CNRS), LIP6 (Sorbonne Université et CNRS), laboratoire Informatique et Systèmes (université Aix-Marseille et CNRS)
Industriels : Facebook AI Research (Paris), Naver Labs (Grenoble), Systran (Paris)
Autres acteurs dans le monde : Google (Mountain View, USA), Huawei (Shenzhen, Chine), HuggingFace (New York, USA), Microsoft (Redmond, USA), Nvidia (Santa Clara, USA), Open AI (Seattle, USA), Tencent (Shenzhen, Chine)
Contact : [email protected]
MOTS-CLÉS
Traitement automatique des langues apprentissage automatique Modèles de langue Traduction automatique neuronale
KEYWORDS
natural language processing | machine learning | Language Models | Neural Machine Translation
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle > Transformer : des réseaux de neurones pour le traitement automatique des langues > Modèle Transformer
Accueil > Ressources documentaires > Innovation > Innovations technologiques > Innovations en électronique et TIC > Transformer : des réseaux de neurones pour le traitement automatique des langues > Modèle Transformer
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Modèle Transformer
2.1 L’attention, un mécanisme fondamental
Ces premiers concepts de la modélisation probabilistes étant établis, nous introduisons dans cette section le modèle Transformer, qui repose sur un mécanisme plus général pour encoder le contexte de chaque décision.
HAUT DE PAGE2.1.1 Calcul du vecteur contexte
L’idée centrale du modèle Transformer consiste à faire dépendre la représentation du mot wt de tous les mots de son contexte gauche selon , tout en faisant disparaître la récurrence du calcul de afin de pouvoir le paralléliser. Dans le modèle Transformer, ce calcul est réalisé par un empilement de L couches de calcul. Chaque couche l recombine les représentations issues de la couche précédente pour constuire des sorties en exploitant des opérations élémentaires : la projection linéaire, la combinaison linéaire, la concaténation de vecteurs, plus des réseaux à propagation avant. La récursion du modèle récurrent, qui réalise un empilement temporel des états cachés par lequel l’influence des mots plus lointains est plus diffuse, est ainsi remplacée par un empilement de couches de calcul ayant une portée globale. Le résultat reste le même que pour les...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Modèle Transformer
BIBLIOGRAPHIE
-
(1) - AHARONI (R.), JOHNSON (M.), FIRAT (O.) - Massively multilingual neural machine translation. - Proceedings of the 2019 conference of the north American chapter of the association for computational linguistics : Human language technologies, volume 1 (long and short papers), Association for Computational Linguistics, p. 3874-3884 (2019).
-
(2) - BAEVSKI (A.), ZHOU (Y.), MOHAMED (A.), AULI (M.) - Wav2vec 2.0 : A framework for self-supervised learning of speech representations. - Advances in neural information processing systems, Curran Associates, Inc., p. 12449-12460 (2020).
-
(3) - BAHDANAU (D.), CHO (K.), BENGIO (Y.) - Neural machine translation by jointly learning to align and translate. - Proceedings of the first international conference on learning representations (2015).
-
(4) - BARBIERI (F.), CAMACHO-COLLADOS (J.), ESPINOSA ANKE (L.), NEVES (L.) - Tweet-Eval : Unified benchmark and comparative evaluation for tweet classification. - Findings of the association for computational linguistics : EMNLP 2020, Association for Computational Linguistics, p. 1644-1650 (2020).
-
(5)...
DANS NOS BASES DOCUMENTAIRES
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive