« Au commencement était le Verbe… et le Verbe s’est fait chair. » Et les hommes ont assemblé des mots pour s’exprimer. Le langage est une fonction qui nous semble tellement élémentaire qu’elle a été l’un des premiers grands chantiers de l’Intelligence Artificielle. En effet, dès la fin des années cinquante, l’expérience de Georgetown, menée notamment par IBM, a suscité un espoir démesuré : « within three or five years, machine translation would be a solved problem ». Cet espoir fut à la hauteur de la désillusion provoquée par les faibles résultats constatés.
Cinquante ans plus tard, où en sommes-nous ?
Depuis ses débuts, la description formelle des langues en vue de leur utilisation dans des systèmes automatisés a montré ses limites. L’utilisation exclusive de grammaires formelles est en effet incapable de saisir la complexité et les nuances d’une langue. La principale difficulté réside en un seul mot : ambiguïté. Les rustines techniques ne manquent pas pour tenter de contourner le problème et les années soixante-dix et quatre-vingt ont été particulièrement riches dans la mise en place de systèmes de règles sémantiques, supposées permettre une plus grande précision dans l’analyse de la langue. Ces systèmes n’ont pourtant apporté que des améliorations marginales dans le traitement automatisé de la langue.
L’arme fatale
En fait, la « balle d’argent » semble avoir été tirée par un curieux fusil que le monde de l’informatique et de l’Intelligence Artificielle semblait avoir jusque-là négligé : la théorie des probabilités. Avec l’introduction de modèles de langue probabilistes, Google, pour sa première participation en 2008, a classé son système de traduction automatique à la première place de toutes les tâches de la campagne Open Machine Translation du NIST : il s’agissait de réaliser des traductions de l’arabe vers l’anglais, du chinois vers l’anglais, de l’ourdou vers l’anglais, de l’anglais vers le chinois. En à peine dix ans, les techniques probabilistes ont propulsé les capacités des systèmes de traduction automatiques à des hauteurs que quarante ans de systèmes formels n’avaient fait qu’entrevoir.
Le LDA pour les nuls
Ces résultats ont encouragé les chercheurs à appliquer l’approche probabiliste à d’autres tâches au sein du traitement automatisé du langage. Et l’un des concepts les plus prometteurs dans ce domaine est le LDA, ou Latent Dirichlet Allocation. Nous nous plaçons cette fois-ci dans le cadre d’un grand nombre de documents, ce qu’on appelle un corpus.Chaque document est vu comme un « sac de mots ». Le paragraphe précédent peut par exemple être vu comme un document dans lequel le mot « automatisé » apparaît 1 fois, et le mot « systèmes », 2 fois. On voit qu’il est assez trivial de considérer un document comme une distribution de probabilité sur l’ensemble des mots du corpus. Si j’ai le document « a b a c », je peux considérer ce document comme une distribution des mots « a », « b », « c » et « d » avec les probabilités 2/4, 1/4, 1/4 et 0.Cette approche est la base des algorithmes de pertinence des moteurs de recherche en texte intégral. Mais l’idée de LDA est qu’au lieu de considérer un document comme une distribution sur des mots, on le considère comme une distribution de probabilités sur des topics (sujets), eux-mêmes vus comme des distributions sur les mots. Vu ainsi, un document est alors un « sac de sujets » dont chacun est lui-même un « sac de mots ».
L’originalité du LDA réside dans le fait qu’il s’agit d’un modèle génératif. Etant donné un certain nombre de paramètres, on est capable de générer une distribution particulière (que ce soit pour la distribution de topics dans un document, ou pour la distribution de termes dans un topic). Cet aspect génératif est important car il permet d’effectuer très rapidement l’analyse d’un nouveau document à partir d’un modèle existant, sans avoir à recalculer les paramètres du modèle.
Par Jérôme Mainka, Directeur de la Recherche chez Antidot
Cet article se trouve dans le dossier :
Regards de dirigeants sur l'industrie française
- « L’industrie est comme l’acier, elle devient plus résistante à l’épreuve du feu »
- Regards de dirigeants #1 : Laurent Bataille, PDG de POCLAIN Hydraulics
- Regards de dirigeants #2 : Bruno Grandjean, président du directoire du groupe REDEX
- Regards de dirigeants #3 : Luc Graux, président de SKF France
- Regards de dirigeants #4 : Clémentine Gallet, présidente de Coriolis Composites
- Regards de dirigeants #5 : Jérôme Duprez, président du Cetim
- Regards de dirigeants #6 : Boris Lombard, président de KSB France
- Regards de dirigeants #7: Elizabeth Ducottet, PDG de Thuasne
- Regards de dirigeants #8: Nathalie Remy, Christofle
- Regards de dirigeants #9 : Luc Themelin, Mersen
- Regards de dirigeants #10 : Sébastien Petithuguenin, Paprec
- Regards de dirigeants #11 : Marwan Lahoud, ACE Capital Partners
- Regards de dirigeants #12 : Laurent Rossi, Alpine
- Regards de dirigeants #14 : Guillaume Delacroix, Imerys
- Regards de dirigeants #15 : Arnaud Pieton, Technip Energies
- Regards de dirigeants #16 : Arthur Dupuy, Ateliers Arthur Dupuy
- Regards de dirigeants #17 : Henri Morel, Président de la FIM
- Regards de dirigeants #18 : Marc Rumeau, IESF
- REX et exercices de simulation : comment apprendre des situations de crise
- Emploi, faillite, relocalisation, régionalisation : quels défis pour l’industrie française ?
- Penser l'après Covid-19 : vers quels modèles économiques se tourner ?#3 Entre relocalisation et résilience
- Incertitudes sur le commerce mondial : les chaînes de valeur sur la sellette
- Covid-19 : l’industrie énergétique sortira changée de la crise, selon l’AIE