Présentation
En anglaisRÉSUMÉ
Des progrès importants ont été faits au cours des dernières années en ce qui concerne les taux de reconnaissance de la parole (proches de ceux d’un être humain), mais le niveau de compréhension demeure très faible. Les systèmes sont fondés sur une modélisation statistique de la langue parlée : modèles acoustiques de Markov cachés (Hidden Markov Models, HMM) et modèles n-grammes mémorisant les probabilités conditionnelles de séquences d’unités linguistiques. Les progrès récents proviennent du couplage de ces modèles statistiques à des modèles neuronaux profonds, comportant un grand nombre de couches cachées, entraînés à l’aide d’énorme quantité de données. Les applications concernent la dictée vocale, la transcription de médias (radio, télévision) et surtout la télématique vocale (assistants vocaux).
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
Important progresses have been made recently in terms of recognition rate (close to those of a human), but the level of understanding of present systems remains very low. Such systems are based on a statistical modeling of speech: Hidden Markov Models (HMM) for acoustics, and n-grams models storing the conditional probabilities of sequences of linguistic units. Recent progress has been obtained by coupling classical HMM with deep neural networks that are made up of a large number of hidden layers and trained by deep learning algorithms using enormous amounts of training data. Applications concern mainly text dictation, transcription of media (radio, television) and mainly vocal telematics.
Auteur(s)
-
Jean-Paul HATON : Professeur à l’Université de Lorraine, LORIA/INRIA – Membre de l’Institut universitaire de France
INTRODUCTION
L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans cet article à la reconnaissance automatique de la parole (RAP), c’est-à-dire à l’ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d’utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.
KEYWORDS
Hidden Markov Models (HMM) | deep neural networks | deep learning
VERSIONS
- Version archivée 1 de août 1998 par Jean-Paul HATON
- Version archivée 2 de nov. 2012 par Jean-Paul HATON
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Documents numériques : technologies d'acquisition et de restitution > Reconnaissance automatique de la parole > Réseaux neuronaux profonds
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
7. Réseaux neuronaux profonds
Vers 2006, les modèles acoustiques de reconnaissance ont été améliorés de façon importante grâce aux modèles neuronaux profonds (Deep Neural Networks, DNN) possédant un nombre de couches cachées nettement supérieur aux traditionnels perceptrons multicouches (plusieurs dizaines, voire plus, avec des milliers de nœuds dans les couches cachées). Ces réseaux, inspirés du fonctionnement du cortex animal, sont capables d’apprendre des fonctions beaucoup plus complexes qu’auparavant. Un algorithme d’apprentissage possible de ces réseaux profonds, proposé par G. Hinton est de type semi-supervisé. Le principe revient à initialiser les poids des connexions de chaque couche de façon non supervisée, puis d’adapter l’ensemble du réseau de façon supervisée. Les DNN ont montré leur efficacité dans des domaines très variés, y compris en reconnaissance de la parole, mais aussi en traitement de textes, en vision par ordinateur et en diagnostic. Il faut aussi citer les précurseurs de ces modèles profonds conçus pour le traitement d’images et la reconnaissance de l’écriture : Fukushima (1980) et son Neocognitron, et Le Cun (1990) et ses réseaux neuronaux convolutionnels. Parmi les réseaux neuronaux profonds, une place importante en reconnaissance de la parole est tenue par les réseaux récurrents comportant des rétroactions de la couche de sortie du réseau vers les couches précédentes jusqu’à la couche d’entrée.
La rapide émergence des réseaux profonds et leurs performances exceptionnelles sont dues à la convergence de trois conditions :
-
l’existence de très grandes bases de données acoustiques étiquetées nécessaires à l’apprentissage de ces modèles. Il s’agit d’un exemple du phénomène récent de Big Data. Les grands opérateurs du domaine disposent de millions d’heures de parole, ce qui permet de disposer de systèmes de reconnaissance dans de nombreuses langues (plus d’une centaine pour Google, par exemple) ;
-
la disponibilité de capacités de calcul sans cesse en augmentation (notamment à l’aide cartes additionnelles GPU et calcul haute performance) ;
-
l’amélioration des algorithmes d’apprentissage de ces modèles (Deep Learning).
Les réseaux neuronaux profonds ont également permis des progrès considérables dans de nombreux autres domaines : jeux (échecs,...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Réseaux neuronaux profonds
BIBLIOGRAPHIE
-
(1) - RABINER (L.), HUANG (B.H.) - Fundamentals of speech recognition. – - Prentice-Hall, Englewood Cliffs (1993).
-
(2) - JUNQUA (J.-C.), HATON (J.-P.) - Robustness in automatic speech recognition. – - Kluwer Academic, Dordrecht (1996).
-
(3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) - Traitement de la parole. – - Presses polytechniques et universitaires romandes, Lausanne (2000).
-
(4) - MINKER (W.), BENNACEF (S.) - Reconnaissance vocale et dialogue homme-machine. – - Eyrolles, Paris (2000).
-
(5) - MARIANI (J.) (éd.) - Reconnaissance de la parole : traitement automatique du langage parlé. – - Hermes – Science – Lavoisier, Paris (2002).
-
(6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) - Voice...
HTK (HMM ToolKit) : logiciel libre destiné au développement d’applications complètes de reconnaissance de la parole fondées sur MMC http://www.htk.eng.cam.ac.uk/
VISPER (Visual speech processing system) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l’Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html
SNOORI : logiciel libre d’analyse, de visualisation et d’étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole
Bases de données de parole étiquetée disponibles pour de nombreuses langues par l’intermédiaire des organismes :
LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/
ELRA, European Language Resources Association http://www.elra.info/
Dragon Naturally Speaking de Nuance http://www.nuance.fr/Dragon12
HAUT DE PAGEConstructeurs – Fournisseurs – Distributeurs (liste non exhaustive)
Sociétés...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive