Présentation
EnglishRÉSUMÉ
Des progrès importants ont été faits au cours des dernières années en ce qui concerne les taux de reconnaissance de la parole (proches de ceux d’un être humain), mais le niveau de compréhension demeure très faible. Les systèmes sont fondés sur une modélisation statistique de la langue parlée : modèles acoustiques de Markov cachés (Hidden Markov Models, HMM) et modèles n-grammes mémorisant les probabilités conditionnelles de séquences d’unités linguistiques. Les progrès récents proviennent du couplage de ces modèles statistiques à des modèles neuronaux profonds, comportant un grand nombre de couches cachées, entraînés à l’aide d’énorme quantité de données. Les applications concernent la dictée vocale, la transcription de médias (radio, télévision) et surtout la télématique vocale (assistants vocaux).
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Jean-Paul HATON : Professeur à l’Université de Lorraine, LORIA/INRIA – Membre de l’Institut universitaire de France
INTRODUCTION
L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans cet article à la reconnaissance automatique de la parole (RAP), c’est-à-dire à l’ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d’utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.
VERSIONS
- Version archivée 1 de août 1998 par Jean-Paul HATON
- Version archivée 2 de nov. 2012 par Jean-Paul HATON
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle > Reconnaissance automatique de la parole > Reconnaissance de mots
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Reconnaissance de mots
4.1 Principe général
L’absence dans le signal vocal d’indicateurs sur les frontières de phonèmes et de mots constitue, comme on l’a déjà dit, une difficulté majeure de la reconnaissance de la parole. De ce fait, la reconnaissance de mots prononcés artificiellement de façon isolée représente une simplification notable du problème. La reconnaissance d’un mot est alors un problème typique de reconnaissance de formes. Tout système de reconnaissance de formes comporte les trois parties suivantes :
-
un capteur permettant d’appréhender le phénomène physique considéré (dans notre cas un microphone) ;
-
un étage de paramétrisation des formes (par exemple, un analyseur spectral) ;
-
un étage de décision chargé de classer une forme inconnue dans l’une des catégories possibles.
On retrouve ces trois étages dans un système de reconnaissance de mots isolés, comme le montre la figure 7.
Au cours d’une phase préalable dite d’apprentissage, un locuteur prononce l’ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références. Dans la phase suivante de reconnaissance, un locuteur prononce un mot du vocabulaire. Ce mot est comparé aux mots de références. L’algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d’un taux de similitude – au sens d’une distance à définir – entre le mot prononcé et les diverses références. Ce calcul n’est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents. Il s’agit alors d’effectuer le recalage temporel des séquences acoustiques représentant les mots, afin de pouvoir les comparer.
HAUT DE PAGE4.2 Normalisation temporelle
Une solution au problème de recalage temporel fait appel aux techniques de programmation dynamique. Initialement développée en ex-URSS et au Japon, puis en France et dans d’autres pays, cette méthode donne d’excellents résultats ; en fait, on démontre qu’elle fournit la solution optimale du problème.
Le...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Reconnaissance de mots
BIBLIOGRAPHIE
-
(1) - RABINER (L.), HUANG (B.H.) - Fundamentals of speech recognition. – - Prentice-Hall, Englewood Cliffs (1993).
-
(2) - JUNQUA (J.-C.), HATON (J.-P.) - Robustness in automatic speech recognition. – - Kluwer Academic, Dordrecht (1996).
-
(3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) - Traitement de la parole. – - Presses polytechniques et universitaires romandes, Lausanne (2000).
-
(4) - MINKER (W.), BENNACEF (S.) - Reconnaissance vocale et dialogue homme-machine. – - Eyrolles, Paris (2000).
-
(5) - MARIANI (J.) (éd.) - Reconnaissance de la parole : traitement automatique du langage parlé. – - Hermes – Science – Lavoisier, Paris (2002).
-
(6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) - Voice...
HTK (HMM ToolKit) : logiciel libre destiné au développement d’applications complètes de reconnaissance de la parole fondées sur MMC http://www.htk.eng.cam.ac.uk/
VISPER (Visual speech processing system) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l’Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html
SNOORI : logiciel libre d’analyse, de visualisation et d’étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole
Bases de données de parole étiquetée disponibles pour de nombreuses langues par l’intermédiaire des organismes :
LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/
ELRA, European Language Resources Association http://www.elra.info/
Dragon Naturally Speaking de Nuance http://www.nuance.fr/Dragon12
HAUT DE PAGEConstructeurs – Fournisseurs – Distributeurs (liste non exhaustive)
Sociétés spécialisées...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive