2 - DOMAINES DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

2.1 - Historique
2.2 - Applications
2.3 - Mise en œuvre et évaluation d’un système

3.1 - Méthodes générales
3.2 - Méthodes avec modélisation
3.3 - Tendances actuelles

Figure 6 - Ondelette de Morlet

4 - RECONNAISSANCE DE MOTS

4.1 - Principe général
4.2 - Normalisation temporelle
4.3 - Modélisation stochastique
4.4 - Modèles neuromimétiques

5 - RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE CONTINUE

5.1 - Position du problème
5.2 - Approche bayésienne
5.3 - Architecture d’un système de reconnaissance de parole continue
5.4 - Reconnaissance des émotions
5.5 - Compréhension de la parole et systèmes de dialogue

6 - MÉTHODES ROBUSTES POUR LA RECONNAISSANCE

6.1 - Position du problème
6.2 - Méthodes de prétraitement du signal
6.3 - Adaptation de systèmes
6.4 - Méthodes de paramétrisation robustes

7 - RÉSEAUX NEURONAUX PROFONDS

8 - PERSPECTIVES ET CONCLUSION

Bibliographie & annexes

Article de référence | Réf : H3728 v3

Domaines de la reconnaissance automatique de la parole
Reconnaissance automatique de la parole

Auteur(s) : Jean-Paul HATON

Date de publication : 10 oct. 2018 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Des progrès importants ont été faits ces dernières années concernant les taux de reconnaissance de la parole (proches de ceux d’un être humain), mais le niveau de compréhension demeure très faible. Les systèmes sont fondés sur une modélisation statistique de la langue parlée: modèles acoustiques de Markov cachés (Hidden Markov Models, HMM) et modèles n-grammes mémorisant les probabilités conditionnelles de séquences d’unités linguistiques. Les progrès récents proviennent du couplage de ces modèles statistiques à des modèles neuronaux profonds, comportant un grand nombre de couches cachées, entraînés à l’aide d’énorme quantité de données. Les applications concernent la dictée vocale, la transcription de médias (radio, télévision) et surtout la télématique vocale (assistants vocaux).

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Jean-Paul HATON : Professeur à l’Université de Lorraine, LORIA/INRIA – Membre de l’Institut universitaire de France

INTRODUCTION

L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans cet article à la reconnaissance automatique de la parole (RAP), c’est-à-dire à l’ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d’utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

modèles de Markov cachés (HMM) réseaux neuronaux profonds apprentissage profond

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de août 1998 par Jean-Paul HATON
Version archivée 2 de nov. 2012 par Jean-Paul HATON

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v3-h3728

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Documents numériques : technologies d'acquisition et de restitution > Reconnaissance automatique de la parole > Domaines de la reconnaissance automatique de la parole

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Analyse du signal de parole

2. Domaines de la reconnaissance automatique de la parole

2.1 Historique

La reconnaissance de la parole est une discipline quasi contemporaine de l’informatique. Vers 1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le décodage automatique de phrases apparaît clairement, alors que la reconnaissance de la parole avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 1970 voit se terminer la première génération des systèmes commercialisés de reconnaissance de mots. Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-informatique, posséderont des performances de plus en plus grandes (systèmes multilocuteurs, parole continue).

HAUT DE PAGE

2.2 Applications

Toutes les applications de la RAP bénéficient de l’évolution technologique qui se traduit par le fait qu’un système de reconnaissance complet (y compris l’analyse du signal vocal) peut désormais être entièrement implanté sous forme logicielle. Cette évolution a largement contribué au développement d’applications nouvelles à faible coût.

La reconnaissance de mots isolés pour des vocabulaires de quelques dizaines jusqu’à quelques centaines de mots est un problème bien résolu. Les premiers systèmes commerciaux relevant de cette catégorie sont apparus voici près de quarante ans. Plus récemment, des progrès importants ont été réalisés :

en reconnaissance de petits vocabulaires de mots isolés, multilocuteurs, dans des conditions difficiles ;

Exemple : reconnaissance de chiffres à travers le réseau téléphonique.
en reconnaissance de parole continue, multilocuteurs, avec des vocabulaires de plusieurs dizaines (voire centaines) de milliers...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Domaines de la reconnaissance automatique de la parole

Page
précédenteCaractéristiques de la communication parlée homme-machine

Page
suivante

Analyse du signal de parole

BIBLIOGRAPHIE

(1) - RABINER (L.), HUANG (B.H.) - Fundamentals of speech recognition. – - Prentice-Hall, Englewood Cliffs (1993).
(2) - JUNQUA (J.-C.), HATON (J.-P.) - Robustness in automatic speech recognition. – - Kluwer Academic, Dordrecht (1996).
(3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) - Traitement de la parole. – - Presses polytechniques et universitaires romandes, Lausanne (2000).
(4) - MINKER (W.), BENNACEF (S.) - Reconnaissance vocale et dialogue homme-machine. – - Eyrolles, Paris (2000).
(5) - MARIANI (J.) (éd.) - Reconnaissance de la parole : traitement automatique du langage parlé. – - Hermes – Science – Lavoisier, Paris (2002).
(6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) - Voice...

1 Outils logiciels

HTK (HMM ToolKit) : logiciel libre destiné au développement d’applications complètes de reconnaissance de la parole fondées sur MMC http://www.htk.eng.cam.ac.uk/

VISPER (Visual speech processing system) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l’Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html

SNOORI : logiciel libre d’analyse, de visualisation et d’étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole

Bases de données de parole étiquetée disponibles pour de nombreuses langues par l’intermédiaire des organismes :

LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/

ELRA, European Language Resources Association http://www.elra.info/

Dragon Naturally Speaking de Nuance http://www.nuance.fr/Dragon12

HAUT DE PAGE

2 Annuaire

Constructeurs – Fournisseurs – Distributeurs (liste non exhaustive)

Sociétés spécialisées...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Domaines de la reconnaissance automatique de la parole Reconnaissance automatique de la parole

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

VERSIONS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

2. Domaines de la reconnaissance automatique de la parole

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

Domaines de la reconnaissance automatique de la parole
Reconnaissance automatique de la parole

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.