Présentation

Article

1 - CARACTÉRISTIQUES DE LA COMMUNICATION PARLÉE HOMME-MACHINE

2 - DOMAINES DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

  • 2.1 - Historique
  • 2.2 - Applications
  • 2.3 - Mise en œuvre et évaluation d’un système

3 - ANALYSE DU SIGNAL DE PAROLE

4 - RECONNAISSANCE DE MOTS

5 - RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE CONTINUE

6 - MÉTHODES ROBUSTES POUR LA RECONNAISSANCE

7 - RÉSEAUX NEURONAUX PROFONDS

8 - PERSPECTIVES ET CONCLUSION

Article de référence | Réf : H3728 v3

Méthodes robustes pour la reconnaissance
Reconnaissance automatique de la parole

Auteur(s) : Jean-Paul HATON

Date de publication : 10 oct. 2018

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais En anglais

RÉSUMÉ

Des progrès importants ont été faits au cours des dernières années en ce qui concerne les taux de reconnaissance de la parole (proches de ceux d’un être humain), mais le niveau de compréhension demeure très faible. Les systèmes sont fondés sur une modélisation statistique de la langue parlée : modèles acoustiques de Markov cachés (Hidden Markov Models, HMM) et modèles n-grammes mémorisant les probabilités conditionnelles de séquences d’unités linguistiques. Les progrès récents proviennent du couplage de ces modèles statistiques à des modèles neuronaux profonds, comportant un grand nombre de couches cachées, entraînés à l’aide d’énorme quantité de données. Les applications concernent la dictée vocale, la transcription de médias (radio, télévision) et surtout la télématique vocale (assistants vocaux).

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

Automatic speech recognition

Important progresses have been made recently in terms of recognition rate (close to those of a human), but the level of understanding of present systems remains very low. Such systems are based on a statistical modeling of speech: Hidden Markov Models (HMM) for acoustics, and n-grams models storing the conditional probabilities of sequences of linguistic units. Recent progress has been obtained by coupling classical HMM with deep neural networks that are made up of a large number of hidden layers and trained by deep learning algorithms using enormous amounts of training data. Applications concern mainly text dictation, transcription of media (radio, television) and mainly vocal telematics.

Auteur(s)

  • Jean-Paul HATON : Professeur à l’Université de Lorraine, LORIA/INRIA – Membre de l’Institut universitaire de France

INTRODUCTION

L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans cet article à la reconnaissance automatique de la parole (RAP), c’est-à-dire à l’ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d’utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

KEYWORDS

Hidden Markov Models (HMM)   |   deep neural networks   |   deep learning

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v3-h3728


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation
Version en anglais En anglais

6. Méthodes robustes pour la reconnaissance

6.1 Position du problème

Les performances des systèmes de reconnaissance actuellement disponibles sont bonnes dans des conditions d’utilisation bien contrôlées. Ces performances sont fortement dépendantes de la complexité et de la difficulté de la tâche envisagée. Ainsi, en moyenne, les taux d’erreur mesurés en laboratoire, en mode indépendant du locuteur, peuvent aller de 0,3 % (pour des suites de chiffres) à 5 % (pour un vocabulaire de 20 000 mots en parole continue), puis à 8 % (pour des lettres épelées), et jusqu’à 55 % pour des conversations téléphoniques spontanées !

Par ailleurs, le taux d’erreur s’accroît de façon spectaculaire lorsque les conditions d’apprentissage et d’utilisation d’un système sont différentes (notamment en ce qui concerne le type et le niveau de bruit).

À titre d’exemple, la figure 15 donne le taux de reconnaissance en parole continue en fonction du rapport signal/bruit (RSB) (avec un bruit blanc gaussien ajouté au signal) d’un système entraîné au préalable avec de la parole non bruitée. Les performances passent de 97 % de reconnaissance en parole très peu bruitée (RSB = 36 dB) à 3 % en milieu très bruité (RSB = 0 dB).

Les systèmes actuels sont donc dans l’ensemble très peu robustes aux variations même si celles-ci peuvent paraître assez faibles à l’oreille. Les sources de variabilité de la parole peuvent être classées en trois catégories, selon leur provenance :

  • l’environnement du locuteur avec le bruit corrélé à la parole (réverbération, réflexion) ou additif (bruit ambiant, etc.) ;

  • le locuteur lui-même, selon son état et son mode d’expression : essoufflement, stress, effet Lombard (qui amène un locuteur à modifier sa voix lorsqu’il est placé dans une ambiance très bruitée), rythme d’élocution, fatigue, etc. ;

  • les conditions d’enregistrement liées au type de microphone, distance au microphone, canal de transmission (distorsion, écho, bruit électronique, etc.).

De nombreuses techniques ont été proposées pour augmenter la robustesse des systèmes, notamment en ce qui concerne leur résistance...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Méthodes robustes pour la reconnaissance
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - RABINER (L.), HUANG (B.H.) -   Fundamentals of speech recognition. –  -  Prentice-Hall, Englewood Cliffs (1993).

  • (2) - JUNQUA (J.-C.), HATON (J.-P.) -   Robustness in automatic speech recognition. –  -  Kluwer Academic, Dordrecht (1996).

  • (3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) -   Traitement de la parole. –  -  Presses polytechniques et universitaires romandes, Lausanne (2000).

  • (4) - MINKER (W.), BENNACEF (S.) -   Reconnaissance vocale et dialogue homme-machine. –  -  Eyrolles, Paris (2000).

  • (5) - MARIANI (J.) (éd.) -   Reconnaissance de la parole : traitement automatique du langage parlé. –  -  Hermes – Science – Lavoisier, Paris (2002).

  • (6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) -   Voice...

1 Outils logiciels

HTK (HMM ToolKit) : logiciel libre destiné au développement d’applications complètes de reconnaissance de la parole fondées sur MMC http://www.htk.eng.cam.ac.uk/

VISPER (Visual speech processing system) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l’Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html

SNOORI : logiciel libre d’analyse, de visualisation et d’étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole

Bases de données de parole étiquetée disponibles pour de nombreuses langues par l’intermédiaire des organismes :

LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/

ELRA, European Language Resources Association http://www.elra.info/

Dragon Naturally Speaking de Nuance http://www.nuance.fr/Dragon12

HAUT DE PAGE

2 Annuaire

Constructeurs – Fournisseurs – Distributeurs (liste non exhaustive)

Sociétés...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS