Présentation

Article

1 - CARACTÉRISTIQUES DE LA COMMUNICATION PARLÉE HOMME-MACHINE

2 - DOMAINES DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

3 - ANALYSE DU SIGNAL DE PAROLE

4 - RECONNAISSANCE DE MOTS

5 - RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE CONTINUE

6 - MÉTHODES ROBUSTES POUR LA RECONNAISSANCE

7 - PERSPECTIVES ET CONCLUSION

| Réf : H3728 v2

Caractéristiques de la communication parlée homme-machine
Reconnaissance automatique de la parole

Auteur(s) : Jean-Paul HATON

Date de publication : 10 nov. 2012

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

  • Jean-Paul HATON : Professeur à l'Université de Lorraine, LORIA/INRIA - Membre de l'Institut universitaire de France

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans ce dossier à la reconnaissance automatique de la parole (RAP), c'est-à-dire à l'ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d'utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d'abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et pour étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d'énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h3728


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

1. Caractéristiques de la communication parlée homme-machine

Le traitement automatique de la parole recouvre un vaste ensemble d'activités, souvent complémentaires, que l'on peut classer en cinq grands thèmes :

  • codage et compression de la parole, intervenant en transmission et en restitution de parole ;

  • synthèse de la parole, consistant à produire un signal vocal à partir d'un dictionnaire d'éléments phonétiques et/ou de règles ;

  • reconnaissance de la parole, revenant à faire interpréter par une machine des mots ou des phrases prononcés par un locuteur humain, dans le but de réaliser une action précise ;

  • reconnaissance et vérification du locuteur, problème dual du précédent dans lequel on cherche à authentifier une personne par sa voix ;

  • identification de la langue dans laquelle un locuteur s'exprime.

Dans tous ces domaines, des progrès importants ont été réalisés au cours des dernières années et de nombreuses applications industrielles existent. Nous nous intéressons au problème de la reconnaissance automatique de la parole (RAP). Ce problème est très difficile et complexe, en particulier du fait des caractéristiques du signal de parole :

Continuité : lorsque l'on écoute parler une langue connue, on perçoit une suite de mots, alors que l'analyse du signal vocal ne permet de déceler aucune marque de séparation entre mots successifs. La parole est un semi-continuum ponctué de pauses correspondant à certains types de sons ou de respiration. Le problème de la segmentation en mots est ainsi très délicat. Il se pose à nouveau à l'intérieur d'un mot : un mot est perçu comme une suite de sons élémentaires, ou phonèmes, qu'une fois encore l'analyse du signal acoustique ne permet pas d'isoler nettement.

Le phonème est une unité linguistique permettant de décrire une langue (le français ou l'anglais peuvent être décrits à l'aide d'une trentaine de phonèmes, pas forcément les mêmes). Pour les besoins du traitement automatique, on considère en général un phonème comme étant caractérisé par la simultanéité, dans le temps, d'un ensemble de caractéristiques acoustico-phonétiques. Pour plus de détails sur les sons de parole et leurs propriétés, se reporter au dossier Réponse vocale de l'ordinateur.

...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Caractéristiques de la communication parlée homme-machine
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - RABINER (L.), HUANG (B.H.) -   Fundamentals of speech recognition.  -  Prentice-Hall, Englewood Cliffs (1993).

  • (2) - JUNQUA (J.-C.), HATON (J.-P.) -   Robustness in automatic speech recognition.  -  Kluwer Academic, Dordrecht (1996).

  • (3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) -   Traitement de la parole.  -  Presses polytechniques et universitaires romandes, Lausanne (2000).

  • (4) - MINKER (W.), BENNACEF (S.) -   Reconnaissance vocale et dialogue homme-machine.  -  Eyrolles, Paris (2000).

  • (5) - MARIANI (J.) (éd.) -   Reconnaissance de la parole : traitement automatique du langage parlé.  -  Hermes – Science – Lavoisier, Paris (2002).

  • (6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) -   Voice user interface design.  -  Addison-Wesley,...

1 Outils logiciels

HTK (HMM ToolKit) : logiciel libre destiné au développement d'applications complètes de reconnaissance de la parole fondées sur MMC https://htk.eng.cam.ac.uk/

VISPER (Visual speech processing system  ) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l'Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html

SNOORI : logiciel libre d'analyse, de visualisation et d'étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole

Bases de données de parole étiquetée disponibles pour de nombreuses langues par l'intermédiaire des organismes :

LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/

ELRA, European Language Resources Association http://www.elra.info/

Dragon Naturally Speaking de Nuance https://www.nuance.com/fr-fr/dragon.html

HAUT DE PAGE

2 Annuaire

...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS