Reconnaissance automatique de la parole : Analyse du signal de parole

2.1 - Historique
2.2 - Applications
2.3 - Mise en œuvre et évaluation d'un système

3 - ANALYSE DU SIGNAL DE PAROLE

3.1 - Méthodes générales
3.2 - Méthodes avec modélisation
3.3 - Tendances actuelles

Figure 6 - Ondelette de Morlet

4 - RECONNAISSANCE DE MOTS

4.1 - Principe général
4.2 - Normalisation temporelle
4.3 - Modélisation stochastique
4.4 - Modèles neuromimétiques

5 - RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE CONTINUE

5.1 - Position du problème
5.2 - Approche bayésienne
5.3 - Architecture d'un système de reconnaissance de parole continue
5.4 - Compréhension de la parole et systèmes de dialogue

6 - MÉTHODES ROBUSTES POUR LA RECONNAISSANCE

6.1 - Position du problème
6.2 - Méthodes de prétraitement du signal
6.3 - Adaptation de systèmes
6.4 - Méthodes de paramétrisation robustes

7 - PERSPECTIVES ET CONCLUSION

Bibliographie & annexes

Présentation

Auteur(s)

Jean-Paul HATON : Professeur à l'Université de Lorraine, LORIA/INRIA - Membre de l'Institut universitaire de France

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières décennies. Nous nous intéressons dans ce dossier à la reconnaissance automatique de la parole (RAP), c'est-à-dire à l'ensemble des techniques permettant de communiquer oralement avec une machine. La RAP présente un intérêt pratique indéniable, dans certaines conditions d'utilisation (accès à distance, charge de travail importante, handicapés, etc.). Des produits commerciaux existent depuis plus de trente ans, d'abord essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes de programmation dynamique et des modèles stochastiques (sources de Markov). Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces systèmes et pour étendre leurs capacités de dialogue. Les recherches menées actuellement portent ainsi sur la reconnaissance de parole bruitée, le traitement d'énoncés incomplets ou incorrects, la définition de procédures de dialogue, etc.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de août 1998 par Jean-Paul HATON
Version courante de oct. 2018 par Jean-Paul HATON

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h3728

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Reconnaissance de mots

3. Analyse du signal de parole

Nous avons déjà noté la grande redondance du signal vocal. Le traitement automatique de la parole nécessite de réduire cette redondance, à l'aide de traitements appropriés, pour diminuer les temps de traitement et l'encombrement en mémoire. Par ailleurs, et quelquefois simultanément, le traitement du signal vocal permet d'extraire des paramètres pertinents pour la reconnaissance (caractéristiques de sons bruités, fréquences des formants, etc.).

Une voyelle peut être caractérisée par trois zones de fréquences données, appelées formants. Les fréquences de formants de sons tels que les voyelles et certaines consonnes voisées correspondent au maximum d'énergie dans le spectre de ces sons, c'est-à-dire approximativement aux fréquences de résonance du conduit vocal dans la configuration correspondante.

Les dispositifs utilisés peuvent être analogiques : cependant, avec l'évolution de l'électronique numérique et de l'informatique, les techniques numériques sont désormais généralisées. Après numérisation du signal vocal à l'aide d'un convertisseur analogique-numérique (CAN), les traitements sont alors effectués par logiciel soit par des composants spécialisés permettant de faire l'analyse de la parole en temps réel, soit de plus en plus par les puces de microprocesseurs.

On peut classer en deux grandes catégories les méthodes de traitement du signal :

les méthodes générales, valables pour tout signal évolutif dans le temps, en particulier les analyses spectrales (transformée de Fourier, cf. § 3.1 ) ;
les méthodes se référant à un modèle de production du signal vocal ou d'audition.

3.1 Méthodes générales

Les méthodes spectrales occupent une place prépondérante en analyse de la parole : l'oreille effectue, entre autres, une analyse fréquentielle du signal qu'elle perçoit ; de plus, les sons de la parole peuvent être assez bien décrits en termes de fréquences.

La transformée de Fourier permet d'obtenir le spectre d'un signal, en particulier son spectre fréquentiel, c'est-à-dire sa représentation...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Analyse du signal de parole

Page
précédenteDomaines de la reconnaissance automatique de la parole

Page
suivante

Reconnaissance de mots

BIBLIOGRAPHIE

(1) - RABINER (L.), HUANG (B.H.) - Fundamentals of speech recognition. - Prentice-Hall, Englewood Cliffs (1993).
(2) - JUNQUA (J.-C.), HATON (J.-P.) - Robustness in automatic speech recognition. - Kluwer Academic, Dordrecht (1996).
(3) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) - Traitement de la parole. - Presses polytechniques et universitaires romandes, Lausanne (2000).
(4) - MINKER (W.), BENNACEF (S.) - Reconnaissance vocale et dialogue homme-machine. - Eyrolles, Paris (2000).
(5) - MARIANI (J.) (éd.) - Reconnaissance de la parole : traitement automatique du langage parlé. - Hermes – Science – Lavoisier, Paris (2002).
(6) - COHEN (M.), GIANGOLA (J.), BALOGH (J.) - Voice user interface design. - Addison-Wesley,...

ANNEXES

1 Outils logiciels
2 Annuaire
1. 2.1 Constructeurs – Fournisseurs – Distributeurs (liste non exhaustive)
3 Documentation

1 Outils logiciels

HTK (HMM ToolKit) : logiciel libre destiné au développement d'applications complètes de reconnaissance de la parole fondées sur MMC https://htk.eng.cam.ac.uk/

VISPER (Visual speech processing system ) : logiciel libre permettant de visualiser les étapes de reconnaissance par programmation dynamique et par MMC développé par l'Université Technique de Liberec, Tchéquie https://www.ite.tul.cz/speechlabe/index.php/old-projects/visper.html

SNOORI : logiciel libre d'analyse, de visualisation et d'étiquetage de la parole développé au LORIA par Yves Laprie pour les recherches en phonétique, perception et traitement automatique de la parole

Bases de données de parole étiquetée disponibles pour de nombreuses langues par l'intermédiaire des organismes :

LDC, Linguistic Data Consortium http://www.ldc.upenn.edu/

ELRA, European Language Resources Association http://www.elra.info/

Dragon Naturally Speaking de Nuance https://www.nuance.com/fr-fr/dragon.html

HAUT DE PAGE

2 Annuaire

...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Analyse du signal de parole Reconnaissance automatique de la parole

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

VERSIONS

DOI (Digital Object Identifier)

3. Analyse du signal de parole

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

Analyse du signal de parole
Reconnaissance automatique de la parole

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.