2.1 - Normalisation et prétraitement
2.2 - Analyse lexicale
2.3 - Analyse morpho-syntaxique
2.4 - Analyse syntaxique
2.5 - Transcription graphème-phonème

Tableau 1

3 - SIGNAL DE PAROLE ET MODÈLE SOURCE-FILTRE

3.1 - Modèle paramétrique de synthèse de parole
3.2 - Caractéristiques du filtre
3.3 - Caractéristiques de la source

4.1 - Prosodie et syntaxe
4.2 - Calcul du rythme
4.3 - Calcul de l'intonation

5 - SYNTHÈSE ACOUSTIQUE

5.1 - Synthèse à formants par règles
5.2 - Synthèse non paramétrique par concaténation d'unités acoustiques
5.3 - Synthèse par diphones
5.4 - Synthèse par sélection et concaténation

Tableau 2
5.5 - Synthèse paramétrique statistique
5.6 - Construction du corpus textuel et sonore

6 - APPLICATIONS DE LA SYNTHÈSE DE PAROLE

6.1 - Exemples d'applications
6.2 - Interfaces de programmation
6.3 - Produits

7 - ÉVALUATION DE LA SYNTHÈSE

7.1 - Boîte noire ou boîte de verre
7.2 - Évaluation de qualité globale

8 - CONCLUSION

8.1 - Bilan
8.2 - Perspectives

Bibliographie & annexes

Article de référence | Réf : H7288 v2

Synthèse acoustique
Synthèse de la parole à partir du texte

Auteur(s) : Christophe D'ALESSANDRO, Gaël RICHARD

Date de publication : 10 nov. 2013 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

NOTE DE L'ÉDITEUR

Cet article est la réédition actualisée de l'article du même titre, paru en 2003 et rédigé par Gaël RICHARD et Olivier CAPPÉ.

22/10/2013

RÉSUMÉ

L’objet de cet article est de proposer une vue d’ensemble de la synthèse de la parole à partir du texte (ou TTS, Text-To-Speech en Anglais), le but étant de calculer automatiquement le signal de parole correspondant à un texte donné. Les différentes étapes permettant de réaliser un tel système sont décrites tout en incluant les techniques les plus récentes, dont celles exploitant les modèles de Markov cachés. Les différentes applications de la synthèse vocale ainsi que l’offre des principaux acteurs du domaine sont également discutées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Christophe D'ALESSANDRO : Directeur de Recherches LIMSI-CNRS, Orsay, France
Gaël RICHARD : Professeur Institut Mines-Télécom, Télécom ParisTech, CNRS-LTCI, Paris, France -

INTRODUCTION

L'objet de la synthèse de la parole à partir du texte (ou TTS, Text-To-Speech) est de calculer automatiquement le signal de parole correspondant à un texte donné. Le texte lui-même peut provenir de diverses sources : journaux, livres, systèmes de réponse vocale, de dialogue ou traduction automatique (borne interactive, assistant personnel), base de données d'un système d'information, jeu vidéo, courriers électroniques, SMS, documents butinés sur la toile, ou tout simplement texte saisi au clavier d'un ordinateur.

La réponse vocale sous sa forme la plus simple peut être un ensemble de messages préenregistrés (ou « prompts »). L'ambition de la synthèse de la parole à partir du texte est plus grande : il s'agit de calculer automatiquement les échantillons sonores correspondant à un énoncé écrit quelconque, qui n'est pas connu d'avance et qui peut être de grande taille.

Les deux versants de la synthèse de la parole sont d'une part, l'analyse et l'interprétation du texte, d'autre part, la prédiction des paramètres acoustico- phonétiques du son et la synthèse du signal proprement dite :

Analyse du texte : la première étape de la transformation d'un texte en parole implique la capacité d'analyser, de comprendre le texte écrit, ses nuances et ses connotations, la situation du discours et l'acte de parole à effectuer. En plus du texte, le contexte peut être spécifié (style de parole, émotion, attitude, type de personnage, voix spécifique...) ;
Synthèse du signal : une fois le texte analysé, il s'agit de calculer le signal acoustique qui interprète au mieux le contenu linguistique, avec une voix aussi naturelle que possible, ressemblant à un locuteur particulier, et avec les nuances d'attitude, voire d'émotion que le texte réclame. En plus du signal audio, le synthétiseur peut fournir des indications pour synchroniser le mouvement des lèvres d'un avatar ou personnage vidéo, ou les mouvements d'un robot.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

Traitement du signal linguistique

VERSIONS

Il existe d'autres versions de cet article :

Version archivée 1 de nov. 2003 par Gaël RICHARD, Olivier CAPPÉ

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h7288

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Applications de la synthèse de parole

5. Synthèse acoustique

Après la phase d'analyse du texte à produire, intervient la phase de synthèse acoustique, qui consiste à transformer la suite de symboles obtenus lors de l'analyse linguistique en suite d'échantillons de signal. Deux grandes classes de techniques existent pour la synthèse acoustique : la synthèse paramétrique et la synthèse non paramétrique.

En synthèse paramétrique, le signal est calculé en utilisant un modèle du signal de parole, le modèle source-filtre : le signal passe par un « vocodeur » (pour « voice coder », ou système d'analyse-synthèse).

En synthèse non paramétrique, les échantillons de signal sont concaténés avec des modifications minimes, sans passer par un vocodeur.

5.1 Synthèse à formants par règles

Le synthétiseur par règles calcule l'évolution (les trajectoires) des paramètres de contrôle du modèle de production à partir de la représentation phonético-prosodique, qui spécifie la chaîne des sons à prononcer, leur durée et le contour mélodique. La stratégie généralement utilisée consiste à spécifier tout d'abord des points cibles sur les segments stables du signal de parole (par exemple, valeurs de la fréquence centrale, de la bande passante et de l'amplitude de chaque formant au centre des voyelles) (figure 4).

Des règles d'interpolation des paramètres entre les différents points cibles sont ensuite mises en œuvre, modélisant les phénomènes de coarticulation, c'est-à-dire les interactions acoustiques entre phonèmes adjacents. Ces phénomènes de coarticulation sont la traduction acoustique des contraintes articulatoires, c'est-à-dire de la dynamique des articulateurs, le conduit vocal évoluant relativement lentement.

La synthèse proprement dite est réalisée à l'aide d'un synthétiseur à formants qui comprend :

1. un module source, qui comprend un générateur d'impulsions, pour la parole voisée, et un générateur de bruit blanc gaussien pour la parole non voisée. Les impulsions sont mises en forme par un modèle de l'onde de débit glottique (ou alternativement d'un modèle de la dérivée de l'onde de débit glottique), fonctions construites à l'aide de sinusoïdes, d'exponentielles ou de polynômes...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Synthèse acoustique

Page
précédenteProsodie

Page
suivante

Applications de la synthèse de parole

BIBLIOGRAPHIE

(1) - SPROAT (R.), MOEBIUS (B.), MAEDA (K.), TZOUKERMANN (E.) - Multilingual text analysis. - Dans Multilingual Text-To-Speech Synthesis – The Bell Labs Approach, SPROAT (R.) et coll. éd., Kluwer Academic Publishers (1998). Ce livre décrit en détail les procédures de synthèse de l'anglais et d'autres langues, et donne une introduction au domaine.
(2) - TAYLOR (P.) - Text-To-Speech synthesis. - Paul Taylor, Cambridge University Press (2009). Ce livre récent présente de façon approfondie les techniques de synthèse modernes.
(3) - HARDCASTLE (W.T.), MARCHAL (A.) - Speech Production and Speech Modeling. - Kluwer Academic Publishers (1990). Ce livre est une introduction à la production de la parole par l'humain.
(4) - BOËFFARD (O.), D'ALESSANDRO (C.) - Synthèse de la parole. - Dans « Analyse, synthèse et codage de la parole », sous la direction de MARIANI (J.), Hermès (2002). Ce livre est une excellente introduction au traitement de la parole, existe aussi en anglais.
(5) - D'ALESSANDRO (C.), TZOUKERMANN (E.) - Synthèse...

1 Données commerciales

Acapela http://www.acapela-group.com/

Acapela est le nouveau nom du groupe issu de BaBel Technologies SA et Babel-Infovox AB, qui a également absorbé ELAN speech. Acapela propose de nombreuses solutions de synthèse multilingues issues au départ des recherches de l'Institut royal de technologie de Stockholm (KTH) et l'Université de Mons (Belgique). Les technologies proposées par Acapela incluent la synthèse à formants, la synthèse par diphones (technologie MBROLA) et la synthèse par sélection/concaténation. La synthèse paramétrique statistique n'est pas encore commercialisée, mais pourrait bientôt apparaître sur le marché. Acapela offre des produits en 18 langues, et affiche plus de 1 000 clients industriels dans des domaines très variés.

L'offre d'Acapela se décline suivant quatre grands axes :

1. Le développement d'applications de synthèse :
- a. kits de développement logiciels (SDK, Software Development Kits) proposés pour la plupart pour des systèmes d'exploitation, sous la forme serveur, ordinateur personnel ou système mobile (Linux, Windows, Mac OS X, Androïd, etc.), pour des systèmes à la demande ou pour des services Internet,
- b. systèmes de réponse vocale matériel, pour la synthèse par exemple de messages de sécurité dans des environnements industriels (Hardware Speech Unit ),
- c. systèmes de lecture vocale pour les journaux ou autres éditeurs,
- d. systèmes de personnalisation vocale des services, pour des compagnies souhaitant donner une identité vocale à leur site ou produits,
- e. des...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Synthèse acoustique Synthèse de la parole à partir du texte

NOTE DE L'ÉDITEUR

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

VERSIONS

DOI (Digital Object Identifier)

5. Synthèse acoustique

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

Synthèse acoustique
Synthèse de la parole à partir du texte

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.