Présentation

Article

1 - TRAITEMENTS LINGUISTIQUES

2 - SYNTHÈSE DU SIGNAL DE PAROLE

3 - APPLICATIONS

4 - PRODUITS

  • 4.1 - Elan Speech
  • 4.2 - Babel Technologies et Infovox
  • 4.3 - AT&T
  • 4.4 - Fonix DECtalk
  • 4.5 - ScanSoft
  • 4.6 - Loquendo
  • 4.7 - Autres produits

5 - CONCLUSION

| Réf : H7288 v1

Traitements linguistiques
Synthèse de la parole à partir du texte

Auteur(s) : Gaël RICHARD, Olivier CAPPÉ

Date de publication : 10 nov. 2003

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

  • Gaël RICHARD : Maître de conférences, École nationale supérieure des télécommunications (ENST, Télécom Paris)

  • Olivier CAPPÉ : Ingénieur de l’École supérieure d’électricité, - docteur en traitement du signal Chargé de recherche CNRS, ENST

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Parallèlement à l’accroissement de la puissance de calcul des ordinateurs, on observe une tendance à la généralisation de modes d’interface de plus en plus conviviaux et naturels. À l’heure actuelle, les progrès réalisés dans le domaine des interfaces graphiques et des périphériques (souris, écran tactile) permettent à des néophytes d’utiliser des applications évoluées comme les bornes de réservation automatiques dans les gares ou les logiciels éducatifs dans les musées. Cependant, force est de constater que la plupart des interfaces courantes privilégient essentiellement le visuel et l’écrit alors même que la parole constitue un élément primordial de la communication humaine. Dans ces conditions, on conçoit aisément l’enjeu que représente la mise au point de technologies permettant de dialoguer oralement avec un ordinateur.

De manière un peu schématique, il est possible de considérer qu’un véritable dialogue oral doive faire intervenir trois éléments essentiels qui sont la capacité d’entendre et de reconnaître, celle de comprendre et de réagir et, enfin, celle de s’exprimer. La synthèse de parole correspond au troisième de ces éléments. Plus précisément, nous considérons ici la tâche qui consiste à produire, par le truchement d’un ensemble d’algorithmes, un signal acoustique intelligible par un auditeur humain (et de préférence, de qualité aussi naturelle que possible), ce à partir d’un message enregistré dans la mémoire de l’ordinateur, en général sous une forme orthographique.

Tout système de synthèse de parole à partir du texte (dit également TTS, de l’anglais « text-to-speech ») est amené à répondre, de manière plus ou moins précise et développée selon sa qualité et sa finalité, à deux types de problèmes de natures différentes :

  • les traitements linguistiques : cette première étape vise à analyser et à structurer le texte afin de déterminer un mode de prononciation cohérent, puis à transformer le texte analysé en une suite de sons de parole accompagnée d’indications concernant leur agencement ;

  • la synthèse proprement dite : cette seconde étape consiste à générer un signal acoustique qui « retranscrit » cette suite de sons tout en possédant les caractéristiques apparentes de la parole naturelle.

L’architecture générale d’un système de synthèse se compose ainsi de ces deux parties essentielles (figure 1). Les principaux modules de ces traitements sont décrits dans cet article. Bien que tous les exemples cités dans la suite soient extraits du français, il est important de souligner que les problèmes posés sont similaires pour la plupart des langues romanes, anglo-saxonnes et slaves. Les solutions retenues pour toutes ces langues s’inspirent des mêmes principes et ne diffèrent que dans le contenu linguistique des lexiques et des heuristiques contextuelles.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7288


Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

1. Traitements linguistiques

Le lecteur désireux d’approfondir les notions présentées dans cet article pourra consulter les références et .

On désigne en général par l’expression « traitements linguistiques » les modules qui permettent de transformer la forme textuelle du message à synthétiser en une chaîne de sons élémentaires – les phonèmes – munis d’indications prosodiques caractérisant l’élocution (durée des différents sons et des pauses, évolution de la mélodie). Cette représentation phonético-prosodique est ensuite utilisée par l’étage de synthèse sonore qui assure la génération du signal de parole numérisé.

Nota :

du point de vue de la théorie de la production du signal de parole, le terme « phonème » (du grec phonema, son de voix) désigne l’unité acoustique minimale.

1.1 Traitements syntaxiques

HAUT DE PAGE

1.1.1 Prétraitement des éléments non lexicaux

Cette étape de prétraitement a pour objet de retranscrire en toutes lettres les chaînes non orthographiques (plus précisément, qui ne sont pas uniquement constituées de caractères orthographiques). Il peut s’agir de chiffres, de dates (24/01/63, 24 Jan. 1963) ou plus généralement de sigles composés de caractères orthographiques et numériques (vol AF1024, référence SD44). Cette étape utilise à la fois un système de règles de transcription (pour le traitement des quantités numériques ou des dates, des abréviations standards : SNCF, PTT...) et un lexique paramétré par l’utilisateur, propre à...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Traitements linguistiques
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BOËFFARD (O.), D’ALESSANDRO (C.) -   *  -  « Synthèse de la parole » dans Analyse, Synthèse et codage de la parole, sous la direction de J. Mariani, Hermès (2002).

  • (2) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) -   Traitement de la parole.  -  Presses polytechniques et universitaires romandes, Lausanne (2000).

  • (3) - CHOMSKY (N.) -   Structure syntaxique.  -  Collection Point Sciences Humaines, Le Seuil (1979).

  • (4) - SPROAT (R.), MOEBIUS (B.), MAEDA (K.), TZOUKERMANN (E.) -   *  -  « Multilingual Text analysis » dans Multilingual Text-To-Speech Synthesis - The Bell Labs Approach, R. Sproat et coll. éd., Kluwer Academic Publishers (1998).

  • (5) - HARDCASTLE (W.T.), MARCHAL (A.) -   Speech Production and Speech Modeling.  -  Kluwer Academic Publishers (1990).

  • (6) - MOULINES (E.), LAROCHE (J.) -   Non-parametric...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(76 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS