Présentation
Auteur(s)
-
Gaël RICHARD : Maître de conférences, École nationale supérieure des télécommunications (ENST, Télécom Paris)
-
Olivier CAPPÉ : Ingénieur de l’École supérieure d’électricité, - docteur en traitement du signal Chargé de recherche CNRS, ENST
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Parallèlement à l’accroissement de la puissance de calcul des ordinateurs, on observe une tendance à la généralisation de modes d’interface de plus en plus conviviaux et naturels. À l’heure actuelle, les progrès réalisés dans le domaine des interfaces graphiques et des périphériques (souris, écran tactile) permettent à des néophytes d’utiliser des applications évoluées comme les bornes de réservation automatiques dans les gares ou les logiciels éducatifs dans les musées. Cependant, force est de constater que la plupart des interfaces courantes privilégient essentiellement le visuel et l’écrit alors même que la parole constitue un élément primordial de la communication humaine. Dans ces conditions, on conçoit aisément l’enjeu que représente la mise au point de technologies permettant de dialoguer oralement avec un ordinateur.
De manière un peu schématique, il est possible de considérer qu’un véritable dialogue oral doive faire intervenir trois éléments essentiels qui sont la capacité d’entendre et de reconnaître, celle de comprendre et de réagir et, enfin, celle de s’exprimer. La synthèse de parole correspond au troisième de ces éléments. Plus précisément, nous considérons ici la tâche qui consiste à produire, par le truchement d’un ensemble d’algorithmes, un signal acoustique intelligible par un auditeur humain (et de préférence, de qualité aussi naturelle que possible), ce à partir d’un message enregistré dans la mémoire de l’ordinateur, en général sous une forme orthographique.
Tout système de synthèse de parole à partir du texte (dit également TTS, de l’anglais « text-to-speech ») est amené à répondre, de manière plus ou moins précise et développée selon sa qualité et sa finalité, à deux types de problèmes de natures différentes :
-
les traitements linguistiques : cette première étape vise à analyser et à structurer le texte afin de déterminer un mode de prononciation cohérent, puis à transformer le texte analysé en une suite de sons de parole accompagnée d’indications concernant leur agencement ;
-
la synthèse proprement dite : cette seconde étape consiste à générer un signal acoustique qui « retranscrit » cette suite de sons tout en possédant les caractéristiques apparentes de la parole naturelle.
L’architecture générale d’un système de synthèse se compose ainsi de ces deux parties essentielles (figure 1). Les principaux modules de ces traitements sont décrits dans cet article. Bien que tous les exemples cités dans la suite soient extraits du français, il est important de souligner que les problèmes posés sont similaires pour la plupart des langues romanes, anglo-saxonnes et slaves. Les solutions retenues pour toutes ces langues s’inspirent des mêmes principes et ne diffèrent que dans le contenu linguistique des lexiques et des heuristiques contextuelles.
VERSIONS
- Version courante de nov. 2013 par Christophe D'ALESSANDRO, Gaël RICHARD
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Produits
L’offre commerciale en produits de synthèse à partir du texte s’est considérablement accrue au cours des dernières années. La plupart de ces systèmes sont multilingues, c’est-à-dire qu’ils sont capables de produire des voix de synthèse dans plusieurs langues différentes. Ces systèmes incluent à peu près tous la synthèse de l’anglais (généralement, américain).
Les configurations matérielles et logicielles diffèrent suivant le type de produits et les applications. La plupart du temps cependant, l’obtention d’une voix de synthèse ne nécessite plus de disposer d’un matériel spécifique (si ce n’est une carte de restitution du son, disponible en standard sur les nouveaux PC multimédias), la synthèse proprement dite ne requérant en fait qu’une fraction de la puissance de calcul d’un processeur moderne. Pour certaines applications spécifiques (serveurs vocaux ou applications embarquées), des implantations matérielles sont encore souvent nécessaires.
La liste de produits donnée ci-après rassemble les systèmes les plus diffusés à travers le monde. Une liste plus exhaustive (qui comprend notamment les logiciels en freeware que nous avons volontairement écartés) peut être consultée grâce au réseau Internet sur le serveur du Center for spoken language understanding .
4.1 Elan Speech
Elan propose plusieurs produits à partir de deux technologies de synthèse multilingue. Elan Sayso est la toute dernière technologie de synthèse à partir du texte développée par Elan et est basée sur la sélection et la concaténation d’unités non uniformes. Cette technologie permet une voix de synthèse beaucoup plus naturelle. L’autre technologie, Elan Tempo, est basée sur la concaténation de petites unités acoustiques (principalement des diphones) et permet d’avoir...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Produits
BIBLIOGRAPHIE
-
(1) - BOËFFARD (O.), D’ALESSANDRO (C.) - * - « Synthèse de la parole » dans Analyse, Synthèse et codage de la parole, sous la direction de J. Mariani, Hermès (2002).
-
(2) - BOITE (R.), BOURLARD (H.), DUTOIT (T.), HANCQ (J.), LEICH (H.) - Traitement de la parole. - Presses polytechniques et universitaires romandes, Lausanne (2000).
-
(3) - CHOMSKY (N.) - Structure syntaxique. - Collection Point Sciences Humaines, Le Seuil (1979).
-
(4) - SPROAT (R.), MOEBIUS (B.), MAEDA (K.), TZOUKERMANN (E.) - * - « Multilingual Text analysis » dans Multilingual Text-To-Speech Synthesis - The Bell Labs Approach, R. Sproat et coll. éd., Kluwer Academic Publishers (1998).
-
(5) - HARDCASTLE (W.T.), MARCHAL (A.) - Speech Production and Speech Modeling. - Kluwer Academic Publishers (1990).
-
(6) - MOULINES (E.), LAROCHE (J.) - Non-parametric...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive