Présentation
En anglaisAuteur(s)
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Suite aux travaux réalisés dans le domaine de l'anthropométrie, la biométrie est une technique moderne qui répond à une préoccupation ancienne de prouver l'identité d'une personne de manière indiscutable en utilisant ses caractéristiques physiques ou comportementales. Dans cet article, nous proposons d'étudier une nouvelle approche pour la reconnaissance automatique du locuteur (RAL). Notre méthode consiste à reconnaître une personne à partir d'un certain nombre de paramètres, extraits du signal vocal émis par la personne, et représentés originalement de manière qualitative contrairement aux paramétrisations de l'état de l'art.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Extraction
Nous utilisons la mesure du voisement corrélée avec le SNR, l'équivalent de l'index d'harmonicité . Il est extrait de l'autocorrélogramme du signal démodulé (voir figure 1). D'après H. Glotin , dans le cas de bruit gaussien (figure 2), le corrélogramme de la fenêtre de bruit est moins modulé qu'un corrélogramme propre . Les pics dans la fenêtre de démodulation de l'autocorrélogramme isolent les nombreuses harmoniques du signal. Ceci peut être utilisé par la suite pour séparer le bruit d'harmoniques mixtes du signal harmonique dominant, en utilisant une fenêtre de temps d'une durée quasi égale à la durée moyenne d'un phonème.
Nous calculons l'autocorrélogramme du signal démodulé après une demi-rectification, suivie d'un filtrage passe-bande dans le domaine du pitch ([90,350] Hz) (partie rouge de la courbe, figures 1 et 2). Pour chaque fenêtre locale de voisement (FVL) de 128 ms, nous calculons le ratio :
où R1 est le maximum local d'un segment de délais de temps correspondant à la fréquence fondamentale, R0 est l'énergie d'une cellule, xR1 représente le timbre de la voix du locuteur.
Cette mesure R est fortement corrélée avec le SNR entre 5-20 dB .
SNR : Signal to Noise Ratio
La figure 3 c démontre explicitement les niveaux de voisement pour chaque sous-bande et chaque fenêtre. Ces valeurs seront seuillées pour obtenir des caractéristiques dynamiques qualitatives qui seront utilisées, par la suite, pour estimer l'identité d'une personne. La définition des sous-bandes montrées dans les articles de Fletcher , et par d'autres chercheurs comme F.B. Allen est reprise ici. Le vecteur BANDES = [216 778 ; 707 1631 ; 1262 2709 ; 2121 3800 ; 3400 5400 ; 5000 8000] définit les plages de sous-bandes (en Hz).
Nota : J.B. Allen et J.F. Allen sont deux auteurs différents, le premier travailla sur l'analyse de...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Extraction
BIBLIOGRAPHIE
-
(1) - ALLEN (J.F.) - An interval-based representation of temporal knowledge - In Proceedings of 7th IJCAI, IJCAI, p. 221-226 (1981).
-
(2) - ALLEN (J.F.) - Maintaining knowledge about temporal intervals - Communications of the ACM, 26(11), p. 832-843 (1983).
-
(3) - ALLEN (J.B.) - How do humans process and recognize speech ? - In IEEE Trans. On Speech and Signal Processing, volume 2, p. 567-576 (1994).
-
(4) - BERTHOMMIER (F.), GLOTIN (H.) - A new snr-feature mapping for robust multistream speech recognition - In Proc. Int. Congress on Phonetic Sciences (ICPhS), volume 1 of XIV, p. 711-715, Berkeley University Of California, Ed., San Francisco (1999).
-
(5) - GALLIANO (S.), GEOFFROIS (E.), MOSTEFA (D.), CHOUKRI (K.), BONASTRE (J.-F.), GRAVIER (G.) - The ester phase 2 : Evaluation campaign for the rich transcription of french broadcast news - European Conf. on Speech Communication and Technology, p. 1149-1152 (2005).
-
...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Base documentaire Sécurité des systèmes d'information
DORIZZI (B.) - LEROUX LES JARDINS (J.) - LAMADELAINE (P.) - GUERRIER (C.) - La biométrie, techniques et usages - [H 5 530] (2004).
HAUT DE PAGE
LSIS
DCNS
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive