Depuis fin mai, Google expérimente le paiement par identification vocale – à ne pas confondre avec la reconnaissance de la parole – au travers du micro des enceintes connectées Google Home. Il n’est plus nécessaire d’empoigner son smartphone pour valider une transaction sur le Play Store à l’aide d’un mot de passe par exemple : la voix de l’utilisateur autorisé suffit. Une manière pratique d’accélérer les actes d’achat. Cette option vient en complément de la fonction Voice Match, laquelle était déjà capable de distinguer plusieurs membres au sein de la même famille.
Google est loin d’être un pionnier, car la voix, comme moyen biométrique, est mise en œuvre depuis quelques années par des services bancaires (HSBC au Royaume-Uni avec le concours de Nuance, notamment) et des opérateurs télécom. Il s’agit néanmoins d’une belle occasion de faire un point sur cette technologie. A la tête du Laboratoire d’Informatique à l’université d’Avignon et spécialiste de l’utilisation de la voix dans l’authentification, Jean-François Bonastre livre son expertise sur les évolutions de l’identification vocale, ses fragilités et les questions éthiques qu’elle soulève.
Techniques de l’Ingénieur : L’empreinte vocale n’est pas une expression appropriée selon vous. Pouvez-vous préciser ?
Jean-François Bonastre : L’empreinte vocale n’existe pas. On ne dispose pas de référentiel, à l’instar des minuties pour une empreinte digitale. D’autre part, la voix d’une personne varie durant la journée, en fonction de son état physiologique et émotionnel, et tout au long des étapes de sa vie. Les systèmes d’identification vocale doivent faire face à cette variabilité. La voix s’apparente plutôt à une signature, à l’image d’une signature manuscrite. Elle tient davantage de la biométrie comportementale, qui dépend au moins autant de l’acquis que de l’inné. Par chance, l’acquis n’est pas totalement contrôlable, donc une voix reste suffisamment stable pour que l’on puisse identifier le locuteur.
Quelles sont les techniques utilisées pour analyser et identifier une voix ?
Les techniques modernes ont débuté dans les années 2000 avec l’apprentissage automatique et la modélisation statistique des paramètres de la voix, ou mélange gaussien. Le système apprend un modèle de voix générique, avec ses variations, à partir des enregistrements vocaux d’une centaine de personnes. Quand vous parlez une dizaine de secondes dans l’application mobile de Google pour la phase d’enrôlement, ce modèle moyen est ajusté en tenant compte des spécificités de votre voix. Ces différences servent à vous identifier. Les vecteurs d’information, ou i-vecteurs, se sont développés à compter des années 2010. On les extrait d’un signal audio d’une dizaine de secondes afin de créer une signature. Le système apprend à rechercher les différences puis compare les signatures, quand il s’agit de valider une transaction par exemple.
Le système i-vecteur est également capable d’éliminer un bruit ambiant, si celui-ci est enregistré au préalable, et de normaliser la variabilité due au téléphone : sa base d’apprentissage comprend des centaines de modèles de téléphone et leurs nuisances particulières. Grâce à cette méthode, le taux d’erreur a été divisé par deux. Les modèles à réseaux de neurones et le deep learning sont les évolutions les plus récentes et conduiront probablement à un petit gain de performance ces prochaines années. L’approche est la même que précédemment, sauf que les données d’entraînement sont plus nombreuses. C’est la technologie qu’utilise Google. Les systèmes i-vecteurs sont plus performants si les extraits sonores durent une trentaine de secondes, avec beaucoup d’exemples de nuisances. Dans la situation où les extraits ne durent que quelques secondes dans un environnement très variable – cas typique d’une enceinte Google dans le cercle familial – les réseaux de neurones prennent l’avantage.
Quel est le degré de fiabilité de l’identification vocale, comparée à d’autres techniques biométriques ?
La signature vocale n’est pas une modalité d’identification aussi forte que l’empreinte génétique, digitale (à condition que celle-ci soit prise correctement), voire rétinienne. Mais la voix peut être associée à d’autres protocoles de sécurité pour prouver l’identité d’une personne : prononciation d’un mot de passe ou d’un code PIN, réponse à une question secrète… C’est une distinction parfois difficile à saisir : la signature vocale n’est pas la plus sûre, mais la voix, en tant que scénario pratique d’identification, permet d’atteindre un bon niveau de confiance.
Peut-on duper un système d’identification vocale ?
Commençons par rappeler qu’aucun système de sécurité n’est infaillible. L’imitation de la voix d’autrui par un être humain est un premier type d’attaque. Mais ces imitateurs s’exercent à tromper la perception humaine et sont moins efficaces face à une machine. Viennent ensuite les attaques technologiques, à commencer par l’enregistrement de la voix (replay attack). Ce subterfuge fonctionne assez bien, mais les systèmes détectent de mieux en mieux certaines traces laissées par le micro et le haut-parleur. Ensuite, des logiciels sont disponibles gratuitement pour convertir un enregistrement vocal et le faire ressembler à une voix-cible. Si l’utilisateur est novice, des contre-mesures existent. En revanche, si ce logiciel est aux mains d’un expert qui s’investit plusieurs mois, l’attaque est presque indétectable : le taux de fausses acceptations augmentera sensiblement. Enfin, un pirate, avec l’aide de réseaux de neurones, peut tenter de construire des voix-prototypes qui ont des chances de tromper le système d’identification vocale d’une banque. Cette attaque n’est pas conçue pour viser une personne spécifique mais, quand un système d’identification compte plusieurs millions d’utilisateurs – c’est le cas de Google – le risque que le pirate obtienne des milliers d’accès est loin d’être nul.
Quelles contraintes réglementaires s’appliquent à l’identification vocale ?
L’identification par la voix, comme toute donnée biométrique, entre dans le cadre du Règlement général sur la protection des données (RGPD). Mais, de façon étonnante, la voix elle-même n’est pas considérée comme une donnée sensible. Or, la voix renseigne sur l’état d’une personne, son passé (au travers de l’accent) et bien d’autres informations, ce qu’une IA est capable d’analyser. Google, comme tous les GAFAM, est susceptible de revendre de telles données, qui pourraient intéresser des cabinets de recrutement. On imagine les possibilités de discrimination. Il paraît évident que les jurisprudences vont évoluer pour que la voix soit une donnée protégée au titre de la vie privée. Les utilisateurs en seront les bénéficiaires, de même que les entreprises-clientes, responsables d’un point de vue juridique en cas de discrimination.
Dans l'actualité
- Chatbots et IA : des assistants virtuels dotés de personnalité ?
- Domotique : Free fait irruption dans la maison connectée
- Les entreprises misent sur l’IA pour doper leurs ventes
- Les télécoms à la recherche d’un numéro gagnant
- Google : entre informatique et innovations
- L’authentification biométrique favorisée par la 5G ?
- Biowatch : la reconnaissance biométrique par les veines
- Authentification biométrique : visage, voix et paroles vérifiés simultanément
- Le Machine learning et le Deep learning optimisent les données des entreprises
- Une sécurité renforcée avec la biométrie digitale : mon oeil !
- La fin des CAPTCHA grâce aux clés dédiées à la double authentification ?
- Les dérives de la surveillance biométrique pointées du doigt
- L’authentification invisible : la technique pour protéger son identité numérique
- La France au CES 2023 : Vivoka