Techniques de l’Ingénieur : Plusieurs variantes composent la famille du deepfake. Quelles sont-elles ?
Vincent Claveau : Le lip-syncing, tout d’abord, consiste à synchroniser le mouvement des lèvres avec le discours d’une autre personne. L’attaque est pernicieuse, car seule une petite partie de la vidéo d’origine est modifiée. La deuxième technique revient à appliquer les expressions du visage d’un acteur, le marionnettiste, sur le visage de la cible, la marionnette. Le visage et les mouvements de la tête dans leur ensemble sont alors changés. Troisième type, qui s’éloigne un peu du deepfake : la production d’images entièrement artificielles, des visages inédits notamment.
Comment un deepfake est-il élaboré ?
« Deep » provient de deep learning, une méthode d’intelligence artificielle basée sur l’apprentissage : nourrie par des exemples, la machine apprend automatiquement à exécuter une tâche. Dans le cas typique du lip-syncing, l’IA s’entraîne, en traitant des discours audios, à faire bouger des lèvres de manière réaliste. Puis on demande à cette IA entraînée de réaliser ce travail en partant d’une nouvelle bande audio dont les images n’existent pas, lesquelles seront alors créées. Cette méthode demande beaucoup de données d’entraînement, c’est à dire de véritables vidéos où sont prononcés de vrais discours accompagnés des mouvements de lèvres correspondants. Le principe est analogue pour la technique de la marionnette, toute une palette d’expressions faciales constituant la base de départ.
Le développement des deepfakes suggère-t-il que la technologie s’est démocratisée ?
Les briques technologiques nécessaires ne sont plus aussi coûteuses, en effet, et sont à la disposition de tout le monde, que ce soit les frameworks [des boîtes à outils pour l’apprentissage des IA, ndlr], ou la vision par ordinateur, le détourage des lèvres ayant précédé de loin l’avènement du deep learning. En plus, ces briques sont parfois packagées au sein d’un même logiciel, par exemple une application de « face swapping » disponible sur smartphone. En soi, la production de fausses vidéos n’est pas nouvelle, les effets spéciaux dans le cinéma en sont l’illustration. La différence, c’est qu’aujourd’hui, un non-spécialiste, sans la moindre compétence de graphiste, est capable d’utiliser un tel logiciel.
Les méthodes de détection mises en place par les plateformes de réseaux sociaux vous semblent-elles fiables ?
Difficile pour nous, scientifiques, de nous prononcer sur leur qualité, car nous ne savons pas ce que Facebook, Twitter et les autres mettent en œuvre. S’il s’agit de décrire les techniques se développant en laboratoire, certaines exploitent également le deep learning et décèlent des incohérences dans l’image, parfois visibles à l’œil nu sur les premiers deepfakes : intérieur de la bouche inexistant, oreilles ou boucles d’oreille anormales… Sauf que le jeu du chat et de la souris s’instaure : les générateurs suivants de deepfakes intègrent ces techniques de détection pour gommer leurs défauts. Les détecteurs conçus il y a trois ou quatre ans sont donc obsolètes. C’est la raison pour laquelle des chercheurs refusent de communiquer leur façon de faire, de peur que ces connaissances soient assimilées par les prochains générateurs de deepfakes. D’autres détecteurs, plus pointus, vont analyser la concordance entre la rougeur du visage et l’afflux sanguin. On peut aussi chercher les traces laissées par les composants qui ont servi à capturer l’image (image forensics en anglais, ndlr). La vidéo officielle de Donald Trump, filmée par une caméra de NBC, doit comporter la signature correspondante. Hélas, les compressions/décompressions multiples de la vidéo peuvent atténuer ces indices. A priori, Twitter s’est orienté vers le « patch checking », pour analyser le cheminement de la vidéo et remonter jusqu’à la source, considérée plus ou moins suspecte. C’est un travail que seuls les concepteurs de ces réseaux sociaux peuvent accomplir. Nous n’en avons pas les moyens.
Pour une personne non-initiée, existe-t-il des astuces pour repérer un deepfake ?
Des logiciels, tels que des plug-ins pour les navigateurs web, sont conçus pour détecter la manipulation d’images et les photomontages, bien qu’ils soient plutôt destinés au traitement des fake news. En vérité, il faut admettre que nous sommes entrés dans une ère où l’on ne peut plus croire la preuve vidéo. C’est un changement de paradigme car maintenant, n’importe qui peut truquer une vidéo. La démarche la plus sûre se résume à la vérification des sources. Qui envoie cette vidéo, puis-je lui faire confiance… ? Ce sont les questions indispensables à se poser.
Propos recueillis par Frédéric Monflier
Dans l'actualité
- Techniques de l’Ingénieur partenaire de Big Data Paris
- Blockchain : entre buzz word et réalité
- Revue de presse anglophone #22 : les 10 news de la semaine
- Revue du web #117 : les 6 vidéos les plus étonnantes
- Cardiologs et le deep learning sur les électrocardiogrammes
- Google DeepMind : la machine surpasse une nouvelle fois l’intelligence humaine
- L’intelligence artificielle : entre excitation et éthique
- L’intelligence artificielle perce les secrets des grands peintres
- Cybersécurité : l’intelligence artificielle n’est pas l’arme fatale !
- Le Machine learning et le Deep learning optimisent les données des entreprises
- Le Dark web : une nébuleuse composée de milliers de sites miroirs
- Des Russes ont-ils tenté de discréditer l’opposant Navalny avec un deepfake ?
Dans les ressources documentaires
- Diffuser sa veille sur les réseaux sociaux
- Utiliser les réseaux sociaux en toute légalité : le droit d’auteur
- Instaurer le knowledge management à l’heure des réseaux sociaux d’entreprise
- Serveurs vidéo et média - Applications, architectures et paramètres
- Outils de l’intelligence artificielle appliqués au CND
- Intelligence artificielle et diagnostic
- Coopération d’algorithmes d’apprentissage par renforcement multiples
- Reconnaissance des formes