Interview

Arnaud Legout : « Il n’existe pas de solution grand public contre la publicité ciblée »

Posté le 25 avril 2022
par Philippe RICHARD
dans Informatique et Numérique

Google signe-t-il la fin des cookies ? Le géant américain vient d’annoncer qu’il sera maintenant possible de refuser en un seul clic l’utilisation de «cookies ». La nouvelle interface comprend désormais deux boutons « Tout accepter » ou « Tout refuser ». Elle a commencé à être déployée en France (et dans d’autres pays européens) sur YouTube et ensuite à tous ses services.

Exécutoire depuis mai 2019, le RGPD oblige les sites à informer de façon transparente les internautes sur la présence de cookies et leur finalité. Pour schématiser, il existe deux types de cookies. Il y a ceux qui servent à vous reconnaître lorsque vous allez sur vos sites préférés. Seconde catégorie, les cookies tiers (boutons de partage sur les réseaux sociaux, moteurs de recherche…) sont destinés à la publicité ciblée. C’est celle-ci qui pose problème et qui est à l’origine d’amendes record comme celles infligées à Google par la CNIL fin 2020 et 2021, respectivement 100 millions et 150 millions d’euros.

Mais les spécialistes de la publicité ciblée ont plus d’un tour dans leur sac pour continuer à épier nos moindres faits et gestes. Explications avec Arnaud Legout. En juillet prochain en Australie, avec Nataliia Bielova (responsable du projet et chercheuse à l’INRIA) et Imane Fouad (post-doctorante), ils présenteront leur travail sur la « recréation de cookies »

Chercheur au centre INRIA de l’Université Côte d’Azur, Arnaud Legout a travaillé avec Nataliia Bielova, chercheuse à l’INRIA au moment de ces travaux sur les cookies et détachée jusqu’en septembre comme experte en protection de la vie privée à la CNIL. Auparavant, il a suivi des études à l’Université de Nice, où il a obtenu une maitrise de Mathématiques et une thèse en informatique.

Techniques de l’Ingénieur : Selon vous, les entreprises spécialisées dans la publicité utilisent des techniques de plus en plus complexes pour éviter d’être détectées et bloquées.

Arnaud Legout © Inria / Photo C. Morel

Arnaud Legout : elles utilisent des techniques plus performantes, car les internautes disposent de navigateurs web intégrant par défaut des réglages pour nettoyer ou bloquer des cookies. Il y a aussi de nombreuses extensions (plug-in) qui permettent de bloquer les trackers. Pour continuer à faire du ciblage, ces entreprises s’appuient dorénavant sur des méthodes capables de contourner les mécanismes de protection des navigateurs.

C’est le cas de la « recréation de cookies » ?

En effaçant des cookies installés sur son ordinateur, nous avons le sentiment d’être moins pistés. Ces cookies sont en effet effacés… mais la prochaine fois que nous retournerons sur un site, un tracker va nous reconnaître et il est capable de recréer les cookies précédemment effacés. Cette technique appelée « fingerprinting » permet d’identifier une personne en fonction des caractéristiques du navigateur et de son ordinateur. Très peu de paramètres suffisent à déterminer avec beaucoup de précisions notre profil ! Cependant, le fingerprinting évolue dans le temps, car nous changeons parfois de navigateur ou installons de nouvelles extensions. Mais en combinant les cookies fonctionnels, qui eux ne changent pas dans le temps, et le fingerprinting qui évolue mais qu’on ne peut pas effacer, cela permet de conserver une meilleure persistance du traçage. Peu importe que nous utilisions le mode « Privé » d’un navigateur et que nous effacions régulièrement les cookies. Pour s’en apercevoir et découvrir notre « empreinte numérique », il suffit de se connecter au site Amiunique.org

Votre seconde étude porte sur l’analyse de 385 sites « médicaux » de cinq pays, dont la France. Quel bilan tirez-vous ?

Notre étude a porté sur des sites de médecins, ou de regroupements de médecins, et de cliniques. Ces sites ne nous espionnent pas volontairement. Prenons le cas d’un généraliste qui veut un site pour que ses patients prennent plus facilement un rendez-vous. Il passe par une agence web qui, comme tous les prestataires de services, est pressée par le rendement et qui n’a pas nécessairement les compétences en interne pour la conformité RGPD. Pour ne pas perdre de temps, elle va au plus simple en utilisant une architecture d’un site par défaut avec des plug-ins déjà préinstallés. Résultat, 40 % de ces sites « médicaux » ne permettent pas de refuser le traçage. Et 15 % tracent même si le visiteur a refusé !

En 2020, votre étude¹ sur le tracking avait conclu que 94,51 % des 8 744 domaines avaient des pixels invisibles tiers pour faire de la publicité ciblée. Cette situation a-t-elle empiré ?

Les pixels invisibles ne sont pas une technique récente. Elle est utilisée pour rediriger les internautes vers des prestataires spécialisés dans le tracking ou « l’Analytics ». Faire de l’analyse d’audience n’est pas critiquable en soi. Cependant, tous les cookies de traçage doivent être acceptés explicitement par les visiteurs d’un site. Avec ces pixels invisibles, ils ne savent pas qu’ils sont pistés. Pire, nos travaux montrent qu’il y a tous les éléments pour que les sociétés de traçage collaborent entre elles en synchronisant leurs cookies et se partagent les données. Cependant, nous ne savons pas précisément ce qu’elles font de tous ces volumes d’informations.

Existe-t-il des solutions pour être moins pisté malgré ces techniques sophistiquées ?

Nos travaux avaient pour objectifs de donner deux éléments importants. Premièrement, dans la communauté des chercheurs, les listes de traçage comme EasyList et EasyPrivacy étaient considérées comme une référence absolue. Nos travaux montrent justement qu’elles ne le sont pas puisqu’elles n’en repèrent que 80 %. Cela ne signifie pas pour autant qu’elles sont inefficaces ! Deuxièmement, il existe de très bonnes extensions, mais elles ne bloquent pas tous les cookies tiers. Actuellement, il n’y a pas de solutions parfaites, car il n’existe pas d’outil capable de les détecter de façon automatique et transparente. Les solutions que nous avons utilisées pour nos travaux sont très lourdes et offline ; elles ne conviennent pas pour un usage grand public et en temps réel.


¹ Retrouvez ici cette étude


Pour aller plus loin