Le « data poisoning » : une technique de résistance des internautes contre le «capitalisme de surveillance»

Posté le 7 septembre 2021
par Philippe RICHARD dans Informatique et Numérique

Les données, et notamment celles des internautes, sont le carburant de toute entreprise « data driven » et donc des GAFA. Nos moindres actes sur le web sont traités par des algorithmes. Mais si les données récupérées sont faussées, les résultats des modèles IA ne correspondent pas à la réalité. C’est l’objectif du « data poisoning », une technique adoptée par des internautes pour résister au tracking marketing.

Chaque jour, nous laissons de multiples traces de notre vie d’internaute. Ce sont autant d’informations recueillies par les GAFA. Et en particulier par Google dont le business model repose sur l’analyse de ses services gratuits comme Gmail ou son moteur de recherche.

Ces données sont ensuite exploitées par ces géants du web, mais aussi par une multitude de startups et agences, pour faire de la publicité ou de la vente ciblée.

« Toutes ces informations, traitées par l’intelligence artificielle, leur servent à modéliser le comportement de leurs milliards d’utilisateurs pour prédire leurs actions et, de plus en plus, pour les influencer », souligne Shoshana Zuboff, professeure émérite à la Harvard Business School et professeure associée à la Harvard Law School, dans son livre L’Âge du capitalisme de surveillance (éditions Zulma).

Face au développement de ce « capitalisme de surveillance », des internautes partent en résistance. « Comme les entreprises ont besoin des données des consommateurs pour alimenter leurs modèles d’IA, les gens peuvent exercer une influence sur les entreprises en modifiant leur comportement en ligne, par exemple en cessant d’utiliser ces logiciels. Si les gens cessent d’utiliser une certaine application alimentée par l’IA, par exemple, celle-ci perdra les données nécessaires à son apprentissage », explique Nicholas Vincent, étudiant diplômé de la Northwestern University, dans l’article Data leverage: A framework for empowering the public in its relationship with technology companies.

Brouiller les pistes

Pour l’équipe de chercheurs de cette université qui a travaillé sur cette problématique, la résistance consiste aussi à « empoisonner » ses données. Il existe deux principaux procédés. Le premier est ce qu’ils appellent « la grève des données ». Elle consiste à retenir ou à supprimer ses données afin qu’une entreprise ne puisse pas les utiliser. Cette première piste implique d’utiliser notamment un VPN (respectueux de notre vie privée…) pour masquer sa vraie identité numérique, notamment son adresse IP, afin de ne pas être suivi à la trace.

La seconde technique est le « data poisoning ». Elle consiste à fournir des données inutiles ou nuisibles pour influencer les systèmes de recommandation. Cette technique est utilisée depuis plus d’une dizaine d’années par des pirates.

Leur objectif ? Manipuler l’ensemble des données d’apprentissage afin de contrôler le comportement d’un modèle de prédiction. Cette technique a déjà été déployée pour tenter de leurrer des solutions antispam. Dans un billet publié sur son blog en mai 2018, Elie Bursztein (chercheur en cybersécurité chez Google) indiquait qu’il voyait « régulièrement certains des groupes de spammeurs les plus avancés tenter de déjouer le filtre Gmail en signalant des quantités massives d’emails de spam comme n’étant pas des spams […] Entre fin novembre 2017 et début 2018, il y a eu au moins quatre tentatives malveillantes à grande échelle pour fausser notre classificateur. »

Une parade efficace, mais limitée

Les internautes peuvent aussi utiliser la technique du « data poisoning ». La méthode la plus simple consiste à installer sur son navigateur web AdNauseam. Cette extension « clique » sur toutes les publicités qui vous sont proposées, ce qui pollue les algorithmes de ciblage publicitaire de Google. Il n’est donc pas étonnant que cette extension soit blacklistée sur le webstore de Google. Elle ne peut être installée que sur Firefox (reposant sur Chrome de Google, le navigateur de Windows appelé Edge ne la propose pas non plus).

Si cette parade est facile à mettre en place par tous les internautes, elle n’est efficace que si au moins 30 % des utilisateurs participent à cette opération de « data poisoning » selon les chercheurs de la Northwestern University.

« Malgré l’immensité des données accumulées par les grands acteurs de l’Internet sur nos faits, gestes et envies, ils ne savent pas tout sur vous et n’ont pas accès aux données métiers de nombre de marchés verticaux. En effet, les données métiers des entreprises sont chez elles et uniquement chez elles. Les GAFA n’ont pas mis la main dessus. S’ils le faisaient, cela serait avec l’assentiment des grandes entreprises concernées », précise sur son blog Olivier Ezratty, consultant et auteur spécialisé dans les technologies numériques.

Pour aller plus loin

Dans l'actualité

Dans les ressources documentaires