En ce moment

Les modèles de machine learning victimes d’attaques informatiques

Posté le 19 décembre 2022
par Philippe RICHARD
dans Informatique et Numérique

Utilisé par des solutions de paiement monétique et les banques, le machine learning vise à lutter contre la fraude financière. Mais des pirates pourraient tenter de leurrer ces modèles d’apprentissage pour mener des attaques et des campagnes de désinformation.

Sous-domaine de l’IA, le machine learning (ML) permet aux ordinateurs de s’appuyer sur des techniques statistiques pour exécuter une tâche précise. Profitant de la puissance de calcul du cloud computing, de nombreux secteurs d’activité s’appuient sur les résultats de ces algorithmes pour prendre des décisions considérées comme plus pertinentes.

Mais dans son récent rapport « Threat Landscape », l’European Union Agency for Cybersecurity (ENISA) s’inquiète de tentatives d’attaques visant le ML afin de diminuer leur précision. L’inconvénient majeur de l’IA est que son efficacité est directement liée à la qualité de ses données. Quelle que soit la complexité du modèle, des données de mauvaise qualité produiront des résultats médiocres, et l’histoire montre qu’il n’en faut pas beaucoup.

Même s’il s’agit principalement d’expérimentations menées en laboratoire ou par quelques États, ces manipulations algorithmiques pourraient être utilisées à des fins diverses, notamment la désinformation, les escroqueries par phishing, l’altération de l’opinion publique, le discrédit des individus ou des marques.

Maquiller le trafic

L’une des principales pistes de recherche concerne le Data Poisoning. Ces attaques agissent sur la phase d’entraînement pour altérer, voire fausser complètement les résultats du modèle prédictif. C’est cette technique qui a été utilisée entre 2017 et 2018 pour rendre moins efficace les solutions anti-spams de Google.

Cette déformation d’un modèle pourrait être utilisée dans un contexte de cybersécurité afin de maquiller du trafic sur un réseau informatique. Imaginons que la cible soit une solution s’appuyant sur l’apprentissage automatique pour détecter une activité suspecte. Un attaquant peut tenter d’introduire lentement des données qui diminuent la précision du modèle en question afin qu’il ne signale plus certains comportements comme anormaux.

Cette technique dite de l’empoisonnement et de la manipulation des données représente l’une des principales menaces dans le domaine des données. D’où la nécessité de contrôler et de sécuriser l’intégrité des données, mais aussi leur provenance et leur non-répudiation.

Des mesures qui sont encore loin d’être généralisées. Publié en 2019, un rapport de la Commission de sécurité nationale américaine sur l’intelligence artificielle indiquait qu’un très faible pourcentage de la recherche actuelle sur l’IA était consacré à la défense de ces systèmes contre les attaques.

IA survendue

Or, certains systèmes déjà utilisés en production pourraient être vulnérables à des attaques qui ne sont pas nécessairement très sophistiquées et onéreuses. La preuve, en plaçant quelques petits autocollants sur le sol, des chercheurs ont montré qu’ils pouvaient « entraîner » une voiture autopilotée à rejoindre la voie opposée à la circulation.

D’autres études ont montré qu’en apportant des modifications imperceptibles à une image, on pouvait tromper un système d’analyse médicale en classant un grain de beauté bénin comme malin.

« La détection par IA et ML reste encore très rare et ce que beaucoup de personnes et d’entreprises appellent de l’intelligence artificielle est souvent de simples règles. Commercialement, le terme est donc survendu. Il y a quelques entreprises qui font du monitoring d’intrusion reposant sur ces techniques-là, mais seuls quelques attaquants étatiques sont capables de mener de telles actions. Ce n’est pas à la portée du criminel de base », tempère Renaud Lifchitz, Chief Scientific Officer chez Holiseum, une entreprise française spécialisée dans la cybersécurité des infrastructures critiques et industrielles.


Pour aller plus loin