La loi de surveillance actuellement examinée par le Sénat rendra légales des pratiques d’espionnage jusque là ignorées du grand public, comme l’installation, sur les équipements des opérateurs et des FAI, de “boites noires” permettant de sonder les données circulant sur les réseaux des acteurs du Net.
Ces appareils contiendront, selon le gouvernement, des algorithmes, qui devraient permettre de retrouver, dans une énorme masse de données transitant sur Internet, de possibles suspects – grâce au data mining.
Il devrait s’agir d’un “traitement automatisé”, permettant de repérer des comportements (de communication) suspects, puis d’identifier les personnes – en principe, selon le principe de la surveillance ciblée, et non généralisée. Pourtant, difficile d’y croire.
Des faux positifs prévisibles
D’abord parce qu’un algorithme est une suite d’opérations, qu’un ordinateur se bornera à exécuter. Ces opérations sont définies par un être humain, afin qu’un comportement soit par exemple détecté comme suspect. Ainsi, l’algorithme reposera obligatoirement sur une liste de comportements définis comme atypiques, conçue par un être humain, par nature faillible.
Quid, donc, du risque d’erreurs et de faux positifs – autrement dit, quid du risque de surveillance d’un grand nombre d’internautes parfaitement innocents ? Tristan Nitot, membre du CNN (conseil national du numérique), interviewé par le Nouvel Obs, s’inquiète : “cette disposition conduira à punir 99% d’innocents souhaitant simplement s’informer”.
En effet, le risque est grand que les filtres utilisés fassent remonter des internautes n’ayant rien à voir avec des terroristes, mais effectuant des recherches sur le sujet, comme les journalistes, les universitaires ou les sociologues.
Une surveillance massive incontournable
Difficile de croire à une surveillance ciblée, ensuite, puisque pour être efficaces, les algorithmes devront “tourner” dans un système observant le plus de monde possible. Qu’il s’agisse d’un ensemble de règles, qui combinées formeraient un profil suspect (se connecter à un site djihadiste, tout en utilisant régulièrement le mot “explosion” dans ses mails, par exemple), ou qu’il s’agisse de graphes, c’est-à-dire de “cartes” des relations des “3000 personnes engagées de près ou de loin dans la mouvance terroriste”, le procédé utilisé pour faire fonctionner l’édifice nécessitera obligatoirement de surveiller des millions d’internautes.
Afin de repérer un “profil suspect”, un algorithme aura ainsi besoin d’en scruter un très grand nombre. Et en établissant la cartographie des relations sociales de 3000 suspects, un algorithme finira par tisser une véritable toile, jusqu’à répertorier des milliers, voire des millions d’individus.
Des algorithmes probablement inefficaces
A noter que les algorithmes risquent d’être tout simplement inefficaces pour repérer une poignée de terroristes dans une galaxie d’internautes, puisque que les risques de faux positifs sont bien réels, et que les vrais suspects devraient inventer régulièrement des parades pour leurrer le système.
Ainsi, les algorithmes devront-ils être régulièrement “mis à jour”, à la main, car un organisme, la CNCTR (commission nationale de contrôle des techniques de renseignement), contrôlera toute modification)… le temps pour les terroristes de disparaître des écrans radars.
Par Fabien Soyez
Et aussi en
formation :
Dans l'actualité
- Les machines à apprendre : réseaux neuronaux et apprentissages en profondeur
- Des programmes informatiques qui apprennent à jouer
- I.A. et politique : des discours bientôt écrits par un algorithme ?
- Le monde sous surveillance
- La surveillance permanente des internautes
- Espionnage économique : les États-Unis de plus en plus curieux
- Cette poignée identifie ce que vous achetez
- Repérer des personnes à travers un mur grâce au Wi-Fi