Aggravation des inégalités, impacts environnementaux, atteintes à la vie privée… Les impacts négatifs de l’intelligence artificielle sont déjà très présents. Mais peut-on vraiment créer des algorithmes plus éthiques ? Rencontre avec Giada Pistilli, chercheuse en philosophie et responsable de l’éthique à Hugging Face.
L’intelligence artificielle étant un outil, c’est l’utilisation qui en est faite par les humains qui détermine les impacts -positifs ou négatifs- sur notre monde. Pourtant, la course effrénée à l’innovation dans le domaine de l’IA ne permet pas une réflexion profonde sur l’usage de ces technologies.
Giada Pistilli est chercheuse en philosophie et écrit une thèse sur l’éthique dans les IA conversationnelles. Depuis mai 2022, elle est aussi responsable de l’éthique à Hugging Face, une plateforme open source d’outils d’intelligence artificielle. Pour Techniques de l’Ingénieur, elle propose des pistes de réflexions et invite à une utilisation plus responsable de l’IA.
Techniques de l’Ingénieur : En quoi consiste votre métier de responsable de l’éthique chez Hugging Face ?
Giada Pistilli : Hugging Face est une plateforme open source d’outils d’intelligence artificielle, c’est-à-dire que nous mettons à disposition de manière collaborative des modèles d’IA, des datasets et des applications complètes. Nous sommes en quelque sorte le GitHub du machine learning.
De mon côté, je travaille dans l’équipe de recherche qui est un peu un satellite dans l’entreprise. Je fais donc de la recherche, il m’arrive d’accompagner des clients qui souhaitent rendre leurs outils open source et veulent le faire de manière responsable, et je participe aussi à la rédaction de chartes éthiques. Par exemple, je travaille avec une université au Danemark qui souhaite développer en open source des outils pour le diagnostic de pattern sociolinguistiques chez les personnes touchées par un trouble du spectre de l’autisme. Ils sont venus nous voir en tant que conseillers en éthique pour comprendre comment déployer ce modèle et quels types de mesures de sécurité mettre en place. Enfin, je suis aussi en charge de la modération de contenus sur notre plateforme.
L’open source et la collaboration sont-elles des réponses aux questionnements éthiques soulevés par l’IA ?
Totalement. Aujourd’hui, le machine learning manque cruellement de partage d’information. Pour prendre l’exemple de ChatGPT, nous ne savons pas comment les algorithmes ont été entraînés, quel type de données ont été utilisées etc. Les choses se font dans des laboratoires et ensuite, nous devons leur faire confiance aveuglément. En réaction, des organismes comme Hugging Face militent pour plus d’ouverture, de transparence, de partage et de décentralisation. C’est aussi intéressant scientifiquement car il est ainsi plus facile de reproduire des résultats, et de trouver des solutions en cas de problèmes car la communauté a accès à tout.
Est-ce que les algorithmes peuvent être véritablement éthiques ?
Selon moi, l’éthique n’est pas un adjectif mais une démarche. “Ethique” signifie qu’il y a des raisonnements autour de l’action humaine. Il est important de ramener le discours aux responsables humains derrière les technologies. Nous avons beau parler de modèles autonomes, ils sont conçus par des humains et nous avons une responsabilité collective, depuis les développeurs jusqu’aux utilisateurs. Dire qu’un algorithme est complètement éthique signifierait que nous avons résolu mathématiquement ce qu’est l’éthique, et que nous pouvons l’appliquer statistiquement. Plus qu’éthique, il faudrait une utilisation responsable de l’IA.
Quelles questions doit-on se poser pour créer des algorithmes responsables ?
Concernant les IA conversationnelles, nous pouvons appliquer des raisonnement éthiques à 2 moments clés. D’abord, lors du développement de l’algorithme. C’est là qu’on retrouve les questionnements liés aux données, à la recherche d’une architecture, aux biais etc. Ensuite, il y a la question moins abordée du déploiement, donc de la rencontre avec les utilisateurs. Je trouve que le machine learning manque énormément d’experts dans ce sujet. Les personnes qui créent les algorithmes sont totalement détachées des cas d’utilisation et vont mettre en production des outils sans savoir comment les utilisateurs vont s’en servir, ni quels impacts peuvent avoir ces technologies dans notre quotidien. Il y a quelques mois, un homme s’est suicidé après une conversation avec un chatbot. Avec les robots conversationnels, il y a ce risque qu’on connaît très bien de l’anthropomorphisation, c’est-à-dire qu’on oublie très facilement qu’on parle à une machine. Il est donc nécessaire de réfléchir à comment on se sert d’une technologie et quelles sont les bonnes pratiques. Les humains sont tellement imprévisibles qu’il est parfois difficile de poser des limites à tous les cas d’utilisation. D’ailleurs, ChatGPT en est un exemple : vous donnez un outil un peu magique à un utilisateur et la première chose qu’il va faire c’est d’essayer d’en tester les limites.
Si les humains sont imprévisibles, comment réfléchir en amont à toutes les expériences utilisateur possibles ?
Ma grande hypothèse, c’est qu’aujourd’hui nous sommes en train d’explorer tout ce que nous pouvons faire avec des modèles généralistes mais que dans le futur proche, nous allons de plus en plus nous spécialiser. Néanmoins, nous pouvons dès maintenant agir. D’après mes recherches, encadrer le plus possible la conversation sans laisser la main libre à l’utilisateur est ce qui fonctionne le mieux. Par exemple, si nous concevons un chatbot pour faire de la conversion de fichiers Excel, nous devons uniquement permettre à l’utilisateur de réaliser cette action, sans lui laisser l’opportunité de discuter du sens de la vie avec le bot.
Que mettre en place pour éviter les biais algorithmiques ?
Je pense que c’est une question à contrôler plutôt qu’à résoudre. La société en soi est biaisée et inégalitaire donc si nous ne voulons pas reproduire ces biais, nous devons nous demander quelle société reproduire. Un modèle d’IA va dans tous les cas être entraîné sur un jeu de données, qui est comme une photographie d’un moment précis de l’histoire, alors que les valeurs, la société, le langage sont en évolution continue. Il est capital d’inclure le maximum de points de vue différents mais nous avons encore de gros progrès à faire.
Entre 2021 et 2022, j’ai réalisé une recherche sur le modèle de langage GPT-3 et nous avons constaté avec mes coauteurs que le modèle de langage reproduisait énormément de visions du monde centrées sur celle des Etats-Unis. En utilisant des données, nous allons forcément reproduire une vision du monde plutôt qu’une autre, d’où l’importance de diversifier les données. Mais l’IA reste un modèle statistique donc il va faire un choix et nous ne pouvons pas nous attendre à ce qu’il montre la nuance de diversité qui existe. Le fait d’avoir des modèles de plus en plus spécialisés va aussi aider pour cette problématique.
Comment utiliser des données diversifiées alors qu’elles viennent globalement des mêmes endroits ?
Il y a quelques années, j’ai collaboré à BLOOM, le plus grand modèle open source multilingue qui propose 46 langues. Lors de la collecte de données, nous sommes partis du principe que les modèles de langages représentaient trop l’anglais. Quand on sait que sur Internet, plus de 80% du contenu est écrit en anglais et que les données viennent surtout d’Internet, cela fait sens… Logiquement, BLOOM a été majoritairement entraîné en anglais mais nous nous sommes aussi penchés sur des langues moins représentées comme le Gallois, des dialectes d’Afrique subsaharienne etc. Nous avons travaillé avec des ONG et des scientifiques qui agissent pour la préservation de ces langues et proposent des datasets. Mais est-il plus facile d’utiliser des jeux de données déjà prêts, où l’anglais domine ? Bien sûr ! Nos efforts nous ont pris plus de 6 mois mais ils participent à une vision plus réaliste et moins biaisée de notre monde.
C’est un peu ma lutte quotidienne d’agir contre l’omniprésence de l’anglais. Nous ne pouvons pas régler la problématique des biais si nous utilisons toujours la même langue, car elle véhicule une même représentation du monde. Par exemple, nous avons déjà remarqué que pour pour la requête “maison chinoise”, un modèle d’IA américain représenterait davantage le stéréotype des maisons traditionnelles rouges, tandis qu’un modèle chinois proposerait des bâtiments beaucoup plus proches de la réalité.
Quelles bonnes pratiques pourraient mettre en place les entreprises qui souhaitent implanter l’IA de manière responsable ?
La pratique des audits externes avec des experts extérieurs est vraiment très importante. D’autre part, je préconise une documentation la plus détaillée possible pour une transparence totale. Il faut écrire précisément quelle architecture et quels paramètres ont été choisis, quels jeux de données ont été utilisés etc. Margaret Mitchell, qui a travaillé chez Google et maintenant chez Hugging Face, a développé les “model cards” qui regroupent des informations très précises. C’est une pratique qu’on peut mettre en place en entreprise. Enfin, il me semble nécessaire d’avoir davantage d’experts en sciences sociales. La vision des ingénieurs des problématiques sociales est assez mathématique alors que les experts en sciences sociales vont voir des choses auxquelles les ingénieurs n’auront pas pensé.
Y a-t-il assez de lois pour encadrer l’IA ?
Pas vraiment. Nous revenons toujours au bras de fer entre l’industrie qui veut rester libre de tester car elle est en pleine phase créative, et de l’autre côté, la nécessité de s’assurer que ces technologies ne perturbent pas le quotidien des individus. Nous ne pouvons pas faire confiance aux industries pour s’auto-réguler. C’est ce que l’on avait fait dans les années 2000 avec les réseaux sociaux, pensant qu’ils savaient ce qu’ils faisaient, qu’ils allaient nous mettre en contact et créer de l’intelligence collective alors que nous n’avons jamais été aussi isolés que maintenant. D’où l’importance d’intégrer des experts en sciences sociales car certains ingénieurs sont trop détachés de l’impact sur la société. Et celle de mettre en place beaucoup plus de process avant la mise sur le marché d’un nouvel outil. Si je suis assez optimiste concernant l’outil, il est de notre responsabilité de faire attention aux impacts.
Que pensez-vous de l’AI Safety Summit qui a eu lieu en novembre dernier, premier sommet mondial pour réfléchir aux dangers de l’IA ?
Je trouve ça très bien que les institutions s’intéressent au sujet. Cependant, il y a une vision très long-termiste qui m’inquiète un peu, car elle nous fait perdre le cap sur des risques qui existent aujourd’hui. J’aimerais bien que ces experts s’ouvrent à ces risques concrets. Concernant les propositions de régulation, je pense qu’il ne faudrait pas trop rentrer dans les détails techniques car l’IA est un milieu qui change extrêmement vite. Enfin, j’aimerais bien qu’on inclut dans la concertation la voix de la société civile et qu’on se demande ensemble ce qu’on va faire avec tous ces modèles d’IA. Il faut que les citoyens puissent s’y opposer s’ils n’en ont pas envie. Il est important de s’approprier ces questions. Parfois le sujet est complexe et peut faire peur, mais il faut s’éduquer le plus possible pour le démystifier.
Propos recueillis par Alexandra Vépierre
Réagissez à cet article
Vous avez déjà un compte ? Connectez-vous et retrouvez plus tard tous vos commentaires dans votre espace personnel.
Inscrivez-vous !
Vous n'avez pas encore de compte ?
CRÉER UN COMPTE