Présentation

Article

1 - PRINCIPE GÉNÉRAL DE L’ÉVALUATION DE L’IA

2 - ENVIRONNEMENTS DE TEST

3 - CARACTÉRISTIQUES MESURÉES DES SYSTÈMES D’IA

4 - CAMPAGNES D’ÉVALUATION : BENCHMARKING, CHALLENGES ET COMPÉTITIONS

5 - CONCLUSION

6 - GLOSSAIRE

7 - SIGLES, NOTATIONS ET SYMBOLES

Article de référence | Réf : R727 v1

Campagnes d’évaluation : benchmarking, challenges et compétitions
Évaluation de l’intelligence artificielle

Auteur(s) : Guillaume AVRIN

Date de publication : 10 févr. 2023

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais En anglais

RÉSUMÉ

L’intelligence artificielle (IA) est en pleine croissance ; elle interroge tous les publics : particuliers, professionnels et universitaires. Pour encadrer ces échanges, des principes et pratiques de mesure des performances, rationnelles et partagées, ainsi que ceux des limites de systèmes intelligents doivent être établis.

Cet article présente une approche méthodique et conforme aux règles de la métrologie, permettant d’en dessiner les grandes lignes :

- des métriques pour effectuer des mesures quantitatives et répétables de performance ;

- des environnements de test physiques et virtuels pour procéder à des expérimentations reproductibles et représentatives des conditions de fonctionnement réelles de l’IA évaluée et des outils organisationnels (benchmarking, challenges, compétitions).

Le tout répondant aux besoins de l’ensemble de l’écosystème.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

Artificial intelligence evaluation

Artificial intelligence (AI) is rapidly growing, questioning all audiences, individual, professional, academic. Rational and shared principles and practices to measure the performance and limits of intelligent systems have to be set up.

A methodical approach that complies with the rules of metrology allows us to draw the broad outlines: metrics to carry out quantitative and repeatable performance measurements, physical and virtual testing environments to perform reproducible experiments that are representative of the real operating conditions of the AI being evaluated, and organizational tools (benchmarking, challenges, competitions) that meet the needs of the entire ecosystem.

Auteur(s)

  • Guillaume AVRIN : Responsable du département « Évaluation de l’IA » - Laboratoire national de métrologie et d’essais, Paris, France

INTRODUCTION

L’intelligence artificielle (IA) connaît depuis 2017 d’importants développements dans de nombreux secteurs professionnels (aide au diagnostic, identification biométrique, chatbot, détection de vulnérabilités et menaces de cybersécurité, robots industriels collaboratifs, robots d’inspection et de maintenance, système de mobilité autonome, etc.) et domestiques (robots d’assistance à la personne, dispositifs médicaux, assistants personnels, etc.). Elle est ainsi au rang des toutes premières priorités européennes et internationales de développement technologique et industriel et la rupture sanitaire de 2020 concourt à cette transformation vers une société plus « virtualisée », moins exposée aux vulnérabilités biologiques.

De manière à ce que le marché ne soit pas uniquement porté par l’offre, et que les conditions d’un rapprochement de cette dernière avec la demande soient réunies, il convient d’avoir à disposition des méthodes scientifiques et techniques d’évaluation de l’IA . Elle promet d’apporter des résultats quantitatifs et fiables concernant les niveaux de performance, de robustesse, d’explicabilité atteints par les différents systèmes d’IA. Les utilisateurs finaux disposeront ainsi des garanties conditionnant l’acceptabilité de ces technologies. Ils pourront choisir parmi différentes solutions existantes grâce à des références communes objectives et non ambiguës. Les développeurs bénéficieront quant à eux de repères pour orienter leurs efforts de R&D et de contrôle qualité, ainsi que d’outils pour démontrer leur avance et se démarquer de la concurrence. L’évaluation instaurera donc la confiance nécessaire à la transition d’une IA en développement vers une IA marchande.

Un travail de normalisation est en cours pour adapter les référentiels existants concernant le développement logiciel (IEC 62304 pour les dispositifs médicaux, ISO 26262 pour les véhicules routiers, etc.) aux spécificités de l’IA (notamment au Cen-Cenelec JTC21 et à l’ISO/IEC JTC1/SC42).

Ce travail portera notamment sur les outils et méthodes d’évaluation, dont deux approches génériques peuvent être distinguées (cf. ISO/IEC 17011) : l’audit et le test. Les audits consistent à analyser les preuves de conformité vérifiables, qualitatives ou quantitatives, telles que les enregistrements, les déclarations de faits, etc. La mise en œuvre des audits pour l’IA est similaire à celle des autres produits et technologies. Par exemple, le LNE a proposé un référentiel de certification des processus de mise au point de fonctionnalités d’IA reposant sur des audits . Bien que n’étant pas strictement liées aux audits de conformité, d’autres évaluations de l’IA reposant sur des jugements d’experts sont également présentées dans la littérature (par exemple le test de Turing). Les évaluations reposant sur des jugements humains sont généralement moins onéreuses à mettre en œuvre que le test lors de leur première instance, mais présentent des difficultés de passage à l’échelle lorsque le nombre de systèmes à évaluer est important, puisqu’elles ne sont pas automatisées. Elles sont également subjectives .

Les tests constituent une alternative aux évaluations reposant sur des jugements humains ou sur des preuves formelles (encore inaccessibles pour de nombreuses applications d’IA). Ils présentent quelques caractéristiques propres à l’IA détaillées dans le présent article.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

KEYWORDS

performance   |   metrology   |   artificial intelligence   |   Metrics   |   experiment   |   test   |   AI

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-r727

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil Ressources documentaires Innovation Industrie du futur Industrie du futur : outils numériques Évaluation de l’intelligence artificielle Campagnes d’évaluation : benchmarking, challenges et compétitions

Accueil Ressources documentaires Génie industriel Métier : responsable qualité Méthodes de mesure Évaluation de l’intelligence artificielle Campagnes d’évaluation : benchmarking, challenges et compétitions

Accueil Ressources documentaires Technologies de l'information Technologies logicielles Architectures des systèmes Intelligence artificielle Évaluation de l’intelligence artificielle Campagnes d’évaluation : benchmarking, challenges et compétitions

Accueil Ressources documentaires Mesures - Analyses Instrumentation et méthodes de mesure Méthodes de mesure Évaluation de l’intelligence artificielle Campagnes d’évaluation : benchmarking, challenges et compétitions


Cet article fait partie de l’offre

Industrie du futur

(104 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation
Version en anglais En anglais

4. Campagnes d’évaluation : benchmarking, challenges et compétitions

4.1 Campagne de benchmarking

Une campagne de benchmarking a pour objectif d’effectuer, à un instant et dans un lieu précis, une évaluation comparative (parangonnage) des performances de différents systèmes d’IA visant à automatiser une tâche spécifique.

  • L’expérience passée du LNE en organisation de campagnes d’évaluation a notamment conduit à l’identification de bonnes pratiques permettant de garantir la valeur des résultats obtenus. Il s’agit notamment de s’assurer que la campagne est :

    • scientifique : tout en préservant l’aspect de démonstration typiquement associé aux campagnes d’évaluation, celles-ci doivent être fondées sur les critères scientifiques d’objectivité de l’évaluation, de répétabilité de la mesure des performances et de reproductibilité des expérimentations, tout en respectant les exigences imposées par la rigueur métrologique ;

    • spécifique : les systèmes intelligents sont évalués au moyen d’environnements de test standards (également appelés benchmarks) dont les caractéristiques sont spécifiées et contrôlées, ainsi que de métriques quantitatives et justifiées ;

    • valide : les instruments de mesure de la performance utilisés durant la campagne de benchmarking doivent permettre de mesurer ce pour quoi ils ont effectivement été conçus. Les conditions dans lesquelles les résultats peuvent être correctement utilisés doivent être établies (description de l’environnement de test, des plages de variation des facteurs d’influence, etc.) ;

    • significative : l’évaluation doit s’appuyer sur une quantité de scénarios/situations de test suffisamment importante pour que les résultats obtenus par les IA évaluées soient significativement différents ;

    • compréhensible : il est d’intérêt pour l’utilisation des résultats de la campagne que ses résultats d’évaluation soient compréhensibles, y compris par des non-experts ;

    • modulaire : les tâches complexes sont généralement le résultat d’une combinaison de plusieurs fonctionnalités intelligentes de plus bas niveau. Pour répondre à la fois au besoin d’évaluation...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Industrie du futur

(104 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Campagnes d’évaluation : benchmarking, challenges et compétitions
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - EUROPÉENNE (C.) -   Intelligence artificielle – Une approche européenne axée sur l’excellence et la confiance  -  (2020).

  • (2) - TEAM (A.P.) -   Artificial Intelligence Measurement and Evaluation at the National Institute of Standards and Technology  -  (2021).

  • (3) - LNE -   Certification de processus pour l’IA  -  (2021).

  • (4) - HERNANDEZ-ORALLO (J.) -   The measure of all minds: evaluating natural and artificial intelligence  -  (2017).

  • (5) - AVRIN (G.), BARBOSA (V.), DELABORDE (A.) -   AI evaluation campaigns during robotics competitions: the METRICS paradigm,  -  chez Evaluating Progress in AI (2022).

  • (6) - AVRIN (G.), DANIEL (B.), LARDY-FONTAN (S.), RÉGNIER (R.), RESCOUSSIÉ (R.), BARBOSA (V.) -   Design...

NORMES

  • BIPM : Vocabulaire international de métrologie – Concepts fondamentaux et généraux et termes associés (VIM) 3e édition - JCGM 200 - 2012

1 Événements

Projet METRICS (2020-2023, financé par H2020) – Metrological evaluation and testing of robots in international competitions

Objectif : organiser des compétitions de robots intelligents dans quatre domaines : santé, agroalimentaire, inspection et maintenance des infrastructures, production agile. Il s’agit notamment de bâtir une structure pérenne rassemblant l’ensemble des compétences européennes pour apporter conjointement une solution satisfaisante à la question de l’évaluation des systèmes robotisés, condition impérative de leur acceptabilité.

Consortium : LNE, Université Hochschule Bonn-Rhein-Sieg (BRSU), Centre avancé pour les technologies aérospatiales (FADA-CATEC), Centre pour la recherche et l’expérimentation maritimes de l’OTAN (OTAN-CMRE), CEA, E-CIVIS, Université Heriot-Watt, Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE), Institut Mines-Télécom Transfert (IMT Transfert), Ofiis, Polytechnique de Milan, Proxinnov, Robotex MTU, Université Tampere, Université de Milan, Université de Nottingham.

https://metricsproject.eu

Projet 3SA (2020-2023, financé par IRT SystemX) – Simulation pour la sécurité des systèmes du véhicule autonome

Objectif : développer des outils et méthodologies reposant sur la simulation numérique pour démontrer la sécurité des véhicules autonomes.

Consortium : LNE, IRT SystemX, CEA, Apsys, AVsimulation, Expleo, PSA, Oktal-SE, Renault, SECTOR Group, Valeo.

https://www.irt-systemx.fr/projets/3sa/

Projet ROSE (2018-2022, financé par Ecophyto...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Industrie du futur

(104 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS