Présentation

Article interactif

1 - IMPACTS DE LA QUALITÉ DES DONNÉES EN APPRENTISSAGE AUTOMATIQUE

2 - DÉTECTION ET CORRECTION PAR APPRENTISSAGE AUTOMATIQUE

3 - CONCLUSION

Article de référence | Réf : H3701 v1

Impacts de la qualité des données en apprentissage automatique
Détection et correction des problèmes de qualité de données par apprentissage automatique

Auteur(s) : Laure BERTI-ÉQUILLE

Relu et validé le 19 nov. 2024

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais English

RÉSUMÉ

Cet article présente l’évolution récente des techniques d’évaluation et d’amélioration de la qualité des données basées sur des méthodes d’apprentissage automatique. Il décrit les solutions issues principalement du monde de la recherche ainsi que des approches mises en œuvre pour détecter et corriger les principaux problèmes de qualité des données que sont les données aberrantes, incohérentes ou manquantes et les doublons.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Laure BERTI-ÉQUILLE : Directrice de Recherche - Institut de Recherche pour le Développement - ESPACE-DEV - Montpellier, France

INTRODUCTION

Des progrès significatifs ont été accomplis ces dernières années dans la conception d’outils permettant d’automatiser l’évaluation, le suivi et l’amélioration de la qualité des données, notamment grâce aux avancées technologiques de l’Intelligence Artificielle, et en particulier, de l’apprentissage automatique (ML – Machine Learning). Les techniques d’apprentissage ont été rendues opérationnelles à grande échelle et largement déployées dans tous les secteurs d’activités afin d’automatiser les tâches de prédiction et de classification en aide à la décision pour de nombreux domaines d’application (santé, finance, marketing, etc.). La fiabilité des résultats de ces méthodes demeure cependant très dépendante de la qualité des données en entrée des modèles d’apprentissage. Les données sont souvent imparfaites et la qualité des données optimale est rarement au rendez-vous. Ainsi, deux approches complémentaires sont communément proposées : l’une émanant de la communauté de recherche en gestion des données visant à corriger les données en amont des chaînes d’analyse (par nettoyage ou réparation des données) et l’autre issue de la communauté des chercheurs et praticiens en apprentissage (data scientists) visant à développer des modèles plus robustes au bruit et plus performants en mettant davantage l’accent sur la transformation et la préparation des données en fonction d’une tâche prédictive particulière.

Pendant des décennies, pour la communauté spécialisée en gestion des données, le nettoyage des données a consisté à corriger et transformer les données par des approches déclaratives de type ETL (Extraction-Transformation-Loading) , à détecter les incohérences dans les bases de données relationnelles sous forme de violation de contraintes, à les « réparer » et à proposer des solutions souvent théoriques permettant le raisonnement à partir des données incohérentes, leur interrogation, la vérification et la satisfaction de contraintes d’intégrité , la découverte de dépendances fonctionnelles ou de règles métier dans le but de corriger la base en un nombre minimal de mises à jour , d’éliminer les doublons ou de retourner une réponse cohérente aux requêtes .

Dans la pratique, les analystes confrontés à des anomalies dans leurs jeux de données utilisent, quant à eux, des chaînes de prétraitement permettant de préparer et transformer les données pour qu’elles soient conformes aux attendus des modèles employés . Ils utilisent un ensemble de transformations automatiques et de procédures d’étiquetage souvent manuelles. En pratique, l’approche la plus courante consiste soit à exclure de l’analyse les données en erreur, soit à les gérer séparément en utilisant souvent plusieurs méthodes pour la détection et le remplacement des erreurs.

Dans cet état de l’art (qui ne saurait être exhaustif), notre objectif est de montrer :

1) que les erreurs dans les données peuvent considérablement affecter les résultats des modèles d’apprentissage  ;

et 2) qu’il existe de nombreuses techniques d’apprentissage permettant détecter les anomalies et les corriger de façon semi- voire totalement automatique et nous en ferons un rapide tour d’horizon limité au cas des données structurées sous forme de tables.

Les perspectives de recherche et de développement sont nombreuses pour évaluer la qualité des données complexes, notamment multimodales et spatio-temporelles (incluant, par exemple, texte, image, audio, vidéo, série temporelle géolocalisée), car assez peu de travaux existent aujourd’hui pour combiner ces différents signaux, détecter et corriger les anomalies en croisant les modalités. Les techniques d’apprentissage automatique offrent de nombreux avantages grâce à des représentations sous forme vectorielle (tenseurs, plongements (embeddings)) permettant ainsi d’analyser conjointement différents types de données et d’exploiter leurs caractéristiques latentes, ouvrant ainsi la voie à de nouvelles perspectives de recherche et d’innovation.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3701


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Version en anglais English

1. Impacts de la qualité des données en apprentissage automatique

Les principaux types d’erreurs à considérer pour faire un état de la qualité d’un jeu de données sont : les valeurs manquantes, les valeurs aberrantes (outliers), les valeurs incohérentes (c’est-à-dire ne satisfaisant pas un ensemble de contraintes prédéfinies), et enfin, les doublons, comme l’illustre le tableau 1.

Toutefois pour la communauté en apprentissage, les problèmes de qualité de données sont généralement englobés sans détail dans la notion de bruit associé d’une part, aux données, et d’autre part, au paramétrage sous-optimal du modèle.

Dans ce contexte, il s’agit plutôt d’étudier et de quantifier l’incertitude prédictive selon les deux volets représentés dans la figure 1 que sont :

  • l’incertitude épistémique, liée au choix optimal des paramètres du modèle d’apprentissage utilisé pour la tâche de prédiction. Ce type d’incertitude décroît lorsque la taille du jeu de données d’entraînement augmente ; et

  • l’incertitude aléatoire, liée aux données, qui comprend notamment, pour la classification : les problèmes de recouvrement entre classes ou les erreurs dans les labels, ou encore pour la régression : la variance des erreurs qui peut être constante (homoscédasticité) ou non (hétéroscédasticité). Ce type d’incertitude ne peut pas être réduit en ajoutant davantage de données d’entraînement. Les efforts pour réduire l’incertitude aléatoire porteront alors soit sur la préparation et la transformation des données en amont, soit sur des stratégies permettant de rendre le modèle plus robuste.

Tous les problèmes de qualité des données évoqués dans le tableau 1 sont englobés au sein de l’incertitude aléatoire, bien que ceux-ci n’aient souvent rien d’aléatoire et surviennent généralement de façon récurrente et/ou selon certains patterns ou conditions d’occurrence.

De nombreuses approches ont été proposées pour quantifier l’incertitude que ce soit pour améliorer la classification ...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Impacts de la qualité des données en apprentissage automatique
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BARBER (R.F.), CANDES (E.J.), RAMDAS (A.), TIBSHIRANI (R.) -   Predictive inference with the Jackknife+.  -  Ann. Statist., 49(1):486-507, February 2021.

  • (2) - BARNETT (V.), LEWIS (T.) -   Outliers in statistical data. –  -  John Wiley and Sons (1994).

  • (3) - BELKIN (M.), HSU (D.J.), MITRA (P.) -   Overfitting or perfect fitting? Risk bounds for classification and regression rules that interpolate.  -  In Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS), pp. 2306-2317 (2018).

  • (4) - BERTI-EQUILLE (L.) -   Learn2Clean: Optimizing the sequence of tasks for Web data preparation.  -  In Proceedings of the Web Conference, pp. 2580-2586, San Francisco, CA, USA, May 2019.

  • (5) - BERTOSSI (L.) -   Database repairing and consistent Query answering.  -  Morgan & Claypool Publishers (2011).

  • ...

1 Événements

Conférences internationales :

HAUT DE PAGE

2 Normes et standards

ISO/TS 8000-1 (2011), Data quality — Part 1: Overview https://www.iso.org/standard/50798.html

ISO 8000-2 (2017), Data quality — Part 2: Vocabulary https://www.iso.org/standard/73456.html

...

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS