Présentation

Article interactif

1 - PRINCIPALES APPROCHES POUR LA GESTION DE LA QUALITÉ DES DONNÉES EN PRATIQUE

2 - COMMENT MESURER LA QUALITÉ DES DONNÉES ?

3 - COMMENT CORRIGER LES DONNÉES ERRONÉES ?

4 - CONCLUSION

Article de référence | Réf : H3700 v2

Principales approches pour la gestion de la qualité des données en pratique
Qualité des données

Auteur(s) : Laure BERTI-ÉQUILLE

Relu et validé le 05 janv. 2021

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Version en anglais English

RÉSUMÉ

Cet article présente la problématique et les défis liés à l’évaluation et l’amélioration de la qualité des données. Il décrit les solutions issues du monde de la recherche ainsi que les principales approches mises en œuvre en pratique pour gérer les problèmes de qualité des données que sont les données incorrectes ou erronées, manquantes ou incomplètes, les doublons, les données obsolètes, incohérentes ou aberrantes. Les principales techniques pour le diagnostic et la correction y sont présentées pour permettre la modélisation, la mesure, le contrôle et l'amélioration de la qualité des données dans les bases et les entrepôts de données structurées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Laure BERTI-ÉQUILLE : Professeur - Laboratoire d’Informatique et Systèmes - Aix-Marseille Université - Marseille, France

INTRODUCTION

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données du Web, données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : l’institut Gartner estime que plus de 25 % des données critiques des plus grandes entreprises mondiales sont erronées. Les problèmes de qualité des données coûtent des millions chaque année à l’économie mondiale. Aussi, dans la plupart des projets de développement centrés sur l’utilisation et l’analyse des données, le nettoyage des données constitue entre 30 et 80 % du budget global et du temps de développement qui sont dédiés à l’amélioration de la qualité des données plutôt qu’à la réalisation du système ou du logiciel .

À l’ère du « Big Data », les sources d’information disponibles se multiplient et les volumes de données potentiellement accessibles augmentent de façon exponentielle. La qualité des données et, plus largement, la qualité des informations et leur véracité ont de fait pris une importance majeure, non seulement au sein des entreprises et dans le monde académique, mais aussi pour le grand public, premier consommateur et producteur d’informations en ligne. Il est devenu essentiel de connaître la qualité des données produites et utilisées, d’une part pour adapter leur usage et, d’autre part, pour ne pas la laisser se dégrader.

Évaluer en continu la qualité des données stockées dans les systèmes d’information, les bases et les entrepôts de données ou encore sur le Web est devenu crucial car il s’agit de :

  • proposer aux utilisateurs des mesures objectives et une expertise critique de la qualité des données qui peuvent servir à une prise de décision ;

  • leur permettre de relativiser la confiance qu’ils pourraient accorder aux données pour qu’ils les utilisent ou les analysent avec précaution.

Si une analyse et une prise de décision peuvent être réalisées sur des données inexactes, incomplètes, ambiguës et de qualité médiocre, on peut alors s’interroger sur le sens à donner à ces résultats et remettre en cause, à juste titre, la qualité des connaissances ainsi « élaborées ».

Une panoplie de solutions aux multiples problèmes de qualité des données vous sera présentée dans cet article. L’objet de cette synthèse est également d’ouvrir la réflexion sur les perspectives de recherche et de développement actuelles permettant d’assurer le contrôle et la gestion de la qualité des données structurées mais aussi, plus largement, la qualité des données accessibles sur le Web.

Nos principales motivations sont de souligner que :

  1. l’impact de la non-qualité des données comme sa méconnaissance retentit à chaque étape d’un processus de traitement ou d’analyse des données (modélisation, collecte/import, stockage, gestion, intégration, interrogation, analyse exploratoire, fouille et apprentissage automatique à partir des données) ;

  2. plusieurs techniques doivent souvent être combinées pour mesurer et consolider la qualité des données ; et enfin,

  3. de nombreuses voies de recherche et de développement restent aujourd’hui « grandes ouvertes » et des innovations sont attendues (certaines sont imminentes), notamment concernant la qualité des données complexes que sont les séries spatio-temporelles et les données multimodales (combinant par exemple, géolocalisation, texte, image, audio ou vidéo).

Comme tout état de l’art, cet article a ses limites : proposer un fil conducteur pour décrire l’évolution des techniques permettant de remédier à la non-qualité des données est d’autant plus difficile que l’exercice est souvent spécifique à l’évolution des besoins et aux problèmes de qualité de données rencontrés dans un domaine ou une application particuliers.

La mesure de la qualité des données s’opère sur de multiples dimensions et elle est relative au contexte et à la finalité d’usage et d’application des données. Typiquement, la définition d’une métrique et son importance seront différentes :

  • selon le mode de collecte ou de production des données. Par exemple, en cas de saisie par formulaire avec des champs textuels libres ou des chaînes de caractères, on recherchera, à évaluer les distributions des chaînes de caractères et celles de leur longueur et à privilégier l’utilisation de listes fermées et de contraintes sur les champs de saisie pour quantifier et limiter les erreurs typographiques ;

  • selon la finalité des données. Par exemple, si la finalité est d’appliquer une série de méthodes d’analyse statistique et d’apprentissage automatique à partir des données, on cherchera à quantifier le nombre de valeurs manquantes, à discerner, parmi les données jugées « hors-norme » (outliers), celles qui sont aberrantes de celles qui sont légitimement exceptionnelles afin de les remplacer ou de les traiter séparément. Il s’agit aussi de transformer la distribution du jeu de données pour qu’elle soit adaptée aux contraintes et aux hypothèses imposées par certaines méthodes d’analyse (par exemple, en normalisant les données et en éliminant les variables corrélées).

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h3700


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Version en anglais English

1. Principales approches pour la gestion de la qualité des données en pratique

Comme le représente la figure 1, on peut classer la plupart des travaux abordant la problématique de la qualité des données selon quatre grands types d’approches complémentaires :

  • les approches préventives sont centrées sur l’ingénierie des systèmes d’information et le contrôle des processus avec des techniques permettant d’évaluer la qualité des modèles conceptuels, la qualité des développements logiciels et celle des processus employés pour le traitement des données ;

  • les approches diagnostiques sont centrées d’une part sur des méthodes statistiques, d’analyse et de fouille exploratoire de données permettant de détecter des anomalies dans les jeux de données, et d’autre part, sur la vérification de contraintes ou de différents types de règles et dépendances fonctionnelles ;

  • les approches correctives sont centrées sur des techniques de nettoyage et de consolidation de données utilisant, d’une part, des outils ou des langages de manipulation des données étendus par des opérateurs d’extraction et de transformation des données (ETL, Extraction-Transformation-Loading) et, d’autre part, des méthodes statistiques d’imputation ou des méthodes de remplacement des données basées sur des règles, des heuristiques ou des résultats de techniques d’apprentissage automatique ;

  • les approches adaptatives sont appliquées généralement lors de la médiation ou de l’intégration des données au moment du requêtage : elles sont centrées sur l’adaptation des traitements (requêtes ou opérations de nettoyage sur les données) de telle façon que ceux-ci incluent, lors de l’exécution, la vérification de contraintes sur la qualité des données et éventuellement en prenant en compte les préférences des utilisateurs pour proposer une personnalisation.

Parmi les nombreuses techniques de détection et de correction des problèmes de qualité des données, nous présenterons ci-après les plus communément employées en pratique :

  1. la vérification d’après la vérité terrain ou d’après une source de données de référence ;

  2. l’audit des données (cf. encadré 1...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Principales approches pour la gestion de la qualité des données en pratique
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BARNETT (V.), LEWIS (T.) -   Outliers in Statistical Data. –  -  John Wiley and Sons (1994).

  • (2) - BATINI (C.), SCANNAPIECO (M.) -   Data and Information Quality – Dimensions, Principles and Techniques.  -  Data-Centric Systems and Applications, Springer (2016).

  • (3) - BREUNIG (M.), KRIEGEL (H.), NG (R.), SANDER (J.) -   LOF : Identifying density-based local outliers ; –  -  International Conference ACM SIGMOD, p. 93-104 (2000).

  • (4) - BERTI-ÉQUILLE (L.) -   Modelling and measuring data quality for quality-awareness in data mining, –  -  Quality Measures in Data Mining, Studies in Computational Intelligence, F. Guillet and H. Hamilton (eds), Springer, June 2006.

  • (5) - BERTI-ÉQUILLE (L.) -   La qualité et la gouvernance des données au service de la performance des entreprises,  -  Hermès-Lavoisier, Septembre 2012.

  • ...

1 Événements

Conférences internationales :

HAUT DE PAGE

2 Normes et standards

ISO/TS 8000-1 (2011), Data quality – Part 1 : Overview https://www.iso.org/standard/50798.html

ISO 8000-2 (2017), Data quality – Part 2 : Vocabulary https://www.iso.org/standard/73456.html

ISO 8000-8 (2015), Data quality – Part 8 : Information and data quality : Concepts and measuring https://www.iso.org/standard/60805.html

ISO 8000-61 (2016), Data quality – Part 61 : Data quality management : Process reference model https://www.iso.org/standard/63086.html

ISO 8000-100 (2016), Data quality – Part 100 : Master data : Exchange of characteristic data : Overview https://www.iso.org/standard/62392.html

...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

1/ Quiz d'entraînement

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

2/ Test de validation

Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(240 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS