Qualité des données : Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

Présentation

RÉSUMÉ

De plus en plus, sont relevées des situations alarmantes liées à des problèmes de qualité des données stockées dans des bases ou des systèmes d’information commerciaux, industriels, hospitaliers ou universitaires. Cette non-qualité des données, erreurs, incohérences, valeurs manquantes, non fiables ou aberrantes entraîne des coûts financiers considérables. Des solutions fondées et validées existent pour combattre cette problématique récurrente. Cet article recense ces solutions et leurs modes d’action (prévention, diagnostic, détection, correction…), ainsi que l’avancée des recherches en la matière.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Laure BERTI-ÉQUILLE : Maître de Conférences, Université de Rennes I

INTRODUCTION

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : de l’ordre de 611 milliards de dollars par an pour l’économie américaine selon un rapport du TDWI (The Data Warehousing Institute) en 2002. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan, d’abord, au sein des entreprises et, depuis ces dix dernières années, dans le monde académique [31, 2, 8, 28, 34]. Il n’est plus question de « laisser-faire », c’est-à-dire, utiliser aveuglément les données sans en connaître la qualité et les laisser se dégrader. Il est urgent de proposer des solutions théoriques et pratiques aux multiples problèmes de qualité des données (voir tableau 1).

L’objet de ce dossier est de présenter une synthèse des solutions proposées et les perspectives de recherche actuelles pour le contrôle et la gestion de la qualité des données dans les bases et entrepôts de données.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

Version courante de oct. 2018 par Laure BERTI-ÉQUILLE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3700

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Mesurer la qualité du modèle et des données

2. Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

Comme le représente la figure 1, on peut classer la plupart des travaux abordant la problématique de la qualité des données selon quatre grands types d’approches complémentaires.

Les approches préventives centrées sur l’ingénierie des systèmes d’information et le contrôle des processus avec des techniques permettant d’évaluer la qualité des modèles conceptuels, la qualité des développements logiciels et celle des processus employés pour le traitement des données.

Les approches diagnostiques centrées sur des méthodes statistiques, d’analyse et de fouille de données exploratoire permettant de détecter des anomalies sur les données.

Les approches correctives centrées sur des techniques de nettoyage et de consolidation de données et utilisant des langages de manipulation des données étendus et des outils d’extraction et de transformation de données (ETL, Extraction-Transformation-Loading).

Les approches adaptatives ou actives appliquées généralement lors de la médiation ou de l’intégration des données : elles sont centrées sur l’adaptation des traitements (requêtes ou opérations de nettoyage sur les données) de telle façon que ceux-ci incluent à l’exécution en temps-réel la vérification de contraintes sur la qualité des données.

Parmi les nombreuses techniques de détection et de correction des problèmes de qualité des données, nous présenterons, dans la suite de cette section, les plus communément employées dans la pratique et dont les coûts respectifs sont estimés en figure 2 :

la vérification d’après la vérité-terrain ou d’après une source de données de référence ;
l’audit des données ;
le suivi de données ;
le nettoyage des données.

La première technique consiste à comparer les valeurs de données avec leur contrepartie dans le monde réel (vérification d’après la vérité-terrain). Cette méthode est très coûteuse en temps et en moyen et, selon les domaines...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

Page
précédenteLa gestion de la qualité des données à la convergence de plusieurs disciplines

Page
suivante

Mesurer la qualité du modèle et des données

BIBLIOGRAPHIE

(1) - BARNETT (V.), LEWIS (T.) - Outliers in Statistical Data. - John Wiley and Sons (1994).
(2) - BATINI (C.), CATARCI (T.), SCANNAPICECO (M.) - A survey of data quality issues in cooperative information systems; - tutorial présenté à International Conference on Conceptual Modeling (ER) (2004).
(3) - BREUNIG (M.), KRIEGEL (H.), NG (R.), SANDER (J.) - LOF: Identifying density-based local outliers; - International Conference ACM SIGMOD, p. 93-104 (2000).
(4) - BERTI-ÉQUILLE (L.) - Modelling and measuring data quality for quality-awareness in data mining, - Quality Measures in Data Mining, Studies in Computational Intelligence, F. Guillet and H. Hamilton (eds), Springer (June 2006).
(5) - CARUSO (F.), COCHINWALA (M.), GANAPATHY (U.), LALK (G.), MISSIER (P.) - Telcordia’s database reconciliation and data quality analysis tool; - International Conference on Very Large databases (VLDB), p. 615-618 (2000).

ANNEXES

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(241 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données
Qualité des données

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

VERSIONS

DOI (Digital Object Identifier)

2. Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

DANS LES RESSOURCES DOCUMENTAIRES

DANS L'ACTUALITÉ

DANS LES LIVRES BLANCS

DANS LES CONFÉRENCES EN LIGNE

Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données Qualité des données

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

VERSIONS

DOI (Digital Object Identifier)

2. Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

DANS LES RESSOURCES DOCUMENTAIRES

DANS L'ACTUALITÉ

DANS LES LIVRES BLANCS

DANS LES CONFÉRENCES EN LIGNE

Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données
Qualité des données

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.