Présentation
RÉSUMÉ
De plus en plus, sont relevées des situations alarmantes liées à des problèmes de qualité des données stockées dans des bases ou des systèmes d’information commerciaux, industriels, hospitaliers ou universitaires. Cette non-qualité des données, erreurs, incohérences, valeurs manquantes, non fiables ou aberrantes entraîne des coûts financiers considérables. Des solutions fondées et validées existent pour combattre cette problématique récurrente. Cet article recense ces solutions et leurs modes d’action (prévention, diagnostic, détection, correction…), ainsi que l’avancée des recherches en la matière.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
Auteur(s)
-
Laure BERTI-ÉQUILLE : Maître de Conférences, Université de Rennes I
INTRODUCTION
Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : de l’ordre de 611 milliards de dollars par an pour l’économie américaine selon un rapport du TDWI (The Data Warehousing Institute) en 2002. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan, d’abord, au sein des entreprises et, depuis ces dix dernières années, dans le monde académique [31, 2, 8, 28, 34]. Il n’est plus question de « laisser-faire », c’est-à-dire, utiliser aveuglément les données sans en connaître la qualité et les laisser se dégrader. Il est urgent de proposer des solutions théoriques et pratiques aux multiples problèmes de qualité des données (voir tableau 1).
L’objet de ce dossier est de présenter une synthèse des solutions proposées et les perspectives de recherche actuelles pour le contrôle et la gestion de la qualité des données dans les bases et entrepôts de données.
VERSIONS
- Version courante de oct. 2018 par Laure BERTI-ÉQUILLE
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
1. La gestion de la qualité des données à la convergence de plusieurs disciplines
Dans la pratique, les premières stratégies d’amélioration de la qualité des données ont été mises en œuvre depuis une dizaine d’années par les entreprises soucieuses des pertes occasionnées par les décisions prises à partir d’informations erronées. Dans ce contexte, le contrôle et la gestion de la qualité des données reposent sur des techniques d’audit et de suivi de données (incluant, par exemple, le recensement des différents types d’erreurs, l’élaboration de méthodes pour les détecter, l’estimation de leur fréquence d’occurrence dans la base, etc.). Ces deux techniques ainsi qu’un cas pratique vous seront présentés en détail dans la section suivante. Une première difficulté est l’absence de consensus sur la définition même de ce que représente la qualité des données. Si tout le monde s’accorde sur le fait que la qualité d’une donnée peut se décomposer en un certain nombre de dimensions, critères, facteurs, éléments ou attributs (les uns, subjectifs nécessitant un jugement et une expertise humaine et les autres, quantifiables et pouvant se mesurer par une grande variété de techniques et de métriques), aucune définition ne fait l’unanimité. Et plus de deux cents dimensions ont été recensées dans la littérature [34].
À titre indicatif, le tableau 2 présente quelques-unes des principales dimensions considérées dans la plupart des applications. L’angle d’approche retenu consiste à aborder la qualité des données en considérant :
-
la qualité de la représentation des données dans le système (au niveau du modèle conceptuel) ;
-
la qualité de la gestion des données par le système (au niveau des processus de traitement) ;
-
la qualité des données (au niveau des...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
La gestion de la qualité des données à la convergence de plusieurs disciplines
BIBLIOGRAPHIE
-
(1) - BARNETT (V.), LEWIS (T.) - Outliers in Statistical Data. - John Wiley and Sons (1994).
-
(2) - BATINI (C.), CATARCI (T.), SCANNAPICECO (M.) - A survey of data quality issues in cooperative information systems; - tutorial présenté à International Conference on Conceptual Modeling (ER) (2004).
-
(3) - BREUNIG (M.), KRIEGEL (H.), NG (R.), SANDER (J.) - LOF: Identifying density-based local outliers; - International Conference ACM SIGMOD, p. 93-104 (2000).
-
(4) - BERTI-ÉQUILLE (L.) - Modelling and measuring data quality for quality-awareness in data mining, - Quality Measures in Data Mining, Studies in Computational Intelligence, F. Guillet and H. Hamilton (eds), Springer (June 2006).
-
(5) - CARUSO (F.), COCHINWALA (M.), GANAPATHY (U.), LALK (G.), MISSIER (P.) - Telcordia’s database reconciliation and data quality analysis tool; - International Conference on Very Large databases (VLDB), p. 615-618 (2000).
-
...
ANNEXES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive