Présentation

Article

1 - LA GESTION DE LA QUALITÉ DES DONNÉES À LA CONVERGENCE DE PLUSIEURS DISCIPLINES

  • 1.1 - Les bases de données
  • 1.2 - Les statistiques et la fouille de données
  • 1.3 - La gestion de processus

2 - APPROCHES GÉNÉRALES ET CAS PRATIQUE POUR DÉTECTER ET CORRIGER LES PROBLÈMES DE QUALITÉ DES DONNÉES

3 - MESURER LA QUALITÉ DU MODÈLE ET DES DONNÉES

4 - PRÉVENTION ET DIAGNOSTIC : TECHNIQUES DE DÉTECTION DES ANOMALIES

5 - CORRECTION : NETTOYAGE DES DONNÉES

6 - GÉRER DES PROBLÈMES SPÉCIFIQUES : DOUBLONS, VALEURS MANQUANTES, INCOMPLÈTES ET EXCEPTIONS

7 - CONCLUSION

| Réf : H3700 v1

Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions
Qualité des données

Auteur(s) : Laure BERTI-ÉQUILLE

Date de publication : 10 août 2006

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

RÉSUMÉ

De plus en plus, sont relevées des situations alarmantes liées à des problèmes de qualité des données stockées dans des bases ou des systèmes d’information commerciaux, industriels, hospitaliers ou universitaires. Cette non-qualité des données, erreurs, incohérences, valeurs manquantes, non fiables ou aberrantes entraîne des coûts financiers considérables. Des solutions fondées et validées existent pour combattre cette problématique récurrente. Cet article recense ces solutions et leurs modes d’action (prévention, diagnostic, détection, correction…), ainsi que l’avancée des recherches en la matière.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

ABSTRACT

 

Auteur(s)

INTRODUCTION

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : de l’ordre de 611 milliards de dollars par an pour l’économie américaine selon un rapport du TDWI (The Data Warehousing Institute) en 2002. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan, d’abord, au sein des entreprises et, depuis ces dix dernières années, dans le monde académique [31, 2, 8, 28, 34]. Il n’est plus question de « laisser-faire », c’est-à-dire, utiliser aveuglément les données sans en connaître la qualité et les laisser se dégrader. Il est urgent de proposer des solutions théoriques et pratiques aux multiples problèmes de qualité des données (voir tableau 1).

L’objet de ce dossier est de présenter une synthèse des solutions proposées et les perspectives de recherche actuelles pour le contrôle et la gestion de la qualité des données dans les bases et entrepôts de données.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3700


Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

6. Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions

Dans cette section, nous nous intéressons plus particulièrement au cas des doublons, des valeurs manquantes et des valeurs aberrantes ou isolées en présentant dans une certaine limite à l’exhaustivité, l’ensemble des méthodes et techniques issues des travaux de recherche dans le domaine.

6.1 Jointures approximatives et élimination des doublons

Dans le cas d’une intégration de plusieurs sources d’information (en l’occurrence l’intégration de bases de données relationnelles), il est nécessaire d’associer plusieurs tables au moyen de jointures pour lesquelles souvent on ne dispose pas de clés communes exactes. Lors d’une recherche de doublons sur une seule table, il est nécessaire de procéder par auto jointure : bien que les clés puissent identifier de façon unique chaque enregistrement de la table, plusieurs enregistrements peuvent pourtant décrire la même réalité : dans notre exemple précédent, les enregistrements ass21 et ass22 de la source ASS décrivent la même personne avec deux clés distinctes. Ainsi pour détecter les doublons, la technique de jointure approximative est recommandée [12, 16]. D’après notre exemple, il est nécessaire d’apparier les données entre les tables EMP et ASS pour pouvoir renseigner tous les champs de l’entrepôt DW. Les noms et adresses sont décrits de différentes façons (par exemple, « Avenue du Général de Gaulle » ou « av. Gal Gaulle ») et il peut être difficile de faire l’appariement sur les noms ou adresses. Si, en revanche, le numéro de sécurité social ou de téléphone est le même, on pourra supposer qu’il s’agit bien de la même personne, c’est pourquoi il s’avère nécessaire d’abord de standardiser certains attributs (adresses, abréviations, etc.) puis, d’examiner les informations qui corroborent ou non une hypothèse d’appariement sur l’ensemble des attributs disponibles. Parfois très spécifique à l’application, la technique de jointure approximative consiste à regrouper et trier les enregistrements par « paquets » (ou groupes) selon une fonction de hâchage sur les valeurs d’un ou plusieurs attributs (par exemple, utilisant les premières lettres ou les consonnes des noms propres). Les enregistrements qui se trouvent dans les mêmes groupes sont candidats à l’appariement et, pour chaque paire de candidats, une...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(239 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BARNETT (V.), LEWIS (T.) -   Outliers in Statistical Data.  -  John Wiley and Sons (1994).

  • (2) - BATINI (C.), CATARCI (T.), SCANNAPICECO (M.) -   A survey of data quality issues in cooperative information systems;  -  tutorial présenté à International Conference on Conceptual Modeling (ER) (2004).

  • (3) - BREUNIG (M.), KRIEGEL (H.), NG (R.), SANDER (J.) -   LOF: Identifying density-based local outliers;  -  International Conference ACM SIGMOD, p. 93-104 (2000).

  • (4) - BERTI-ÉQUILLE (L.) -   Modelling and measuring data quality for quality-awareness in data mining,  -  Quality Measures in Data Mining, Studies in Computational Intelligence, F. Guillet and H. Hamilton (eds), Springer (June 2006).

  • (5) - CARUSO (F.), COCHINWALA (M.), GANAPATHY (U.), LALK (G.), MISSIER (P.) -   Telcordia’s database reconciliation and data quality analysis tool;  -  International Conference on Very Large databases (VLDB), p. 615-618 (2000).

  • ...

ANNEXES

  1. 1  

    Cet article est réservé aux abonnés.
    Il vous reste 94% à découvrir.

    Pour explorer cet article
    Téléchargez l'extrait gratuit

    Vous êtes déjà abonné ?Connectez-vous !


    L'expertise technique et scientifique de référence

    La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
    + de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
    De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

    Cet article fait partie de l’offre

    Technologies logicielles Architectures des systèmes

    (239 articles en ce moment)

    Cette offre vous donne accès à :

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques

    Des services

    Un ensemble d'outils exclusifs en complément des ressources

    Un Parcours Pratique

    Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

    Doc & Quiz

    Des articles interactifs avec des quiz, pour une lecture constructive

    ABONNEZ-VOUS