Présentation
En anglaisAuteur(s)
-
Djamel Abdelkader ZIGHED : Professeur à l’université Lumière (Lyon-II) Laboratoire Équipe de recherche en ingénierie des connaissances (ERIC)
-
Ricco RAKOTOMALALA : Maître de conférences à l’université Lumière (Lyon-II) Laboratoire ERIC
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Le « data mining », dans sa forme et sa compréhension actuelle, comme champ à la fois scientifique et industriel, est apparu au début des années 1990. Cette émergence n’est pas le fruit du hasard mais le résultat de la combinaison de nombreux facteurs à la fois technologiques, économiques et même sociopolitiques.
On peut voir le « data mining » comme une nécessité imposée par le besoin des entreprises de valoriser les données qu’elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec ces données coûteuses à collecter et à conserver ?
-
Les contours
Une confusion subsiste encore entre « data mining », que nous appelons en français « fouille de données » et « knowledge discovery in data bases » (KDD), que nous appelons en français « extraction de connaissances à partir de données » (ECD). Le « data mining » est l’un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Sous forme imagée, nous pourrions dire que l’ECD est un véhicule dont le « data mining » est le moteur.
Le « data mining » est l’art d’extraire des connaissances à partir de données. Les données peuvent être stockées dans des entrepôts (« data warehouse »), dans des bases de données distribuées ou sur Internet (« web mining »). Le « data mining » ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (« text mining »), les images (« image mining »), le son (« sound mining ») ou la vidéo et dans ce cas, on parle alors plus généralement de « multimedia mining ».
L’ECD, par le biais du « data mining », est alors vue comme une ingénierie pour extraire des connaissances à partir de données.
-
La démarche
L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Des étapes de prétraitement ont lieu avant le « data mining » proprement dit. Le prétraitement porte sur l’accès aux données en vue de construire des « datamarts », des corpus de données spécifiques. Le prétraitement concerne la mise en forme des données entrées selon leur type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des données, le traitement des données manquantes, la sélection d’attributs ou la sélection d’instances. Cette première phase est cruciale car du choix des descripteurs et de la connaissance précise de la population va dépendre la mise au point des modèles de prédiction. L’information nécessaire à la construction d’un bon modèle de prévision peut être disponible dans les données mais un choix inapproprié de variables ou d’échantillons d’apprentissage peut faire échouer l’opération.
-
Les outils
Le « data mining », dans sa définition restreinte, opère sur des tables bidimensionnelles, appelées « datamarts », et fait appel à trois grandes familles de méthodes issues de la statistique, de l’analyse des données, de la reconnaissance de formes ou de l’apprentissage automatique. Ces méthodes couramment utilisées ou présentées comme faisant partie de l’arsenal du « data miner » sont :
-
les méthodes de description uni-, bi- et multidimensionnelles : numériques, pour la plupart, elles sont issues de la statistique descriptive et de l’analyse des données, ainsi que des techniques de visualisation graphique dont certaines font appel à la réalité virtuelle et à des métaphores calquées sur le modèle mental humain ;
-
les méthodes de structuration qui regroupent toutes les techniques d’apprentissage non supervisé et de classification automatique provenant des domaines de la reconnaissance de formes, de la statistique, de l’apprentissage automatique et du « connexionisme » (approche de modélisation basée sur l’utilisation des réseaux neuromimétiques) ;
-
les méthodes explicatives dont le but est de relier un phénomène à expliquer à un phénomène explicatif : généralement mises en œuvre en vue d’extraire des modèles de classement ou de prédiction, ces méthodes descendent de la statistique, de la reconnaissance de formes, de l’apprentissage automatique et du « connexionisme », voire du domaine des bases de données dans le cas de la recherche de règles d’association.
En dehors du champ des statisticiens, nous assistons à l’émergence d’outils plutôt que de méthodes exploratoires. On peut ainsi citer les algorithmes de recherche de règles d’association dans les grandes bases de données. Les premiers algorithmes proposés dans ce domaine ont fait sourire des membres de la communauté des statisticiens et des spécialistes de l’induction en raison de la naïveté du matériel méthodologique qui était alors utilisé. Par la suite, ces problèmes ont été ramenés dans un cadre méthodologique plus général, faisant par exemple usage de parcours de treillis de Gallois ou de recherche de décomposition optimale d’une relation binaire par des relations dites maximales.
-
-
Les résultats et les applications
L’objectif de la mise en œuvre des techniques de « data mining » est d’aboutir à des connaissances opérationnelles. Ces connaissances sont exprimées sous forme de modèles plus ou moins complexes : une série de coefficients pour un modèle de prévision numérique, des règles logiques du type « si Condition alors Conclusion » ou des instances. Pour que ces modèles acquièrent le statut de connaissances, ils doivent être validés. Il s’agit alors de mettre en œuvre une série d’opérations dites de posttraitement qui visent à évaluer la validité des modèles, à les rendre intelligibles s’ils doivent être utilisés par l’humain ou à les exprimer dans un formalisme approprié pour être compréhensibles par une machine. Au-delà de la validation statistique, l’intelligibilité des modèles est souvent un critère de leur survie. En effet, un modèle compris par l’usager sera utilisé et par conséquent critiqué et perfectionné. Les utilisateurs n’aiment généralement pas employer de modèles sous forme de « boîtes noires ».
Une question importante, dans le domaine du « data mining », est de pouvoir répondre du choix de l’outil approprié en regard du problème à résoudre. Selon le type de problème, il existe de nombreuses méthodes de « data mining » concurrentes. Un consensus général semble se dégager pour reconnaître qu’aucune méthode ne surpasse les autres car elles ont toutes leurs forces et leurs faiblesses spécifiques. Il semble plus avantageux de faire coopérer des méthodes comme nous le ferions avec une équipe de spécialistes.
Les techniques de « data mining » ont été employées avec beaucoup de succès dans de grands secteurs d’application : la gestion de la relation client (GRC) – ou « customer relationship management » (CRM) –, la gestion des connaissances – « knowledge management » – ou l’indexation de documents. Aucun domaine d’application n’est a priori exclu car dès que nous sommes en présence de données empiriques, le « data mining » peut rendre de nombreux services.
-
Les limites
Le « data mining » est un domaine à la fois scientifique et technologique récent qui a encore de nombreux défis à relever. La communauté des chercheurs dans ce domaine s’intéresse ainsi à des problèmes tels que la recherche de bons espaces de représentation ou l’agrégation de prédicteurs.
La rédaction de cet article a été possible grâce au soutien et aux nombreuses contributions des chercheurs :
-
Nadir BELKHITER, professeur à l’université de Laval (Québec, Canada) et professeur invité à l’université Lumière (Lyon-II) pendant l’année 2001-2002 ;
-
Salima HASSAS, maître de conférences à l’université Claude-Bernard (Lyon-I) ;
-
Fadila BENTAYEB, Omar BOUSSAID, Jérôme DARMONT, Sabine RABASÉDA, maîtres de conférences à l’université Lumière et membres du groupe Bases de données décisionnelles du laboratoire ERIC ;
-
Fabrice MUHLENBACH, Jérémy CLECH, doctorants au laboratoire ERIC.
-
Qu’ils soient tous très chaleureusement remerciés.
Nous tenons également à exprimer nos remerciements à tous les membres du laboratoire ERIC qui ont, par leur encouragement et leur disponibilité, facilité la production de cet article.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
7. Phase de fouille de données
La fouille de données concerne le data mining dans son sens restreint et est au cœur du processus d’ECD. Cette phase fait appel à de multiples méthodes issues de la statistique, de l’apprentissage automatique, de la reconnaissance de formes ou de la visualisation. Les méthodes de data mining permettent de découvrir ce que contiennent les données comme informations ou modèles utiles. Si nous essayons de classifier les méthodes de fouille de données utilisées, trois catégories se distinguent :
-
les méthodes de visualisation et de description 7.1 ;
-
les méthodes de classification et de structuration 7.2 ;
-
les méthodes d’explication et de prédiction 7.3.
Chacune de ces familles de méthodes comporte plusieurs techniques appropriées aux différents types de tableaux de données. Certaines sont mieux adaptées à des données numériques continues alors que d’autres sont plus généralement dédiées au traitement de tableaux de données qualitatives. Nous allons donner à présent un aperçu général sur les principales méthodes.
7.1 Méthodes de visualisation et de description
L’objectif de ces méthodes est de permettre à l’analyste d’avoir une compréhension synthétique de l’ensemble de ses données. Il s’agit donc principalement d’outils de synthèse d’information. Cette synthèse peut s’exprimer par des indicateurs statistiques. Par exemple, pour des attributs quantitatifs, les indicateurs les plus utilisés sont la moyenne, l’écart-type, le mode et la médiane. Pour des attributs qualitatifs, on associe généralement la distribution selon les modalités de l’attribut. Ces indicateurs statistiques, qu’ils soient descriptifs de la tendance centrale, des positions ou de la dispersion, nous renseignent pleinement sur une caractéristique particulière de la population. Ils...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Phase de fouille de données
BIBLIOGRAPHIE
-
(1) - * - Dans cette bibliographie, nous avons essentiellement inséré les ouvrages de base. Les articles de revues ou des conférences ont été explicitement écartés. On peut trouver sur Internet des bibliographies assez larges sur les différents sujets.
-
(2) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 1 : les méthodes de description - . Lacassagne (2000).
-
(3) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 2 : les méthodes de structuration - . Lacassagne (2000).
-
(4) - AURAY (J.P.), DURU (D.), ZIGHED (A.) - Analyse des données multidimensionnelles. Vol. 3 : les méthodes d’explication - . Lacassagne (2000).
-
(5) - DUDA (R.), HART (P.) - Pattern Classification and Scene Analysis - . John Wiley & Sons (1973).
-
...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive