Présentation
En anglaisRÉSUMÉ
Les techniques d'analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle, sont utilisées pour l'étude descriptive de tableaux présentant un nombre de variables en lignes, individus, colonnes, variant de quelques dizaines à quelques milliers. La production de graphiques et indicateurs synthétiques permettent de résumer les structures et principales caractéristiques des ces tableaux de grand format. Les méthodes proposées viennent en complément d’outils élémentaires de statistique uni ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées. Cette exploration présente un intérêt dans différents secteurs, industriel, recherche et développement, tertiaire.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
Philippe BESSE : Professeur à l'INSA de Toulouse - Institut de Mathématiques de Toulouse
-
Alain BACCINI : Ancien professeur à l’Université Paul Sabatier (Toulouse 3) - Institut de Mathématiques de Toulouse
INTRODUCTION
Les techniques d’analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle ont pour objectif l’étude descriptive des grands tableaux : n lignes, ou individus, ou unités statistiques, n variant de quelques dizaines à quelques milliers, voire millions, p colonnes, ou variables statistiques, où p varie de quelques dizaines à quelques milliers. Cet objectif est atteint par la production de graphiques et indicateurs synthétiques permettant de résumer les structures et principales caractéristiques de ces grands tableaux. Les méthodes proposées sont donc des techniques descriptives pour l’étude d’un grand nombre de variables et d’individus ; elles viennent en complément d’outils élémentaire de statistique uni- ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées.
Le développement des moyens technologiques de mesure sont à l’origine de flux de données toujours en croissance et dont le stockage, comme l’analyse, sont rendus possibles par l’évolution conjointe des moyens de calcul. Les objectifs comme les champs d’application de l’exploration statistique de ces masses de données sont nombreux et très variés. Voyons quelques exemples de l’intérêt que cette exploration peut prendre dans différents secteurs :
-
dans le domaine industriel (agroalimentaire, microélectronique, construction mécanique…) où le suivi des procédés et la traçabilité des produits génèrent automatiquement des flux considérables de données. Une exploration statistique est un préalable à toute recherche de modélisation pour, par exemple, la mise en place d’une maîtrise statistique des procédés (MSP) ou la détection de défaillances ;
-
en amont, en recherche et développement où les besoins sont aussi importants : criblage virtuel de molécules dans l’industrie pharmaceutique, sensiométrie dans l’industrie agroalimentaire, sans parler de l’essor considérable des biotechnologies post-génomiques avec les données transcriptomiques, protéomiques… ;
-
dans le domaine tertiaire (banque, assurance, vente par correspondance, opérateurs de téléphonie…) et les services où les énormes fichiers de clientèle sont fouillés (data mining) à des fins marketing avec l’objectif de personnaliser la gestion de la relation client.
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Sciences fondamentales > Mathématiques > Probabilités et statistique > Analyse des données ou statistique exploratoire multidimensionnelle > Analyse en composantes principales (ACP)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Analyse en composantes principales (ACP)
2.1 Objectifs
L’analyse en composantes principales a pour objet l’étude de données issues de l’observation de p variables quantitatives sur n individus et rangées dans une matrice X (n x p). Les objectifs poursuivis sont :
-
la représentation graphique « optimale » des individus (lignes), minimisant les déformations du nuage des points, dans un sous-espace Eq de dimension q (q < p) de l’espace vectoriel ;
-
la représentation graphique des variables dans un sous-espace Fq de l’espace vectoriel en explicitant au « mieux » la structure de corrélation entre ces variables ;
-
la réduction de la dimension (compression), ou approximation de X par un tableau de rang q (q < p).
Des arguments de type géométrique dans la littérature francophone, ou bien de type statistique avec hypothèses de normalité dans la littérature anglo-saxonne, justifient la définition de l’ACP. Nous adoptons ici une optique intermédiaire en se référant à un modèle allégé car ne nécessitant pas d’hypothèse forte sur la distribution des observations (normalité). Plus précisément, l’ACP admet des définitions équivalentes selon que l’on s’attache à la représentation des individus, à celle des variables, ou encore à leur représentation simultanée.
HAUT DE PAGE2.2 Éléments théoriques
Dans tout cet article, les vecteurs et matrices (en majuscule) sont identifiés par des caractères gras, X′ désigne la transposition...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Analyse en composantes principales (ACP)
BIBLIOGRAPHIE
-
(1) - BENZECRI (J.P.) - L’analyse des données. L’analyse des correspondances - Dunod, Paris (1973).
-
(2) - BESSE (P.C.), CAUSSINUS (H.), FERRE (L.), FINE (J.) - Principal component analysis and optimization of graphical displays - Statistics, 19, p 301-312 (1988).
-
(3) - BOUROCHE (J.M.), SAPORTA (G.) - L’analyse des données - Que sais-je, P.U.F., Paris (1980).
-
(4) - CAILLIEZ (F.), PAGES (J.M.) - Introduction à l’analyse des données - SMASH, Paris (1976).
-
(5) - CAUSSINUS (H.) - * - . – Models and uses of principal component analysis, in Multidimensional Data Analysis, (Ed. de Leeuw, J. et al.), DSWO Press, p 149-170 (1986).
-
(6) - CELEUX (G.), DIDAY (E.), GOVAERT (G.), LECHEVALLIER (Y.) - Classification automatique des données - Dunod, Paris (1989).
- ...
D’autres ressources (polycopiés, travaux pratiques, fonctions écrites en R) sont accessibles sur le site :
https://www.math.univ-toulouse.fr/
R Development Core Team R : A Language and Environment for Statistical Computing, R Foundation for Statistical Computing
HAUT DE PAGE
Les références générales et introductives les plus utiles pour ce thème sont : Bouroche & Saporta (1980), Jobson (1992), Lebart, Morineau & Piron (2006), Mardia, Kent & Bibby (1979), Saporta (2006). Des compléments et développements plus récents sont à rechercher dans : Droesbeke, Fichet & Tassi (1992), Govaert (2003).
HAUT DE PAGECet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive