Présentation
En anglaisRÉSUMÉ
Cet article présente la notion d’apprentissage statistique non supervisé, puis les techniques actuellement disponibles pour procéder à de l’apprentissage statistique à partir de données non labellisées : partitionnement, réduction de dimensionnalité, estimation de densité et enfin utilisation de modèles génératifs. Il s’attache à couvrir aussi bien les algorithmes classiques les plus anciens (analyse en composantes principales, k-moyennes) que les techniques les plus récentes faisant appel à l’apprentissage profond (représentations de mots, modèles autorégressifs, auto-encodeurs, réseaux génératifs adverses).
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
This article introduces the notion of unsupervised statistical machine learning, then describes the techniques currently available to perform statistical learning from unlabeled data: partitioning (or clustering), dimensionality reduction, density estimation and finally generative models. It covers the oldest classical algorithms (principal component analysis, k-means) as well as the most recent techniques using deep learning (word representations, autoregressive models, auto-encoders, generative adversarial networks).
Auteur(s)
-
Bruno SAUVALLE : Ingénieur en chef des Mines - Centre de Robotique, MINES ParisTech, Paris, France
INTRODUCTION
L’objet de cet article est de présenter les méthodes et les techniques d’apprentissage statistique non supervisé, c’est-à-dire utilisant des données non labellisées au préalable.
La notion d’apprentissage statistique non supervisé, peut paraître difficile à appréhender quand on la compare avec celle d’apprentissage statistique supervisé, qui consiste simplement à apprendre une fonction f:y = f(x) à partir d’un très grand nombre d’exemples de couples (xi ,yi ) où xi est la donnée d’entrée et yi est le résultat en sortie, ou label.
Il est cependant difficile et coûteux d’obtenir une base de données labellisées dans la mesure où une intervention humaine est généralement nécessaire pour obtenir les labels yi correspondant aux données xi disponibles. La constitution de la base de données ImageNet, qui contient actuellement plus de 14 millions d’images et est à l’origine des succès spectaculaires observés ces dernières années en matière d’analyse d’image, a ainsi nécessité de nombreuses années et l’intervention de plusieurs dizaines de milliers d’« annotateurs » chargés de visualiser des images téléchargées sur Internet et d’identifier les objets ou les animaux présents sur ces images.
La baisse continue des coûts de captation, de communication, de stockage et de traitement des données conduit cependant naturellement à la disponibilité de bases de données beaucoup plus importantes dont une analyse exhaustive par l’homme est manifestement impossible.
Dans un tel contexte, l’apprentissage non supervisé se développe actuellement autour de deux axes.
Une première façon d’exploiter un ensemble de données de façon statistique sans intervention humaine est de chercher à apprendre la distribution de ces données. À titre d’exemple, les modèles de langage sont des programmes s’appuyant souvent sur des réseaux de neurones et cherchant, pour un langage donné, à assigner une probabilité, ou valeur de vraisemblance, à chaque phrase ou groupe de phrases que l’on leur propose, ce qui permet entre autres d’optimiser les logiciels de reconnaissance vocale ou de traduction en évitant de proposer des phrases qui seraient considérées comme trop peu probables dans le langage et le contexte considérés, par exemple si elles sont grammaticalement incorrectes. Les données utilisées pour construire ces modèles de langage sont des corpus de textes librement disponibles sur Internet et ne nécessitant donc pas d’effort particulier d’annotation.
Une deuxième façon d’exploiter un vaste ensemble de données est de chercher à les utiliser pour construire une représentation de ce type de données, optimisée pour une ou plusieurs classes d’utilisations. Si l’on cherche simplement à visualiser des données se présentant sous forme de vecteurs comprenant un grand nombre de coordonnées, une réduction de dimensionnalité à deux ou trois dimensions semble à l’évidence nécessaire. Si l’on envisage d’utiliser des données pour faire de la classification mais que l’on ne dispose que de peu d’exemples labellisés, un regroupement préalable de ces données en un nombre limité de groupes ou clusters semble, là encore, une approche utile. En matière de traitement du langage, des technologies ont été développées ces dernières années permettant de représenter chaque mot de notre vocabulaire par un vecteur de moyenne dimension, par exemple en dimension 300, de telle sorte que des mots représentés par des vecteurs proches les uns des autres aient des significations qui soient elles aussi proches. La représentation vectorielle de ces mots serait en quelque sorte leur contenu sémantique, leur « sens », ce qui permet le développement d’applications inimaginables auparavant en matière d’analyse de contenu. Là encore, ces représentations sont élaborées à partir de corpus de textes non annotés et librement disponibles.
Aussi décrirons-nous dans cet article non seulement les principales techniques d’apprentissage non supervisé (le partitionnement ou clustering, la réduction de dimensionnalité et l’estimation de densité) ainsi que la façon dont ces techniques ont évolué avec le développement de l’apprentissage profond, mais surtout de quelles façons ces méthodes peuvent être utiles, utilisées seules ou en s’insérant dans un ensemble de traitements plus complexes.
KEYWORDS
clustering | dimensionality reduction | generative model
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Innovation > Innovations technologiques > Innovations en électronique et TIC > Apprentissage statistique non supervisé > Glossaire
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Big Data > Apprentissage statistique non supervisé > Glossaire
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle > Apprentissage statistique non supervisé > Glossaire
Cet article fait partie de l’offre
Automatique et ingénierie système
(138 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
7. Glossaire
Partitionnement (clustering)
Répartition d’un ensemble de points en sous-ensembles (ou clusters) de points possédant des propriétés analogues
Réduction de dimensionnalité (dimensionality reduction)
Représentation d’un ensemble de vecteurs appartenant à un espace de grande dimension par des vecteurs appartenant à un espace de plus petite dimension
Estimation de densité (density estimation)
Estimation de la densité de probabilité p(x) telle que les données d’entraînement x1 ,..,xN et de tests puissent être considérées comme des échantillons aléatoires suivant la loi de probabilité p(x).
Modèle génératif (generative model)
Algorithme générant des échantillons suivant une probabilité p(x) donnée de façon explicite ou estimée de façon implicite à partir des données d’entraînement x1 ,..,xN .
TEST DE VALIDATION ET CERTIFICATION CerT.I. :
Cet article vous permet de préparer une certification CerT.I.
Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.
de Techniques de l’Ingénieur ! Acheter le module
Cet article fait partie de l’offre
Automatique et ingénierie système
(138 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Glossaire
BIBLIOGRAPHIE
-
(1) - KARRAS (T.), LAINE (S.), AILA (T.) - A Style-Based Generator Architecture for Generative Adversarial Networks - (2018).
-
(2) - KLEINBERG (J.) - An Impossibility Theorem for Clustering, - in NIPS (2002).
-
(3) - ESTER (M.), KRIEGEL (H.P.), SANDER (J.), XU (X.) - A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, - in KDD-96 Proceedings, p. 226-231 (1996).
-
(4) - TENENBAUM (J.B.), de SILVA (V.), LANGFORD (J.C.) - A Global Geometric Framework for Nonlinear Dimensionality Reduction, - SCIENCE, vol. 290, p. 2319 (2000).
-
(5) - ROWEIS (S.T.), SAUL (L.K.). - Nonlinear Dimensionality Reduction by Locally Linear Embedding, - SCIENCE, vol. 290, p. 2323-2326 (2000).
-
(6) - HINTON (G.E.), SALAKHUTDINOV (R.R.) - Reducing...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
Pour les calculs ne faisant pas appel au deep learning et portant sur des volumes de données ne nécessitant pas un recours au calcul distribué, les deux outils logiciels de référence sont scikit-learn et R
La bibliothèque Spark Mlib comprend une adaptation de principaux algorithmes de machine learning (hors deep learning) à un environnement distribué et permettant donc le traitement de volumes de données très importants.
Pour ce qui concerne le deep learning, on citera les outils pytorch et tensorflow/ Keras. De très nombreux exemples de modèles pré-entraînés ainsi que les codes sources associés sont disponibles en libre accès sur la plateforme github.
HAUT DE PAGE
Conférences annuelles :
International Conference on Learning Representations ( https://iclr.cc/)
Conference on Neural Information Processing Systems ( https://nips.cc/)
Conference on Computer Vision and Pattern Recognition
International Conference on Machine Learning ( https://icml.cc/)
HAUT DE PAGECet article fait partie de l’offre
Automatique et ingénierie système
(138 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE
1/ Quiz d'entraînement
Entraînez vous autant que vous le voulez avec les quiz d'entraînement.
2/ Test de validation
Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.
Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.
Cet article fait partie de l’offre
Automatique et ingénierie système
(138 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive