Présentation
En anglaisRÉSUMÉ
Dans le contexte d’essor des big datas, la Datavisualisation est un outil au service de la médiation homme-données. En fournissant un accès aux données, elle constitue un outil de communication, d’explication et d’exploration de données, avec des applications dans de nombreux domaines professionnels et scientifiques. De même, avec internet, elle s’étend à d’autres sources d’informations, pas ou peu appréhendés jusqu’ici. Le défi de la datavisualisation est de fournir un cadre méthodologique et des techniques pour analyser rapidement des données hétérogènes de plus en plus nombreuses, afin de faire émerger des connaissances nouvelles et signifiantes dans le contexte d’utilisation. Cet article présente la discipline pour une compréhension des enjeux, des objectifs et des méthodes couverts par la datavisualisation.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
In the context of the rise of big data, Datavisualization constitutes a real tool at the service of human-data mediation. By providing access to data, it is simultaneously a tool for communication, explanation and exploration of data that find applications in many fields of business and science. Likewise, with the Internet, it extends to other sources of information, not or little understood until now (unstructured data, dematerialized content, emails, social networks). The challenge of data visualization is to provide a methodological framework and techniques for rapidly analyzing the growing number of heterogeneous data, with the aim of bringing out new and meaningful knowledge in the context of use. This article aims to provide an overview of the discipline in order to give the reader an understanding of the issues, objectives and methods covered by data visualization.
Auteur(s)
-
Béa ARRUABARRENA : Maître de conférences, Conservatoire National des Arts et Métiers, CNAM Paris, Laboratoire DICEN-IDF
INTRODUCTION
Si la datavisualisation a longtemps été un domaine d’expertise de la recherche scientifique, en particulier des sciences mathématiques, statistiques et informatiques, elle s’est aussi construite dans l’interdisciplinarité avec les sciences humaines et sociales (SHS) : la cartographie, les sciences des arts et du design, et les sciences cognitives ont toutes contribué à son développement. S’il est difficile de dresser une histoire exhaustive de la datavisualisation, les fondements sociohistoriques des pratiques de représentations graphiques émergent très tôt dans l’histoire. Dès le IIe siècle avec la cartographie, emblématique de cette nécessité de représenter le réel pour mieux agir dessus en retour. Au XVIIIe siècle, avec l’essor des mathématiques, dans leur versant statistique, la représentation graphique de données va connaître un tournant décisif avec l’apparition des premiers graphiques dans l’ouvrage Commercial and Political Atlas de William Playfair (1789), largement diffusés aujourd’hui dans la société : les courbes d’évolution, les graphiques à barres et les diagrammes à secteurs. Mais c’est seulement dans les années 1970, que l’exploration de données va être complètement vulgarisée. Francis Anscombe, statisticien, va faire la démonstration à l’appui d’une série de quatre ensembles de données, le fameux « Quartet d’Anscombe », que des données présentées sous forme de tableau ne sont pas aisément compréhensibles. Ces quatre jeux possèdent des propriétés statistiques simples et assez similaires dans leur représentation linéaire en tableau (moyenne, variance, corrélation et régression ont des valeurs proches). Or, lorsqu'on les représente sous forme de graphiques, on voit pourtant les différences entre les quatre jeux de données, ce qui démontre l’intérêt de cette représentation.
La datavisualisation va ensuite totalement se démocratiser pour toucher un public plus large que celui du monde scientifique, notamment avec les travaux de John Tukey, professeur de statistiques à l’université de Princeton et auteur de l’ouvrage de Exploratory data Analysis sur les méthodes d'analyse et de présentation des données. Par la suite, à partir des années 1980, les designers David McCandeless (2012), Stephen Few (2006) ou encore Manuel Lima (2011) donneront à cette discipline toute sa dimension esthétique.
Aujourd’hui dans le contexte du Big data, la datavisualisation constitue un outil puissant de médiation homme-données permettant de raisonner à partir des données pour saisir la complexité du monde. À ce titre, elle est un enjeu majeur pour l’innovation tant pour la recherche scientifique, que pour les organisations. On retrouve ainsi ses applications dans de nombreux domaines, tels que l’informatique statistique et décisionnelle pour les organisations, les sciences de données pour la biologie, la génomique, les sciences humaines et sociales avec les humanités numériques, la cartographie numérique, ou encore l’analyse visuelle de réseaux.
MOTS-CLÉS
KEYWORDS
Visualization | mediation | data
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Méthodes de traitement des données
4.1 Démarche méthodologique « Dataflow »
La datavisualisation repose sur une méthodologie du traitement de données qui part des données brutes, soit extraites de bases de données traditionnellement alimentées par les services métiers de l’entreprise, soit, comme c’est de plus en plus le cas, extraites du web social ou de l’acquisition automatique de données via des capteurs déployés avec l’Internet des objets. Le traitement visuel des données vise à transformer des données brutes en une représentation graphique lisible et compréhensible pour l’utilisateur final. Ce processus est basé sur le modèle de référence Dataflow qui s’organise en quatre étapes principales (figure 11).
HAUT DE PAGE4.2 Étapes de la méthode « Dataflow »
-
Collecte de données brutes : extraction de données de base de données, de capteurs, etc. La transformation des données consiste à :
a. Nettoyer les données, qualité des données : doublons, données manquantes, inutiles, réconciliation de données,
b. Enrichir les données par exemple en rajoutant des métadonnées,
c. Formater les données initiales dans des formats spécifiques (csv, xml, etc.) ;
-
Organisation des tables : les données sont transformées et structurées en tableau (bdd, tableau excel, structure de données en python, etc.) ;
-
Structuration visuelle (mapping) : ces tables de données sont associées à des éléments visuels. Cette partie est le cœur de ce modèle, c’est le « mapping » des données vers le visuel ;
-
Vues finales : dans une dernière étape, les entités visuelles ainsi...
TEST DE VALIDATION ET CERTIFICATION CerT.I. :
Cet article vous permet de préparer une certification CerT.I.
Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.
de Techniques de l’Ingénieur ! Acheter le module
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Méthodes de traitement des données
BIBLIOGRAPHIE
-
(1) - BERTIN (J.) - Sémiologie graphique, La Haye, - Mouton (1970).
-
(2) - BERTIN (M.) ATANASSOVA (I.) LARIVIÈRE (V.), GINGRAS (A.) - The Linguistic Context of Citations. Courtesy of OST-CIRST, Université du Québec à Montréal. - In « 10th Iteration (2014): The Future of Science Mapping,» Places & Spaces: Mapping Science, edited by Katy Börner and Samuel Mills. http://scimaps.org/mapdetail/the_linguistic_conte_177 (2014).
-
(3) - CARD (S.K.), MACKINLAY (J.D.), SHEIDERMAN (B.) - Readings in information visualization: using vision to think, - Morgan Kaufmann (1999).
-
(4) - CHI (E.H.) - A taxonomy of visualization techniques using the data state reference model, - In Information Visualization. InfoVis 2000. IEEE Symposium on (pp. 69-75). IEEE (2000).
-
(5) - FEKETE (J.D.), PLAISANT (C.) - Interactive information visualization of a million items, - In Information Visualization. INFOVIS 2002. IEEE Symposium on (pp. 117-124). IEEE (2002).
- ...
ANNEXES
Gephi
The R Project for Statistical Computing
Tableau public
http://www.tableausoftware.com/public/
Gallery of Data-driven documents
https://github.com/d3/d3/wiki/Gallery
Plotly
The work of Edward Tufte and graphic press
http://www.edwardtufte.com/tufte/
Flowing data
Information is beautiful
http://www.informationisbeautiful.net/
Visual complexity
http://www.visualcomplexity.com/vc/
Density design
Sciences Po – atelier de cartographie
http://cartographie.sciences-po.fr/`
L’atelier de cartographie
https://ateliercartographie.wordpress.com
Open APC – projet INTACT de la bibliothèque universitaire de Bielefeld.
http://aims.fao.org/activity/blog/open-apc-datasets-fees-paid-open-access-journal-articles
HAUT DE PAGECet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE
1/ Quiz d'entraînement
Entraînez vous autant que vous le voulez avec les quiz d'entraînement.
2/ Test de validation
Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.
Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive