1.1 - Recensement
1.2 - Types de bases de données bio-informatiques
1.3 - Évolution des bases de données
1.4 - Contenu des bases : fiches d'annotation reflétant des expertises
1.5 - Bases de données autonomes mais reliées

2.1 - Hétérogénéité syntaxique
2.2 - Hétérogénéité sémantique

3 - ÉLÉMENTS DE STANDARDISATION

3.1 - Standards et ontologies
3.2 - Portails d'accès aux données pour leur interrogation

4 - GESTION DE DONNÉES POUR LA BIOLOGIE MOLÉCULAIRE

4.1 - Entrepôt de données
4.2 - Plates-formes et systèmes de workflows

5 - TENDANCES ET DÉFIS

5.1 - Workflows scientifiques
5.2 - Classement de données
5.3 - Web sémantique

6 - CONCLUSION

7 - GLOSSAIRE – DÉFINITIONS

Bibliographie & annexes

Article de référence | Réf : BIO7055 v1

Éléments de standardisation
Interrogation et gestion de données bio-informatiques pour la biologie moléculaire

Auteur(s) : Sarah COHEN-BOULAKIA, Patrick VALDURIEZ

Date de publication : 10 nov. 2015 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Les volumes des données bio-informatiques disponibles sur le web pour la biologie moléculaire sont en constante augmentation. L'accès à ces données et leur exploitation jointe sont essentiels pour que les connaissances en biologie puissent progresser. L'objectif de cet article est de fournir au lecteur l'ensemble des pointeurs nécessaires pour identifier les bases de données de référence capables de fournir les données bio-informatiques pour la biologie moléculaire, de sensibiliser le lecteur sur les problèmes posés par l'exploitation conjointe de ces données très réparties et fortement hétérogènes, de dresser un panorama des systèmes offrant un accès unifié à ces données et de guider le futur utilisateur sur le choix de l'un de ces systèmes, en fonction de ses besoins.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Sarah COHEN-BOULAKIA : Maître de conférences HDR - Docteur de l'université Paris Sud - Inria, Institut de biologie computationnelle, Montpellier, France - Laboratoire de recherche en informatique, CNRS UMR 8623 université Paris Sud, Orsay, France
Patrick VALDURIEZ : Directeur de recherche - Docteur de l'université Paris 6 - Inria, LIRMM, Institut de biologie computationnelle, Montpellier, France

INTRODUCTION

La biologie moléculaire est une discipline qui vise à étudier les mécanismes du vivant à l'échelle moléculaire : la connaissance des mécanismes régissant l'activité de la cellule, la détermination du rôle fonctionnel d'un groupe de protéines ou encore la mise en évidence d'un ensemble de gènes impliqués dans une maladie. Les avancées des connaissances en biologie moléculaire dépendent étroitement des progrès présents dans des domaines multiples : biologie, chimie, physique, électronique, mathématiques et informatique.

Depuis le début des années 1990, de nouvelles technologies ont vu le jour, comme les techniques d'analyse haut débit. Ces technologies génèrent un nombre extrêmement important de données. Dans ce contexte, la taille d'un génome correspond à la quantité d'ADN contenu dans une copie du génome, mesurée en nombre de nucléotides (avec pour unité le mégabase, un million de nucléotides). Alors que les techniques de séquençage permettent, en 2015, à une même machine de séquencer 200 génomes humains en une semaine, avec un coût de 0,03 dollars par mégabase, lors du « Human Genome Project » 12 ans ont été nécessaires pour séquencer le premier génome humain, impliquant des centaines de laboratoires, pour un coût estimé à 10 000 dollars par mégabase.

Depuis le début des années 2010 de très nombreux laboratoires possèdent ce type de machine. En conséquence, entre 2010 et 2015 le volume de données de séquençage générées a doublé tous les cinq mois.

En outre, les données ainsi générées ne permettent pas, à elles seules, de comprendre les différents mécanismes du vivant. Elles sont qualifiées de « données brutes ». D'autres analyses doivent alors être effectuées pour les compléter, non plus seulement par des analyses expérimentales biologiques classiques mais par des analyses informatiques générant ainsi à nouveau de très gros volumes de données bio-informatiques.

L'ensemble des données brutes et des résultats de leurs analyses sont stockés dans des bases de données biologiques, disponibles (le plus souvent) sur le web. Le nombre et le contenu de ces bases croissent de façon considérable. Ces bases de données évoluent rapidement et sont à la fois réparties sur le réseau du web et très hétérogènes : chaque base de données a son propre format de données et sa propre structure, les données qu'elles contiennent reflètent des expertises et il est fréquent que les termes scientifiques utilisés pour décrire les données diffèrent d'une base à l'autre. Elles contiennent néanmoins une très grande richesse d'information et sont donc hautement complémentaires.

Pouvoir interroger, comparer et rapprocher les données bio-informatiques est nécessaire pour que les connaissances en biologie moléculaire puissent progresser. Exploiter ce volume et cette diversité d'informations réparties, très fortement hétérogènes, et en constante évolution est un réel défi à relever.

Dans cet article, notre objectif est de fournir un état de l'art sur les problématiques relatives aux bases de données bio-informatiques pour la biologie moléculaire mais aussi et surtout de proposer des guides pour choisir une solution adaptée aux besoins de l'utilisateur lorsqu'il souhaite tirer au mieux parti de la complémentarité de telles données.

Plus précisément, nous dressons d'abord un panorama des caractéristiques des bases de données bio-informatiques. Ensuite, nous dégageons les différents niveaux d'hétérogénéité des données biologiques qui ont un impact direct sur la complexité du processus qui permettra leur exploitation conjointe. Nous présentons, dans un troisième temps, les éléments de standardisation existants qui permettent d'accéder aux données et de mieux les comparer. Nous décrivons les solutions existantes de gestion et d'interrogation des données bio-informatiques tout en fournissant un support pour leur analyse. Enfin, nous dégageons les défis qu'il reste à lever dans le domaine de la gestion et l'interrogation des données bio-informatiques pour la biologie moléculaire.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(237 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Gestion de données pour la biologie moléculaire

3. Éléments de standardisation

Sans pour autant régler le problème de l'hétérogénéité sémantique des données biologiques (intrinsèque au domaine), un certain nombre de standards ont été développés pour aider à l'identification des instances (c'est-à-dire identifier la présence d'un même objet biologique) à travers les bases et tendre vers des définitions consensuelles des concepts biologiques. Nous présentons dans un premier temps (§ 3.1 ) ces initiatives. Nous décrivons ensuite les portails d'accès qui ont été développés et qui permettent un accès unifié aux données en fournissant des solutions où l'hétérogénéité syntaxique est traitée (§ 3.2 ).

3.1 Standards et ontologies

Un premier élément de solution pour l'intégration des données est l'établissement de terminologies consensuelles pour décrire les données en utilisant des termes standardisés sous la forme de terminologies simples (vocabulaires) ou d'ontologies.

Le concept d'ontologie est employé dans des domaines très différents tels que la philosophie, la linguistique ou l'intelligence artificielle. Outre le sens philosophique originel (« spécification d'une conceptualisation »), une ontologie désigne donc le plus souvent un ensemble structuré de concepts, aussi appelés « termes ».

À la différence d'un vocabulaire, une ontologie cherche à représenter le sens des concepts et des relations qui les lient. Nous choisissons dans cet article de considérer une définition souple de la notion d'ontologie afin de nous rapprocher au mieux des définitions données dans les différentes communautés biologiques, informatiques et bio-informatiques.

Dans le domaine biologique, plusieurs consortia se sont formés en vue d'établir des terminologies pour décrire les données présentes dans les bases et des hiérarchies pour classifier les concepts sous-jacents à ces terminologies.

Les ontologies principales utilisées pour annoter les données bio-informatiques...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(237 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Éléments de standardisation

Page
précédenteHétérogénéité des données

Page
suivante

Gestion de données pour la biologie moléculaire

BIBLIOGRAPHIE

(1) - AKIYAMA (Y.) et al - WebDBGET : an integrated database retrieval system which provides hyper-links among related database entries. - In 2nd Meeting on Interconnection of Molecular Biology Databases (1995).
(2) - BAUMGARTNER (J.W.A.) et al - Manual curation is not sufficient for annotation of genomic databases. - Bioinformatics, 23(13), p. i41 (2007).
(3) - BELHAJJAME (K.) et al - Using a suite of ontologies for preserving workflow-centric research objects. - Journal of Web Semantics : Science, Services and Agents on the World Wide Web (2015).
(4) - BHAGAT (J.) et al - BioCatalogue : a universal catalogue of web services for the life sciences. - Nucleic Acids Res., 38 Suppl, p. W689-W694 (2010).
(5) - BIRKLAND (A.), YONA (G.) - BIOZON : a system for unification, management and analysis of heterogeneous biological data. - BMC Bioinformatics, 7, p. 70 (2006).

DANS NOS BASES DOCUMENTAIRES

1 Bases de données

Sites des principales bases de données citées dans ce document

DDBJ http://www.ddbj.nig.ac.jp/ (page consultée le 20 janvier 2015)

Ensembl http://www.ensembl.org/index.html (page consultée le 20 janvier 2015)

Enzyme http://enzyme.expasy.org/ (page consultée le 20 janvier 2015)

European Nucleotide Archive http://www.ebi.ac.uk/ena (page consultée le 20 janvier 2015)

FlyBase http://flybase.org/ (page consultée le 20 janvier 2015)

GenBank http://www.ncbi.nlm.nih.gov/genbank/ (page consultée le 20 janvier 2015)

GeneCards http://www.genecards.org/ (page consultée le 20 janvier 2015)

Gene (Entrez) http://www.ncbi.nlm.nih.gov/gene (page consultée le 20 janvier 2015)

InterPro http://www.ebi.ac.uk/interpro/ (page consultée le 20 janvier 2015)

Kegg http://www.genome.jp/kegg/ (page consultée le 20 janvier 2015)

PDB http://www.rcsb.org/pdb/home/home.do (page consultée le 20 janvier 2015)

PFAM http://pfam.xfam.org/ (page consultée le 20 janvier 2015)

PubMed/Medline...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(237 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Éléments de standardisation Interrogation et gestion de données bio-informatiques pour la biologie moléculaire

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

3. Éléments de standardisation

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

Éléments de standardisation
Interrogation et gestion de données bio-informatiques pour la biologie moléculaire

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.