Article de référence | Réf : IN89 v1

Prototype RDISK
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques

Auteur(s) : Dominique LAVENIER

Date de publication : 10 août 2008

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-in89


Cet article fait partie de l’offre

Bioprocédés et bioproductions

(161 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

2. Prototype RDISK

2.1 Motivations

Le système RDISK peut être vu comme un cluster spécialisé pour la recherche d'information dans les grandes masses de données. Il a été développé en priorité pour l'extraction d'information génomique, mais d'autres types de données peuvent être manipulés, sans aucune restriction. L'idée maîtresse est d'être capable de parcourir rapidement des banques de données volumineuses, et d'extraire au vol toute information utile pour un traitement ultérieur plus complexe. Les deux exemples suivants illustrent notre propos : la recherche d'alignements et la recherche de motifs.

Comme nous l'avons esquissé précédemment, un alignement peut être recherché sur la base d'un point d'ancrage qui correspond à un mot de W caractères présent à la fois dans la séquence requête et dans les séquences de la banque. Cette détection peut être très rapide et faite à mesure que l'on lit les données en provenance du support de stockage. Toutes les séquences des banques qui ne présenteront pas de tels mots communs avec la séquence requête pourront être éliminées.

La recherche de motifs correspond à une recherche d'expression régulière symbolisant, par exemple, un site protéique actif ou une empreinte particulière dans une famille de gènes. On peut vouloir détecter tous les endroits, sur un génome, où un tel pattern apparaît, et ne transmettre que le voisinage de ces zones pour réaliser ensuite un traitement plus approfondi.

Partant du constat que le temps de traitement ne peut être inférieur à celui pour lire les données stockées sur disque, l'architecture RDISK repose sur la capacité à accéder en parallèle aux données et à les filtrer au vol, c'est-à-dire sans ralentir le débit des disques. Ainsi, si la taille d'une banque est de P Méga octets et que l'on dispose de N nœuds connectés à un disque dur dont la bande passante est de K Méga octets/seconde, le temps de traitement sera borné par : P/NK. Le concept de l'architecture RDISK vise à être le plus près possible de ce temps.

HAUT DE PAGE

2.2 Architecture générale

La figure 4 représente l'architecture globale du système RDISK. Elle est composée...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Bioprocédés et bioproductions

(161 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Prototype RDISK
Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - GENBANK, BENSON (D.A.), KARSCH-MIZRACHI (I.), LIPMAN (D.J.), OSTELL (J.), WHEELER (D.L.) -   *  -  Nucleic Acids Res., 35, (Database issue), D21-5, janv. 2007.

  • (2) - LIOLIOS (K.), TAVERNARAKIS (N.), HUGENHOLTZ (P.), KYRPIDES (N.C.) -   The Genomes On Line Database (GOLD) v.2 : a monitor of genome projects worldwide.  -  Nucleic Acids Res., 34, (Database issue), D332-4, 1 janv. 2006.

  • (3) - NEEDLEMAN (S.), WUNSCH (C.) -   A general method applicable to the search for similarities in the amino acid sequence of two proteins.  -  J. Mol. Biol., 48(3), p. 443-53 (1970).

  • (4) - SMITH (T.F.), WATERMAN (M.S.) -   Identification of common molecular subsequences.  -  J. Mol. Biol., 147(1), p. 195-7, 25 mars 1981.

  • (5) - LAVENIER (D.), GIRAUD (M.) -   Bioinformatics Applications. In Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays.  -  GOKHALE (M.B.), GRAHAM (P.S.) editor, chapter 9, Springer (2005).

  • ...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Bioprocédés et bioproductions

(161 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS