Présentation
Auteur(s)
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
2. Prototype RDISK
2.1 Motivations
Le système RDISK peut être vu comme un cluster spécialisé pour la recherche d'information dans les grandes masses de données. Il a été développé en priorité pour l'extraction d'information génomique, mais d'autres types de données peuvent être manipulés, sans aucune restriction. L'idée maîtresse est d'être capable de parcourir rapidement des banques de données volumineuses, et d'extraire au vol toute information utile pour un traitement ultérieur plus complexe. Les deux exemples suivants illustrent notre propos : la recherche d'alignements et la recherche de motifs.
Comme nous l'avons esquissé précédemment, un alignement peut être recherché sur la base d'un point d'ancrage qui correspond à un mot de W caractères présent à la fois dans la séquence requête et dans les séquences de la banque. Cette détection peut être très rapide et faite à mesure que l'on lit les données en provenance du support de stockage. Toutes les séquences des banques qui ne présenteront pas de tels mots communs avec la séquence requête pourront être éliminées.
La recherche de motifs correspond à une recherche d'expression régulière symbolisant, par exemple, un site protéique actif ou une empreinte particulière dans une famille de gènes. On peut vouloir détecter tous les endroits, sur un génome, où un tel pattern apparaît, et ne transmettre que le voisinage de ces zones pour réaliser ensuite un traitement plus approfondi.
Partant du constat que le temps de traitement ne peut être inférieur à celui pour lire les données stockées sur disque, l'architecture RDISK repose sur la capacité à accéder en parallèle aux données et à les filtrer au vol, c'est-à-dire sans ralentir le débit des disques. Ainsi, si la taille d'une banque est de P Méga octets et que l'on dispose de N nœuds connectés à un disque dur dont la bande passante est de K Méga octets/seconde, le temps de traitement sera borné par : P/NK. Le concept de l'architecture RDISK vise à être le plus près possible de ce temps.
HAUT DE PAGE2.2 Architecture générale
La figure 4 représente l'architecture globale du système RDISK. Elle est composée...
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Prototype RDISK
BIBLIOGRAPHIE
-
(1) - GENBANK, BENSON (D.A.), KARSCH-MIZRACHI (I.), LIPMAN (D.J.), OSTELL (J.), WHEELER (D.L.) - * - Nucleic Acids Res., 35, (Database issue), D21-5, janv. 2007.
-
(2) - LIOLIOS (K.), TAVERNARAKIS (N.), HUGENHOLTZ (P.), KYRPIDES (N.C.) - The Genomes On Line Database (GOLD) v.2 : a monitor of genome projects worldwide. - Nucleic Acids Res., 34, (Database issue), D332-4, 1 janv. 2006.
-
(3) - NEEDLEMAN (S.), WUNSCH (C.) - A general method applicable to the search for similarities in the amino acid sequence of two proteins. - J. Mol. Biol., 48(3), p. 443-53 (1970).
-
(4) - SMITH (T.F.), WATERMAN (M.S.) - Identification of common molecular subsequences. - J. Mol. Biol., 147(1), p. 195-7, 25 mars 1981.
-
(5) - LAVENIER (D.), GIRAUD (M.) - Bioinformatics Applications. In Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays. - GOKHALE (M.B.), GRAHAM (P.S.) editor, chapter 9, Springer (2005).
-
...
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive