Présentation
Auteur(s)
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
5. Conclusion - Perspectives
RDISK est un prototype original dont une version à 48 nœuds a été développée à l'IRISA (figure 8). Sa principale caractéristique est de pouvoir filtrer rapidement de grandes masses de données, comme les banques de données génomiques. Les traitements sont en général relativement simples et réguliers ; ils se prêtent donc bien à une mise en œuvre matérielle et, plus particulièrement, par le biais d'architectures reconfigurables.
-
Les performances de RDISK rivalisent avec les systèmes plus traditionnels à base de cluster de PCs. Elles peuvent également être évaluées sur la base du coût. Un nœud RDISK est essentiellement composé d'éléments standards et peu onéreux : un disque dur et quelques composants électroniques courants. Une estimation grossière évalue à 250 Euros le coût d'un nœud pour une production en petite quantité.
-
Les diverses implémentations algorithmiques ont cependant pointé quelques limitations du prototype:
-
la bande passante Disque/FPGA est d'environ 15 Mo/s. C'est bien plus faible que ce qu'on obtient habituellement (50-80 Mo/s). En fait, dans la version développée, le contrôleur IDE ne gère que le mode PIO. L'usage de mode DMA est possible, mais demande une quantité de ressource trop importante au regard du composant FPGA utilisé ;
-
l'emploi d'un Spartan II, bon marché, limite fortement la capacité des filtres. À l'usage, ce choix initial s'est avéré trop restrictif. Heureusement, les composants disponibles actuellement offrent, pour un coût similaire, des ressources beaucoup plus importantes. Un nœud RDISK réalisé aujourd'hui – et à coût identique – serait bien plus performant.
Au-delà de ces aspects techniques, une limitation beaucoup plus contraignante provient de l'usage de la technologie « disque dur » elle-même. En effet, l'accès aux données demande quelques millisecondes, ce qui interdit une interrogation de type indexation, méthode qui évite le parcours systématique des masses de données. Dans ce schéma, plutôt que de scanner l'ensemble des données, on les classifie en petits groupes suivant certaines propriétés. Une requête choisira de ne traiter qu'un sous-ensemble de ces groupes. Le temps d'accès à ces petites entités devient alors prépondérant par rapport...
-
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Conclusion - Perspectives
BIBLIOGRAPHIE
-
(1) - GENBANK, BENSON (D.A.), KARSCH-MIZRACHI (I.), LIPMAN (D.J.), OSTELL (J.), WHEELER (D.L.) - * - Nucleic Acids Res., 35, (Database issue), D21-5, janv. 2007.
-
(2) - LIOLIOS (K.), TAVERNARAKIS (N.), HUGENHOLTZ (P.), KYRPIDES (N.C.) - The Genomes On Line Database (GOLD) v.2 : a monitor of genome projects worldwide. - Nucleic Acids Res., 34, (Database issue), D332-4, 1 janv. 2006.
-
(3) - NEEDLEMAN (S.), WUNSCH (C.) - A general method applicable to the search for similarities in the amino acid sequence of two proteins. - J. Mol. Biol., 48(3), p. 443-53 (1970).
-
(4) - SMITH (T.F.), WATERMAN (M.S.) - Identification of common molecular subsequences. - J. Mol. Biol., 147(1), p. 195-7, 25 mars 1981.
-
(5) - LAVENIER (D.), GIRAUD (M.) - Bioinformatics Applications. In Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays. - GOKHALE (M.B.), GRAHAM (P.S.) editor, chapter 9, Springer (2005).
-
...
Cet article fait partie de l’offre
Bioprocédés et bioproductions
(161 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive