====== Moteur de recherche pour séquençage ADN ====== ===== L’ÉQUIPE DE RECHERCHE ET SON PROJET ===== ==== • Porteur du projet ==== **Laurent Troxler**, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC) ==== • Membres de l'équipe de recherche et/ou projet ==== L'équipe de recherche de l'UPR9022 du CNRS, IBMC ==== • Le projet de recherche ==== L’Unité Propre de Recherche 9022 du CNRS (UPR 9022), « Réponse immunitaire et développement chez les Insectes », est l’un des trois laboratoires de l’Institut de Biologie Moléculaire et Cellulaire, Institut Fédératif du CNRS localisé sur le campus central de l’Université de Strasbourg. La recherche de l’UPR 9022 se concentre sur l’étude des bases moléculaires et cellulaires de la défense antimicrobienne (bactéries, champignons et virus) des invertébrés en utilisant comme modèles, la mouche du vinaigre, Drosophila melanogaster et le moustique Anopheles gambiae. Depuis une vingtaine d’années, ces modèles ont été développés pour l’étude du système immunitaire inné et des mécanismes de lutte contre les pathogènes ou les parasites, comme Plasmodium, responsable de la malaria((http://ibmc-ridi.cnrs.fr/fr/accueil-ridi/)). Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée. ==== • Objectifs du projet ==== L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.) ==== • Financement du projet ==== CNRS ==== • Type(s) et volume du corpus étudié ==== Génome de la drosophile ===== LES DONNÉES DE LA RECHERCHE ===== ==== • Types de données ==== Les données brutes sont réalisées par l'IGBMC et mises sur serveur pour un mois. __Microarrays (puces à ADN)__ Le principe des puces à ADN repose sur les interactions de deux brins complémentaires de la double hélice d'ADN qui peuvent s'apparier (un peu comme une fermeture-éclair). Une des chaînes (la sonde) est fixée sur une surface par une de ses extrémités. La chaîne complémentaire (cible) peut s'y apparier pour former un composé stable (hybridation). Si on fixe sur un support des simples brins d'une séquence donnée, on peut détecter l'existence dans une solution à analyser des brins complémentaires. Tous les brins de la solution cible sont liés à une molécule fluorescente. Quand la puce a été mise en contact avec la solution cible, les brins hybridés deviennent fluorescents et peuvent être identifiés. La lecture des puces à ADN ou à protéines utilise en général un microscope de fluorescence adapté (biochip reader)((http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm)). « Les fichiers d'origine sont des fichiers binaires .CEL. Ensuite, après normalisation, ce sont des fichiers Excel ou texte .TAB d'une taille pouvant aller jusqu'à plusieurs dizaines de Mo.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » __Séquençage ADN__ Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. Un fichier de séquences ADN est une liste de séquences ou de bouts de séquences de même taille au format FASTQ (données brutes). Il est composé d'un entête, d'une séquence et d'une séquence qualité codée qui donne une idée de la qualité de la séquence. Ce « triplet » se répète dans le fichier. Les données brutes sont filtrées, puis un bout de séquence ADN est aligné en vis à vis d'un génome connu ou de familles de génomes pour le situer, pour savoir à quel endroit on le retrouve et pour savoir combien de séquences s'alignent sur ce gène. On cherche à trouver des homologies avec des familles de bactéries, par exemple. Quand il n'y a pas d'alignement possible, on procède à un assemblage des bouts de séquences qui se répètent pour reconstituer des enchaînements plus grands et on aligne à nouveau ces séquences sur la base de génomes connus. Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une vue synthétique consultable sur tableur. « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers texte tabulés ou CSV lisibles par Excel.((Les citations de Laurent Troxler sont issues d'échange de courriels)) » ==== • Périodicité actuelle de la mise à jour de la base ==== / ==== • Volumétrie des données ==== Il y a plusieurs copies de ces données à différents stades, après filtrage, sans filtrage, analysées, etc. Il faudrait garder toutes les versions des données, parce que les méthodes d'analyse évoluent et que la reproductibilité exacte est impossible. Entre 2009 et aujourd'hui, il y a eu des changements techniques et, pour un même séquençage, on produit beaucoup plus de données pour un même coût. La taille d'une séquence est d'une centaine de nucléotides, avant c'était une trentaine. Certaines techniques permettent d'atteindre de 200 à 500 nucléotides, ce qui rend les fichiers 5 fois plus lourds. __Microarrays__ : De 10 à 15 go en tout, plusieurs Mo par fichier. __Séquençage ADN__ : « Actuellement, un fichier FASTQ brut de séquençage fait de 1,8Go à 4,2Go, 2,7Go en moyenne (compressé par gzip, soit 4x plus décompressé). Selon la taille du génome de référence, le fichier SAM peut lui aussi faire plusieurs Go. Un séquençage est en un seul fichier. Un manip rassemble plusieurs séquençages, 12 par exemple pour le dernier (rarement moins de 4). Pour information, le volume des séquençages réalisés depuis 2009 : * 2009 : 1,5 go * 2011 : 18 go * 2012 : 7 go * 2012 : 23 go * 2012 : 52 go * 2013 : 17 go * 2015 : 137 go((Les citations de Laurent Troxler sont issues d'échange de courriels)) » __Génomes de référence__ : Les bases de données de génomes utilisées de type [[http://www.ncbi.nlm.nih.gov/genbank/|GenBank]] sont rapatriées en local. Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue un dossier de 27 Go. ==== • Stockage actuel des données ==== **Stockage local** __Données de la recherche__ : Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur externe avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder leurs données sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux. __Autres types de données__ : Un disque dur de 500 go sert de serveur de fichiers partagés pour les échange entre chercheurs (tout type de documents). C'est un espace où tout le monde a les mêmes droits de dépôt, de modification et de suppression de fichiers. Une sauvegarde est réalisée par TimeCapsule (mac) sur un backup. **Stockage en ligne** Pour la publication d'articles, il est obligatoire de mettre les données brutes en ligne dans un entrepôt de données spécialisé. [[http://www.ebi.ac.uk/arrayexpress/|Array Express]] est le premier entrepôt pour microarrays à avoir été utilisé par l'unité, puis celle-ci a travaillé sur le séquençage ADN et s'est donc mise à déposer sur [[http://www.ncbi.nlm.nih.gov/geo/|Gene Expression Omnibus]] (GEO) qui accepte à la fois les microarrays et les séquences ADN. L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles. ==== • Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche ==== Environnement MAC, sauvegarde via Time Machine et Time Capsule **[[https://fr.wikipedia.org/wiki/Basic_Local_Alignment_Search_Tool|BLAST]]** ( basic local alignment search tool ) Disponible en ligne, BLAST est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés et de réaliser un alignement de ces régions homologues. Ce programme permet de retrouver rapidement dans des bases de données, les séquences ayant des zones de similitude avec une séquence donnée (introduite par l'utilisateur). BLAST est utilisé pour trouver des relations fonctionnelles ou évolutives entre les séquences et peut aider à identifier les membres d'une même famille de gènes. **[[https://ics.hutton.ac.uk/tablet/|TABLET]]** Logiciel JAVA créé par le James Hutton Institute qui permet de visualiser les assemblements et les alignements de séquences ADN. **[[http://mobyle.pasteur.fr/cgi-bin/portal.py#welcome|Mobyle@Pasteur]]** Plateforme web développée conjointement par l'Institut Pasteur et la Ressource Parisienne en Bioinformatique Structurale (RPBS) qui regroupe un ensemble d'outils en ligne dédiés à l'analyse bioinformatique. Elle utilise notamment la suite open source European Molecular Biology Open Software Suite (EMBOSS). **[[http://flybase.org/|FLYBASE]]** Base de données en ligne du génome de la drosophile. Propose un jeu d'outils en ligne qui permet de comparer des séquences avec la base en ligne, permet également le téléchargement du génome pour le placer en local. **[[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/|FastQC]]** Logiciel qui vise à fournir un moyen simple de faire des vérifications de contrôle de qualité sur les données brutes de séquençage haut débit en provenance de pipelines de séquençage. Il importe des fichiers au format FastQ et exporte les résultats (« report ») au format HTML. Il fournit des graphiques et des tableaux qui permettent d'évaluer rapidement les données. **[[https://github.com/marbl/Krona/wiki|KRONA]]** Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes. ===== LES DÉMARCHES EFFECTUÉES AVANT AOC ===== Le moteur de recherche actuel, construit par Laurent Troxler en PHP/MySQL, se trouve encore sur le vieux serveur général de l'institut, derrière un firewall. Il faut s'inscrire via un formulaire pour y accéder (ajout automatique dans la base de données, sans intervention humaine). La base de données ne contient que des microarrays traités, pas de données brutes. Les données sont de type texte et numérique. « L'actuelle version ne fait qu'interroger la base de données à partir d'un identifiant (plusieurs types d'identifiants sont possibles) ou d'une liste d'identifiants de gènes pour en afficher les données concernant un ou plusieurs microarrays sélectionnés. Cette interrogation peut également être faites en entrant non plus une liste de gènes mais les coordonnées d'un fragment de génome (chromosome:numéro de première base-numéro de dernière base). Le serveur alors recherche les probes du microarrays présents dans ce fragment. Les résultats peuvent être affichés de deux manières: * les valeurs pour chaque microarray avec l'écart type et un drapeau qualitatif, * les ratios de ces valeurs par rapport à une valeur de référence (celle d'un microarray de référence pour cette manip)((http://www.cnrs.fr/cw/dossiers/dosnano/glossaire/mot/puce_ADN.htm)). » Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers déplacés font que l'outil n'est plus vraiment utilisé. ===== LE CONTEXTE JURIDIQUE ===== ==== • Conventions de partenariat ==== / ==== • Licences (degré d'ouverture des données, restrictions éventuelles) ==== Le futur moteur de recherche devra être librement consultable par la communauté scientifique. On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est ce qui est possible de faire ? ==== • Droit d'exploitation et de reproduction d'images, sons, vidéos, etc. ==== / ===== LA DÉFINITION DES BESOINS ===== ==== • Ressources techniques (logiciels, stockage, visualisation de données, etc.) ==== **Stockage des données** Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par le CNRS. **Moteur de recherche et base de données** L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le séquençage ADN. Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de données. __Les fonctionnalités nécessaires__ : * les séquences qui s'alignent sur tel organisme, la liste et leur position, * la possibilité d'interroger quelles sont les séquences qui s'alignent sur le génome d'un organisme entre telle et telle position, * la récupération des séquences et leur nombre. Au lieu de mettre toutes les séquences du séquençage, on pourrait mettre ensemble les séquences alignées sur le génome avec le nombre de fois où la séquence est présente sur le génome. Cela réduirait la taille du fichier et le temps de traitement en base de données, * si les outils développés le permettent, la possibilité de comparer les séquences ADN aux génomes connus stockés en ligne (et non plus rapatriés en local) sur des sites web de type GenBank, FlyBase ou [[http://www.ncbi.nlm.nih.gov.gate1.inist.fr/guide/genomes-maps/#databases|NCBI]], * un lien vers les données brutes sur GEO.