Science des données

Extraire le meilleur des données

Selon les dernières estimations, la terre abrite un trillion d'espèces bactériennes, pour la plupart non identifiées, non cultivées et encore moins étudiées. Cet immense réservoir à métabolites semblait inaccesible jusqu’à ce que les technologies changent la donne. Elles ont confirmé l’étendue de cette biodiversité et ouvert la voie à la découverte et au développement de nouveaux composés aux propriétés biologiques inédites. La Science des données est évidemment au cœur de cette révolution. Ainsi, en permettant pour la première fois le traitement et l’analyse de grandes quantités de données, elle a contribué à l’avènement du séquençage à haut débit, de la génomique ou de la métabolomique. L’unité de science des données a été essentiel dans le développement de la plate-forme de R&D de DEINOVE. En lien constant avec toutes les unités technologiques, l'équipe analyse les grandes quantités de données qu’elles générent, développe des outils sur mesure pour approfondir ces analyses et assure la gestion et la traçabilité de l’ensemble des informations à toutes les étapes du processus de R&D. 

Activités principales

Les activités décrites dans cette section témoignent des outils développés par l'unité pour faciliter la gestion et l'analyse des données générées par l’ensemble des unités technologiques de DEINOVE.

LIMS : gestion des données et traçabilité

La plateforme de R&D de DEINOVE utilise des technologies d’automatisation et des approches à haut débit à toutes les étapes de sa R&D, de l'exploration de la biodiversité à la production préindustrielle du produit candidat. D'énormes quantités de données sont générées à chacune de ces étapes et ces dernières doivent être documentées avec précision et archivées. En constante évolution, le système d’information et de gestion de laboratoire (LIMS) développé par l’unité permet de saisir et structurer l’ensemble de ces données.

SLiMe : prédire les métabolites produits par une espèce bactérienne

La phase de déréplication est au cœur du processus d’identification de l'entité chimique d’intérêt. À cette étape, l’unité d’analyses avancées sépare et détecte les métabolites présents dans l’extrait bactérien en s’appuyant sur l’analyse intégrée de la séquence génomique de l'espèce bactérienne dans laquelle l'activité antimicrobienne a été détectée. Pour conduire ces analyses, l’unité de science des données a conçu et développé SLiMe (Species Links to Molecules), un outil qui intègre les connaissances accumulés en matière de produits naturels et de génomes bactériens pour prédire les métabolites produits par chaque espèce bactérienne.

Bankiise : une plateforme de gestion des connaissances sur les produits naturels

À ce jour, aucune base de données ne rassemble l’ensemble des informations publiques disponibles sur les antimicrobiens d’origine naturelle. L'unité a entrepris l'ambitieuse tâche de rassembler ces connaissances hétérogènes et dispersées dans différentes bases de données et publications en une seule plateforme de gestion des connaissances appelée Bankiise. En regroupant et en restructurant les données sur l'écologie, la taxonomie, la génomique et la métabolomique bactérienne, cet outil permettra à terme d'accélérer la déréplication des nouveaux agents antimicrobiens.

Activités support

Métagénomique

Analyse des données de séquençage à haut débit des ARN ribosomiques 16S du mélange bactérien présent dans les échantillons. Conduite en collaboration avec l'unité de biodiculture, cette analyse permet d’identifier l’ensemble des espèces bactériennes (les gènes qui codent pour ces ARN ribosomiques - ADNr16S - font office de marqueur phylogénétique universel). Lorsqu'une espèce inconnue est identifiée, les données de séquençage permettront d’établir sa classification taxonomique.

Génomique

L'unité de science des données intevient principalement à 2 étapes. (1) En collaboration avec l’unité de biologie synthétique, elle conduit les analyses génomiques qui permettront d’identifer les gènes impliqués dans la synthèse du composé. (2) La totalité du génome des bactéries d’intérêt étant systématiquement sequencé, l’unité analyse les données correspondantes et annote le génome pour répondre à des besoins spécifiques (identification des espèces, des gènes ou des groupes de gènes…).

Métabarcodage

Au-delà de l’ARN ribosomique 16S, l’unité étend les analyses métagénomiques à d’autres biomarqueurs phylogénétiques comme l'ARN ribosomique 18S ou des séquences additionnelles dites espaceurs internes (ITS), spécifiques de l’ARNr précursseur (le premier stade de la maturation des ribosomes). Ces données permettent en retour d’optimiser l’identification des différents groupes taxonomiques.  

Analyse des données de criblage

En collaboration avec l'unité chargée des tests d'activités, l’unité analyse les données du criblage à haut debit.

Métabolomique

Pour identifier les voies métaboliques impliquées dans la synthèse du composé d’intérêt (mais aussi les potentielles voies inhibitrices), l’unité analyse les données métabolomiques générées par l’unité d’analyses avancées.  

Biostatistique

Soutien biostatistique à toutes les étapes de la R&D.

Bibliographie

Zhu, J.-W., Zhang, S.-J., Wang, W.-G., & Jiang, H. (2020). Strategies for Discovering New Antibiotics from Bacteria in the Post-Genomic Era. Current Microbiology, 77(11), 3213–3223.

Foulston, L. (2019). Genome mining and prospects for antibiotic discovery. Current Opinion in Microbiology, 51, 1–8.

Baltz, R. H. (2017). Synthetic biology, genome mining, and combinatorial biosynthesis of NRPS-derived antibiotics: a perspective. Journal of Industrial Microbiology & Biotechnology, 45(7), 635–649.

Bush, A., Compson, Z. G., Monk, W. A., Porter, T. M., Steeves, R., Emilson, E., Gagne, N., Hajibabaei, M., Roy, M., & Baird, D. J. (2019). Studying Ecosystems With DNA Metabarcoding: Lessons From Biomonitoring of Aquatic Macroinvertebrates. Frontiers in Ecology and Evolution, 7.