Dissertation Defense of Audrey Hulot

Dissertation Defense of Audrey Hulot

Audrey Hulot defended her dissertation on November 23: "Omics data analysis: clustering and network inference"

The PhD dissertation defense was held on November 26 at 2pm, by video-conferencing.
Jury Composition:
Henri-Jean GARCHON, PU-PH, Université Paris-Saclay, PhD advisor
Florence JAFFREZIC, Directrice de recherche, Université Paris-Saclay - INRAE Jouy-en-Josas, co-supervisor
Julien CHIQUET, Directeur de recherche, Université Paris Saclay - AgroParisTech, INRAE, co-supervisor
Nathalie VIALANEIX, Directrice de recherche, MIAT - INRAE Toulouse, Reporter
Grégory NUEL, Directeur de recherche, CNRS - Sorbonne Université, Reporter
Guillaume ASSIE, PU-PH,Université de Paris - INSERM, Examiner
Guillemette MAROT, Maître de conférences, Université de Lille, Examiner
Marie-Laure MARTIN-MAGNIETTE, Directrice de recherche, INRAE - Institut des Sciences des Plantes Paris Saclay,  Examiner

Titre : Analyse de données -omiques : clustering et inférence de réseaux

Mots clés :  Données -omiques, Clustering, Inférence de réseaux, Grande dimension, Biomarqueurs, Intégration de données

Résumé :  Le développement des méthodes de biologie haut-débit (séquençage et spectrométrie de masse) a permis de générer de grandes masses de données, dites -omiques, qui nous aident à mieux comprendre les processus biologiques.
Cependant, isolément, chaque source -omique ne permet d'expliquer que partiellement ces processus. Mettre en relation les différentes sources de donnés -omiques devrait permettre de mieux comprendre les processus biologiques mais constitue un défi considérable.
Dans cette thèse, nous nous intéressons particulièrement aux méthodes de clustering et d’inférence de réseaux, appliquées aux données -omiques.
La première partie du manuscrit présente trois méthodes. Les deux premières méthodes sont applicables dans un contexte où les données peuvent être de nature hétérogène.
La première concerne un algorithme d’agrégation d’arbres, permettant la construction d’un clustering hiérarchique consensus. La complexité sous-quadratique de cette méthode a fait l’objet d’une démonstration, et permet son application dans un contexte de grande dimension. Cette méthode est disponible dans le package  R  mergeTrees, accessible sur le CRAN.
La seconde méthode concerne l’intégration de données provenant d’arbres ou de réseaux, en transformant les objets via la distance cophénétique ou via le plus court chemin, en matrices de distances. Elle utilise le Multidimensional Scaling et l’Analyse Factorielle Multiple et peut servir à la construction d’arbres et de réseaux consensus.
Enfin, dans une troisième méthode, on se place dans le contexte des modèles graphiques gaussiens, et cherchons à estimer un graphe, ainsi que des communautés d’entités, à partir de plusieurs tables de données. Cette méthode est basée sur la combinaison d’un Stochastic Block Model, un Latent block Model et du Graphical Lasso.
Cette thèse présente en deuxième partie les résultats d’une étude de données transcriptomiques et métagénomiques, réalisée dans le cadre d’un projet appliqué, sur des données concernant la Spondylarthrite ankylosante.

Title:  Omics data analysis: clustering and network inference

Keywords:  Omics data, Clustering, Network Inference, High dimension, Biomarkers, Data Integration

Abstract:  The development of biological high-throughput technologies (next-generation sequencing and mass spectrometry) have provided researchers with a large amount of data, also known as -omics,  that help better understand the biological processes.
However, each source of data separately explains only a very small part of a given process. Linking the different -omics sources between them should help us understand more of these processes.
In this manuscript, we will focus on two approaches, clustering and network inference, applied to omics data.
The first part of the manuscript presents three methodological developments on this topic. The first two methods are applicable in a situation where the data are heterogeneous.
The first method is an algorithm for aggregating trees, in order to create a consensus out of a set of trees. The complexity of the process is sub-quadratic, allowing to use it on data leading to a great number of leaves in the trees. This algorithm is available in an  R -package named  mergeTrees  on the CRAN.
The second  method deals with the integration of data from trees and networks, by transforming these objects into distance matrices using cophenetic and shortest path distances, respectively. This method relies on Multidimensional Scaling and Multiple Factor Analysis and can also be used to build consensus trees or networks.
Finally, we use the Gaussian Graphical Models setting and seek to estimate a graph, as well as communities in the graph, from several tables. This method is based on a combination of Stochastic Block Model, Latent Block Model and Graphical Lasso.
The second part of the manuscript presents analyses conducted on transcriptomics and metagenomics data to identify targets to gain insight into the predisposition of Ankylosing Spondylitis.

Publication date : 23 January 2020 | Redactor : Audrey Hulot