En savoir plus

Notre utilisation de cookies

« Cookies » désigne un ensemble d’informations déposées dans le terminal de l’utilisateur lorsque celui-ci navigue sur un site web. Il s’agit d’un fichier contenant notamment un identifiant sous forme de numéro, le nom du serveur qui l’a déposé et éventuellement une date d’expiration. Grâce aux cookies, des informations sur votre visite, notamment votre langue de prédilection et d'autres paramètres, sont enregistrées sur le site web. Cela peut faciliter votre visite suivante sur ce site et renforcer l'utilité de ce dernier pour vous.

Afin d’améliorer votre expérience, nous utilisons des cookies pour conserver certaines informations de connexion et fournir une navigation sûre, collecter des statistiques en vue d’optimiser les fonctionnalités du site. Afin de voir précisément tous les cookies que nous utilisons, nous vous invitons à télécharger « Ghostery », une extension gratuite pour navigateurs permettant de les détecter et, dans certains cas, de les bloquer.

Ghostery est disponible gratuitement à cette adresse : https://www.ghostery.com/fr/products/

Vous pouvez également consulter le site de la CNIL afin d’apprendre à paramétrer votre navigateur pour contrôler les dépôts de cookies sur votre terminal.

S’agissant des cookies publicitaires déposés par des tiers, vous pouvez également vous connecter au site http://www.youronlinechoices.com/fr/controler-ses-cookies/, proposé par les professionnels de la publicité digitale regroupés au sein de l’association européenne EDAA (European Digital Advertising Alliance). Vous pourrez ainsi refuser ou accepter les cookies utilisés par les adhérents de l'EDAA.

Il est par ailleurs possible de s’opposer à certains cookies tiers directement auprès des éditeurs :

Catégorie de cookie

Moyens de désactivation

Cookies analytiques et de performance

Realytics
Google Analytics
Spoteffects
Optimizely

Cookies de ciblage ou publicitaires

DoubleClick
Mediarithmics

Les différents types de cookies pouvant être utilisés sur nos sites internet sont les suivants :

Cookies obligatoires

Cookies fonctionnels

Cookies sociaux et publicitaires

Ces cookies sont nécessaires au bon fonctionnement du site, ils ne peuvent pas être désactivés. Ils nous sont utiles pour vous fournir une connexion sécuritaire et assurer la disponibilité a minima de notre site internet.

Ces cookies nous permettent d’analyser l’utilisation du site afin de pouvoir en mesurer et en améliorer la performance. Ils nous permettent par exemple de conserver vos informations de connexion et d’afficher de façon plus cohérente les différents modules de notre site.

Ces cookies sont utilisés par des agences de publicité (par exemple Google) et par des réseaux sociaux (par exemple LinkedIn et Facebook) et autorisent notamment le partage des pages sur les réseaux sociaux, la publication de commentaires, la diffusion (sur notre site ou non) de publicités adaptées à vos centres d’intérêt.

Sur nos CMS EZPublish, il s’agit des cookies sessions CAS et PHP et du cookie New Relic pour le monitoring (IP, délais de réponse).

Ces cookies sont supprimés à la fin de la session (déconnexion ou fermeture du navigateur)

Sur nos CMS EZPublish, il s’agit du cookie XiTi pour la mesure d’audience. La société AT Internet est notre sous-traitant et conserve les informations (IP, date et heure de connexion, durée de connexion, pages consultées) 6 mois.

Sur nos CMS EZPublish, il n’y a pas de cookie de ce type.

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de l’INRA par email à cil-dpo@inra.fr ou par courrier à :

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2018

Menu Logo Principal AgroParisTech Université Paris-Saclay SAPS - Sciences Animales Paris-Saclay

Genetique Animale et Biologie Integrative

Unité Mixte de Recherche INRA AgroParisTech GABI Génétique Animale et Biologie Intégrative

Soutenance de thèse de Audrey Hulot

26 novembre 2020

Soutenance de thèse de  Audrey Hulot
Audrey Hulot a soutenu sa thèse le jeudi 26 novembre : "Analyse de données -omiques : clustering et inférence de réseaux."

La soutenance de thèse a eu lieu le 26 Novembre 2020 à 14h, par visioconférence.
Composition du jury :
Henri-Jean GARCHON, PU-PH, Université Paris-Saclay, Directeur de thèse
Florence JAFFREZIC, Directrice de recherche, Université Paris-Saclay - INRAE Jouy-en-Josas, Co-Directrice de thèse
Julien CHIQUET, Directeur de recherche, Université Paris Saclay - AgroParisTech, INRAE, Co-encadrant de thèse
Nathalie VIALANEIX, Directrice de recherche, MIAT - INRAE Toulouse, Rapportrice
Grégory NUEL, Directeur de recherche, CNRS - Sorbonne Université, Rapporteur
Guillaume ASSIE, PU-PH,Université de Paris - INSERM, Examinateur
Guillemette MAROT, Maître de conférences, Université de Lille, Examinatrice
Marie-Laure MARTIN-MAGNIETTE, Directrice de recherche, INRAE - Institut des Sciences des Plantes Paris Saclay,  Examinatrice

Titre : Analyse de données -omiques : clustering et inférence de réseaux

Mots clés :  Données -omiques, Clustering, Inférence de réseaux, Grande dimension, Biomarqueurs, Intégration de données

Résumé :  Le développement des méthodes de biologie haut-débit (séquençage et spectrométrie de masse) a permis de générer de grandes masses de données, dites -omiques, qui nous aident à mieux comprendre les processus biologiques.
Cependant, isolément, chaque source -omique ne permet d'expliquer que partiellement ces processus. Mettre en relation les différentes sources de donnés -omiques devrait permettre de mieux comprendre les processus biologiques mais constitue un défi considérable.
Dans cette thèse, nous nous intéressons particulièrement aux méthodes de clustering et d’inférence de réseaux, appliquées aux données -omiques.
La première partie du manuscrit présente trois méthodes. Les deux premières méthodes sont applicables dans un contexte où les données peuvent être de nature hétérogène.
La première concerne un algorithme d’agrégation d’arbres, permettant la construction d’un clustering hiérarchique consensus. La complexité sous-quadratique de cette méthode a fait l’objet d’une démonstration, et permet son application dans un contexte de grande dimension. Cette méthode est disponible dans le package  R  mergeTrees, accessible sur le CRAN.
La seconde méthode concerne l’intégration de données provenant d’arbres ou de réseaux, en transformant les objets via la distance cophénétique ou via le plus court chemin, en matrices de distances. Elle utilise le Multidimensional Scaling et l’Analyse Factorielle Multiple et peut servir à la construction d’arbres et de réseaux consensus.
Enfin, dans une troisième méthode, on se place dans le contexte des modèles graphiques gaussiens, et cherchons à estimer un graphe, ainsi que des communautés d’entités, à partir de plusieurs tables de données. Cette méthode est basée sur la combinaison d’un Stochastic Block Model, un Latent block Model et du Graphical Lasso.
Cette thèse présente en deuxième partie les résultats d’une étude de données transcriptomiques et métagénomiques, réalisée dans le cadre d’un projet appliqué, sur des données concernant la Spondylarthrite ankylosante.

Title:  Omics data analysis: clustering and network inference

Keywords:  Omics data, Clustering, Network Inference, High dimension, Biomarkers, Data Integration

Abstract:  The development of biological high-throughput technologies (next-generation sequencing and mass spectrometry) have provided researchers with a large amount of data, also known as -omics,  that help better understand the biological processes.
However, each source of data separately explains only a very small part of a given process. Linking the different -omics sources between them should help us understand more of these processes.
In this manuscript, we will focus on two approaches, clustering and network inference, applied to omics data.
The first part of the manuscript presents three methodological developments on this topic. The first two methods are applicable in a situation where the data are heterogeneous.
The first method is an algorithm for aggregating trees, in order to create a consensus out of a set of trees. The complexity of the process is sub-quadratic, allowing to use it on data leading to a great number of leaves in the trees. This algorithm is available in an  R -package named  mergeTrees  on the CRAN.
The second  method deals with the integration of data from trees and networks, by transforming these objects into distance matrices using cophenetic and shortest path distances, respectively. This method relies on Multidimensional Scaling and Multiple Factor Analysis and can also be used to build consensus trees or networks.
Finally, we use the Gaussian Graphical Models setting and seek to estimate a graph, as well as communities in the graph, from several tables. This method is based on a combination of Stochastic Block Model, Latent Block Model and Graphical Lasso.
The second part of the manuscript presents analyses conducted on transcriptomics and metagenomics data to identify targets to gain insight into the predisposition of Ankylosing Spondylitis.