ChIP-seq et ATAC-seq : analyses bio-informatique et statistique
TYPE DE FORMATION : Inter-entreprise
Contexte
La formation Omic & NGS - Rennes - d'abord focalisée dans les années 2000 sur l'analyse des données à haut-débit issues des microarrays - est depuis plusieurs années centrée sur l'étude du transcriptome et de l'épigénome, au travers de modules focalisés sur le RNA-seq, le ChIP-seq, et sur l'interprétation biologique de listes de gènes d'intérêt, par le biais notamment de la construction de réseaux de gènes.
Cette formation annuelle à la carte se compose de 7 modules indépendants de 2 jours, vous permettant de construire de façon évolutive la formation la plus adaptée à vos besoins. 2 des 7 modules sont dédiés à l'initiation aux langages R et UNIX, permettant ainsi aux débutants d'acquérir les pré-requis nécessaires aux autres modules.
Objectifs
Ce module vise à offrir aux participants les clés nécessaires au traitement informatique et statistique de données épigénomiques basées sur l'immunorpécipitation de la chromatine comme le ChIP-seq (facteurs de transcription et modifications d'histone) et les technologies dérivées (iChIp-seq, ChIP-exo, RIP-seq, MeDIP-seq, HITS-CLIP) ainsi qu'aux données épigénomiques aux propriétés similaires (ATAC-seq, DNase-seq, FAIRE-seq, MNase-seq).
Au cours de ces journées nous ferons notamment appel aux outils FastQMCF, FastQScreen, BowTie, SAMtools, HOMER, MACS2, deepTools et DiffBind.
L'accent sera également mis sur les différents formats de fichiers générés lors du traitement de données NGS.
Programme
1. Les étapes de prétraitement des données :
Qualité des données brutes / recherche de contamination / alignements sur génome de référence / prise en considération des artefacts de séquençage (multialignement, duplicats optiques, régions blacklistées).
2. Exploration des données alignées :
Efficacité de l'immunoprécipitation, qualité de la librairie / saturation des librairies / clusterisation des échantillons.
3. Détection des pics d'enrichissement :
Estimation de la taille des fragments / peak calling / intégration de réplicats biologiqes par Irreproducible Discovery Rate.
4. Visualisation (sous UCSC et IGV) :
Utilisation de la base de données Ensembl / préparation d'une référence annotée pour IGV.
5. L'exploration fonctionnelle :
Profil d'enrichissement autour des TSS / clusterisation par k-means.
A l'issue de ce programme et à la demande des participants, pourront être abordé :
L'analyse différentielle de données épigénomiques,
Les modalités de visualisations des données épigénomiques pour publication / valorisation,
La recherche de motifs,
Les problématiques spécifiques aux données sur lesquelles ils souhaitent travailler.
Responsable(s)
Sandrine LAGARRIGUE
Pierre-François ROUX
Public concerné
Secteurs académique ou privé,
Acteurs de la recherche et R&D
(ingénieurs, techniciens, chercheurs, cliniciens, post-doctorants, doctorants, stagiaires...)
Pré-requis
Être sensibilisé à Unix et R - possibilité de suivre les modules Initiation à UNIX et à la gestion des big data et Initiation à R
Durée
2.0 jour(s) 15 heure(s)
Informations particulières
Des tarifs préférentiels pour les académiques, nous consulter.
Session(s)