ChIP-seq et ATAC-seq : analyses bio-informatique et statistique

TYPE DE FORMATION : Inter-entreprise

Contexte

La formation Omic & NGS - Rennes - d'abord focalisée dans les années 2000 sur l'analyse des données à haut-débit issues des microarrays - est depuis plusieurs années centrée sur l'étude du transcriptome et de l'épigénome, au travers de modules focalisés sur le RNA-seq, le ChIP-seq, et sur l'interprétation biologique de listes de gènes d'intérêt, par le biais notamment de la construction de réseaux de gènes.

Cette formation annuelle à la carte se compose de 7 modules indépendants de 2 jours, vous permettant de construire de façon évolutive la formation la plus adaptée à vos besoins. 2 des 7 modules sont dédiés à l'initiation aux langages R et UNIX, permettant ainsi aux débutants d'acquérir les pré-requis nécessaires aux autres modules.

Objectifs

Ce module vise à offrir aux participants les clés nécessaires au traitement informatique et statistique de données épigénomiques basées sur l'immunorpécipitation de la chromatine comme le ChIP-seq (facteurs de transcription et modifications d'histone) et les technologies dérivées (iChIp-seq, ChIP-exo, RIP-seq, MeDIP-seq, HITS-CLIP) ainsi qu'aux données épigénomiques aux propriétés similaires (ATAC-seq, DNase-seq, FAIRE-seq, MNase-seq).
Au cours de ces journées nous ferons notamment appel aux outils FastQMCF, FastQScreen, BowTie, SAMtools, HOMER, MACS2, deepTools et DiffBind.
L'accent sera également mis sur les différents formats de fichiers générés lors du traitement de données NGS.

Programme

1. Les étapes de prétraitement des données :
Qualité des données brutes / recherche de contamination / alignements sur génome de référence / prise en considération des artefacts de séquençage (multialignement, duplicats optiques, régions blacklistées).

2. Exploration des données alignées :
Efficacité de l'immunoprécipitation, qualité de la librairie / saturation des librairies / clusterisation des échantillons.

3. Détection des pics d'enrichissement :
Estimation de la taille des fragments / peak calling / intégration de réplicats biologiqes par Irreproducible Discovery Rate.

4. Visualisation (sous UCSC et IGV) :
Utilisation de la base de données Ensembl / préparation d'une référence annotée pour IGV.

5. L'exploration fonctionnelle :
Profil d'enrichissement autour des TSS / clusterisation par k-means.

A l'issue de ce programme et à la demande des participants, pourront être abordé :
L'analyse différentielle de données épigénomiques,
Les modalités de visualisations des données épigénomiques pour publication / valorisation,
La recherche de motifs,
Les problématiques spécifiques aux données sur lesquelles ils souhaitent travailler.

Responsable(s)

Sandrine LAGARRIGUE
Pierre-François ROUX

Public concerné

Secteurs académique ou privé,
Acteurs de la recherche et R&D
(ingénieurs, techniciens, chercheurs, cliniciens, post-doctorants, doctorants, stagiaires...)

Pré-requis

Être sensibilisé à Unix et R - possibilité de suivre les modules Initiation à UNIX et à la gestion des big data et Initiation à R

Durée

2.0 jour(s) 15 heure(s)

Informations particulières

Des tarifs préférentiels pour les académiques, nous consulter.

Formation Continue
Formation tout au long de la vie

Formations