Assemblage de génomes : stratégies, outils et commandes pratiques
1. Introduction à l’assemblage de génomes
L’assemblage de génomes est le processus consistant à reconstruire la séquence complète d’un organisme à partir de millions de courts fragments (lectures) produits par le séquençage NGS. C’est une étape cruciale en biologie moderne, car elle permet d’accéder au patrimoine génétique complet d’une espèce, ouvrant la voie à l’étude de l’évolution, des interactions hôte‑pathogène et des applications biomédicales. Deux grandes approches existent : l’assemblage de novo (sans génome de référence) et l’assemblage guidé par référence (reséquençage). Le choix de la stratégie dépend de la complexité du génome, de la disponibilité d’un génome proche, et des objectifs de l’étude.
Pour une mise en pratique concrète avec des exemples de code et des commandes, consultez notre guide dédié à l’assemblage d’un génome.
2. Étude de cas centrale : Bulinus ugandae – assemblage avec HiFi reads et hifiasm
Le planorbe d’eau douce Bulinus ugandae (Mollusca: Gastropoda) a été entièrement séquencé en utilisant exclusivement des lectures PacBio HiFi (High-Fidelity). Les reads HiFi ont été générés en mode CCS (Circular Consensus Sequencing) sur trois runs de séquençage. Ces lectures brutes ont été traitées avec Cutadapt v5.0 pour éliminer les adaptateurs et filtrer les bases de faible qualité (seuil d’erreur 0,1). Les lectures de haute qualité obtenues ont ensuite servi à l’estimation de la taille du génome, à l’analyse des k-mers et à l’assemblage.
L’assemblage a été réalisé avec Hifiasm v0.19, un outil spécifiquement optimisé pour les lectures PacBio HiFi. Plusieurs tailles de k-mer (21, 31 et 51) ont été testées, et c’est k=51 qui a produit les meilleurs résultats en termes de contiguïté (N50) et de complétude (BUSCO). Aucune donnée Illumina n’a été utilisée pour cet assemblage, démontrant la puissance des lectures HiFi seules pour les génomes complexes. La qualité finale a été évaluée avec QUAST et la complétude avec BUSCO (bases de données eukaryota, metazoa et mollusca). Enfin, un screening de contamination a été réalisé avec BlobToolKit2 pour éliminer les contigs d’origine non métazoaire.
# Exemple de commandes utilisées pour l'assemblage de Bulinus ugandae
# 1. Contrôle qualité et filtrage des HiFi reads
cutadapt -e 0.1 --discard-untrimmed -a adaptateur -o trimmed_reads.fastq.gz raw_reads.fastq.gz
# 2. Assemblage avec hifiasm (k-mer 51)
hifiasm -o Bulinus_assembly -t 32 --primary -k 51 hifi_reads.fastq.gz
# 3. Extraction des contigs principaux au format FASTA
awk '/^S/{print ">"$2"\n"$3}' Bulinus_assembly.bp.p_ctg.gfa > Bulinus_assembly.contigs.fa
3. Lectures courtes vs lectures longues : différences fondamentales
Le choix de la technologie de séquençage détermine l’approche d’assemblage. Les lectures courtes (Illumina : 50–300 pb) offrent une très haute précision (>99,9 %) et un faible coût par base, mais peinent à traverser les régions répétées. Les lectures longues (Oxford Nanopore, PacBio HiFi : 10 kb à >100 kb) résolvent les répétitions et les variants structuraux. Les lectures HiFi combinent longueur et haute précision (>99,9 %), rendant possible un assemblage de novo de haute qualité sans étape de polishing supplémentaire. Les assemblages hybrides (courtes + longues) restent utiles pour les technologies longues brutes (ONT R9.4.1).
– Lectures courtes Illumina : haute précision, débit massif, adaptées aux génomes simples.
– Lectures longues brutes (ONT, PacBio CLR) : résolution des régions répétées, nécessitent un polishing.
– Lectures PacBio HiFi : longueur + haute précision, assemblage direct avec hifiasm.
4. Outils d’assemblage selon le type de lectures et la taille du génome
| Type de génome | Exemples | Technologie recommandée | Assembleur | Caractéristique |
|---|---|---|---|---|
| Petit, simple (<10 Mb) | Bactéries, archées | Illumina (paired‑end) | SPAdes, Unicycler | Rapide, contiguïté suffisante |
| Moyen, répété (10–500 Mb) | Champignons, petits métazoaires | Hybride (Illumina + ONT) ou HiFi seul | Flye, hifiasm | Résolution des introns et régions répétées |
| Grand, complexe (>500 Mb) | Métazoaires, plantes | PacBio HiFi | hifiasm | Haute contiguïté, phasage haploïde |
5. Mise en pratique : commandes essentielles
Les exemples ci-dessous supposent que les outils sont installés (via conda ou compilation).
🔧 Assemblage avec SPAdes (lectures courtes Illumina, génome procaryote)
# SPAdes pour génome bactérien (paired‑end) spades.py -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_spades/ --isolate # Assemblage métagénomique (communautés microbiennes) spades.py --meta -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_meta/
🔧 Assemblage avec hifiasm (lectures PacBio HiFi, génome complexe)
# Assemblage primaire (recommandé pour génomes eucaryotes)
hifiasm -o genome_hifiasm -t 32 --primary hifi_reads.fastq.gz
# Assemblage diploïde (séparation des haplotypes maternel et paternel)
hifiasm -o genome_diploid -t 32 hifi_reads.fastq.gz
# Convertir le fichier .gfa (contigs) en FASTA
awk '/^S/{print ">"$2"\n"$3}' genome_hifiasm.bp.p_ctg.gfa > genome.contigs.fa
📁 Formats de lectures : single‑end vs paired‑end
- Single‑end (SE) : un seul read par fragment. Moins informatif.
- Paired‑end (PE) : deux reads orientés depuis les deux extrémités. Permet le scaffolding.
- Mate‑pair (MP) : inserts longs (3–10 kb) pour les grandes répétitions.
- HiFi (PacBio CCS) : lectures longues et précises, idéales pour hifiasm.
6. Contrôle qualité et évaluation d’assemblage
Avant l’assemblage, les reads bruts doivent être filtrés (Cutadapt, FastQC). L’estimation de la taille du génome et du taux d’hétérozygotie se fait par analyse des k-mers (Jellyfish, GenomeScope2). Après assemblage, la qualité est évaluée avec QUAST (N50, L50, nombre de contigs) et BUSCO (complétude en gènes orthologues). Pour Bulinus ugandae, le N50 obtenu avec hifiasm (k=51) a dépassé 10 Mb, et la complétude BUSCO (mollusca_odb10) était supérieure à 95 %.
# Estimation de la taille du génome par k-mer (Jellyfish + GenomeScope) jellyfish count -m 21 -s 100M -t 32 -o reads.jf hifi_reads.fastq.gz jellyfish histo -t 32 reads.jf > reads.histo # Ensuite upload du fichier .histo sur GenomeScope2
7. Liens internes pour approfondir
- Procédure d’extraction d’ADN
- Introduction au séquençage NGS
- Séquençage Illumina (lectures courtes)
- Séquençage PacBio (lectures longues)
- Séquençage Oxford Nanopore
- Séquençage Ion Torrent
- Principe de la métagénomique
- Comment assembler un génome ?
💬 Commentaires