Comment assembler un génome eucaryote ? Guide complet

Assemblage de génomes : stratégies, outils et commandes pratiques | BIOEDUC
🧬 Génomique & Bioinformatique

Assemblage de génomes : stratégies, outils et commandes pratiques

Par Abdelmalek | Mis à jour le

1. Introduction à l’assemblage de génomes

L’assemblage de génomes est le processus consistant à reconstruire la séquence complète d’un organisme à partir de millions de courts fragments (lectures) produits par le séquençage NGS. C’est une étape cruciale en biologie moderne, car elle permet d’accéder au patrimoine génétique complet d’une espèce, ouvrant la voie à l’étude de l’évolution, des interactions hôte‑pathogène et des applications biomédicales. Deux grandes approches existent : l’assemblage de novo (sans génome de référence) et l’assemblage guidé par référence (reséquençage). Le choix de la stratégie dépend de la complexité du génome, de la disponibilité d’un génome proche, et des objectifs de l’étude.

Pour une mise en pratique concrète avec des exemples de code et des commandes, consultez notre guide dédié à l’assemblage d’un génome.

2. Étude de cas centrale : Bulinus ugandae – assemblage avec HiFi reads et hifiasm

Le planorbe d’eau douce Bulinus ugandae (Mollusca: Gastropoda) a été entièrement séquencé en utilisant exclusivement des lectures PacBio HiFi (High-Fidelity). Les reads HiFi ont été générés en mode CCS (Circular Consensus Sequencing) sur trois runs de séquençage. Ces lectures brutes ont été traitées avec Cutadapt v5.0 pour éliminer les adaptateurs et filtrer les bases de faible qualité (seuil d’erreur 0,1). Les lectures de haute qualité obtenues ont ensuite servi à l’estimation de la taille du génome, à l’analyse des k-mers et à l’assemblage.

L’assemblage a été réalisé avec Hifiasm v0.19, un outil spécifiquement optimisé pour les lectures PacBio HiFi. Plusieurs tailles de k-mer (21, 31 et 51) ont été testées, et c’est k=51 qui a produit les meilleurs résultats en termes de contiguïté (N50) et de complétude (BUSCO). Aucune donnée Illumina n’a été utilisée pour cet assemblage, démontrant la puissance des lectures HiFi seules pour les génomes complexes. La qualité finale a été évaluée avec QUAST et la complétude avec BUSCO (bases de données eukaryota, metazoa et mollusca). Enfin, un screening de contamination a été réalisé avec BlobToolKit2 pour éliminer les contigs d’origine non métazoaire.

💡 Leçon clé : Les lectures PacBio HiFi (précision >99,9 %) permettent un assemblage de novo de haute qualité sans nécessiter de correction par lectures courtes, même pour des génomes métazoaires complexes.
# Exemple de commandes utilisées pour l'assemblage de Bulinus ugandae
# 1. Contrôle qualité et filtrage des HiFi reads
cutadapt -e 0.1 --discard-untrimmed -a adaptateur -o trimmed_reads.fastq.gz raw_reads.fastq.gz

# 2. Assemblage avec hifiasm (k-mer 51)
hifiasm -o Bulinus_assembly -t 32 --primary -k 51 hifi_reads.fastq.gz

# 3. Extraction des contigs principaux au format FASTA
awk '/^S/{print ">"$2"\n"$3}' Bulinus_assembly.bp.p_ctg.gfa > Bulinus_assembly.contigs.fa

3. Lectures courtes vs lectures longues : différences fondamentales

Le choix de la technologie de séquençage détermine l’approche d’assemblage. Les lectures courtes (Illumina : 50–300 pb) offrent une très haute précision (>99,9 %) et un faible coût par base, mais peinent à traverser les régions répétées. Les lectures longues (Oxford Nanopore, PacBio HiFi : 10 kb à >100 kb) résolvent les répétitions et les variants structuraux. Les lectures HiFi combinent longueur et haute précision (>99,9 %), rendant possible un assemblage de novo de haute qualité sans étape de polishing supplémentaire. Les assemblages hybrides (courtes + longues) restent utiles pour les technologies longues brutes (ONT R9.4.1).

📊 Récapitulatif :
Lectures courtes Illumina : haute précision, débit massif, adaptées aux génomes simples.
Lectures longues brutes (ONT, PacBio CLR) : résolution des régions répétées, nécessitent un polishing.
Lectures PacBio HiFi : longueur + haute précision, assemblage direct avec hifiasm.

4. Outils d’assemblage selon le type de lectures et la taille du génome

Type de génomeExemplesTechnologie recommandéeAssembleurCaractéristique
Petit, simple (<10 Mb)Bactéries, archéesIllumina (paired‑end)SPAdes, UnicyclerRapide, contiguïté suffisante
Moyen, répété (10–500 Mb)Champignons, petits métazoairesHybride (Illumina + ONT) ou HiFi seulFlye, hifiasmRésolution des introns et régions répétées
Grand, complexe (>500 Mb)Métazoaires, plantesPacBio HiFihifiasmHaute contiguïté, phasage haploïde

5. Mise en pratique : commandes essentielles

Les exemples ci-dessous supposent que les outils sont installés (via conda ou compilation).

🔧 Assemblage avec SPAdes (lectures courtes Illumina, génome procaryote)

# SPAdes pour génome bactérien (paired‑end)
spades.py -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_spades/ --isolate

# Assemblage métagénomique (communautés microbiennes)
spades.py --meta -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_meta/

🔧 Assemblage avec hifiasm (lectures PacBio HiFi, génome complexe)

# Assemblage primaire (recommandé pour génomes eucaryotes)
hifiasm -o genome_hifiasm -t 32 --primary hifi_reads.fastq.gz

# Assemblage diploïde (séparation des haplotypes maternel et paternel)
hifiasm -o genome_diploid -t 32 hifi_reads.fastq.gz

# Convertir le fichier .gfa (contigs) en FASTA
awk '/^S/{print ">"$2"\n"$3}' genome_hifiasm.bp.p_ctg.gfa > genome.contigs.fa

📁 Formats de lectures : single‑end vs paired‑end

  • Single‑end (SE) : un seul read par fragment. Moins informatif.
  • Paired‑end (PE) : deux reads orientés depuis les deux extrémités. Permet le scaffolding.
  • Mate‑pair (MP) : inserts longs (3–10 kb) pour les grandes répétitions.
  • HiFi (PacBio CCS) : lectures longues et précises, idéales pour hifiasm.

6. Contrôle qualité et évaluation d’assemblage

Avant l’assemblage, les reads bruts doivent être filtrés (Cutadapt, FastQC). L’estimation de la taille du génome et du taux d’hétérozygotie se fait par analyse des k-mers (Jellyfish, GenomeScope2). Après assemblage, la qualité est évaluée avec QUAST (N50, L50, nombre de contigs) et BUSCO (complétude en gènes orthologues). Pour Bulinus ugandae, le N50 obtenu avec hifiasm (k=51) a dépassé 10 Mb, et la complétude BUSCO (mollusca_odb10) était supérieure à 95 %.

# Estimation de la taille du génome par k-mer (Jellyfish + GenomeScope)
jellyfish count -m 21 -s 100M -t 32 -o reads.jf hifi_reads.fastq.gz
jellyfish histo -t 32 reads.jf > reads.histo
# Ensuite upload du fichier .histo sur GenomeScope2

7. Liens internes pour approfondir

📝 Quiz : Assemblage de génomes – lectures, outils et commandes
📚 Références : Lekired, A., Mudge, J., Laidemitt, M.R. et al. Whole-genome sequencing and genome-wide transcriptome profiling of the freshwater planorbid snail Bulinus ugandae (Mollusca: Gastropoda), a Nilotic bulinine refractory to Schistosoma haematobium. BMC Genomics 26, 1089 (2025). https://doi.org/10.1186/s12864-025-12320-3.