Assemblage de génomes : stratégies, outils et commandes pratiques

Par Abdelmalek | Mis à jour le 9 juin 2026

1. Lectures courtes vs lectures longues : différences fondamentales

Le choix de la technologie de séquençage détermine l’approche d’assemblage. Les lectures courtes (Illumina : 50–300 pb) offrent une très haute précision (>99,9 %) et un faible coût par base, mais peinent à traverser les régions répétées. Les lectures longues (Oxford Nanopore, PacBio : 10 kb à >100 kb) résolvent les répétitions et les variants structuraux, mais avec un taux d’erreur plus élevé (5–15 % en brut) qui nécessite une correction (polishing).

Les assemblages hybrides combinent le meilleur des deux mondes : les lectures longues fournissent la charpente (scaffold), les lectures courtes corrigent les erreurs. Les génomes de petite taille (< 10 Mb, procaryotes) peuvent être assemblés efficacement avec des lectures courtes seules, tandis que les grands génomes complexes (métazoaires, plantes) nécessitent des lectures longues et souvent du scaffolding Hi‑C.

Pour une mise en pratique concrète avec des exemples de code et des commandes, consultez notre guide dédié à l’assemblage d’un génome.

📊 Récapitulatif :
– Lectures courtes : Illumina, haute précision, débit massif, adaptées aux génomes simples.
– Lectures longues : PacBio (HiFi) ou ONT, résolution des régions répétées, indispensables pour les génomes complexes.
– Approche hybride : longues reads pour l’ossature, courtes reads pour le polishing.

2. Outils d’assemblage selon le type de lectures et la taille du génome

Type de génome	Exemples	Technologie recommandée	Assembleur	Caractéristique
Petit, simple (<10 Mb)	Bactéries, archées	Illumina (paired‑end)	SPAdes, Unicycler	Rapide, contiguïté suffisante
Moyen, répété (10–500 Mb)	Champignons, petits métazoaires	Hybride (Illumina + ONT)	Flye, MaSuRCA	Résolution des introns et régions répétées
Grand, complexe (>500 Mb)	Métazoaires, plantes	Longues lectures + Hi‑C	hifiasm (PacBio HiFi), Canu	Haute contiguïté, phasage haploïde

3. Mise en pratique : commandes essentielles

Les exemples ci-dessous supposent que les outils sont installés (via conda ou compilation). Pour un génome bactérien (~5 Mb) avec des lectures Illumina paired‑end (2×150 pb), on utilise SPAdes. Pour un génome eucaryote complexe assemblé à partir de lectures PacBio HiFi (>99 % de précision), hifiasm est l’outil de référence.

🔧 Assemblage avec SPAdes (lectures courtes, génome procaryote)

# SPAdes pour génome bactérien (paired‑end)
spades.py -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_spades/ --isolate

# Pour un génome avec un insert plus grand (mate‑pair)
spades.py --pe1-1 reads_R1.fastq.gz --pe1-2 reads_R2.fastq.gz --mp1-1 mp_R1.fastq.gz --mp1-2 mp_R2.fastq.gz -o assembly_spades_mp/ --careful

# Option --isolate : génome haploïde (bactérie) ; --meta pour la métagénomique

🔧 Assemblage avec hifiasm (lectures longues PacBio HiFi, génome complexe)

# hifiasm pour génome eucaryote avec reads PacBio HiFi
hifiasm -o genome_hifiasm -t 32 hifi_reads.fastq.gz

# Convertir les fichiers .gfa en FASTA (assemblage principal)
awk '/^S/{print ">"$2"\n"$3}' genome_hifiasm.bp.p_ctg.gfa > genome_hifiasm.contigs.fa

# Assemblage diploïde (séparation des haplotypes)
hifiasm -o genome_diploid -t 32 --primary hifi_reads.fastq.gz

📁 Formats de lectures : single‑end vs paired‑end

Single‑end (SE) : un seul read par fragment. Moins informatif, utilisé pour petits génomes ou validation.
Paired‑end (PE) : deux reads orientés depuis les deux extrémités d’un fragment. Permet de connaître l’ordre et la distance approximative, essentiel pour le scaffolding.
Mate‑pair (MP) : inserts longs (3–10 kb) pour résoudre les grandes répétitions.

💡 Recommandation : pour les génomes complexes (métazoaires, plantes), privilégiez des lectures longues PacBio HiFi avec hifiasm. Pour les procaryotes, SPAdes (ou Unicycler) avec des reads Illumina paired‑end est le meilleur rapport qualité/prix.

4. Comparaison des performances

Critère	SPAdes (courtes)	hifiasm (longues)	Flye (longues)
Temps de calcul (5 Mb)	~10 min	– (pas adapté)	–
Temps de calcul (1 Gb)	Très long (jours)	~2 jours (32 cœurs)	~1 jour
Résolution des répétitions	Faible	Très bonne	Très bonne
Précision consensus	Élevée	Élevée (HiFi)	Moyenne (correction nécessaire)
Utilisation mémoire	~32 Go	~64 Go	~128 Go

5. Liens internes pour approfondir

📝 Quiz : Assemblage de génomes – lectures, outils et commandes

👤 Votre nom complet :

Lectures courtes ou longues ? Guide complet de l’assemblage génomique