Lectures courtes ou longues ? Guide complet de l’assemblage génomique

Assemblage de génomes comparé : stratégies, outils et commandes | BIOEDUC
🧬 Génomique & Bioinformatique

Assemblage de génomes : stratégies, outils et commandes pratiques

Par Abdelmalek | Mis à jour le

1. Lectures courtes vs lectures longues : différences fondamentales

Le choix de la technologie de séquençage détermine l’approche d’assemblage. Les lectures courtes (Illumina : 50–300 pb) offrent une très haute précision (>99,9 %) et un faible coût par base, mais peinent à traverser les régions répétées. Les lectures longues (Oxford Nanopore, PacBio : 10 kb à >100 kb) résolvent les répétitions et les variants structuraux, mais avec un taux d’erreur plus élevé (5–15 % en brut) qui nécessite une correction (polishing).

Les assemblages hybrides combinent le meilleur des deux mondes : les lectures longues fournissent la charpente (scaffold), les lectures courtes corrigent les erreurs. Les génomes de petite taille (< 10 Mb, procaryotes) peuvent être assemblés efficacement avec des lectures courtes seules, tandis que les grands génomes complexes (métazoaires, plantes) nécessitent des lectures longues et souvent du scaffolding Hi‑C.

Pour une mise en pratique concrète avec des exemples de code et des commandes, consultez notre guide dédié à l’assemblage d’un génome.

📊 Récapitulatif :
Lectures courtes : Illumina, haute précision, débit massif, adaptées aux génomes simples.
Lectures longues : PacBio (HiFi) ou ONT, résolution des régions répétées, indispensables pour les génomes complexes.
Approche hybride : longues reads pour l’ossature, courtes reads pour le polishing.

2. Outils d’assemblage selon le type de lectures et la taille du génome

Type de génomeExemplesTechnologie recommandéeAssembleurCaractéristique
Petit, simple (<10 Mb)Bactéries, archéesIllumina (paired‑end)SPAdes, UnicyclerRapide, contiguïté suffisante
Moyen, répété (10–500 Mb)Champignons, petits métazoairesHybride (Illumina + ONT)Flye, MaSuRCARésolution des introns et régions répétées
Grand, complexe (>500 Mb)Métazoaires, plantesLongues lectures + Hi‑Chifiasm (PacBio HiFi), CanuHaute contiguïté, phasage haploïde

3. Mise en pratique : commandes essentielles

Les exemples ci-dessous supposent que les outils sont installés (via conda ou compilation). Pour un génome bactérien (~5 Mb) avec des lectures Illumina paired‑end (2×150 pb), on utilise SPAdes. Pour un génome eucaryote complexe assemblé à partir de lectures PacBio HiFi (>99 % de précision), hifiasm est l’outil de référence.

🔧 Assemblage avec SPAdes (lectures courtes, génome procaryote)

# SPAdes pour génome bactérien (paired‑end)
spades.py -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_spades/ --isolate

# Pour un génome avec un insert plus grand (mate‑pair)
spades.py --pe1-1 reads_R1.fastq.gz --pe1-2 reads_R2.fastq.gz --mp1-1 mp_R1.fastq.gz --mp1-2 mp_R2.fastq.gz -o assembly_spades_mp/ --careful

# Option --isolate : génome haploïde (bactérie) ; --meta pour la métagénomique

🔧 Assemblage avec hifiasm (lectures longues PacBio HiFi, génome complexe)

# hifiasm pour génome eucaryote avec reads PacBio HiFi
hifiasm -o genome_hifiasm -t 32 hifi_reads.fastq.gz

# Convertir les fichiers .gfa en FASTA (assemblage principal)
awk '/^S/{print ">"$2"\n"$3}' genome_hifiasm.bp.p_ctg.gfa > genome_hifiasm.contigs.fa

# Assemblage diploïde (séparation des haplotypes)
hifiasm -o genome_diploid -t 32 --primary hifi_reads.fastq.gz

📁 Formats de lectures : single‑end vs paired‑end

  • Single‑end (SE) : un seul read par fragment. Moins informatif, utilisé pour petits génomes ou validation.
  • Paired‑end (PE) : deux reads orientés depuis les deux extrémités d’un fragment. Permet de connaître l’ordre et la distance approximative, essentiel pour le scaffolding.
  • Mate‑pair (MP) : inserts longs (3–10 kb) pour résoudre les grandes répétitions.
💡 Recommandation : pour les génomes complexes (métazoaires, plantes), privilégiez des lectures longues PacBio HiFi avec hifiasm. Pour les procaryotes, SPAdes (ou Unicycler) avec des reads Illumina paired‑end est le meilleur rapport qualité/prix.

4. Comparaison des performances

CritèreSPAdes (courtes)hifiasm (longues)Flye (longues)
Temps de calcul (5 Mb)~10 min– (pas adapté)
Temps de calcul (1 Gb)Très long (jours)~2 jours (32 cœurs)~1 jour
Résolution des répétitionsFaibleTrès bonneTrès bonne
Précision consensusÉlevéeÉlevée (HiFi)Moyenne (correction nécessaire)
Utilisation mémoire~32 Go~64 Go~128 Go

5. Liens internes pour approfondir

📝 Quiz : Assemblage de génomes – lectures, outils et commandes