Assemblage de génomes : stratégies, outils et commandes pratiques
1. Lectures courtes vs lectures longues : différences fondamentales
Le choix de la technologie de séquençage détermine l’approche d’assemblage. Les lectures courtes (Illumina : 50–300 pb) offrent une très haute précision (>99,9 %) et un faible coût par base, mais peinent à traverser les régions répétées. Les lectures longues (Oxford Nanopore, PacBio : 10 kb à >100 kb) résolvent les répétitions et les variants structuraux, mais avec un taux d’erreur plus élevé (5–15 % en brut) qui nécessite une correction (polishing).
Les assemblages hybrides combinent le meilleur des deux mondes : les lectures longues fournissent la charpente (scaffold), les lectures courtes corrigent les erreurs. Les génomes de petite taille (< 10 Mb, procaryotes) peuvent être assemblés efficacement avec des lectures courtes seules, tandis que les grands génomes complexes (métazoaires, plantes) nécessitent des lectures longues et souvent du scaffolding Hi‑C.
Pour une mise en pratique concrète avec des exemples de code et des commandes, consultez notre guide dédié à l’assemblage d’un génome.
– Lectures courtes : Illumina, haute précision, débit massif, adaptées aux génomes simples.
– Lectures longues : PacBio (HiFi) ou ONT, résolution des régions répétées, indispensables pour les génomes complexes.
– Approche hybride : longues reads pour l’ossature, courtes reads pour le polishing.
2. Outils d’assemblage selon le type de lectures et la taille du génome
| Type de génome | Exemples | Technologie recommandée | Assembleur | Caractéristique |
|---|---|---|---|---|
| Petit, simple (<10 Mb) | Bactéries, archées | Illumina (paired‑end) | SPAdes, Unicycler | Rapide, contiguïté suffisante |
| Moyen, répété (10–500 Mb) | Champignons, petits métazoaires | Hybride (Illumina + ONT) | Flye, MaSuRCA | Résolution des introns et régions répétées |
| Grand, complexe (>500 Mb) | Métazoaires, plantes | Longues lectures + Hi‑C | hifiasm (PacBio HiFi), Canu | Haute contiguïté, phasage haploïde |
3. Mise en pratique : commandes essentielles
Les exemples ci-dessous supposent que les outils sont installés (via conda ou compilation). Pour un génome bactérien (~5 Mb) avec des lectures Illumina paired‑end (2×150 pb), on utilise SPAdes. Pour un génome eucaryote complexe assemblé à partir de lectures PacBio HiFi (>99 % de précision), hifiasm est l’outil de référence.
🔧 Assemblage avec SPAdes (lectures courtes, génome procaryote)
# SPAdes pour génome bactérien (paired‑end) spades.py -1 reads_R1.fastq.gz -2 reads_R2.fastq.gz -o assembly_spades/ --isolate # Pour un génome avec un insert plus grand (mate‑pair) spades.py --pe1-1 reads_R1.fastq.gz --pe1-2 reads_R2.fastq.gz --mp1-1 mp_R1.fastq.gz --mp1-2 mp_R2.fastq.gz -o assembly_spades_mp/ --careful # Option --isolate : génome haploïde (bactérie) ; --meta pour la métagénomique
🔧 Assemblage avec hifiasm (lectures longues PacBio HiFi, génome complexe)
# hifiasm pour génome eucaryote avec reads PacBio HiFi
hifiasm -o genome_hifiasm -t 32 hifi_reads.fastq.gz
# Convertir les fichiers .gfa en FASTA (assemblage principal)
awk '/^S/{print ">"$2"\n"$3}' genome_hifiasm.bp.p_ctg.gfa > genome_hifiasm.contigs.fa
# Assemblage diploïde (séparation des haplotypes)
hifiasm -o genome_diploid -t 32 --primary hifi_reads.fastq.gz
📁 Formats de lectures : single‑end vs paired‑end
- Single‑end (SE) : un seul read par fragment. Moins informatif, utilisé pour petits génomes ou validation.
- Paired‑end (PE) : deux reads orientés depuis les deux extrémités d’un fragment. Permet de connaître l’ordre et la distance approximative, essentiel pour le scaffolding.
- Mate‑pair (MP) : inserts longs (3–10 kb) pour résoudre les grandes répétitions.
4. Comparaison des performances
| Critère | SPAdes (courtes) | hifiasm (longues) | Flye (longues) |
|---|---|---|---|
| Temps de calcul (5 Mb) | ~10 min | – (pas adapté) | – |
| Temps de calcul (1 Gb) | Très long (jours) | ~2 jours (32 cœurs) | ~1 jour |
| Résolution des répétitions | Faible | Très bonne | Très bonne |
| Précision consensus | Élevée | Élevée (HiFi) | Moyenne (correction nécessaire) |
| Utilisation mémoire | ~32 Go | ~64 Go | ~128 Go |
5. Liens internes pour approfondir
- Procédure d’extraction d’ADN
- Introduction au séquençage NGS
- Séquençage Illumina (lectures courtes)
- Séquençage PacBio (longues lectures)
- Séquençage Oxford Nanopore
- Séquençage Ion Torrent
- Principe de la métagénomique
💬 Commentaires