Comment assembler un génome ?

Assemblage de génomes comparé : procaryotes, champignons, métazoaires et plantes | BIOEDUC
🧬 Génomique comparée & Bioinformatique

Stratégies d’assemblage de génomes comparées : procaryotes, champignons, métazoaires et plantes

Par Abdelmalek | Mis à jour le

1. Introduction à l’assemblage de génomes

L’assemblage de génomes est le processus consistant à reconstruire la séquence complète d’un organisme à partir de millions de courts fragments (lectures) produits par le séquençage NGS. C’est une étape cruciale en biologie moderne, car elle permet d’accéder au patrimoine génétique complet d’une espèce, ouvrant la voie à l’étude de l’évolution, des interactions hôte‑pathogène et des applications biomédicales. Deux grandes approches existent : l’assemblage de novo (sans génome de référence) et l’assemblage guidé par référence (reséquençage). Le choix de la stratégie dépend de la complexité du génome, de la disponibilité d’un génome proche, et des objectifs de l’étude.

2. Étude de cas centrale : Bulinus ugandae, un mollusque réfractaire à Schistosoma haematobium

Le planorbe d’eau douce Bulinus ugandae (Mollusca: Gastropoda) a été entièrement séquencé et son transcriptome profilé. Ce mollusque est particulièrement intéressant car il est réfractaire à l’infestation par Schistosoma haematobium, le parasite responsable de la bilharziose urogénitale humaine. L’assemblage de son génome a dû surmonter les défis typiques des métazoaires : une taille génomique importante (~1 Gb), un taux élevé de répétitions (transposons, séquences satellites) et une forte hétérozygotie. Une approche unique des lectures longues (HiFi) a été utilisée pour obtenir une meilleure contiguïté. Par ailleurs, le séquençage RNA‑seq de différents tissus a permis d’annoter finement les régions codantes et d’identifier les gènes potentiellement impliqués dans la résistance au parasite. Cette étude de cas illustre parfaitement les stratégies modernes d’assemblage et d’annotation chez les métazoaires non‑modèles.

💡 Leçon clé : Chez les métazoaires, l’intégration de données transcriptomiques (extraction d’ARN et séquençage) est indispensable pour guider l’annotation des gènes et valider les modèles prédictifs.

3. Comparaison des domaines du vivant

🦠 Procaryotes (bactéries et archées)

Les génomes procaryotes sont généralement petits (1 – 10 Mb), avec un faible contenu en éléments répétés et des chromosomes circulaires. L’assemblage est souvent aisé et peut être réalisé avec des lectures courtes Illumina seules, aboutissant à un génome complet fermé. Des assembleurs comme SPAdes ou Unicycler produisent des contigs de haute qualité. Le faible taux d’hétérozygotie (haploïdie) simplifie encore la tâche.

🍄 Champignons

Les champignons présentent une complexité intermédiaire (10 – 100 Mb). Leur génome contient des introns et un taux de répétitions variable. L’assemblage peut être réalisé avec des reads courts, mais l’utilisation de lectures longues (PacBio, Nanopore) améliore la résolution des régions répétées (télomères, centromères). Les génomes fongiques sont souvent diploïdes, introduisant des défis de phasage.

🪼 Métazoaires (dont Bulinus ugandae)

Les métazoaires (invertébrés et vertébrés) possèdent des génomes larges (>500 Mb chez de nombreux mollusques et insectes, 3 Gb chez l’humain). Leur contenu en éléments répétés (SINE, LINE, LTR, ADN satellite) peut dépasser 50 % du génome, fragmentant l’assemblage. L’hétérozygotie élevée complique la distinction entre variants alléliques et paralogues. Les stratégies hybrides (Illumina + Nanopore/PacBio) sont devenues la norme, associées à des technologies de scaffolding (Hi‑C, carte optique) pour atteindre une échelle chromosomique.

🌱 Plantes

Les génomes végétaux sont souvent très grands (blé ~17 Gb, pin ~20 Gb) et polyploïdes. Ils contiennent jusqu’à 80–90 % d’ADN répété, principalement des rétrotransposons. L’assemblage est extrêmement difficile, nécessitant des lectures longues ultra‑longues (Oxford Nanopore), des bibliothèques de grande taille et des pipelines d’assemblage spécialisés (Canu, Flye, hifiasm). Le recours à des cartes génétiques et à l’Hi‑C est indispensable pour ordonner les scaffolds en chromosomes.

Tableau récapitulatif

DomaineTaille typiqueRépétitionsDéfi principalApproche recommandée
Procaryotes1–10 MbFaibleChromosome circulaireIllumina (SPAdes, Unicycler)
Champignons10–100 MbModéréIntrons, régions répétéesHybride Illumina + long‑reads
Métazoaires0,5–3 Gb+ÉlevéHétérozygotie, éléments mobilesLong‑reads (PacBio/Nanopore) + Hi‑C
Plantes1–20 GbTrès élevéPolyploïdie, rétrotransposonsUltra‑long reads + carte génétique

4. Défis techniques et solutions

  • Erreurs d’assemblage : les régions répétées provoquent des collapses erronés ou des gaps. Les lectures longues traversent les répétitions et résolvent l’ambiguïté.
  • Hétérozygotie : les assembleurs diploïdes (ex. hifiasm, TrioCanu) séparent les haplotypes maternel et paternel.
  • Contiguité : les technologies de scaffolding (Hi‑C, optical mapping) ordonnent les contigs en scaffolds et les placent sur les chromosomes.
  • Complétude : des outils comme BUSCO évaluent l’exhaustivité du génome assemblé en recherchant des gènes orthologues conservés.

Dans le cas de Bulinus ugandae, l’équipe a utilisé un assembleur long‑read (Flye) suivi d’un polishing par Illumina, puis d’un scaffolding avec des données Hi‑C, aboutissant à un génome de référence de haute qualité malgré la forte répétitivité.

🔬 Rôle de la transcriptomique (RNA‑seq) : l’intégration des données RNA‑seq permet de prédire les modèles d’épissage, de valider les gènes annotés et d’identifier les isoformes. Chez B. ugandae, le transcriptome a révélé des gènes candidats impliqués dans la reconnaissance immunitaire du schistosome.

5. Intégration de la génomique fonctionnelle

L’assemblage seul ne suffit pas : l’annotation fonctionnelle des gènes est essentielle. Le séquençage RNA‑seq (transcriptome) identifie les régions transcrites, facilite la prédiction des introns/exons et apporte des preuves d’expression. Des pipelines comme BRAKER ou MAKER combinent des preuves ab initio (basées sur des modèles statistiques) et des preuves expérimentales (RNA‑seq, alignements de protéines). L’annotation fonctionnelle attribue ensuite des termes GO (Gene Ontology) et des voies métaboliques (KEGG).

Pour les organismes non‑modèles comme Bulinus ugandae, le transcriptome est souvent le seul moyen d’obtenir un jeu de gènes fiable en l’absence de référence proche.

6. Importance biologique et appliquée

Comprendre l’assemblage des génomes a des retombées majeures :

  • Interactions hôte‑parasite : l’étude du génome de Bulinus ugandae peut identifier les bases génétiques de la résistance à Schistosoma haematobium, ouvrant des perspectives pour le contrôle de la bilharziose.
  • Biologie évolutive : les génomes comparés révèlent des mécanismes de spéciation, d’adaptation et de co‑évolution.
  • Biodiversité et conservation : le séquençage d’espèces menacées permet d’estimer la diversité génétique et de guider les plans de sauvegarde.
  • Recherche translationnelle : les innovations en assemblage (ex. lectures longues) accélèrent la découverte de cibles médicamenteuses et vaccinales.

Les technologies de séquençage – Illumina, PacBio, Oxford Nanopore et Ion Torrent – évoluent rapidement, rendant l’assemblage de génomes complexes de plus en plus accessible. Pour les analyses de communautés microbiennes, la métagénomique offre un complément puissant.

📝 Quiz : Assemblage de génomes comparé
📚 Références : "Lekired, A., Mudge, J., Laidemitt, M.R. et al. Whole-genome sequencing and genome-wide transcriptome profiling of the freshwater planorbid snail Bulinus ugandae (Mollusca: Gastropoda), a Nilotic bulinine refractory to Schistosoma haematobium. BMC Genomics 26, 1089 (2025). https://doi.org/10.1186/s12864-025-12320-3" BIOEDUC.