Séquençage PacBio (long‑read) : principes, technologies et applications
1. Vue d’ensemble du séquençage nouvelle génération (NGS)
Le séquençage nouvelle génération (NGS) regroupe les technologies à haut débit permettant le séquençage rapide des acides nucléiques à une échelle massive. Par rapport au séquençage Sanger, les plateformes NGS offrent un séquençage parallèle de millions à milliards de molécules, un coût par base réduit et une large applicabilité en génomique, transcriptomique et épigénomique. Les technologies NGS se divisent en séquençage à lectures courtes (ex. Illumina) et séquençage à lectures longues (ex. PacBio, Oxford Nanopore). Le séquençage long‑read est une avancée majeure car il permet de séquencer des fragments d’ADN de plusieurs kilobases (kb) à plus de 100 kb, surmontant les limitations des lectures courtes pour résoudre les régions génomiques complexes.
2. Fondamentaux du séquençage PacBio long‑read
Le séquençage PacBio repose sur la technologie SMRT (Single Molecule, Real‑Time), qui observe la synthèse d’ADN en temps réel à l’échelle de la molécule unique. Principes clés : une seule ADN polymérase est immobilisée dans une nanostructure appelée guide d’onde à mode zéro (Zero‑Mode Waveguide, ZMW) ; des nucléotides fluorescent sont incorporés pendant la synthèse ; chaque incorporation émet un signal enregistré en temps réel. Deux principaux types de lectures existent :
- Lectures continues longues (CLR) : très longues (10–100 kb+), précision brute plus faible (~85‑95 %).
- Lectures HiFi (Circular Consensus Sequencing, CCS) : plus courtes (10–25 kb), très haute précision (>99,9 %).
Les avantages incluent la résolution des régions répétées, la détection des variants structuraux, l’absence de biais de PCR (ADN natif) et la détection directe des modifications de bases (méthylation). Les limitations sont un coût par base plus élevé que les lectures courtes et la nécessité d’un ADN de très haute qualité et de haut poids moléculaire.
3. Flux de travail général et préparation des librairies
- Extraction d’ADN de haut poids moléculaire : fragments >20 kb (de préférence >50 kb).
- Réparation des dommages et préparation des extrémités : répare les cassures et rend les extrémités franches (blunt).
- Ligature d’adaptateurs (librairie SMRTbell) : des adaptateurs en épingle à cheveux (hairpin) sont ligaturés, formant une molécule d’ADN circulaire appelée SMRTbell.
- Sélection de taille (optionnelle mais recommandée) : élimine les petits fragments (ex. BluePippin).
- Fixation de la polymérase : l’ADN polymérase est liée au template SMRTbell.
- Séquençage dans les SMRT Cells : les librairies sont chargées dans les SMRT Cells, et le séquençage a lieu dans les ZMW.
- Séquençage circulaire consensus (HiFi) : la polymérase lit plusieurs fois la même molécule circulaire, générant un consensus très précis.
4. Kits de préparation des librairies et réactifs
PacBio propose des kits spécialisés : SMRTbell Express Template Prep Kit 2.0, SMRTbell Prep Kit 3.0, Sequel II Binding Kit, Sequel II Sequencing Kit 2.0/3.0, et pour l’ARN : Iso‑Seq Express Template Prep Kit. Les réactifs clés incluent les enzymes de réparation, les enzymes de préparation des extrémités, les adaptateurs hairpin, l’ADN polymérase et les billes de purification (AMPure PB).
5. SMRT Cells (équivalent des flow cells)
Chez PacBio, les SMRT Cells fonctionnent comme des flow cells mais contiennent des milliers à des millions de ZMW (nanopuits) où chaque ZMW séquence une molécule d’ADN unique en temps réel.
Tableau comparatif des SMRT Cells
| Type de SMRT Cell | Plateforme | Nombre de ZMW | Sortie (HiFi) | Longueur de lecture typique | Remarques |
|---|---|---|---|---|---|
| SMRT Cell 1M | Sequel I | ~1 million | ~10–20 Gb | 10–20 kb | Ancienne génération |
| SMRT Cell 8M | Sequel II / IIe | ~8 millions | ~100–160 Gb | 10–25 kb | Haut débit |
| Revio SMRT Cell | Revio | ~25 millions | ~360 Gb | 15–25 kb | Dernière génération, très haut débit |
6. Plateformes PacBio (anciennes et récentes)
- RS II : premier séquenceur SMRT, faible débit (<1 Gb/run).
- Sequel I : débit amélioré (10–20 Gb/run), SMRT Cell 1M.
- Sequel II / IIe : SMRT Cell 8M, sortie HiFi 100–160 Gb/run. Le IIe intègre le traitement des données sur l’instrument.
- Revio System : dernière plateforme, très haut débit (~360 Gb par SMRT Cell), conçue pour la génomique à grande échelle (populations).
Tableau comparatif des plateformes
| Plateforme | Sortie par run | Type de lecture | Débit | Caractéristique clé |
|---|---|---|---|---|
| RS II | <1 Gb | CLR | Faible | Première génération |
| Sequel I | 10–20 Gb | CLR | Moyen | Capacité améliorée |
| Sequel II | 100–160 Gb | HiFi | Élevé | Haute précision |
| Sequel IIe | 100–160 Gb | HiFi | Élevé | Analyse intégrée |
| Revio | ~360 Gb | HiFi | Très élevé | Rentable et extensible |
7. Kits et réactifs de séquençage
Les kits de séquençage incluent Sequel II Sequencing Kit 2.0/3.0, Binding Kit 2.0 et les réactifs Revio. Les composants sont l’ADN polymérase, les nucléotides fluorescents, les SMRT cells, les réactifs de chargement et les billes de nettoyage. Ces kits contrôlent la durée du run (movie time), la distribution de longueur des lectures et le rendement.
8. Applications des lectures longues PacBio
- Génomique : assemblage de novo de génomes complexes (plantes, animaux), détection de variants structuraux (insertions, délétions, inversions), haplotypage et phasage, résolution de régions répétées.
- Transcriptomique : séquençage des transcrits en pleine longueur (Iso‑Seq), analyse d’épissage alternatif, découverte d’isoformes.
- Épigénomique : détection directe de la méthylation de l’ADN (sans bisulfite).
- Médecine : diagnostic de maladies rares, génomique du cancer (variants structuraux, fusions de gènes), typage HLA, pharmacogénomique.
9. Outils bioinformatiques et pipelines PacBio
- Analyse primaire : SMRT Link (contrôle de l’instrument, traitement des données, contrôle qualité).
- Génération de lectures HiFi : CCS (Circular Consensus Sequencing).
- Assemblage génomique : hifiasm (optimisé pour HiFi), Flye, Canu, HGAP (ancien).
- Détection de variants : DeepVariant (mode PacBio), pbsv (variants structuraux).
- Transcriptomique : pipeline Iso‑Seq (identification des transcrits pleine longueur, clustering).
- Alignement : pbmm2 (minimap2 adapté).
- Solutions cloud : SMRT Link cloud, compatibilité avec Terra, DNAnexus.
10. Conclusion
Le séquençage long‑read PacBio a transformé la génomique en fournissant des lectures longues et très précises (HiFi) qui résolvent les régions complexes inaccessibles aux technologies à lectures courtes. Avec l’amélioration continue du débit (système Revio) et des outils bioinformatiques, PacBio est devenu incontournable pour l’assemblage de génomes de référence, la détection de variants structuraux et l’analyse des isoformes de transcrits, contribuant ainsi à la recherche avancée et à la médecine de précision.