Séquençage long‑read PacBio : principes, technologies et applications | BIOEDUC

🧬 Séquençage Long‑Read & Génomique

Séquençage PacBio (long‑read) : principes, technologies et applications

Par BIOEDUC | Mis à jour le 1er juin 2026

1. Vue d’ensemble du séquençage nouvelle génération (NGS)

Le séquençage nouvelle génération (NGS) regroupe les technologies à haut débit permettant le séquençage rapide des acides nucléiques à une échelle massive. Par rapport au séquençage Sanger, les plateformes NGS offrent un séquençage parallèle de millions à milliards de molécules, un coût par base réduit et une large applicabilité en génomique, transcriptomique et épigénomique. Les technologies NGS se divisent en séquençage à lectures courtes (Illumina) et séquençage à lectures longues (PacBio, Oxford Nanopore). Le séquençage long‑read est une avancée majeure car il permet de séquencer des fragments d’ADN de plusieurs kilobases (kb) à plus de 100 kb, surmontant les limitations des lectures courtes pour résoudre les régions génomiques complexes.

2. Fondamentaux du séquençage PacBio long‑read

Le séquençage PacBio repose sur la technologie SMRT (Single Molecule, Real‑Time), qui observe la synthèse d’ADN en temps réel à l’échelle de la molécule unique. Principes clés : une seule ADN polymérase est immobilisée dans une nanostructure appelée guide d’onde à mode zéro (Zero‑Mode Waveguide, ZMW) ; des nucléotides fluorescent sont incorporés pendant la synthèse ; chaque incorporation émet un signal enregistré en temps réel. Deux principaux types de lectures existent :

Lectures continues longues (CLR) : très longues (10–100 kb+), précision brute plus faible (~85‑95 %).
Lectures HiFi (Circular Consensus Sequencing, CCS) : plus courtes (10–25 kb), très haute précision (>99,9 %).

Les avantages incluent la résolution des régions répétées, la détection des variants structuraux, l’absence de biais de PCR (ADN natif) et la détection directe des modifications de bases (méthylation). Les limitations sont un coût par base plus élevé que les lectures courtes et la nécessité d’un ADN de très haute qualité et de haut poids moléculaire.

🔬 HiFi vs CLR : La lecture HiFi (CCS) passe plusieurs fois sur le même brin circulaire, générant un consensus de haute fidélité (>Q30). La lecture CLR est une seule passe plus longue mais avec davantage d’erreurs aléatoires.

3. Flux de travail général et préparation des librairies

Extraction d’ADN de haut poids moléculaire : fragments >20 kb (de préférence >50 kb).
Réparation des dommages et préparation des extrémités : répare les cassures et rend les extrémités franches (blunt).
Ligature d’adaptateurs (librairie SMRTbell) : des adaptateurs en épingle à cheveux (hairpin) sont ligaturés, formant une molécule d’ADN circulaire appelée SMRTbell.
Sélection de taille (optionnelle mais recommandée) : élimine les petits fragments (ex. BluePippin).
Fixation de la polymérase : l’ADN polymérase est liée au template SMRTbell.
Séquençage dans les SMRT Cells : les librairies sont chargées dans les SMRT Cells, et le séquençage a lieu dans les ZMW.
Séquençage circulaire consensus (HiFi) : la polymérase lit plusieurs fois la même molécule circulaire, générant un consensus très précis.

4. Kits de préparation des librairies et réactifs

PacBio propose des kits spécialisés : SMRTbell Express Template Prep Kit 2.0, SMRTbell Prep Kit 3.0, Sequel II Binding Kit, Sequel II Sequencing Kit 2.0/3.0, et pour l’ARN : Iso‑Seq Express Template Prep Kit. Les réactifs clés incluent les enzymes de réparation, les enzymes de préparation des extrémités, les adaptateurs hairpin, l’ADN polymérase et les billes de purification (AMPure PB).

5. SMRT Cells (équivalent des flow cells)

Chez PacBio, les SMRT Cells fonctionnent comme des flow cells mais contiennent des milliers à des millions de ZMW (nanopuits) où chaque ZMW séquence une molécule d’ADN unique en temps réel.

Tableau comparatif des SMRT Cells

Type de SMRT Cell	Plateforme	Nombre de ZMW	Sortie (HiFi)	Longueur de lecture typique	Remarques
SMRT Cell 1M	Sequel I	~1 million	~10–20 Gb	10–20 kb	Ancienne génération
SMRT Cell 8M	Sequel II / IIe	~8 millions	~100–160 Gb	10–25 kb	Haut débit
Revio SMRT Cell	Revio	~25 millions	~360 Gb	15–25 kb	Dernière génération, très haut débit

6. Plateformes PacBio (anciennes et récentes)

RS II : premier séquenceur SMRT, faible débit (<1 Gb/run).
Sequel I : débit amélioré (10–20 Gb/run), SMRT Cell 1M.
Sequel II / IIe : SMRT Cell 8M, sortie HiFi 100–160 Gb/run. Le IIe intègre le traitement des données sur l’instrument.
Revio System : dernière plateforme, très haut débit (~360 Gb par SMRT Cell), conçue pour la génomique à grande échelle (populations).

Tableau comparatif des plateformes

Plateforme	Sortie par run	Type de lecture	Débit	Caractéristique clé
RS II	<1 Gb	CLR	Faible	Première génération
Sequel I	10–20 Gb	CLR	Moyen	Capacité améliorée
Sequel II	100–160 Gb	HiFi	Élevé	Haute précision
Sequel IIe	100–160 Gb	HiFi	Élevé	Analyse intégrée
Revio	~360 Gb	HiFi	Très élevé	Rentable et extensible

7. Kits et réactifs de séquençage

Les kits de séquençage incluent Sequel II Sequencing Kit 2.0/3.0, Binding Kit 2.0 et les réactifs Revio. Les composants sont l’ADN polymérase, les nucléotides fluorescents, les SMRT cells, les réactifs de chargement et les billes de nettoyage. Ces kits contrôlent la durée du run (movie time), la distribution de longueur des lectures et le rendement.

8. Applications des lectures longues PacBio

Génomique : assemblage de novo de génomes complexes (plantes, animaux), détection de variants structuraux (insertions, délétions, inversions), haplotypage et phasage, résolution de régions répétées.
Transcriptomique : séquençage des transcrits en pleine longueur (Iso‑Seq), analyse d’épissage alternatif, découverte d’isoformes.
Épigénomique : détection directe de la méthylation de l’ADN (sans bisulfite).
Médecine : diagnostic de maladies rares, génomique du cancer (variants structuraux, fusions de gènes), typage HLA, pharmacogénomique.
Métagénomique : les lectures longues PacBio permettent d’obtenir des séquences complètes du gène 16S, améliorant la classification taxonomique. Découvrez le principe de la métagénomique pour en savoir plus.

💡 Atout majeur : Les lectures PacBio HiFi combinent la longueur des lectures longues avec la précision des lectures courtes (>99,9 %), ce qui les rend idéales pour la détection de variants rares et l’assemblage de génomes de référence « sans trou » (gapless).

9. Outils bioinformatiques et pipelines PacBio

Analyse primaire : SMRT Link (contrôle de l’instrument, traitement des données, contrôle qualité).
Génération de lectures HiFi : CCS (Circular Consensus Sequencing).
Assemblage génomique : hifiasm (optimisé pour HiFi), Flye, Canu, HGAP (ancien).
Détection de variants : DeepVariant (mode PacBio), pbsv (variants structuraux).
Transcriptomique : pipeline Iso‑Seq (identification des transcrits pleine longueur, clustering).
Alignement : pbmm2 (minimap2 adapté).
Solutions cloud : SMRT Link cloud, compatibilité avec Terra, DNAnexus.

10. Conclusion

Le séquençage long‑read PacBio a transformé la génomique en fournissant des lectures longues et très précises (HiFi) qui résolvent les régions complexes inaccessibles aux technologies à lectures courtes comme Illumina. Avec l’amélioration continue du débit (système Revio) et des outils bioinformatiques, PacBio est devenu incontournable pour l’assemblage de génomes de référence, la détection de variants structuraux et l’analyse des isoformes de transcrits, contribuant ainsi à la recherche avancée et à la médecine de précision. Pour des approches complémentaires, consultez les technologies Oxford Nanopore (lectures ultra‑longues) et Ion Torrent (séquençage ciblé rapide).

📝 Quiz : Séquençage PacBio (long‑read)

👤 Votre nom complet :

📚 Références : Documentation PacBio, Rhoads & Au (2015) “PacBio sequencing and its applications”, Wenger et al. (2019) “Accurate circular consensus long‑read sequencing”, BIOEDUC.

PacBio Long-Read Sequencing : principes, technologies et applications | BIOEDUC