BIOEDUC Default

PacBio Long-Read Sequencing : principes, technologies et applications | BIOEDUC

Séquençage long‑read PacBio : principes, technologies et applications | BIOEDUC

🧬 Séquençage Long‑Read & Génomique

Séquençage PacBio (long‑read) : principes, technologies et applications

Par BIOEDUC | Mis à jour le

1. Vue d’ensemble du séquençage nouvelle génération (NGS)

Le séquençage nouvelle génération (NGS) regroupe les technologies à haut débit permettant le séquençage rapide des acides nucléiques à une échelle massive. Par rapport au séquençage Sanger, les plateformes NGS offrent un séquençage parallèle de millions à milliards de molécules, un coût par base réduit et une large applicabilité en génomique, transcriptomique et épigénomique. Les technologies NGS se divisent en séquençage à lectures courtes (ex. Illumina) et séquençage à lectures longues (ex. PacBio, Oxford Nanopore). Le séquençage long‑read est une avancée majeure car il permet de séquencer des fragments d’ADN de plusieurs kilobases (kb) à plus de 100 kb, surmontant les limitations des lectures courtes pour résoudre les régions génomiques complexes.

2. Fondamentaux du séquençage PacBio long‑read

Le séquençage PacBio repose sur la technologie SMRT (Single Molecule, Real‑Time), qui observe la synthèse d’ADN en temps réel à l’échelle de la molécule unique. Principes clés : une seule ADN polymérase est immobilisée dans une nanostructure appelée guide d’onde à mode zéro (Zero‑Mode Waveguide, ZMW) ; des nucléotides fluorescent sont incorporés pendant la synthèse ; chaque incorporation émet un signal enregistré en temps réel. Deux principaux types de lectures existent :

  • Lectures continues longues (CLR) : très longues (10–100 kb+), précision brute plus faible (~85‑95 %).
  • Lectures HiFi (Circular Consensus Sequencing, CCS) : plus courtes (10–25 kb), très haute précision (>99,9 %).

Les avantages incluent la résolution des régions répétées, la détection des variants structuraux, l’absence de biais de PCR (ADN natif) et la détection directe des modifications de bases (méthylation). Les limitations sont un coût par base plus élevé que les lectures courtes et la nécessité d’un ADN de très haute qualité et de haut poids moléculaire.

🔬 HiFi vs CLR : La lecture HiFi (CCS) passe plusieurs fois sur le même brin circulaire, générant un consensus de haute fidélité (>Q30). La lecture CLR est une seule passe plus longue mais avec davantage d’erreurs aléatoires.

3. Flux de travail général et préparation des librairies

  • Extraction d’ADN de haut poids moléculaire : fragments >20 kb (de préférence >50 kb).
  • Réparation des dommages et préparation des extrémités : répare les cassures et rend les extrémités franches (blunt).
  • Ligature d’adaptateurs (librairie SMRTbell) : des adaptateurs en épingle à cheveux (hairpin) sont ligaturés, formant une molécule d’ADN circulaire appelée SMRTbell.
  • Sélection de taille (optionnelle mais recommandée) : élimine les petits fragments (ex. BluePippin).
  • Fixation de la polymérase : l’ADN polymérase est liée au template SMRTbell.
  • Séquençage dans les SMRT Cells : les librairies sont chargées dans les SMRT Cells, et le séquençage a lieu dans les ZMW.
  • Séquençage circulaire consensus (HiFi) : la polymérase lit plusieurs fois la même molécule circulaire, générant un consensus très précis.

4. Kits de préparation des librairies et réactifs

PacBio propose des kits spécialisés : SMRTbell Express Template Prep Kit 2.0, SMRTbell Prep Kit 3.0, Sequel II Binding Kit, Sequel II Sequencing Kit 2.0/3.0, et pour l’ARN : Iso‑Seq Express Template Prep Kit. Les réactifs clés incluent les enzymes de réparation, les enzymes de préparation des extrémités, les adaptateurs hairpin, l’ADN polymérase et les billes de purification (AMPure PB).

5. SMRT Cells (équivalent des flow cells)

Chez PacBio, les SMRT Cells fonctionnent comme des flow cells mais contiennent des milliers à des millions de ZMW (nanopuits) où chaque ZMW séquence une molécule d’ADN unique en temps réel.

Tableau comparatif des SMRT Cells

Type de SMRT CellPlateformeNombre de ZMWSortie (HiFi)Longueur de lecture typiqueRemarques
SMRT Cell 1MSequel I~1 million~10–20 Gb10–20 kbAncienne génération
SMRT Cell 8MSequel II / IIe~8 millions~100–160 Gb10–25 kbHaut débit
Revio SMRT CellRevio~25 millions~360 Gb15–25 kbDernière génération, très haut débit

6. Plateformes PacBio (anciennes et récentes)

  • RS II : premier séquenceur SMRT, faible débit (<1 Gb/run).
  • Sequel I : débit amélioré (10–20 Gb/run), SMRT Cell 1M.
  • Sequel II / IIe : SMRT Cell 8M, sortie HiFi 100–160 Gb/run. Le IIe intègre le traitement des données sur l’instrument.
  • Revio System : dernière plateforme, très haut débit (~360 Gb par SMRT Cell), conçue pour la génomique à grande échelle (populations).

Tableau comparatif des plateformes

PlateformeSortie par runType de lectureDébitCaractéristique clé
RS II<1 GbCLRFaiblePremière génération
Sequel I10–20 GbCLRMoyenCapacité améliorée
Sequel II100–160 GbHiFiÉlevéHaute précision
Sequel IIe100–160 GbHiFiÉlevéAnalyse intégrée
Revio~360 GbHiFiTrès élevéRentable et extensible

7. Kits et réactifs de séquençage

Les kits de séquençage incluent Sequel II Sequencing Kit 2.0/3.0, Binding Kit 2.0 et les réactifs Revio. Les composants sont l’ADN polymérase, les nucléotides fluorescents, les SMRT cells, les réactifs de chargement et les billes de nettoyage. Ces kits contrôlent la durée du run (movie time), la distribution de longueur des lectures et le rendement.

8. Applications des lectures longues PacBio

  • Génomique : assemblage de novo de génomes complexes (plantes, animaux), détection de variants structuraux (insertions, délétions, inversions), haplotypage et phasage, résolution de régions répétées.
  • Transcriptomique : séquençage des transcrits en pleine longueur (Iso‑Seq), analyse d’épissage alternatif, découverte d’isoformes.
  • Épigénomique : détection directe de la méthylation de l’ADN (sans bisulfite).
  • Médecine : diagnostic de maladies rares, génomique du cancer (variants structuraux, fusions de gènes), typage HLA, pharmacogénomique.
💡 Atout majeur : Les lectures PacBio HiFi combinent la longueur des lectures longues avec la précision des lectures courtes (>99,9 %), ce qui les rend idéales pour la détection de variants rares et l’assemblage de génomes de référence « sans trou » (gapless).

9. Outils bioinformatiques et pipelines PacBio

  • Analyse primaire : SMRT Link (contrôle de l’instrument, traitement des données, contrôle qualité).
  • Génération de lectures HiFi : CCS (Circular Consensus Sequencing).
  • Assemblage génomique : hifiasm (optimisé pour HiFi), Flye, Canu, HGAP (ancien).
  • Détection de variants : DeepVariant (mode PacBio), pbsv (variants structuraux).
  • Transcriptomique : pipeline Iso‑Seq (identification des transcrits pleine longueur, clustering).
  • Alignement : pbmm2 (minimap2 adapté).
  • Solutions cloud : SMRT Link cloud, compatibilité avec Terra, DNAnexus.

10. Conclusion

Le séquençage long‑read PacBio a transformé la génomique en fournissant des lectures longues et très précises (HiFi) qui résolvent les régions complexes inaccessibles aux technologies à lectures courtes. Avec l’amélioration continue du débit (système Revio) et des outils bioinformatiques, PacBio est devenu incontournable pour l’assemblage de génomes de référence, la détection de variants structuraux et l’analyse des isoformes de transcrits, contribuant ainsi à la recherche avancée et à la médecine de précision.

📝 Quiz : Séquençage PacBio (long‑read)
📚 Références : Documentation PacBio, Rhoads & Au (2015) “PacBio sequencing and its applications”, Wenger et al. (2019) “Accurate circular consensus long‑read sequencing”, BIOEDUC.

Read More →
BIOEDUC Default

Illumina Short‑Read Sequencing : principes, technologies et applications | BIOEDUC

Illumina Short‑Read Sequencing : principes, technologies et applications | BIOEDUC

🧬 Génomique & Séquençage Haut Débit

Illumina Short‑Read Sequencing : Principles, Technologies, and Applications

Par Abdelmalek | Mis à jour le

1. Overview of Next‑Generation Sequencing (NGS)

Next‑generation sequencing (NGS) refers to high‑throughput technologies that enable the simultaneous sequencing of millions to billions of DNA fragments. Unlike traditional Sanger sequencing, which processes one fragment at a time, NGS platforms dramatically increase speed, scalability, and cost‑efficiency.

NGS technologies have revolutionized genomics by enabling whole‑genome sequencing (WGS), transcriptome analysis (RNA‑seq), epigenetic profiling (methylation sequencing), metagenomics, and microbiome studies. Modern NGS platforms fall into two main categories: short‑read sequencing (e.g., Illumina) and long‑read sequencing (e.g., PacBio, Oxford Nanopore). Among these, Illumina sequencing dominates the field due to its high accuracy, throughput, and versatility.

2. Rationale of Illumina Short‑Read Sequencing

Illumina sequencing is based on a method called sequencing by synthesis (SBS). The core principle involves detecting fluorescently labeled nucleotides as they are incorporated into a growing DNA strand. Key advantages include high accuracy (>99.9%), massive parallelization, low cost per base, and a wide range of applications. Limitations are short read lengths (typically 50–300 bp) and difficulty resolving repetitive regions or structural variants, requiring computational assembly. Despite these limitations, Illumina remains the gold standard for many genomic applications where accuracy and depth are critical.

⚙️ Sequencing by synthesis (SBS) in a nutshell
Each cycle adds a single fluorescently labeled nucleotide (reversible terminator). After incorporation, the flow cell is imaged, the fluorescent dye is cleaved, and the 3′ blocker is removed, allowing the next cycle. This process yields billions of reads in parallel.

3. General Workflow and Library Preparation Protocol

  • DNA/RNA extraction : High‑quality nucleic acids are isolated from biological samples.
  • Fragmentation : DNA is fragmented into small pieces (200–600 bp) using enzymatic or mechanical methods (e.g., sonication).
  • Adapter ligation : Short adapter sequences (including sequencing primers and indices/barcodes) are ligated to fragment ends.
  • Library amplification (optional) : PCR enriches adapter‑ligated fragments (PCR‑free kits exist for unbiased representation).
  • Cluster generation : DNA fragments bind to a flow cell and undergo bridge amplification, forming clusters of identical molecules.
  • Sequencing by synthesis : Fluorescent nucleotides are incorporated one base at a time; each incorporation is imaged to determine the sequence.
  • Data analysis : Base calling, alignment, and downstream bioinformatics.

4. Library Preparation Kits and Reagents

Common Illumina‑compatible kits include:

  • DNA sequencing : TruSeq DNA PCR‑Free, Illumina DNA Prep (formerly Nextera DNA Flex).
  • RNA sequencing : TruSeq Stranded mRNA, TruSeq Total RNA with Ribo‑Zero.
  • Targeted sequencing : AmpliSeq panels, TruSeq Custom Amplicon.

Key reagents: fragmentation enzymes, DNA ligase, PCR master mix, indexed adapters, and magnetic beads (e.g., AMPure XP).

5. Flow Cells in Illumina Sequencing

Flow cells are glass slides where sequencing occurs. They contain lanes coated with oligonucleotides that capture DNA fragments. Types include non‑patterned flow cells (random cluster generation) and patterned flow cells (ordered nanowells for higher density).

Flow Cell Comparison Table

Flow Cell TypePlatformTypeOutput CapacityRead DensityNotes
Standard Flow CellMiSeqNon‑patterned~1–15 GbLowSmall‑scale runs
High Output Flow CellNextSeqPatterned~100–400 GbMediumMid‑throughput
S1 Flow CellNovaSeqPatterned~500 GbHighEntry NovaSeq
S2 Flow CellNovaSeqPatterned~1 TbVery highMedium‑large projects
S4 Flow CellNovaSeqPatterned~6 TbUltra‑highPopulation genomics

6. Illumina Sequencing Platforms

  • iSeq 100 : Output ~1–4 Gb, compact and affordable, ideal for small labs and pilot studies.
  • MiSeq : Output up to ~15 Gb, 2×300 bp reads, perfect for amplicon sequencing, small genomes.
  • NextSeq (1000/2000) : Output ~100–400 Gb, medium throughput, suitable for RNA‑seq and exome sequencing.
  • NovaSeq 6000 / X series : Output up to several Tb per run, ultra‑high throughput for population genomics and large‑scale WGS.

Platform Comparison Table

PlatformOutputRead LengthThroughput LevelTypical Use
iSeq 1001–4 Gb2×150 bpLowSmall projects
MiSeqUp to 15 Gb2×300 bpLow‑mediumAmplicons
NextSeq100–400 Gb2×150 bpMediumRNA‑seq, exomes
NovaSeq0.5–6 Tb2×150 bpHighLarge‑scale genomics

7. Kits and Sequencing Reagents

Reagent kits are platform‑specific: MiSeq Reagent Kit v2/v3, NextSeq 1000/2000 P2/P3 kits, NovaSeq S1/S2/S4 kits. Core components include flow cell, sequencing buffer, fluorescently labeled nucleotides, DNA polymerase, and wash solutions. Each kit determines read length, output yield, and run time.

8. Applications of Illumina Short Reads

  • Biology : Whole‑genome sequencing (WGS), RNA‑seq, metagenomics, ChIP‑seq, ATAC‑seq.
  • Medicine : Clinical diagnostics (genetic disorders), cancer genomics (mutation detection), infectious disease surveillance, pharmacogenomics.
  • Advantages : High depth → rare variant detection; high accuracy → reliable SNP calling; multiplexing → cost efficiency.

9. Downstream Analysis Tools and Pipelines

  • Primary analysis : Real‑Time Analysis (RTA) for base calling.
  • Secondary analysis : bcl2fastq / BCL Convert (FASTQ generation), DRAGEN Bio‑IT Platform (accelerated alignment & variant calling).
  • Tertiary analysis : Illumina BaseSpace Sequence Hub (cloud‑based apps for RNA‑seq, WGS, metagenomics).
  • Open‑source pipelines : Alignment (BWA, Bowtie2), variant calling (GATK), RNA‑seq (STAR + DESeq2), QC (FastQC, MultiQC).
💡 Key concept – Indexing (multiplexing) : Unique barcodes (indices) are added to each library during adapter ligation. After sequencing, reads are demultiplexed bioinformatically, allowing dozens to thousands of samples to be pooled in a single run.

10. Conclusion

Illumina short‑read sequencing has become a cornerstone of modern genomics due to its accuracy, scalability, and cost‑effectiveness. While emerging long‑read technologies address some limitations, Illumina platforms remain indispensable for a wide range of biological and medical applications. The combination of robust wet‑lab protocols, scalable platforms, and advanced bioinformatics tools ensures that Illumina sequencing continues to play a central role in genomics research and precision medicine.

📝 Quiz : Illumina Short‑Read Sequencing
📚 Références : Illumina white papers, Mardis ER (2013) Next‑generation sequencing platforms, Bentley et al. (2008) Nature, & BIOEDUC cours.
```

Read More →
BIOEDUC Default

Séquençage NGS : Principe, Utilisations et Technologies | BIOEDUC

Séquençage NGS : Principe, technologies et applications | BIOEDUC

🧬 Génomique & Technologies Haut Débit

Séquençage NGS : Principe, applications et comparaison des technologies

Par Abdelmalek | Mis à jour le

📖 Qu'est-ce que le séquençage de nouvelle génération (NGS) ?

Le séquençage de nouvelle génération (NGS) désigne un ensemble de technologies permettant de séquencer des millions à des milliards de fragments d'ADN ou d'ARN en parallèle. Contrairement à la méthode de Sanger (capillaire), le NGS offre un débit massif, une rapidité incomparable et un coût par base réduit de plusieurs ordres de grandeur. Cette révolution a démocratisé l'accès au génome complet, au transcriptome et à l'épigénome, ouvrant la voie à la médecine personnalisée, à la métagénomique environnementale et à la biologie évolutive.

Le flux de travail typique d'une analyse NGS comprend : la fragmentation de l'ADN, la ligation d'adaptateurs (préparation de librairie), l'amplification (clusters ou polony) et le séquençage par synthèse, par liaison ou par détection de changements physico-chimiques (pH, courant ionique). La bioinformatique intervient ensuite pour le contrôle qualité, l'alignement des reads et l'analyse variante.

🧬 Protocole détaillé d'une analyse NGS (métagénomique 16S)

  1. Collecte et stabilisation : prélèvement de l'échantillon (sol, microbiote, tissu) et conservation à -80°C ou dans des solutions stabilisatrices.
  2. Extraction d'ADN total : lyse mécanique et chimique, purification sur colonne ou billes magnétiques.
  3. Contrôle qualité : quantification (Qubit, NanoDrop) et vérification de l'intégrité (gel ou Bioanalyzer).
  4. Amplification ciblée : PCR des régions variables V3-V4 du gène de l'ARNr 16S (ou ITS pour les champignons).
  5. Préparation de librairie : ajout d'index (barcodes) et d'adaptateurs Illumina/PacBio.
  6. Séquençage haut débit : sur plateforme choisie (Illumina MiSeq, NovaSeq, etc.).
  7. Traitement bioinformatique : filtrage des reads, regroupement en OTU ou ASV, assignation taxonomique (SILVA, Greengenes) et analyses de diversité alpha/bêta.

Cette approche permet de caractériser la composition bactérienne d'un échantillon sans culture préalable, avec une résolution allant jusqu'au genre, voire l'espèce selon les régions amplifiées.

Schéma principe du séquençage NGS – librairie, cluster, reads
Principe général : fragmentation, ligation des adaptateurs, pont amplification (Illumina) et lecture par synthèse.

🔬 Les principales applications du NGS

  • Diagnostic clinique & maladies rares : Séquençage d'exome (WES) ou génome complet (WGS) pour identifier des mutations causales.
  • Oncologie de précision : Détection de mutations somatiques, fusions de gènes et charges mutationnelles tumorales (TMB) guidant les immunothérapies.
  • Pharmacogénomique : Prédiction de la réponse aux médicaments via l'analyse des variants CYP450 et autres gènes métaboliques.
  • Microbiologie et infectiologie : Séquençage shotgun métagénomique pour identifier directement les pathogènes à partir d'échantillons cliniques (sang, LCR).
  • Écologie et biodiversité : Metabarcoding d'échantillons environnementaux (eau, sol, air) pour le suivi des espèces menacées ou invasives.
  • Épigénétique : Séquençage au bisulfite (BS-seq) pour la cartographie des méthylations.
📉 Chute spectaculaire des coûts : En 2023, le séquençage d'un génome humain (30x) coûte environ 500-600 $, contre 100 millions $ en 2001.

⚙️ Technologies leaders : Illumina, Oxford Nanopore, PacBio

  • Illumina (SBS) : Utilise la synthèse avec terminieurs réversibles fluorescents. Précision élevée (>99,9%), débit massif (jusqu'à 20 Gb par run pour MiSeq, 6 Tb pour NovaSeq). Lectures courtes (2x300 pb). Référence pour RNA-Seq et exome.
  • Oxford Nanopore (ONT) : Technologie de pores protéiques mesurant les variations de courant lors du passage d'un brin d'ADN. Lectures ultra-longues (>100 kb), temps réel, appareils portables (MinION). Erreur initiale ~5-10% améliorée par les modèles de correction (Q20+). Idéal pour assemblages de novo et détection de modifications épigénétiques directes.
  • PacBio (SMRT Sequencing) : Séquençage en temps réel d'une polymérase immobilisée. Mode HiFi génère des reads de 15-25 kb avec une exactitude >99,9% grâce à la lecture circulaire. Parfait pour les génomes complexes (régions répétées, GC riches).

Chaque technologie présente des compromis entre longueur de lecture, précision, débit et coût. En pratique, on combine souvent Illumina pour la haute précision et Nanopore/PacBio pour la résolution des réarrangements structuraux.

📊 Panels ciblés et stratégies d'application

  • Panel exome complet (WES) : Analyse des ~20 000 gènes codants. Très utilisé en recherche et diagnostic.
  • Panels de gènes spécifiques : Focus sur un groupe de gènes (ex: panel cardiogénétique de 50 gènes) – économiquement efficace.
  • Panels oncologiques : Criblage de centaines de gènes impliqués dans le cancer (TP53, EGFR, KRAS, BRCA1/2).
  • Panels de fusion ARN : Détection de transcrits de fusion pour le diagnostic de sarcomes et leucémies.
🔍 Astuce BIOEDUC : Pour la validation d'un variant identifié par NGS, la méthode de référence reste le séquençage Sanger. On recommande également d'utiliser des contrôles positifs et négatifs dans chaque run.
📝 Évaluez vos connaissances – NGS & technologies
🌟 Références : Goodwin et al. (2016) "Coming of age: ten years of next-generation sequencing" Nature Reviews Genetics; données Illumina, ONT et PacBio. Quiz conçu pour réviser les concepts clés.

Read More →