Détection des variants structuraux en génomique : des short‑reads aux long‑reads
1. Introduction et définition des variants structuraux
Les avancées technologiques en séquençage à haut débit (NGS) ont révolutionné notre compréhension des génomes. Longtemps occultés par la simplicité d’analyse des polymorphismes nucléotidiques uniques (SNP), les variants structuraux (SVs) émergent aujourd’hui comme des acteurs clés de la diversité génétique, de l’évolution et des pathologies complexes. Par convention, un variant structural est défini comme une altération génomique affectant un segment d’ADN d’au moins 50 paires de bases (pb). Contrairement aux SNPs ou aux petites indels, les SVs modifient profondément l’architecture du génome. Ils interviennent dans les maladies humaines (cancers, maladies neurodéveloppementales), l’évolution (duplications de gènes) et l’adaptation des organismes non‑modèles.
2. Typologie des variants structuraux
- Délétions (DEL) : perte d’un fragment d’ADN, pouvant entraîner une haploinsuffisance.
- Insertions (INS) : ajout d’un segment (souvent d’éléments transposables).
- Duplications (DUP) : copie d’une région génomique (CNV).
- Inversions (INV) : retournement à 180° d’un segment (variant équilibré).
- Translocations (TRA) : déplacement d’un segment d’ADN entre chromosomes ou au sein d’un même chromosome.
3. Technologies de séquençage : short‑reads vs long‑reads
Le choix de la technologie conditionne la capacité à détecter les SVs. Les lectures courtes (Illumina) (150 pb, précision >99,9 %) peinent à traverser les régions répétées. Les lectures longues (PacBio HiFi, Oxford Nanopore) (10 kb à >1 Mb) enjambent facilement les zones répétées et fournissent une résolution inégalée aux points de rupture (breakpoints).
Tableau comparatif
| Caractéristique | Illumina (short‑reads) | PacBio HiFi | Oxford Nanopore (ONT) |
|---|---|---|---|
| Longueur moyenne | 150 – 300 pb | 10 – 25 kb | 10 kb – >1 Mb |
| Taux d’erreur | <0,1% | <0,1% | 1 – 5% |
| Sensibilité (SVs) | Faible à moyenne | Excellente | Excellente |
| Coût par Gb | Très faible | Modéré à élevé | Modéré |
4. Approches bioinformatiques de détection
- Read‑Pair (RP) / Discordant mapping : analyse des distances d’insert et des orientations anormales.
- Split‑Read (SR) : découpe d’une lecture chevauchant un point de rupture – très précise.
- Depth of Coverage (DoC) : baisse ou augmentation de la couverture locale (CNV).
- Assembly‑based (AS) : assemblage de novo puis alignement sur la référence – approche la plus robuste avec les long‑reads.
5. Outils populaires pour la détection des SVs
Pour les short‑reads (Illumina)
- Manta : combine RP et SR, très rapide, développé par Illumina.
- DELLY : intègre RP, SR et profondeur de couverture.
- LUMPY : framework probabiliste pour maximiser la sensibilité.
Pour les long‑reads (PacBio / ONT)
- Sniffles : conçu pour les longs reads, détecte les SVs complexes et imbriqués.
- SVIM : analyse les signatures complexes issues de Minimap2.
# Pipeline type avec Sniffles (long‑reads) minimap2 -ax map-ont -t 8 reference.fa reads.fastq.gz | samtools sort -@ 4 -o aligned.bam samtools index aligned.bam sniffles --input aligned.bam --vcf output_sv.vcf --threads 8
6. Pipeline d’analyse type (workflow)
FASTQ → FastQC → Alignement (BWA-MEM/Minimap2) → SAMtools (tri/index) → Appel des SVs (Manta/Sniffles) → VCF → Annotation (Annovar/SnpEff)
7. Visualisation et validation
IGV (Integrative Genomics Viewer) permet l’inspection visuelle des alignements discordants et des split‑reads. La validation expérimentale repose sur la PCR classique (amorces encadrant le SV) ou le séquençage Sanger pour vérifier le point de rupture exact.
8. Défis actuels et applications
Le principal défi reste le taux élevé de faux positifs dans les régions répétées (centromères, télomères). Les applications sont majeures : oncologie (fusions de gènes), génomique des organismes non‑modèles (adaptation, co‑évolution hôte‑parasite), et médecine génomique.
9. Liens internes pour approfondir
- Séquençage Illumina (lectures courtes)
- Séquençage PacBio (lectures longues)
- Séquençage Oxford Nanopore
- Assemblage de génome : commandes pratiques
- Introduction au NGS
💬 Commentaires