NGS019 二代测序的图象处理和碱基识别

如题所述

第1个回答 2022-07-02

二代测序的数据分析通常分为 初级分析、次级分析和高级分析 三个层次。
以Illumina测序平台为例，讨论二代测序的图象处理和碱基识别，也就是从荧光信号的产生到碱基序列的识别这一过程，主要包括 图象校正（即空间校正）、簇的识别、荧光校正（即光学校正）、phasing/prephasing（即化学校正）、碱基识别、PF、质量评估等 7个步骤，涉及到两个软件：HCS (HiSeq ControlSoftware)，控制测序仪的运行，收集荧光信号；RTA(Real-Time Analysis)，在测序过程中实时处理数据，包括图象分析、碱基识别和质量评估等。至于用于二代测序数据展示的第三个软件工具GenomeStudio，属于可选项。本文不涉及更下游的次级和高级分析。

Illumina的HiSeq系列测序仪具有红绿波长两根激光管，配备两片滤色片。激光光源与滤色片两两组合，形成4种不同波长的激发光，分别用于激发DNA分子中的A、G、C、T这4种碱基。在测序过程中，cluster上所标记的荧光基团在激光激发下产生荧光信号，荧光信号用相机收集，收集方式有拍照和扫描两种。扫描的速度比较快。
每台HiSeq测序仪可以同时运行两张flow cell（某些型号只能运行1张），通常每张flow cell有8个通道(lane)；每个通道的内壁，包括顶面和底面，都可以生成簇；由于面积大，为了方便数据管理，软件把顶面或者底面虚拟地划分为3条column，或者叫swath，每条column或者swath又被虚拟地划分为几16个tile。簇的密度根据上样量以及机器型号和软件版本有各种变化，通常为1M/mm2。

从原理上看，Illumina二代测序的碱基识别其实非常简单：对测序过程中所获得的荧光信号图片进行空间校准，按空间位置和时间顺序排列，然后根据每个簇随着时间变化而发生的颜色改变读取碱基序列；序列长度就等于SBS的循环次数。
二代测序数据分析主要包括图像分析、碱基识别、序列组装、突变识别、功能分析等5个环节，以及每个环节都需要的可视化数据展示。图像分析和碱基识别属于初级分析，序列组装和突变识别属于次级分析，功能分析属于高级分析。

图像分析的目的有两个：(1)对每一个簇(cluster)进行识别，确定其坐标；(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

Flowcell上的每个簇都是由1000-6000个单链DNA分子组成的。这些分子全部来自一个共同的“祖先”模板分子、通过桥式PCR的扩增克隆而成。所以，除了PCR过程中偶尔发生的碱基错配以外，它们的碱基序列是一模一样的。由于二代测序文库的DNA片段很短，总共才不过三五百个碱基，碱基错配的概率不高，在讨论碱基识别的阶段可以暂时忽略不计。
既然碱基序列是一样的，在测序的每个循环，每个簇所发射的荧光信号的波长（或者说颜色）就是一样的、单一的、纯净的。仪器针对每个簇、在每个测序循环都拍摄了A、G、C、T 4张图象。正常情况下，这4张图中只有1张有信号；另外3张没有信号，只有背景噪音。信号的荧光强度要显著高于噪音的。
碱基识别的基本过程就是比较每个簇的这4张图，挑出其中信号强度最高的那个波长，从而确定该碱基的种类。如果只有一个簇，这种比较是非常简单容易的。但是图象处理的单位是tile，每个tile里包含有几百万、上千万个簇，平行测序导致平行的数据处理，所以上一节讲解的图象处理就非常重要。碱基识别涉及到以下5个重要方面。

二代测序每每获得海量数据，通常称为大数据。正因为数据的体量太大，对于其整体质量的好坏就难以直观评价。为此我们必须建立一套客观的评价体系，通常是相关统计参数，帮助我们对每一批测序数据的好坏进行直观把握。虽然至今还没有建立被普遍接受的公认的标准，在实际工作中，人们主要关心的二代测序数据质量参数逐渐集中于以下这么几个：数据量、%Q30、比对率、覆盖度、重复率。对于外显子组测序，在此基础上再增加一个：捕获率。
对于这些重要参数，下面我们逐一进行简要介绍。

相似回答

大家正在搜