NGS019 二代测序的图象处理和碱基识别

如题所述

第1个回答  2022-07-02

二代测序的数据分析通常分为 初级分析、次级分析和高级分析 三个层次。
以Illumina测序平台为例,讨论二代测序的图象处理和碱基识别,也就是从荧光信号的产生到碱基序列的识别这一过程,主要包括 图象校正(即空间校正)、簇的识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF、质量评估等 7个步骤,涉及到两个软件:HCS (HiSeq ControlSoftware),控制测序仪的运行,收集荧光信号;RTA(Real-Time Analysis),在测序过程中实时处理数据,包括图象分析、碱基识别和质量评估等。至于用于二代测序数据展示的第三个软件工具GenomeStudio,属于可选项。本文不涉及更下游的次级和高级分析。

Illumina的HiSeq系列测序仪具有红绿波长两根激光管,配备两片滤色片。激光光源与滤色片两两组合,形成4种不同波长的激发光,分别用于激发DNA分子中的A、G、C、T这4种碱基。在测序过程中,cluster上所标记的荧光基团在激光激发下产生荧光信号,荧光信号用相机收集,收集方式有拍照和扫描两种。扫描的速度比较快。
每台HiSeq测序仪可以同时运行两张flow cell(某些型号只能运行1张),通常每张flow cell有8个通道(lane);每个通道的内壁,包括顶面和底面,都可以生成簇;由于面积大,为了方便数据管理,软件把顶面或者底面虚拟地划分为3条column,或者叫swath,每条column或者swath又被虚拟地划分为几16个tile。簇的密度根据上样量以及机器型号和软件版本有各种变化,通常为1M/mm2。

从原理上看,Illumina二代测序的碱基识别其实非常简单:对测序过程中所获得的荧光信号图片进行空间校准,按空间位置和时间顺序排列,然后根据每个簇随着时间变化而发生的颜色改变读取碱基序列;序列长度就等于SBS的循环次数。
二代测序数据分析主要包括图像分析、碱基识别、序列组装、突变识别、功能分析等5个环节,以及每个环节都需要的可视化数据展示。图像分析和碱基识别属于初级分析,序列组装和突变识别属于次级分析,功能分析属于高级分析。

图像分析的目的有两个:(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

Flowcell上的每个簇都是由1000-6000个单链DNA分子组成的。这些分子全部来自一个共同的“祖先”模板分子、通过桥式PCR的扩增克隆而成。所以,除了PCR过程中偶尔发生的碱基错配以外,它们的碱基序列是一模一样的。由于二代测序文库的DNA片段很短,总共才不过三五百个碱基,碱基错配的概率不高,在讨论碱基识别的阶段可以暂时忽略不计。
既然碱基序列是一样的,在测序的每个循环,每个簇所发射的荧光信号的波长(或者说颜色)就是一样的、单一的、纯净的。仪器针对每个簇、在每个测序循环都拍摄了A、G、C、T 4张图象。正常情况下,这4张图中只有1张有信号;另外3张没有信号,只有背景噪音。信号的荧光强度要显著高于噪音的。
碱基识别的基本过程就是比较每个簇的这4张图,挑出其中信号强度最高的那个波长,从而确定该碱基的种类。如果只有一个簇,这种比较是非常简单容易的。但是图象处理的单位是tile,每个tile里包含有几百万、上千万个簇,平行测序导致平行的数据处理,所以上一节讲解的图象处理就非常重要。碱基识别涉及到以下5个重要方面。

二代测序每每获得海量数据,通常称为大数据。正因为数据的体量太大,对于其整体质量的好坏就难以直观评价。为此我们必须建立一套客观的评价体系,通常是相关统计参数,帮助我们对每一批测序数据的好坏进行直观把握。虽然至今还没有建立被普遍接受的公认的标准,在实际工作中,人们主要关心的二代测序数据质量参数逐渐集中于以下这么几个:数据量、%Q30、比对率、覆盖度、重复率。对于外显子组测序,在此基础上再增加一个:捕获率。
对于这些重要参数,下面我们逐一进行简要介绍。

相似回答
大家正在搜