全长转录本的鉴定

如题所述

第1个回答  2022-07-03

全长转录组测序(Isoform-sequencing,Iso-seq)基于PacBio单分子实时测序技术(SMRT cell),凭借超长读长的优势,建库过程中无需打断RNA分子,直接对反转录的全长cDNA测序,得到从5’末端到3’PolyA尾的高质量全长转录本序列,且目前其CCS模式可以达到超高的准确率,可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。

通过调取polyA尾的全长转录本序列,经反转录成cDNA之后,经过一定规模的扩增,然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库,其文库构建过程如图一所示。

构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段,如图二所示:

PacBio根据其文库片段长度分为两种模式测序:

其一为 CLR模式 ,对于较长的插入片段,DNA聚合酶的活性不足以支撑合成完全部插入片段,或者仅能合成完一圈多,得到的polymerase reads去除测序接头即为最长subreads;

第二种是 CCS模式 ,对于较短的插入片段,DNA聚合酶的活性可以支撑合成多圈插入片段,此时去除完接头后即为完整的全长的插入片段,同一ZMW孔可产出多个subreads,对subreads进行相互的校验可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的准确率可达99.9%,30X可达99.999%。

完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文库结构图所示。

因此,理论上我们需要鉴定有这些特征的CCS即可,但实际上,建库过程中会产生嵌合体等非我们需要的序列,需要去过滤掉,整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。

SMRT cell测序下机后经 smrtlink server初级处理,会将polymerase reads去除接头低质量序列等,转为subreads序列。

具体的用于后续分析的文件为:
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml

通过smrttools的ccs工具将subreads.bam转为ccs.bam,具体命令如下:

~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 还可指定--min-passes以及线程数--num-threads
此过程比较耗费资源与时间,如果资源充足,想快速完成ccs的转换,可以对bam文件进行切割,分开转ccs,最后再合并。以下提供了两种并行转ccs的方式,供参考。

获得CCS序列之后,首先需要去掉文库构建过程中的5’和3’测序引物,如果带有barcode,同时也需要去除barcode序列,具体操作可按如下方式:

~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下,标签名称必须以“5p”,“3p“结尾,如果有多个3p barcode序列(即包含多个样本),则会同时按照此barcode序列进行拆分,拆分以及去除完引物之后会得到各自样本的bam文件。

文件名称包含引物序列标签:
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam

转录组文库在构建过程中可能会产生嵌合体,即同一个ZMW中两个转录本嵌合到一起。这种嵌合体的出现主要由以下两种情况产生:

鉴于此,这一步需要做的就是对拆分完且去除完引物的CCS序列,进一步过滤,去除嵌合体序列。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

由于一个ZMW孔会产生一个转录本序列,即一个CCS,所以不同的CCS可能会是相同的转录本序列,即存在冗余的情况,因此需要再通过聚类(cluster)的方式,对全长转录本序列进行聚类,得到一致性的转录本序列。

Polish纠错是为了进一步提升转录本中碱基的质量,但是这一过程也是非常耗时,目前smrtlink v8版本及以上可以不必进行Polish,即可获得准确度大于0.99的高质量转录本(high-quality isoforms,HQ),和低质量转录本(low-quality isoforms,LQ)。

以上步骤即可得到高质量的转录本序列,其输出结果有如下一些文件。

后续可用polished.hq.fasta.gz进行比对分析等。

全长转录本的鉴定是Iso-seq分析最重要的一步,鉴定出的转录本的质量也决定了后续分析的质量,高质量的转录本可以对转录本的结构进行精确的分析,当然也取决于后续的比对。

参考资料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html

相似回答