全长转录本的鉴定

如题所述

第1个回答 2022-07-03

全长转录组测序（Isoform-sequencing，Iso-seq）基于PacBio单分子实时测序技术（SMRT cell）,凭借超长读长的优势，建库过程中无需打断RNA分子，直接对反转录的全长cDNA测序，得到从5’末端到3’PolyA尾的高质量全长转录本序列，且目前其CCS模式可以达到超高的准确率，可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。

通过调取polyA尾的全长转录本序列，经反转录成cDNA之后，经过一定规模的扩增，然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库，其文库构建过程如图一所示。

构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段，如图二所示：

PacBio根据其文库片段长度分为两种模式测序：

其一为 CLR模式 ，对于较长的插入片段，DNA聚合酶的活性不足以支撑合成完全部插入片段，或者仅能合成完一圈多，得到的polymerase reads去除测序接头即为最长subreads；

第二种是 CCS模式 ，对于较短的插入片段，DNA聚合酶的活性可以支撑合成多圈插入片段，此时去除完接头后即为完整的全长的插入片段，同一ZMW孔可产出多个subreads，对subreads进行相互的校验可以得到一致性序列，即CCS（Circular Consensus Sequencing）序列，其10X的准确率可达99.9%，30X可达99.999%。

完整的插入片段序列（Reads of Insert，ROI）一般具有以下特征：包含5’primer、3’primer，且3’primer前存在polyA序列，即Iso-seq文库结构图所示。

因此，理论上我们需要鉴定有这些特征的CCS即可，但实际上，建库过程中会产生嵌合体等非我们需要的序列，需要去过滤掉，整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。

SMRT cell测序下机后经 smrtlink server初级处理，会将polymerase reads去除接头低质量序列等，转为subreads序列。

具体的用于后续分析的文件为：
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml

通过smrttools的ccs工具将subreads.bam转为ccs.bam，具体命令如下：

~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 还可指定--min-passes以及线程数--num-threads
此过程比较耗费资源与时间，如果资源充足，想快速完成ccs的转换，可以对bam文件进行切割，分开转ccs，最后再合并。以下提供了两种并行转ccs的方式，供参考。

获得CCS序列之后，首先需要去掉文库构建过程中的5’和3’测序引物，如果带有barcode，同时也需要去除barcode序列，具体操作可按如下方式：

~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下，标签名称必须以“5p”,“3p“结尾，如果有多个3p barcode序列（即包含多个样本），则会同时按照此barcode序列进行拆分，拆分以及去除完引物之后会得到各自样本的bam文件。

文件名称包含引物序列标签：
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam

转录组文库在构建过程中可能会产生嵌合体，即同一个ZMW中两个转录本嵌合到一起。这种嵌合体的出现主要由以下两种情况产生：

鉴于此，这一步需要做的就是对拆分完且去除完引物的CCS序列，进一步过滤，去除嵌合体序列。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

由于一个ZMW孔会产生一个转录本序列，即一个CCS，所以不同的CCS可能会是相同的转录本序列，即存在冗余的情况，因此需要再通过聚类（cluster）的方式，对全长转录本序列进行聚类，得到一致性的转录本序列。

Polish纠错是为了进一步提升转录本中碱基的质量，但是这一过程也是非常耗时，目前smrtlink v8版本及以上可以不必进行Polish，即可获得准确度大于0.99的高质量转录本（high-quality isoforms，HQ），和低质量转录本（low-quality isoforms，LQ）。

以上步骤即可得到高质量的转录本序列，其输出结果有如下一些文件。

后续可用polished.hq.fasta.gz进行比对分析等。

全长转录本的鉴定是Iso-seq分析最重要的一步，鉴定出的转录本的质量也决定了后续分析的质量，高质量的转录本可以对转录本的结构进行精确的分析，当然也取决于后续的比对。

参考资料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html

相似回答

真·高通量单细胞全长转录组答：2. Smart-seq：本方案将cDNA打断后，对转录本的所有片段测序，优势是测序灵敏度高（基因检出数比3‘/5’ 转录组测序高）、可以检测转录本的全长片段信息，缺点是细胞通量较低，单个细胞的测序成本较高，而且检测的并不是真实的全长转录本；3. 单细胞三代转录组测序：在获得单细胞全长cDNA...

知道一个基因的转录本,如何去寻找他的全长的同源序列?在其他物种里_百 ...答：要寻找一个基因的全长同源序列在其他物种中，你可以使用生物信息学工具和数据库进行比对和搜索。下面是一些常用的方法：1. 基因数据库搜索：使用类似于NCBI（National Center for Biotechnology Information）提供的大型公共数据库，如GenBank或Ensembl等，搜索你感兴趣的基因名称或转录本ID。这些数据库包含许多...

全长转录组为什么筛选片段建库答：全长转录组是基于PacBio三代测序平台，无需打断拼接，直接获得包含5’，3’UTR，poly A tail的完整转录本，从而准确分析有参考基因组物种可变剪切及融合基因等结构信息，克服无参考基因组物种转录本拼接较短、信息不完整的难题。

如何运用生物信息学和分子生物学的方法获得一个转录本的全长序列答：生物信息学方法查找相关物种中的这一转录本的序列，然后根据保守序列设计兼并引物。提取转录这种转录本的细胞中的RNA，在利用引物扩增出CDNA。这样就获得了这样转录本的全长。

全长转录组测序技术算不算生物信息学答：全转录组不是全长转录组，全转录组说的是检测普通mRNA，加上 lncRNA，miRNA，CircRNA这样的3种常规非编码基因，而全长转录组说的是测序的时候采取三代测序等技术这样可以把基因的转录产物的全部长度的碱基一次性测序到，这样很方便知道不同可变剪切转录本的区别。那，为什么我们很少涉及到全转录组的数据...

转录组分析(8) - 可变剪接答：RNA-seq通常是二代转录组，可以通过高深度的测序数据组装构建转录本序列，预测外显子与内含子的结构并识别出可变剪接模式，假阳性不小。相比之下，三代全长转录组利用其读长更长的优势，可以直接读取转录本的全长序列，无需打断、组装，直接获得全长转录本的结构信息，能够更加准确的分析生物体内存在可变...

大家正在搜

时间太长的笔迹鉴定可以拿以前的转录与逆转录实际误工时间比鉴定的长基本转录转录本转录的起始 RNA的转录转录的原料是转录的四个步骤