转录组RNA-Seq上游分析2020

如题所述

本文提供了一套详尽且可操作的RNA-Seq上游分析教程,从环境配置到数据处理的各个环节都有详细步骤。首先,通过conda安装Miniconda3,确保正确设置镜像源和环境。创建python2环境,并学会使用conda安装和管理软件。对于FastQ质量评估,推荐使用FastQC,它支持多种文件格式并能进行多线程操作。FastQC用于检测序列格式和质量,是数据质量检查的关键工具。

随后,利用trim_galore进行数据预处理,其主要功能包括去除低质量碱基和接头adapter。在比对阶段,hisat2是RNA-seq的理想选择,它处理跨区域read的能力优于其他工具。选择合适的参考基因组和gtf文件对结果至关重要,一般推荐primary_assembly版本以避免冗余信息。构建索引和执行比对时,可能需要结合gtf中的exon和split site信息。

在处理得到的SAM文件时,使用samtools进行排序和转为BAM格式。对于计数,featureCounts是重要工具,它允许根据不同的feature或meta-feature进行统计,需要注意的是,对于RNA-seq,推荐处理多重overlap的方式。最后,文章作者还提供了微信讨论群和公众号资源,以便于持续交流和获取更新内容。
温馨提示:答案为网友推荐,仅供参考
相似回答