常被你忽略的测序姿势—教你如何看测序质量-技术前沿-资讯-生物在线

常被你忽略的测序姿势—教你如何看测序质量

作者:联川生物技术公司 2016-05-24T16:50 (访问量:18187)

联川2016年中欢乐送限时活动,赶紧约起!(2016.5.1~2016.7.31)

回复”欢乐送“,查看年中欢乐送限时活动详情。

-------------------------------华丽的分割线------------------------------


俗话说:常在江湖漂,哪能不挨刀,这句话放在我们二代测序行业也是一样适用滴。测序测多了,总会碰到这么几个样本测序下来发现测序质量不是这么合格的,各位都知道reads的测序质量这玩意儿可是数据分析的第一道关卡,如果连测序质量这道关都不过了的话,就更别谈后面的数据分析了(那都是浮云~)。那么问题来了,当一个多达好几G的大块头文件放在我们面前的时候,我们该如何对这个大块头进行质量控制的分析呢?莫慌,作为程序猿的我今天决定把珍藏了多年的测序质量控制神器--fastqc和大家进行分享(嘘,一般人我不告诉的,因为都是血泪史啊,有血,有泪,有。。。)。

Fastqc软件是一款针对第二代测序 (NGS)产生的数据进行质量控制分析的软件。此软件基于java分析程序,支持输入fastq, bam, sam等格式的数据文件。它的分析内容包括了如下内容:

1. 测序数据的基本信息

2. 每个碱基的质量值

3. 每条reads序列的质量值

4. 每条序列的ACGT组成

5. 每条序列N的含量

6. 序列中duplication程序

7. K-mer信息

大家可以在服务器上简单地输入如下指令就可以运行此软件,指令如下,拿走不谢:

fastqc –q read_R1.fastq.gz –o outputDir

哈,指令就是这么简单。接下来我们来看看运算完成后的结果。首先我们来看下大家都熟悉的碱基质量分布图:


相信大家都对这张图再熟悉不过了,程序猿的我也是天天看,真的都已经看到吐了,然后吐着吐着就习惯了。这张图里的quality就是传说中的Fred值,计算公式为-10*log10(p),其中p为测错的概率,我们通常说的Q20数据就是根据这个数值来算的,即如果一条reads某位置出错概率为0.01时,那么它的quality就是20。So easy! 图中横轴代表每个测序碱基的位置,纵轴代表此位置上碱基的各种姿势的quality。红色的横线表示中位数,黄色矩形是25%-75%测序质量区间,而黄色矩形上面和下面的“丁”字型的小尾巴是什么?那个是10%-90%测序质量区间,而蓝线是平均数。上图中所有的黄色矩形都在30以上而且小尾巴基本上都没有,嗯,完美。


上面这张图厉害了,叫“碱基含量分布图”,它根据碱基的位置对每个位置上的A,C,G,T的含量进行统计,你们可能会问怎么就厉害了?根据我多年来吐到习惯的丰富经验来看,可以很负责任地告诉大家,如果是一个比较完美的分布图,应该是所有位点上的每条线应该平等且接近的。如果当部分位置上的碱基比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们可能存在overrepresentedsequence的污染。很多人可能会更关注第一图而忽略了这张图。


说完碱基含量分布图,怎么能少了GC含量分布图呢?上面所示图中红色曲线是实际的测序GC含量分布图,而蓝色曲线则是理论分布(正态分布,不过均值不一定都是50%,而是由平均GC含量推断的)。如果红色曲线形状存放比较大的偏差(俗称“跑偏”)的话,往往是由于文库的污染造成的。记住,红色曲线越平滑越好,越接近蓝色曲线越好。


最后还有一张就是这张duplication图了,此图中X轴为reads重复的次数,y轴为重复次数对应的reads占uniquereads的比例。如果序列中有重复,那么表明存在富集的偏好(enrichment bias)(比如:测序过程中的PCR重复,转录组测序中某些基因表达量高),序列重复比例越高,则表明实际有用的序列越少。上述这张图目测还不错,右边尾巴处只有一点点的重复。嗯,已经非常不错了,不过还是有一点点小遗憾(忘了和大家说了,本猿是处女座)。

好了,我所知道的都倾囊相授了,脑子也已经显然不够用了。天色已晚,今天就先说到这里了,大家都看明白了吗?那还不赶快去看看那些咱们测过的测序质量去?

想知道”测序姿势“专题的更多精彩内容吗?

欢迎关注“联川生物”公众号或扫描下方二维码,我们会持续更新的喔!

联川生物技术公司 商家主页

地 址: 杭州经济技术开发区下沙6号大街260号中自科技园16幢4层

联系人: 吴先生

电 话: 0571-87662413

传 真: 0571-81951905

Email:market@lc-bio.com

相关咨询

快来围观,你离高分paper还差一个phasiRNA (2019-01-14T13:34 浏览数:4418)

如何选择合适的qRT-PCR内参基因? (2019-01-14T11:06 浏览数:18166)

为什么要做绝对定量测序-数据分析 (2018-09-21T17:59 浏览数:4214)

低通量单碱基m6A验证的新方法|m6A专题 (2018-09-18T16:04 浏览数:4206)

祝贺联川客户继Nature后又发一篇Nature Genetics (2018-09-18T16:03 浏览数:4010)

联川生物八月份客户文章汇总 (2018-09-18T16:02 浏览数:2917)

联川生物七月份客户文章汇总 (2018-09-18T16:01 浏览数:2887)

肝硬化与肝纤维化研究进展 (2018-09-18T16:01 浏览数:10694)

【用户案例】感染鲫鲤疱疹病毒2的银鲫中miRNA的差异表达 (2018-09-18T16:00 浏览数:2931)

病毒m6A专题 | HIV感染宿主促进病毒及T细胞m6A修饰 (2018-09-18T16:00 浏览数:3491)

ADVERTISEMENT