发布网友 发布时间:2022-11-06 17:34
共1个回答
热心网友 时间:2023-11-17 22:44
早期生成的fastq数据,它的质量值是基于Phred 64(Illumina 1.3 and 1.4),现在的版本使用的Phred 33 (Illumina 1.8+)
使用fastqc进行质控,它的结果有几个关注点:
主要针对低质量reads和接头,注意:如果要比较不同的样本,要保持它们各自过滤前后一样的reads长度,避免给比对率引入人为因素(长短不一的两条reads,本身就不能放在一起比较)
如果DN*段比测序读长还短,那么得到的reads就会包含下游的接头序列。而接头序列可能会影响比对结果(不过一般接头都是重复序列,有的也很难比对到基因组,但是去掉总比带着好)
不同的过滤软件都会有和接头 stringency 相关的参数设置,比如reads和接头最小的重叠碱基数、最多的错配数。当设置一个比较小的stringency值,就保证最为严格,能检测绝大多数的接头。
比如 trim_galore 的这个参数(默认是非常严格:数值1):
大部分的ChIP-seq数据都是短读长,去低质量不是必须的。但是fastqc图中大量碱基质量如果存在明显的下降,那么就需要去掉
常规的去除方法是:对每条read,从检测到Q值低于某个阈值(比如Q<20)开始去除,直到恢复正常的Q值。但如果只是某个碱基的质量低比较低,这个还能忍受,可以设置一个滑窗而不用一个碱基一个碱基地去看,通过检测滑窗的平均质量值是否低于阈值来判断是不是要去掉这个滑窗中的碱基。
另外,如果存在不同长度的几组数据,可以直接指定固定长度(比如:为了比较50nt和100nt的单端ChIP-seq数据,可以将所有的reads长度都剪到50nt)
如果是分析X或Y染色体的allele-specific binding,它需要许多可靠的SNVs,因此需要更高的Q值来过滤,并且过滤标准更严格,不建议使用滑窗式的过滤
运行时会把所有的参数列出来,方便参考学习,看到其中就有 --fastqc 的命令,另外还有一个参数: -j 它是多线程运行,默认一个线程(需要基于python3)
另外会对每个样本自动构建一个同名目录,存放它相应的数据
看看过滤后数据量的变化,因为原来数据质量就不错,所以也没:
看看过滤后10个样本的GC变化: