基因帮吧 关注:32贴子:313
  • 5回复贴,共1

raw data/PF data/Q30 data/clean data的不同与浅解

只看楼主收藏回复

1. 原始数据(Raw data):一次测序产生的全部原始数据。理论上,它们应该是没有经过任何过滤的,无论好坏。
2. PF数据(PF data):在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。
3. Q30数据(Q30 data):Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同,这一比例有很大波动。
4. 干净数据(Clean data。数据还有不干净的?):某些实验室根据其自身的判断标准,在PF data的基础上,进一步删除质量不好的reads后得到的数据。常见的删除动作有:去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基,等等。


1楼2016-06-30 11:24回复


    2楼2016-06-30 11:38
    回复
      2025-05-25 03:16:17
      广告
      好贴


      3楼2016-06-30 13:15
      回复
        有质量的帖子啊!


        IP属地:四川4楼2016-06-30 14:12
        回复
          #6月最后一天#每天学习一点!


          5楼2016-06-30 14:20
          回复
            希望楼主经常更新~


            6楼2016-06-30 17:14
            回复