raw data/PF data/Q30 data/clean data的不同与浅解【基因帮吧】

基因帮吧关注：32贴子：313

5回复贴，共1页

raw data/PF data/Q30 data/clean data的不同与浅解

1. 原始数据（Raw data）：一次测序产生的全部原始数据。理论上，它们应该是没有经过任何过滤的，无论好坏。
2. PF数据（PF data）：在测序过程中，Illumina内置软件根据每个测序片段（read，通常每个片段长100个碱基）前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准，则该read的全部碱基都被抛弃；达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。
3. Q30数据（Q30 data）：Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性，为每个碱基给予一个质量评分（QV）。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同，这一比例有很大波动。
4. 干净数据（Clean data。数据还有不干净的？）：某些实验室根据其自身的判断标准，在PF data的基础上，进一步删除质量不好的reads后得到的数据。常见的删除动作有：去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基，等等。

送TA礼物