DNA甲基化异常可能导致拷贝数变异(copy number variants,CNVs)的发生,而CNVs的发生又可能改变DNA甲基化水平。全基因组亚硫酸氢盐测序(whole genome bisulfite
sequencing,WGBS)数据具有同时挖掘CNVs和DNA甲基化信息的潜力和优势,但利用WGBS数据挖掘CNVs的效果尚不清楚。
2023年3月6日,华南农业大学动物科学学院袁晓龙团队在《遗传》杂志上发表题为“利用人类全基因组亚硫酸氢盐测序数据检测CNVs的研究”的论文。该研究基于大量WGBS数据,对5种检测CNVs的策略(BreakDancer、cn.mops、CNVnator、DELLY、Pindel)进行了系统评价。
研究人员基于人类的真实(2.62 billion reads)和模拟(12.35 billion reads)测序数据,进行150次CNVs检测,评估了CNVs检出数量、精确率、召回率、相对检出能力、内存占用和运行时间等指标。发现DELLY和BreakDancer的内存占用峰值和CPU运行时间最小,CNVnator的内存占用峰值和CPU运行时间最大。Pindel检出缺失型和重复型CNVs的数量最多,CNVnator对缺失型CNVs的检测精确率最高,cn.mops对重复型CNVs的检测精确率最高,Pindel对缺失型CNVs的召回率最高,cn.mops对重复型CNVs的召回率最高,但Pindel的假阳性最高。与全基因组测序数据相比,CNVnator和cn.mops在WGBS数据中检出CNVs的能力(即相对精确率和相对召回率)与之相当(如下图所示)。
5款软件使用真实WGBS数据检出DEL(A)和DUP(B)的相对精确率、召回率
综上所述,利用WGBS数据检测CNVs具有可行性,使用CNVnator和cn.mops在WGBS数据上检测CNVs的准确率最高,这些工作为基于WGBS数据深入研究CNVs和DNA甲基化的互作提供参考。
华南农业大学动物科学学院袁晓龙副教授为论文通讯作者,华南农业大学硕士研究生徐丹同为论文第一作者。该研究得到了广东省科技专项资金等项目的资助。
文章录用版链接:徐丹同,王祎菲,蔡佳丽,龚文滔,潘向春,田雨晗,沈箐鹏,李加琪,袁晓龙. 利用人类全基因组亚硫酸氢盐测序数据检测CNVs的研究. 遗传,2023.