什么是基因组survey?
基因组survey:即基因组大小和复杂程度的调研,基因组大小是指单倍体细胞核中的所含的DNA的总量。常用的估计基因组大小的方法有两种:
其一是流式细胞法,该方法用DNA含量衡量不同物种基因组的大小,基因组的大小通常用“C-value”来表示,也有用“pg”(皮克)单位来表示,1pg=10-12g,另外也有用“碱基对”来表示,例如1Mb=106bases,之间的直接换算关系是1pg=978Mb或者1Mb=1.022×10-3 pg,流式细胞法是通过DNA荧光染料对分选后的细胞进行染色,然后和已知DNA含量的商品化标准品比对,得到检测物种的DNA含量,进而通过上面的换算关系推测出基因组大小。
其二是高通量测序法,即对没有参考基因组序列的物种,进行小片段低深度测序,以较低的成本基于K-mer分析去预估基因组的大小、杂合度及重复序列等信息。该结果可进一步指导后续的建库策略和测序数据量,此外这次测序的数据还可用于后续基因组的拼接与拼接结果的校正。今天小编重点向大家介绍基于高通量测序的方法估计基因组大小、杂合度及重复序列。
基于K-mer评估基因组大小的原理
假设reads的长度为L,基因组大小为G,总的reads数目N,kmer长度为K,即将长度L的reads打断成K长度kmer片段且kmer每次延伸1bp,则该条read会被打断为L-K+1个kmer,例如:当K=17,reads长度L=100的时候,一共可以产生100-17+1个kmer片段。
根据Lander-Waterman模型,Kdepth=N*(L-K+1)/G,Knum=(L-K+1)*N(Kdepth为kmer的期望深度,kmer深度频率分布遵循泊松分布,可以将深度分布曲线的峰值作为期望深度。Knum为从reads得到kmer的总数目),则基因组大小G=Knum/Kdepth,K的选择和测序深度会对基因组估计大小产生影响,短片段插入库数据深度不用过低或过高。
基因组大小估计结果解读
了解完原理接下来我们就利用基因组survey比较经典的一款软件Jellyfish来统计K-mer depth及频数,统计结果用于画K-mer分布图及基因组特征的评估。K-mer 深度分布曲线属于标准的泊松分布曲线,该曲线的形态受到以下几个因素的影响:测序错误率、基因组的杂合度和重复序列。以一个杂合度较高的物种的 K-mer 分布图为示例图图1:
图1Kmer分布示意图
注:最左边的峰为测序错误峰;第二个峰为杂合峰,如果基因组杂合度比较低,则不会出现该峰;第三个峰为纯合峰,杂合峰的峰值所在位置一般为纯合峰所在位置的一半,基因组的杂合度越高,则杂合峰与纯合峰的比值越大;第四个峰为重复序列峰,在纯合峰值所在位置的两倍以上,重复序列越高,重复峰所占面积越大。
测序错误峰:当某个碱基发生测序错误后,将其reads打断成长度K的kmer后,会将错误的kmer数量放大,这些kmer出现频率较低,在Depth较低时会出现较高的错误峰,用于评估测序错误率。
纯合峰:c值即为公式中的Kdepth用于评估基因组大小。
杂合峰:用于评估基因组杂合度。具体解释为:假设纯合的GTA在Kmer中出现了a次即深度a,而杂合GTA中T为T/A,则就会形成GTA/GAA两种kmer,则每种对应就会平均出现a/2次即深度为a/2。
Repeatregion:用于评估基因组重复序列比例,若出现两个主峰,峰高相差不大且横坐标是2倍关系,则为高杂合或高重复。
以某动物为例,PE400文库Hiseq平台测105G数据量,使用软件Jellyfish设置K=17,得到95,767,623,756个kmer,纯合峰对应的Kmer深度为118,最终估计出基因组大小约为812M,Kmer分布图见下图2。
图2某动物Kmer分布示意图
动植物基因组推出的基因组survey项目,分析内容包括:
l 原始数据质控;
l 样本质量分析:物种污染评估;
l 基因组评估:基因组大小、杂合度、重复序列比例评估等。测序数据也可以在后续做基因组拼接和校正时再次利用哦。
留言与评论(共有 0 条评论) |