日期:
来源:云生信学生物信息学收集编辑:云生信学生物信息学
尔云间 一个专门做科研的团队
原创 小果 生信果
基本概念
拷贝数变异(Copy number variation, CNV),一般指长度1KB以上的基因组大片段的拷贝数增加或者减少, 是基因组结构变异(Structural variation, SV) 的重要组成部分,也是染色体病的另一种重要致病机制。
人类基因组上5%~10% 的区域存在CNV,远高于其他遗传变异形式。每个人基因组中都携带有一定数量的 CNV,绝大部分为良性,并不会对机体造成影响,多数 CNV 低于 500kb。有致病意义的CNV 是造成自然流产和出生缺陷(致死)的重要遗传因素,在智力发育障碍和自闭症等神经系统异常中尤其扮演重要角色。
CNV的发生机制就是非等位基因重组,第一次是在减数第一次分裂前期,一对同源染色体染色体上的非姐妹染色单体交叉互换,第二次是在减数第一次分裂后期,同源色体分离,非同源染色体自由组合。基因组上非等位的两个高度同源的DNA序列在减数分裂或者有丝分裂的过程中发生错误的配对,并发生序列交换,从而导致缺失、重复的出现。
小果今天给大家介绍一款可用于分析全基因组的软件CNVnator。
软件依赖于root框架以及samtools。最终的可视化也是依赖于root软件,另外还有衍生的拓展程序CNVpytor,CNVpytor能更好的出图。
软件可以通过conda直接安装:
conda install cnvnator
提取mapping reads,这一步会生成root文件。以下命令同时提取多个染色体的reads数,也可以只提取单个染色体。
cnvnator -root test.root -tree test.bam -chrom $(seq 1 22) X Y # 如果包含chr cnvnator -root test.root -tree test.bam -chrom $(seq -f 'chr%g' 1 22) chrX chrY
划分bin统计:
cnvnator -root test.root -his 1000 -chrom $(seq 1 22) X Y -fasta reference.fa
区域统计:
cnvnator -root test.root -stat 1000
区域计算:
cnvnator -root test.root -partition 1000
分析获得CNV:
cnvnator -root test.root -call 1000 > test.cnvnator.txt
转换为vcf格式结果,其中individual fasta可参考control-free使用中的拆分开fasta。
cnvnator2VCF.pl -prefix test -reference reference test.cnvnator.txt /path/to/individual/fasta_files
关注小果,小果将会持续为你带来更多生信干货哦。
推荐阅读