盘点转录组测序问题Top10

2018年已接近尾声,估计小伙伴们正忙于总结工作,整理实验数据。小编正好在总结2018年转录组测序常见的问题,希望对各位小伙伴有所帮助。

01、生物学重复设置几个合适?生物学重复取样有什么要求?

1)推荐生物学重复≥3,有文章表明生物学差异是基因自身表达的特性,与检测技术的选择以及数据处理的方式无关。如果不设生物学重复,高影响因子的杂志可能会因此而拒稿。

注:3个生物学重复,不等同于将3个样品的RNA等量混合后测序。3个样品等量混合测序,相当于将3个样本的基因表达量取了平均值,其实就是相当于取了一个样本,不能反应群体生物学现象。

2)生物学重复取样要求:

植物取样:同一片试验田,同一长势,外部形态特征相同;

动物取样:同一遗传背景,同一饲养条件,同一年龄,性别相同,外部形态特征相同;

混合取样:保证混合样品处理方式相同,处于同一发育阶段,个体外部形态特征相同。

注:混合取样是针对一个小苗个体抽提的RNA无法达到送样要求,而混合多个个体抽提RNA具体建议如下:2-3个单株混在一起当作一个样品,再取另外与前面所取的单株生长差异不大的2-3个单株混在一起当作前一个样品的生物学重复。

02、样本检测时需要达到什么要求才认为样本合格?

样本检测主要关注的指标为总量、RIN值、OD260/280以及28S/18S(原核生物为23S/16S)。其中RIN值及28S/18S是评估RNA完整性的主要指标,RIN值越高,28S/18S越接近2表明完整性越好。但对于一些特殊样品,比如某些昆虫和水产动物,没有28S条带,就不能参考RIN值,一般只要18S前基线平稳可认为样品合格。

03、普通转录文库与链特异性文库的区别?

链特异性文库是在cDNA二链合成时用dUTP代替dTTP,PCR前采用UNG酶消化掉含dUTP的DNA单链,与Flow cell结合时只保留单一链模板,具体流程见下图:

链特异性文库保留链的方向性,区分reads是来自于哪条链,减少比对错误,使得基因表达定量更精确、可变剪切检测更准确、非编码转录本的检出率增高和新转录本预测更真实等等。

04、测序数据质控指标有哪些?

1) Clean reads占Raw reads的比例情况:

Clean Reads即高质量可用reads,Clean reads比例=Raw reads-低质量reads-含N reads-接头污染reads

2) 测序碱基分布有无AT、GC分离现象:

根据碱基互补原则, A 和 T 的比例应该接近, C 和 G 的比例也应该接近

3) reads比对比例情况:

理论上,来自成熟mRNA的reads,应该比对到外显子区(Exon),但是存在一些原因导致一部分reads比对到内含子区(Intron)和基因间区(Intergentic);如果参考基因组与测序样品品种存在差异,则也会导致比对到外显子区的reads偏少

4) 质量值大于30(Q30)的碱基在clean data中的占比情况

5) 测序数据在全基因组覆盖范围是否均一

6) 表达水平的饱和曲线:

表达水平的饱和曲线图是为了检查测序数据量是否满足基因定量要求。

05、差异基因数据多少比较合理?

不同处理,不同研究目的,差异基因数目是不同的,从几十个到几千个都有可能。但是如果差异基因数目是个位数或者上万个时,需要和生信分析人员沟通确实是否有问题。

06、为什么某基因在两个样本中表达量差别很大,却不在差异表达的基因中?

差异表达基因的两个阈值为|log2Ratio|≥1和q<0.05。筛选差异表达基因需要同时满足这两种条件。差异基因的筛选是基于统计学意义的,不能直观的通过两个数值的比值判断是否为差异基因。

07、差异基因的GO功能注释分类统计,是不是找出差异基因个数最多的对应的功能是我们要关注的?

差异个数最多的功能不代表是我们研究的关注点,这些差异个数多的也有可能是一些基础的功能条目;建议从研究目的着手, 先确定一个方向,比如关注生长相关的基因,可以先研究这部分GO功能,然后再进一步扩展。

08、KEGG 的 pathway 图中为什么一个方框里面同时出现红色和绿色标记?

方框里面是一些酶或者是有催化活性的蛋白,而我们知道有些关键的酶或重要的蛋白会有多个同源基因编码,所谓的同工酶;还有一些由多个亚基聚合而成,每个亚基由不同的基因编码,也就是说这些重要的酶或者蛋白有不同的基因(转录本编码),那么有时候会出现不同基因表达不一致的情况。

09、如何挑选基因做qPCR验证?

1)建议验证实验具有生物学意义,可以先从GO和KEGG的聚类分析结果入手,筛选研究方向有关的且有差异表达的基因。

2)挑选基因的原则:

a.一般情况下,需要验证的基因的数目建议不低于20个;

b.样本间表达差异倍数大(log2(FC));

c.基因表达量较高(至少在一个样品中的表达量高);

d.基因测序深度read count相对较高等;

e.同时包含上调基因及下调基因;

f.能否设计出好的实时定量引物。

目前,没有统一固定挑选的标准,需要研究人员根据自己的研究需要进行选择。

10、qPCR验证不一致的原因是什么?

使用qPCR验证的RNA-Seq定量结果,由于两种技术本身的差异及表达量计算原理的差异,出现不一致的情况正常。所以建议关注两种基因表达的检测结果变化趋势总体是不是一致,具体表达量的值及差异倍数数据作为参考。如果变化趋势不一致,可能的原因有以下几点:

1)要保证测序时所用样品同qPCR实验中所用是同一批材料且处理条件一致;

2)尽量选取表达量高的基因进行验证,同时差异倍数在5~10倍的基因更合适;

3)考虑qPCR实验的实验方案、引物序列及原始结果。比如设计探针是否考虑多转录本情况,转录组测序是对转录本。如该基因对应多个转录本,则可能有偏差;

4)该基因是否存在新的可变剪切。

微分产品优势

1、建库成功率高>98%,测序质量好Q30>85%

2 、分析全面:标准分析+定制化分析

3 、一站式服务:上游测序+下游qPCR 验证

4 、保证交付周期: 具有5 台自主的高通量测序仪Novaseq 6000 及数据处理集群,可以保证交付周期不延误!

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();