编辑 | 白菜叶
中性网络将所有基因型与适应性景观中的等效表型连接起来,并在生物分子的突变稳健性和可进化性中发挥重要作用。与早期的理论工作相比,在最近的适应性景观实验研究中一直缺乏大型中性网络的证据。这表明进化可能在全球范围内受到限制。
在这里,日本冲绳科学技术研究生院(OIST)的研究人员证明了深度学习引导的进化算法可以有效地识别 RNA 连接酶核酶序列空间内的中性基因型。
此外,他们测量了连接两个活性核酶的所有 2^16 变体的活性,这些核酶有 16 个突变,并分析了高达 16 阶的突变相互作用(上位性)。研究人员发现了一个连接这两种基因型的广泛的中性路径网络,并揭示这些路径可能仅使用来自低阶交互的信息来预测。
同时,他们对超过 120,000 个核酶序列的实验评估提供了重要的经验证据,证明中性网络可以增加适应度景观的可访问性和可预测性。
该研究以「Experimental exploration of a ribozyme neutral network using evolutionary algorithm and deep learning」为题,于 2022 年 8 月 17 日发布在《Nature Communications》。
生物分子的适应度图是一个基因型-表型图,将其活性表示为其序列空间的函数。分子进化可以被概念化为通过突变的逐步积累沿着这个景观进行适应性行走。适应性景观的地形如何影响这种适应性步行是自然进化和人工进化中的一个重要问题。
然而,由于生物分子序列的组合空间大得令人望而却步,对这些景观的经验构建和探索已被证明是困难的。然而,高通量测序和 DNA 合成的最新进展显著扩大了可用于实验分析的序列空间。RNA 酶或核酶的适应性景观是分子进化特别重要的模型,并且已经报道了天然和人工核酶的大量大规模经验映射。此外,由于核酶在 RNA 世界假说中发挥着关键作用,因此它们的适应度地形对生命的起源具有重要意义。
许多关于 RNA 适应度景观的实证研究表明,大多数野生型(WT)位于或靠近孤立适应度峰值的顶部,其中只有几个突变步骤会导致适应度显著降低。在这些景观中,适应性峰分布稀疏,大多数适应性步行会被广泛的适应性谷阻挡。这表明从局部最优向远处的适应度峰值进化将是极其困难的。
这一经验证据与早期使用预测的 RNA 二级结构作为适应度代理的理论工作相矛盾。这些计算研究表明,许多连接序列可以折叠成相似的结构,形成广泛的中性网络。中性网络是由具有相同表型(例如结构、催化活性)的单个突变连接的一组基因型。通过访问这些网络,进化中的分子群体可以传播很大的突变距离,而不会对其适应度产生不利影响。在其他实验研究中也可以找到对比证据,这些研究表明人工进化可用于设计一种核酶,该核酶采用新结构同时保留其功能,或获得新功能。
图示:用于引导探索 F1*U 核酶适应度景观的实验和计算管线。(来源:论文)
实验适应性景观中缺乏中性网络引发了一个问题,即如果大多数单一突变导致有害突变体,那么探索崎岖景观的效率如何。然而,大多数经验景观都是在不断选择的情况下绘制的,并不代表自然进化的动态性质。在自然进化中,不断变化的选择压力、可变环境和遗传过程(例如重组)会影响适应度环境的导航方式。这些过程被认为是跨越适应性低谷的有效方法。因此,一个重要的目标是系统地研究不同的进化机制如何帮助有效地探索崎岖的适应性景观。
在之前的研究中,OIST 的研究人员使用片上 DNA 合成和高通量测序,来实验测量大型连接酶核酶变体文库的活性。RNA 连接酶核酶以模板指导的方式催化一个 RNA 片段的 3'-羟基和另一个 RNA 片段的 5'-三磷酸基团之间形成磷酸二酯键。
连接化学类似于现代 RNA 聚合酶催化的化学。因此,连接酶核酶已被广泛研究作为原始自我复制系统的模型。因此,连接酶核酶比任何其他类型的核酶具有更长的人工进化谱系。已发现连接酶核酶的多个结构基序,这表明 RNA 序列空间可能充满了此类表型。这一观察表明连接酶核酶的中性网络可能连接良好,可能有助于通过中性网络访问远处的适应度峰值。
在最新的研究中,OIST 的研究人员结合高通量实验分析和进化算法,来探索小连接酶核酶催化核心内的经验中性网络。从 WT 开始,研究人员通过多代将连接酶核酶群进化到适应性景观中遥远的中性区域。每一代核酶变体都是通过对前面的核酶群体进行计算机选择、突变和重组来设计的,其适应度值是使用深度测序通过实验确定的。
这一简单的进化算法,在其最佳状态下,它可以以几乎 90% 的效率识别功能基因型。机器学习模型对适应度景观的准确预测受到上位效应的限制。由于「漏洞百出」的适应性环境,收集知情的训练数据已经很困难。
功能基因型的稀有性表明,核酶适应度景观的随机抽样将产生一个高度偏向有害(非功能)变体的数据集。正标记数据的稀缺性限制了使用机器学习模型可以实现的学习量。
研究人员通过使用计算机选择、重组和突变来克服这些问题,以引导自适应行走沿着平滑且相对没有上位性的路径。这产生了一个中性和有害突变体分布更平衡的数据集。该数据集提供了有关在不同突变背景中中性的突变的关键组合的信息。然后可以通过深度神经网络学习此信息,以使用仅从前几个突变步骤获得的数据来识别远处区域的功能变体。
图示:机器学习辅助进化算法可以在计算机上向适应度景观的遥远区域进化。(来源:论文)
在这项研究中,该团队测试了几种流行的机器学习模型,除了软件包提供的默认超参数之外没有任何优化。MLP 略微优于其他模型,并用于后续分析。值得注意的是,其他测试模型的表现也相对较好,进一步优化超参数可能会提高性能,可能会减少过度拟合。他们的算法相对容易穿越这个景观与之前从其他景观中观察到的结果相矛盾,在这些景观中,长进化路径大多被有害突变体阻挡。
他们景观中的大型中性网络可以促进自适应步行。为了研究这一点,研究人员绘制了两个中性突变体之间的所有 65,536 个突变中间体,这些突变体被 16 个突变 F1*U 和 F1*Um 隔开。研究人员证明了这两个序列是通过一个广泛的中性网络连接的。组合空间在功能突变体中非常丰富,并包含许多可访问的进化路径。
图示:通过高通量实验筛选和计算机遗传过程探索 F1*U 的适应性景观。(来源:论文)
研究人员在结构和功能相似的 F1*U 和 F1*Um 之间发现了一个广泛的中性网络。这表明中性网络可能在同一家族的核酶中更常见,但情况并非总是如此。迄今为止发表的最全面的核酶适应度图谱是一种 21 nt 的自氨基酰化核酶。
在这项研究中,即使在密切相关的基序中也很少发现可行的途径。最佳途径涉及了活性几乎降低十倍的变体。这表明即使在同一家族的核酶中,大型广泛的中性网络。
如果中性网络很少见,了解进化适应和创新如何发生则是很重要的。在这项研究中,研究人员证明了 F1*U 和 F1*Um 之间的适应性路径导致了更具突变性的 P5 茎。他们的组合图限于核酶内的 16 个主要连续的位置。这个受限区域的稳健性和高连通性,意味着它可能是新功能进化或适应新环境的良好起点。
总而言之,该团队的数据表明,进化创新和适应更有可能通过小的连续基序的扩展,而不是通过突然的大规模结构变化来发生。
另外,该团队还专注于控制这个中性网络的地形和可预测性的突变相互作用。早期的研究表明,适应度景观可以编码为稀疏的背景平均交互项,并且可以从一小部分关键突变交互中确定。同样,该团队的结果表明,这个中性网络的拓扑结构很大程度上是在低阶背景平均交互项中编码的。
其他研究利用这种稀疏性以及压缩感知 (CS) 领域的知识来更好地预测小样本量的适应度值。该团队的算法利用遗传过程,尽管主要针对低阶突变体进行训练,但也能够预测远距离基因型。这提供了一种可能更简单的方法,该方法也可能有助于理解早期进化在其适应度环境导航过程中如何识别关键交互项。
适应性景观的天文规模意味着可能永远无法完整地绘制它。研究人员这里所做的观察,包括对远距离的适应度景观的预测是可能的,特别是在中性网络中,为小样本外推提供了希望。
最后,该团队生成的大型序列活动数据集,特别是中性网络的经验证据,需要进一步的定量分析。特别是,他们发现的属性是否是这个中性网络所独有的,以及这里学到的信息是否可以用来预测景观的其他部分。这可能在从分子工程到病毒进化等领域具有重要意义。
论文链接:https://www.nature.com/articles/s41467-022-32538-z
留言与评论(共有 0 条评论) “” |