AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

编辑 | 萝卜皮

生物网络的优化通常受到实验室人工和成本的限制,并且缺乏方便的计算工具。

在这里,马克斯普朗克陆地微生物研究所的研究团队介绍了 METIS,这是一种多功能的主动机器学习工作流程,具有简单的在线界面,用于通过最少的实验对生物目标进行数据驱动的优化。

该团队展示了他们用于各种应用的工作流程,包括无细胞转录和翻译、遗传回路和 27-variable 合成 CO2-fixation cycle(CETCH 循环),将这些系统改进了一个到两个数量级。

对于 CETCH 循环,该团队仅通过 1,000 次实验探索了 10^25 个条件,以产生迄今为止描述的最有效的 CO2-fixation 级联。除了优化之外,他们的工作流程还量化了各个因素对识别未知交互和瓶颈的系统性能的相对重要性。

总体而言,METIS 为遗传和代谢网络的便捷优化和原型设计开辟了道路,可根据用户体验、实验设置和实验室设施进行可定制的调整。

该研究以「A versatile active learning workflow for optimization of genetic and metabolic networks」为题,于 2022 年 7 月 5 日发布在《Nature Communications》。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

生物系统的理解和工程需要实用和有效的实验和计算方法。机器学习算法对不同生物系统的研究、设计和优化具有很大的前景,包括基因组学研究、蛋白质、酶和代谢工程、CRISPR 序列和蛋白质的预测和优化,以及复杂的遗传电路设计和优化。然而,应用机器学习受到对信息学专业知识和大型用户标记数据集的需求的限制,这些数据集通常是时间、劳动力和成本密集型的。

主动学习,有时也称为最优实验设计,是一种机器学习,它在接受过先前结果的训练后以交互方式建议下一组实验。这使得主动学习对湿实验室科学家很有价值,尤其是在处理数量有限的用户标记数据时。主动学习方法减少了实验时间、劳动力和成本,并已用于细胞成像、系统生物学、生物化学和合成生物学。尽管有这些例子,但为实验生物学家应用主动学习方法的困难,是缺乏可定制的程序和工作流程。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

图示:评估不同算法的性能并用最少的数据点测试主动学习工作流程。(来源:论文)

马克斯普朗克陆地微生物研究所的研究人员描述了 METIS,这是一种模块化和多功能的主动机器学习工作流程,用于以最少的数据集对生物目标函数(取决于多个因素的输出/目标)进行数据驱动优化。请注意,用于优化系统的主动学习也称为贝叶斯优化。

该团队为没有编程经验的实验者创建了 METIS,使普通研究者可以使用个性化主动学习、实验设置、数据分析和可视化的整个过程,而无需任何高级计算技能。METIS 在 Google Colab 上运行,这是一个免费的在线平台,用于编写和执行为教育、数据科学和机器学习目的而开发的 Python 代码。开放平台不需要任何安装/注册和本地计算能力,可以通过相应笔记本的个人副本简单地使用。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

图示:METIS 的表示。(来源:论文)

为了定制工作流程,需要定义轮数和每轮实验,这应考虑不同因素的数量及其条件、目标函数的复杂性以及实验吞吐量。对于组合空间较大的应用,需要测试更多的组合。但是,如果实验数量受到成本、工作量或实验室设备的限制,则可以使用更多轮次的主动学习来补偿测试的总组合数量较少。要探索超出局部最优的系统,建议单独调整每一轮的探索与利用比率。用户应该将他们的知识应用到系统上,并隐式检查给定因素的值是否过早固定,这可能表明探索与利用的比率较低。

另一方面,较高的探索与利用比率可能会将模型推向随机组合,要求适当的平衡以实现探索抽样和利用抽样。根据该团队的经验,探索与利用的比率应逐渐降低到主动学习的后期,以使早期的探索组合更多,后期的利用更多,以实现有效优化。

工作流程可以从头开始(随机组合作为初始化)或使用现有数据集(然后执行主动学习)。尽管 METIS 被设计为一种主动学习方法(经过多轮实验),但它也可以用作只有一轮实验的经典机器学习。给定目标函数的因子可以是数值的或分类的。

METIS 为结果的可视化和分析提供了多种选择。最重要的是,它可以量化单个特征的重要性并提供许多信息最丰富的组合,这在 LacI 基因电路优化过程中都被证明特别有用。使用工作流程的这些功能,研究人员不仅可以改进电路的倍数变化,还可以发现并使用额外的实验验证系统进一步优化的主要瓶颈(即 LacI 表达质粒)。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

图示:METIS 在 LacI 基因回路优化中的应用。(来源:论文)

用纯化的 LacI 蛋白替换 LacI 表达质粒后,与原始系统相比,研究人员能够将电路改进两个数量级以上。值得注意的是,当切换到纯化 LacI 蛋白而不是 LacI 质粒时,不必重新进行主动学习。通过 METIS 生成的 20 个信息量最大的组合提供了一条通往优化的捷径。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

图示:METIS在转录和翻译单元优化中的应用。(来源:论文)

将 METIS 应用于不同的生物系统,该团队证明了该工作流程能够以最少的实验工作优化中到大型组合空间的几个复杂的遗传和代谢网络。例如,他们改进了 CETCH 循环系统,该系统包含 27 个可变因子,包括酶、辅因子和缓冲液成分,跨越约 1025 个不同条件的理论组合空间。在 8 轮主动学习中仅执行 1,000 次(一式三份)测定,就产生了一个生产力提高 10 倍、效率提高 6 倍的系统,代表了迄今为止描述的最有效的体外 CO2 固定系统。

AI 给予合成生物学「明智建议」,用最少的实验进行数据驱动的优化

图示:应用 METIS 优化体外 CO2 固定途径(CETCH 循环)。(来源:论文)

合成生物学中复杂遗传和代谢网络的开发和应用正在急剧增加,需要新的工具进行数据驱动分析。不仅需要有效的探索性方法来优化现有的生物网络,而且还需要设计和实现新的自然遗传和代谢网络,其中对整个组合空间进行采样实际上是不可能的。

除了使用最少的实验数据集进行网络优化之外,METIS 还可以同时帮助发现这些网络中迄今为止未知的交互和瓶颈,这为它们的假设驱动改进铺平了道路。在 LacI 电路优化中,该团队还展示了如何识别、定位和最终克服瓶颈(即资源竞争),这使研究人员能够将系统改进 34 倍。同样,在 CETCH 循环优化期间,他们将 Mco、Hbs 和 B12 确定为限制因素。

未来可以设想 METIS 工作流的许多应用,包括优化生长介质或生化分析、遗传电路,从简单的转录和翻译单元到更复杂的设计,或在体内和体外引导蛋白质、酶和代谢途径的工程。

METIS 凭借其便利性和易于访问性,以高效、标准化和系统化的方式为这些系统的研究、原型设计、(组合)工程和优化打开了大门。

论文链接:https://www.nature.com/articles/s41467-022-31245-z

相关报道:https://techxplore.com/news/2022-07-ai-wise-synthetic-biology.html

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章