日期:
来源:DeepTech深科技收集编辑:罗以
2017 年,谷歌公司推出 Transformer 模型,这是是一种采用自注意力机制的深度学习模型,并促成了当下大火的 GPT 等预训练模型的发展。自诞生以来,Transformer 已被用于多个领域,生命科学领域当然也不例外。前不久,北京大学定量生物学中心/生命科学联合中心韩敬东教授将 Transformer 引入单细胞转录组分析领域中,解决了领域内长期以来缺乏可解释性的难题。研究中,他们研发出一款名为 TOSICA 的模型,数十分钟即可完成百万级数据的细胞类型注释,它能在不提供批次信息的前提下,准确且快速地学习并参考数据集中的分类标准,从而针对新数据自动地进行细胞类型标注,并能提供一个弱批次效应的、可解释的隐变量低维空间,以及建立高分辨率的细胞低维表示。对于单细胞分析领域一直缺少的可解性,这款模型提供了一种新的技术支持。目前,TOSICA 模型的软件包与指导手册均已开源(https://github.com/JackieHanLab/TOSICA)。(来源:Nature Communications)论文评审专家表示:“(作者们)在一个已经相对拥挤的领域仍然做出了改进。其所采用的注意力机制相当有趣,且提供了多数深度学习模型不能提供的可解释性。”并认为这款模型“将 Transformer 带入了单细胞分析领域,(是一个)非常有雄心并且意义重大的研究”。图 | 相关论文(来源:Nature Communications)韩敬东教授担任通讯作者,该校生命科学联合中心 2018 级博士研究生陈嘉伟、以及 2021 级博士研究生徐浩为共同一作。(来源:Nature Communications)在应用前景上,TOSICA 模型可被直接推广到科研人员手中,将他们从人工标注中解放出来,同时还能够给出多层次的生物学解释。另外,通过效仿 Transformer 在其他领域的应用,借助 TOSICA 模型也可以共建一个模型分享社区,也可以让具备硬件能力的实验室来对模型进行训练,并将训练之后的模型共享给其他课题组,从而用于直接预测。同时,TOSICA 模型在方便学界交流的同时,还有利于分类标准的统一。(来源:Nature Communications)地球上一切的生命活动,由中心法则的信息传递决定。而测序——是一项可以帮助人类获取体内信息的技术。该技术也催生了 20 世纪最伟大的三项科学计划之一的“人类基因组计划”。2009 年,单细胞测序技术的面世,让人类得以在单个细胞水平上观察生命活动。和测序数据相伴相生的,则是各种分析工具。在单细胞转录组测序的发展早期,测序通量一般只有数百个,最多能有上千个细胞,每个细胞里有数千甚至上万的基因表达量信息。可以说,一个细胞就是一个高维的基因空间中的点,而每一个维度代表着一种基因。在传统分析方法里,人们先是利用线性和非线性的降维手段,将高维信息降低到低维空间,然后在低维空间中对细胞进行聚类。这时,相似的细胞会被归为一类。然后,再通过比较类与类之间的差异基因,借此得到不同细胞簇的标志基因,最后结合已有知识对细胞身份进行识别。为了方便使用,学界将上述流程进行集成和标准化,推出了两大著名软件包:Seurat 和 Scanpy。使用时只需改动一些参数,就能轻易得到分析结果。不过,在操作时依然需要用户自己去结合相关知识,以便进行细胞身份的标注。图 | 传统单细胞转录组分析流程(来源:IET nanobiotechnology)伴随着测序能力的提升,新出现的数据集规模往往达到十万乃至百万级别。鉴于测序技术的普及,经常出现不同课题组开展相同实验的情况。这给当前的分析工具提出了如下挑战:其一,降维和聚类时所需的计算能力和运算时间,会随着分析数据量的增加而暴涨;其二,在相同的实验里,由于不同实验室设置的参数不同,得到的结果也不尽相同。尤其在一些细胞亚群的注释上,同一种细胞往往会出现被不同实验室“首次”发现的情况,并被冠以不同的名称。当没有权威专家参与时,人们很难对细胞类型进行命名,这既浪费了资源也不利于学界交流;其三,研究人员需要不断调整参数来获得最优结果,而这会消耗大量的人力物力;其四,受制于当前的技术现状,由于人为操作或机器原因,不同数据集之间可能存在差异,并经常和和生物学差异混合在一起,这也被称作批次效应。因此,在使用传统分析方法时,需要通过额外操作来去除批次效应,只有这样才能集合不同数据并进行比较。但是,在去除批次效应时,也会受到实验人员自身经验和偏好的影响,因此必须平衡好批次效应的去除、以及真实生物学差异的保留。但从本质来看,细胞类型注释是一个简单的重复性劳动。如果能将科研人员从这一苦差事中解救出来,就能让他们把精力用在更重要的事上。在协助人类的生产生活上,人工智能是被运用最多的技术之一。从机器学习、深度学习,学界已经进行了诸多尝试。起初,科学家尝试使用支持向量机、决策树这些传统的机器学习算法来做分类问题,并在前些年取得了不错的成果。后来,学界尝试通过计算新数据和已有数据之间的相似性,来辅助细胞类型的注释。很多方法直到今天依然凑效。但是,随着神经网络的兴起,研究者们也开始思考,神经网络能否为单细胞分析领域注入新的活力?在当前的单细胞分析领域里,比较主流的神经网络仍然是 Autoencoder 框架,它是一种非常“聪明”的自监督降维算法,可以将高维原始表达逐步经过非线性的特征抽取(Encoder 过程),实现在低维隐变量空间里的表达,然后再根据低维空间信息经过生成式模型(Decoder 过程),借此去还原原来的高维空间。这时,将新数据的低维空间和参考数据的低维空间加以对齐,即可观察未知细胞周围参考细胞的身份,进而就能预测未知细胞的身份。图 | Autoencoder 原理示意:X 是原始输入,z 是富集信息降维后的隐变量,X~是经过 Autoencoder 后生成的和原始输入维度一致的输出,且尽可能与原始输入一致(来源:韩敬东课题组)首先,在模型的 Encoder 过程中,信息被以非线性的方式进行整合。所以,在最终的低维隐变量空间,每一个维度都有可能接收来自全部原始维度的信息。然而,这些信息的来源并不明确,所以隐变量空间并不具备可解释性,这也是目前大多数单细胞分析工具始终无法克服的难题。其次,隐变量空间包含的信息必须足够完整,以便能对原始信息进行还原。所以,隐变量空间其实和原始空间一样,包括了生物学信息和批次效应信息。然而,理想的隐变量空间并不应该包含批次信息,只有这样才够对齐不同批次。因此,多数 Autoencoder 模型必须提供批次信息,才能让模型学会主动忽略批次信息。再次,理论来讲把模型做大、做深,将有利于算力的提升,但这会增加对于硬件的要求,也可能会抬高计算成本。基于此,在调研各类模型框架之后,该团队发现生物学界对于 Transformer 并不陌生,但是单细胞领域至今仍未涉足 Transformer。Transformer 基于多头注意力机制,最早出现在自然语言处理领域,它能通过注意力来获取全局信息。在自然语言处理领域中,每个句子由多个词的 Token 进行表示,Transformer 通过学习 Token 之间的“注意力”(可以理解为一种相关性),来学习句子的结构和语义。而后,Transformer 又进军计算机视觉领域(Computer Vision,CV),大有和 CV 领域传统的卷积神经网络“分庭抗礼”之势态。再后,它甚至席卷到生物界,比如 AlphaFold2 的出现就惊艳了一众结构生物学家。那么,韩敬东课题组为什么会关注 Transformer?事实上在 CV 领域,也存在分类的问题。因此,科学家们为 Transformer 增加了 Class Token(CLS)。在使用时,CLS 和代表某一张图片的 Patch Token 一起送入模型,并在处理过程中掌握图片信息,这些信息最终被用于分类。于此同时人们发现,提取 CLS 对于其他 Token 的注意力之后,并将其展示在图片上,就能勾勒出到底图片中的哪些区域,对于分类是最重要的。图 | Vision Transformer 注意力可视化(来源:https://arxiv.org/abs/2010.11929)并且,当 Transformer 在处理对象时,用于表示对象的特征维度,始终是不变的。所以,一旦对较低维度的细胞表征予以确认,在 Transformer 的处理过程中,对象的维度就不会再改变。并且对于分类来说,只要提取 CLS 的注意力,就能找出那些重要的特征维度。相比基因所能提供的信息,生物学通路和调节子可以提供层次更高的、且具有生物学意义的信息。在降维的编码过程中,比起基于全连接网络的模型,生物学通路和调节子所提供的信息,会让模型更加稀疏、更加有效。基于此,该团队设计了一个 Mask Embed 层,先使用通路或其他生物学集合,来提取高维基因空间中的信息,即从使用数万个基因来表示细胞、变成使用数百个通路(Pathway Token)表示细胞,而后送入 Transformer 训练成为一个分类模型,提取 CLS 对于 Pathway Token 的注意力并以此作为细胞的低维表示。事实上,该团队原本计划开发一款基于细胞类型的单细胞衰老时钟,期间需要整合一些公共数据库。但是,由于队列采样的时间不统一,经常要在每次出现新数据之后,再将所有数据全部整合、从头分析,耗时且费力。为此,他们尝试了不少市面上的工具,然而效果却都不尽人意。期间,课题组也发现 Autoencoder 在这一领域隐隐占据主导地位。他们心想不如自己开发一个工具。这时,组里学生就开始向计算机专家们广泛“取经”。出发点主要有两个:避开 Autoencoder、以及提供可解释性。当这项研究于 2021 年立项时,Transformer 已经面世 4 年,Vision Transformer 才刚出现 1 年,后者的关注度还不是很高。几名实验室成员看到 Attention map 那张图的时候都很激动,一时间觉得迎来了曙光。而关键问题在于如何进行降维处理——毕竟很难保留全部的基因维度。不过,他们还是做出了第一版 TOSICA 模型,结果发现就算模型做得不够大,也能实现不错的准确性。而后,该团队又利用专家知识来设计 Mask Embed 层,不仅进一步提高了准确性,且在可解释性上更加具有生物学意义。(来源:Nature Communications)在模型的命名上,课题组原本想借鉴 Transformer 在其他领域的命名方式,例如在视觉领域就叫做 Vision Transformer(ViT)。那么,在单细胞领域是不是可以叫 scTrans?鉴于本次模型可以执行细胞类型注释的 Transfer 功能,名字中带上“Trans”也显得十分契合。但是,他们觉得还是不够朗朗上口,也不像 Seurat 听起来富有艺术性——Seurat 的开发者认为 Seurat 在绘制单细胞聚类图上的小点时,和法国点彩画家乔治·修拉(Georges Seurat)用点作画时一样美妙,于是用这位画家的名字来给模型命名。考虑到此,韩敬东课题组在给模型命名时,也想向人名、或向某些具有现实意义的双关语方向靠拢,然而一直没有好的想法。后来,他们在总结工具优点、以及拟定论文标题时,发现把标题中每一个单词的首字母单拎出来,即可组成 TOSICA(Transformer for One Stop Interpretable Cell type Annotation),这听起来很像一个人名。“然后上网一查,在 Urban dictionary 上真的有这个词,译为‘星球上最美好的生物’。What a coincidence!这个名字就这么敲定了。”韩敬东说。图 | TOSICA 网络解释(来源:urbandictionary)另据悉,从 Transformer 在文本-图像领域的成果来看,它在处理多模态任务上的优势已经得到了充分证明。未来,该团队也考虑将 TOSICA 模型应用到单细胞多组学任务上。另外,其还将借鉴一些优秀的自监督学习训练方法,让 TOSICA 模型无需对标签进行学习。在可解释性上,他们希望 TOSICA 模型可以主动优化专家知识,以期为学界带来新的生物学见解。1.Chen, J., Xu, H., Tao, W.et al. Transformer for one stop interpretable cell type annotation. Nat Commun 14, 223 (2023). https://doi.org/10.1038/s41467-023-35923-4