服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Nat. Mach. Intell. 速递:大规模预训练语言模型的参数有效微调

日期: 来源:集智俱乐部收集编辑:集智编辑部


关键词:自然语言处理,预训练语言模型,参数微调



论文题目:Parameter-efficient fine-tuning of large-scale pre-trained language models
论文来源:Nature Machine Intelligence
论文链接:https://www.nature.com/articles/s42256-023-00626-4

随着预训练语言模型(pre-trained language model, PLM)和预训练-微调范式的盛行,人们不断发现更大的模型往往能产生更好的性能。然而,随着预训练语言模型规模的扩大,微调和存储所有参数的成本过高,使得模型的部署变得不可行。这就需要一个新的研究分支,专注于预训练语言模型的参数高效适应性,只优化一小部分模型参数,同时保持其余参数的固定,这能大大降低计算和存储成本。总的来说,这一研究领域表明大规模的模型,可以通过优化少量参数来有效激活。

尽管已经存在各种各样的设计,这篇文章用一个更一致和更容易理解的术语“delta-tuning”来讨论和分析这些方法,其中“delta” 是一个经常用来表示变化的数学符号,被借用来指训练中“改变”的那部分参数。这项研究正式描述了这个问题,并为现有的 delta-tuning 方法提出了一个统一的分类标准,以探索它们之间的关联和差异。delta-tuning 微调方法只更新预训练语言模型(PLM)的最后一层,而保持其他层不变。研究证明 delta-tuning 可以在不损失性能的情况下,显著减少微调的参数数量和计算成本。

作者还讨论了 delta-tuning 有效性的理论原则,并从优化和最优控制的角度对其进行解释。此外,作者还对 100 多个自然语言处理任务进行了全面的实证研究,并研究了 delta-tuning 的各个方面。在多个自然语言处理任务上,用 delta-tuning 微调的预训练语言模型可以达到和全模型微调相当或更好的效果。

图1. T5(BASE) 在不同训练步骤中采用不同增量调整方法(LR、AP 和 PF)和微调 (FT) 的性能。


图2. 每个delta-tuning方法和微调所消耗的GPU内存。

图3. delta-tuning 的分类标准。这里 Θ 表示预训练参数,Θ' 表示调整好的参数。



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅:




推荐阅读

1. 预训练语言模型如何学习事实性知识?兼论一种因果干预的评估方法
2. ChatGPT 为啥那么牛?语言模型足够大就会涌现出新能力
3. 理解大语言模型——10篇论文的简明清单
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6加入集智,一起复杂!



点击“阅读原文”,追踪复杂科学顶刊论文

相关阅读

  • 聚焦 | 中国离自己的ChatGPT还有多远?委员这样说

  • △人民政协网原创视频“在ChatGPT领域,中国有希望在2-3年内迎头赶上。”“在政府宏观指导下,全国一盘棋,齐心协力发展人工智能,实现赶超完全可能。”……两会期间,两位全国政协委
  • 最全汇总!研究生毕业论文常见的问题

  • 来源:中国知网;转自:社科学术圈学位论文设计包括选题、研究、撰写等阶段。一篇结构完整的学位论文包括标题、摘要、关键词、引言、正文、参考文献等部分,各部分的行文规范是衡量
  • 微软:多模态大模型GPT-4就在下周,撞车百度?

  • 机器之心报道编辑:小舟、泽南大家都在猜 GPT-4 发布时间,现在有人提前公布答案了,还是微软自己的 CTO。我们知道,引爆如今科技界军备竞赛的 ChatGPT 是在 GPT-3.5 上改进得来的,O
  • 视觉ChatGPT来了,微软发布,代码已开源

  • 机器之心报道编辑:陈萍、小舟Visual ChatGPT 将 ChatGPT 和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。近年来,大型语言模型(LLM)取得了令人难以置信的进

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 未来科技城这个地方凭什么频频“出圈”?

  • 广告合作电话:0571-88660159、15394283432(微信)忆江南,让人忆起的最多的,是杭州。站在2023的杭州,西湖依旧潋滟,一大批数字经济龙头集聚,如钱塘潮涌,成为这座千年名城走向世界的新名
  • 今晚抵达余杭,气温暴跌至1℃?

  • 广告合作电话:0571-88660159、15394283432(微信)天气最新速报!今晚即将抵达余杭,气温将上演大逆转!昨天在阳光的“呵护”下,最高气温“狂飙”至30度,好多小伙伴都直接跳过了春装,短袖