服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

日期: 来源:机器之心收集编辑:

机器之心报道

机器之心编辑部

学界或许没有业界的算力优势,但可以使用 self-instruct 方法直面大规模语言模型的挑战。


随着大规模语言模型的日渐强大,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。


近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。



  • 项目地址:https://github.com/tatsu-lab/stanford_alpaca

  • 试用地址:https://alpaca-ai-custom6.ngrok.io/


实验结果表明,Alpaca 的很多行为都与 text-davinci-003 类似。也就是说,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。


我们来看一下 Alpaca 模型是如何做到的。


训练方法


在学术界的预算条件下,训练高质量的指令遵循模型面临两个重要挑战:强大的预训练语言模型和高质量的指令遵循数据。


Meta 最近发布的 LLaMA 系列模型解决了第一个挑战。对于第二个挑战,2022 年底的 self-instruct 论文提出使用现有的强大语言模型自动生成指令数据。


论文地址:https://arxiv.org/abs/2212.10560


按照这种方法,Alpaca 使用 LLaMA 7B 模型的监督学习在 text-davinci-003 以 self-instruct 方式生成的 52K 指令遵循样本上进行微调。


self-instruct 方法概览。


Alpaca 的研究团队首先使用 self-instruct 种子集中的 175 个人工编写的指令输出(instruction-output)对,然后用该种子集作为 in-context 样本 prompt text-davinci-003 来生成更多指令。该研究通过简化生成 pipeline 改进了 self-instruct 方法,并显著降低了成本。



该研究共生成了 52K 个不同的指令和相应的输出作为训练数据,其中使用了 OpenAI 开放的 API,成本不到 500 美元。由于研究团队已将训练数据开源,对于想要复现 Alpaca 的开发者来说,这500美元就省下了。



有了这个指令遵循数据集,该研究下一步使用 Hugging Face 的训练框架微调了 LLaMA 模型,并利用了 FSDP(Fully Sharded Data Parallel)和混合精度训练等技术。成本方面,在 8 个 80GB A100 上微调一个 7B LLaMA 模型需要 3 个小时,这对大多数云计算提供商来说成本不到 100 美元。


模型评估


该研究使用来自 self-instruct 评估集的输入进行了人工评估,这项工作由 5 名研究团队的学生完成。该评估集由 self-instruct 论文的作者收集整理,涵盖了多种面向用户的 instruction,涉及电子邮件、社交媒体和办公工具。


在将 text-davinci-003 和 Alpaca 7B 进行 blind pairwise 比较之后,研究者发现这两个模型的性能非常相似,并且 Alpaca 略优于 text-davinci-003。


从参数规模的角度看,Alpaca 远远小于 text-davinci-003,移动端甚至也可以运行 7B 的轻量级语言模型。这让 Alpaca 意义非凡。


除了利用上述静态的 self-instruct 评估集,该研究还对 Alpaca 模型进行了交互测试,并发现 Alpaca 的表现通常与 text-davinci-003 相似。


下面是研究团队测试的两个例子,结果表明 Alpaca 的输出良好,并且反映出指令遵循数据集的一般风格。例如,Alpaca 输出的答案通常比 ChatGPT 更简洁,这和 text-davinci-003 类似。



模型缺陷


实验中,Alpaca 还表现出语言模型的几种常见缺陷,包括幻觉、毒性和刻板印象,其中幻觉问题尤其严重。


例如在下图中,Alpaca 回答坦桑尼亚的首都是达累斯萨拉姆,但实际上应该是多多马。



此外,Alpaca 能够生成一些看似良好却包含错误或虚假信息的文本,这可能会误导人们。


Alpaca 可能包含许多与底层语言模型和指令调优数据相关的其他缺陷。但是,Alpaca 对机器学习社区仍然具有重要意义,因为它提供了一个相对轻量级的模型,可作为研究重要缺陷的基础。斯坦福的研究团队还强调:Alpaca 只可用于学术研究,禁止任何商业用途。


接下来,斯坦福的研究团队会进一步探究 Alpaca 模型的安全性、理解能力、规模扩展等等。研究团队希望 Alpaca 能够促进指令遵循模型的发展。


原文链接:

https://crfm.stanford.edu/2023/03/13/alpaca.html



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

相关阅读

  • GPT-4 即将发布,带来什么产业边际变化?

  • 行业更新系列GPT-4即将发布,多模态趋势凸显。3月9日,微软德国CTO Andreas Braun 宣布GPT-4将在3.13-3.19日发布,将提供完全不同的可能性——如图像、视频。结合微软3月初发布多
  • 姬宝吐槽 | 我花钱买的的onlyfans流出4T图集

  • “服从调剂”可真是典中典对HR展开DDOS攻击“不给特殊待遇,就是歧视!”only fans 只有风扇,没毛病情侣去扮蝙蝠侠的父母会更有意思一些这就叫专业,这就叫默契看着像残疾人的解脱
  • Droplet | 液滴群聚效应改写经典冷凝传热模型

  • 文章导读强化冷凝传热被广泛运用于热量管理,余热回收,湿度控制,空气集水和海水淡化, 对于实现能源系统的高效化具有重要的意义。然而在过去近50年中,珠状冷凝模型一直强烈依赖于
  • 深挖 ChatGPT 原理,保姆级解说!

  • 最近,ChatGPT 几乎刷屏国内外各大社交媒体,它流畅对答、写剧本、写代码等各项功能令人惊奇,许多技术人也不断深究其强大的背后原理,本文作者就是其中之一。原文链接:https://www.

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 运营商要自研操作系统了吗?

  • 行业更新系列近期大家很关注运营商是不是会自研操作系统,作为行业信创的重要需求方,通信行业未来还会不会有操作系统的需求?对麒麟和统信的业绩有何影响?我们作了如下梳理。早在
  • GPT-4 即将发布,带来什么产业边际变化?

  • 行业更新系列GPT-4即将发布,多模态趋势凸显。3月9日,微软德国CTO Andreas Braun 宣布GPT-4将在3.13-3.19日发布,将提供完全不同的可能性——如图像、视频。结合微软3月初发布多