人工智能趋势

点击上方关注我们

谷歌3%的新代码是由语言模型编写的,DeepSpeed 用于使用万亿规模的专家混合进行推理,击败神经缩放定律,信息检索中的提示,语言模型级联等等。

虽然在过去的一个月里,跨时代意义的研究略有放缓,可能是因为夏季,但会议已经全速恢复:西雅图的 NAACL、马德里的 SIGIR 以及 ICML,我们首先要强调的其他学术新闻是

1 Google 分享了公司内部如何使用代码生成。TL;DR 几乎 3% 的新代码是通过接受来自语言模型的建议生成的,建议接受率约为 25%,编码迭代持续时间减少 6%,平均每次接受 21 个字符。


2 AI21 Labs 筹集了 6400 万美元,雄心勃勃地与 OpenAI 竞争。该公司由 Yoav Shoham、Ori Goshen 和 Amnon Shashua 创立并领导,将开发更复杂的语言模型。


3 Ian Goodfellow 离开苹果,加入了 Oriol Vinyals 领导下的 DeepMind,Andrej Karpathy 在领导了特斯拉的自动驾驶研究部门 5 年后离开了特斯拉。


4 Yolo-v7 发布了……两次!这里有一些名称冲突:这是新论文及其实现,还有已经开发了几个月的 YOLO-v7 项目,现在将重命名为更通用的 YOLOvn。


5 Nicola Richmond 是 Benevolent AI 的新任 AI 副总裁,该公司是一家将现代深度学习技术应用于药物发现的初创公司。


6 Meta AI 发布了 Sphere,这是一个网络规模的语料库,用于更好的知识密集型 NLP,这里是它的 GitHub 存储库。该数据集被策划为 CCNet 的一个子集,旨在加强自然语言处理和信息检索之间交叉点的研究。

研究

每个月我们都会分析最新的研究文献,并选择您应该知道的1篇不同的论文。

1.Beyond neural scaling laws: beating power law scaling via data pruning.

在这项工作中,修剪是指从训练数据集中删除训练数据样本,而不是修剪神经网络的权重。本文所提出的方法背后的直觉很简单:假设您可以将训练数据集中的样本从“易于学习”到模型的“难以学习”进行排序。一个典型的数据集将包含太多易于学习的样本——也就是说,更少的样本足以在这些样本上达到良好的性能——而难以学习的样本太少——这意味着你需要更多正确训练模型的示例。

解决这个问题的一种方法是扩大整个训练数据集,因为如果有足够的扩大规模——假设数据分布是均匀的——你最终将获得足够多的“难以学习”的样本。但这非常浪费。如果我们可以先验地管理一个训练数据集,该数据集包含易于学习和难以学习的样本之间的更好平衡,那会怎样?这就是本文要研究的内容。

这个问题可以形式化为试图找到一个修剪度量来分配给每个训练样本(其硬度的代理),然后将其用于将训练数据集修剪到所需的大小。他们在本文中提出了一个新指标,与需要标记数据的现有工作相当。

Source: https://arxiv.org/pdf/2206.14486.pd

然而,在我看来,最有趣的贡献是他们关于无标签数据修剪的部分。他们对预训练的 ImageNet 模型的嵌入执行 k-means 聚类,并将每个样本的硬度定义为其与最近质心的距离:直觉是易于学习的原型样本将最接近质心,而难以学习的样本将远离它们的聚类中心。结果显示如何在不牺牲性能的情况下修剪来自 ImageNet 的大约 20% 的训练样本。

公平地说,论文中的结果并不令人感到十分惊艳,但其背后的关键思想有可能在其他任务中有用,例如图像分割、语言建模或任何其他多模态数据集管理。

全网平台ID:「觉醒元宇宙AI」


发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章