重磅免费数据集！LAION-400-Million免费的4亿条图像-文本对数据

科技 09-14 来源：数据学习DataLearner

AION全称Large-scale Artificial Intelligence Open Network，是一家非营利组织，成员来自世界各地，旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI，100%非盈利且100%Free。在九月份，他们公布了一个全新的图像-文本对（image-text pair）数据集，叫LAION-400M。该数据集包含4亿条数据。

LAION-400M数据集完全公开、自由访问。

需要注意的是，此大规模数据集是非精心策划的。它是为了研究目的而构建的，目的是为广泛的研究人员和其他感兴趣的社区提供更大规模的测试模型的训练，而不是用于任何现实世界的生产或应用。

他们使用OpenAI的CLIP过滤了LAION-400M数据集中的所有图像和文本，方法是计算文本和图像embedding之间的余弦相似性，并删除相似性低于0.3的图像和文本。0.3的阈值是通过人类评估确定的，似乎是估计语义图像-文本-内容匹配的一个很好的启发式方法。

图像-文本对是从Common Crawl（https://commoncrawl.org/ ）数据转储中提取的，来自2014年至2021年期间爬网的随机网页。

数据集下载地址：重磅数据集公布！LAION-400-Million Open Dataset免费的4亿条图像-文本对数据（ LAION-400M：English (image, text) pairs） | 数据学习者官方网站(Datalearner)

不过需要注意的是，LAION-400M剔除了一部分非法的NSFW（Not safe for work，就是色情图像之类）图片，但是依然还是有部分NSFW的图片存在。

LAION-400M数据集统计

LAION-400M以及未来更大规模的数据集，事实上，是数据集的数据集。例如，我们可以按图像大小将其过滤到较小的数据集中，如下所示：

样本选择条件	包含的样本数
不重复样本数	4.13亿
高度或宽度>= 1024的样本数	2600万
高宽>= 1024的样本数	960万
高度或宽度>= 512的样本数	1.12亿
高宽>= 512的样本数	6700万
高度或宽度>= 256的样本数	2.68亿
高宽>= 256的样本数	2.11亿