AION全称Large-scale Artificial Intelligence Open Network,是一家非营利组织,成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%Free。在九月份,他们公布了一个全新的图像-文本对(image-text pair)数据集,叫LAION-400M。该数据集包含4亿条数据。
LAION-400M数据集完全公开、自由访问。
需要注意的是,此大规模数据集是非精心策划的。它是为了研究目的而构建的,目的是为广泛的研究人员和其他感兴趣的社区提供更大规模的测试模型的训练,而不是用于任何现实世界的生产或应用。
他们使用OpenAI的CLIP过滤了LAION-400M数据集中的所有图像和文本,方法是计算文本和图像embedding之间的余弦相似性,并删除相似性低于0.3的图像和文本。0.3的阈值是通过人类评估确定的,似乎是估计语义图像-文本-内容匹配的一个很好的启发式方法。
图像-文本对是从Common Crawl(https://commoncrawl.org/ )数据转储中提取的,来自2014年至2021年期间爬网的随机网页。
不过需要注意的是,LAION-400M剔除了一部分非法的NSFW(Not safe for work,就是色情图像之类)图片,但是依然还是有部分NSFW的图片存在。
LAION-400M以及未来更大规模的数据集,事实上,是数据集的数据集。例如,我们可以按图像大小将其过滤到较小的数据集中,如下所示:
样本选择条件 | 包含的样本数 |
不重复样本数 | 4.13亿 |
高度或宽度>= 1024的样本数 | 2600万 |
高宽>= 1024的样本数 | 960万 |
高度或宽度>= 512的样本数 | 1.12亿 |
高宽>= 512的样本数 | 6700万 |
高度或宽度>= 256的样本数 | 2.68亿 |
高宽>= 256的样本数 | 2.11亿 |
通过使用KNN索引,我们可以按感兴趣的领域提取专门的数据集。它们的规模足以(或将)训练技术领域模型。
此外,也可以使用https://rom1504.github.io/clip-retrieval/ 来简单地可视化数据集。在那里,我们可以使用CLIP和knn索引在数据集之间搜索。
留言与评论(共有 0 条评论) “” |