服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种

日期: 来源:量子位收集编辑:量子位

允中 发自 凹非寺量子位 | 公众号 QbitAI

视觉领域的GPT-3时刻,真的要来了?

Meta分割一切的SAM(SegmentAnything Model)刚炸完场,几乎同时,国内的智源研究院视觉团队也提出了通用分割模型SegGPT——

Segment Everything in Context,首个利用视觉上下文完成各种分割任务的通用视觉模型。

就像这样,在一张画面中标注出彩虹,就能批量分割其他画面中的彩虹。

和 SAM 相比,视觉模型的 In-context 能力是最大差异点 :

SegGPT “一通百通”:可使用一个或几个示例图片和对应的掩码即可分割大量测试图片。用户在画面上标注识别一类物体,即可批量化识别分割出其他所有同类物体,无论是在当前画面还是其他画面或视频环境中。SAM“一触即通”:通过一个点、边界框或一句话,在待预测图片上给出交互提示,识别分割画面上的指定物体。这也就意味着,SAM的精细标注能力,与SegGPT的批量化标注分割能力,还能进一步相结合,产生全新的CV应用。

具体而言,SegGPT 是智源通用视觉模型 Painter 的衍生模型,针对分割一切物体的目标做出优化。

SegGPT 训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有以下优势能力:

通用能力:SegGPT具有上下文推理能力,模型能够根据上下文(prompt)中提供掩码,对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。灵活推理能力:支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。更多案例展示

作者在广泛的任务上对SegGPT进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了SegGPT在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

用画笔大致圈出行星环带(左图),在预测图中准确输出目标图像中的行星环带(右图)。

SegGPT能够根据用户提供的宇航员头盔掩码这一上下文(左图),在新的图片中预测出对应的宇航员头盔区域(右图)。

训练方法

SegGPT将不同的分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说,SegGPT的训练被定义为一个上下文着色问题,对于每个数据样本都有随机的颜色映射。

目标是根据上下文完成各种任务,而不是依赖于特定的颜色。训练后,SegGPT可以通过上下文推理在图像或视频中执行任意分割任务,例如实例、类别、零部件、轮廓、文本等。

论文地址:https://arxiv.org/abs/2211.07636

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

相关阅读

  • ChatGPT 能自己跑代码了!

  • 公众号关注 “GitHubDaily”设为 “星标”,每天带你逛 GitHub!time leap, sci-fi, photorealistic, --niji 5 --ar 3:2 --s 1000自 ChatGPT 发布以来,各行各业对其能力探索的举
  • 它的名字,大有来头

  • 大模型“风乌”实现全球气象有效预报超10天记者4月8日从上海人工智能实验室获悉,该实验室联合中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所
  • 人工智能全民普及?我们这一代有可能赶上了!

  • 人工智能(AI)潮流正席卷全球。很多人对AI技术的突飞猛进感到担忧,一封呼吁暂停开发更强大AI的公开信日前获得包括马斯克在内的上千名业界人士的联署。也有很多人看好AI的发展。
  • 吴军:ChatGPT不算新技术革命,带不来什么新机会

  • 本文由半导体产业纵横(ID:ICVIEWS)转载自學人Scholar到了现在,被热炒的一个话题就是ChatGPT,有的人兴奋、有的人恐惧,还有我现在也看到在中国还有很多人在浑水摸鱼,试图再割大家一
  • 干掉中介层,这家公司或带来chiplet革命!

  • 来源:内容由半导体行业观察(ID:icbank)编译自forbes ,谢谢。人工智能终于迎来了它的 iPhone 时刻。ChatGPT 的推出引发了全行业的兴奋浪潮,人们大量关注大型预训练生成式人工智能
  • Nature|GPT-4被吹爆,科学家担忧溢屏!

  • 新智元报道 编辑:Britta【新智元导读】虽然GPT-4刚发布没多久,但科学家们对这项技术的担忧渐渐溢出。GPT-4的横空出世,既让人兴奋,又让人沮丧。尽管GPT-4拥有让人震惊的创造
  • 大模型“风乌”实现全球气象有效预报超10天

  • 记者4月8日从上海人工智能实验室获悉,该实验室联合中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所及上海中心气象台发布全球中期天气预报大模

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 武汉生物产业推介会在汉成功举办

  • 4月8日下午,大健康博览会产学研创新转化分论坛暨武汉生物产业推介会在汉成功举办。活动现场。通讯员供图正值2023年世界大健康博览会举办期间,千余家企业代表和一批大健康领域
  • 唐山开平:周六日变成便民服务日

  • 4月8日,群众在兴瑭二手车市场机动车登记服务站办理相关业务。何川 摄近年来,唐山市开平区坚持“便民、利民、为民”的服务理念,加强便民利民管理建设,打造特色亮点服务,持续提升