用MaskCLIP进行开放式词汇泛化分割

在本文中,我们处理了一个新的计算机视觉任务--开放词汇泛化分割,其目的是对基于文本描述的任意类别进行泛化分割(背景语义标签+前景实例分割)。.我们首先建立一个没有微调或蒸馏的基线方法,以利用现有CLIP模型的知识。.我们开发了一种新的方法,MaskCLIP,这是一种基于转化器的方法,使用基于ViT的CLIP主干的掩码查询来进行语义分割和物体实例分割。.在这里,我们设计了一个相对掩码注意(RMA)模块,将分段作为ViT CLIP模型的额外标记来考虑。.MaskCLIP学会有效地利用预先训练好的密集/局部CLIP特征,避免了裁剪图像斑块和从外部CLIP图像模型计算特征的耗时操作。.我们在ADE20K和PASCAL数据集上获得了令人鼓舞的开放性词汇全景分割结果和开放性词汇语义分割的最先进结果。.维修为MaskCLIP提供的定性插图,可自定义类别.

《Open-Vocabulary Panoptic Segmentation with MaskCLIP》

论文地址:http://arxiv.org/abs/2208.08984v1

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章