机器之心报道
机器之心编辑部
本文中 , 来自南大、港大、英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架 , 不仅为语义分割与实例分割提供了统一的 mask 预测工作流程 , 而且使得全景分割 pipeline 更加简洁高效 。语义分割和实例分割是两个重要且相互关联的视觉问题 , 它们之间的潜在联系使得全景分割可以统一这两个任务 。 在全景分割中 , 图像信息被分成两类:Things 和 Stuff 。 其中 Things 是可数的实例 (例如 , 人、汽车、自行车) , 每个实例都有一个惟一的 id , 以区别于其他实例 。 Stuff 是指无定形和不可数的区域 (如天空、草原和雪) , 没有实例 id 。
Things 和 Stuff 之间的差异也导致了不同的处理方式 。 许多工作只是将全景分割分解为 Things 实例分割任务和 Stuff 语义分割任务 。 然而 , 这种分离处理策略会增加模型的复杂性和不必要的工件 。 虽然一些研究考虑自底向上的实例分割方法 , 但这种方法仍然保持了类似的分离策略 。 还有一些方法在处理 Things 和 Stuff 任务时 , 试图通过在一个统一的框架中来简化全景分割 pipeline 来实现 。
来自南京大学、香港大学、英伟达等机构的研究者提出了 Panoptic SegFormer , 这是一个使用 Transformer 进行端到端全景分割的通用框架 。 该方法扩展了 Deformable DETR , 并为 Things 和 Stuff 提供了统一的 mask 预测工作流程 , 使全景分割 pipeline 简洁高效 。
文章图片
论文地址:https://arxiv.org/pdf/2109.03814v1.pdf
该研究使用 ResNet-50 作为网络主干 , 在 COCO test-dev 拆分中实现了 50.0% 的 PQ , 在无需附属条件(bells and whistles)的情况下 , 结果显著优于 SOTA 方法 。 此外 , 使用性能更强的 PVTv2-B5 作为网络主干 , Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以单尺度输入实现了 54.1%PQ 和 54.4%PQ 的新记录 。
论文作者之一、英伟达研究院高级研究科学家 Zhiding Yu 表示:「目前 , Panoptic SegFormer 在 COCO 2020 全景分割挑战赛中位列第一名 。 」
文章图片
COCO 全景分割挑战赛地址:https://competitions.codalab.org/competitions/19507#learn_the_details-overview
方法研究
如图 2 所示 , Panoptic SegFormer 由三个关键模块组成:transformer 编码器、位置解码器(location decoder)、掩码解码器(mask decoder) 。 其中:
(1)transformer 编码器用于细化主干给出的多尺度特征图;
(2)位置解码器用于捕获物体的位置线索;
推荐阅读
- 卡多|中国移动被迫终止加拿大业务:所有服务停止,2022年1月5日起停运
- China|中国移动加拿大子公司宣布停止运营其CMLink业务
- 该公司|中国移动加拿大子公司 CMLink 宣布于 2022年1 月 5 日起停止运营
- 最新消息|别无选择?担心人手短缺,加拿大一省允许新冠阳性员工继续上班
- 人物|车顶维权女车主曝光庭审内容:特斯拉拿不出任何实锤证据
- 栏目|神评 | 凡是拿iPhone对比的一律视为不如苹果
- 模型|经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文
- 通信运营商|年底运营商积分过期 不如拿来薅话费
- 技术|从千行百业到千家万户,腾讯拿自己的AI能力探出了一条新路
- 安全|CISA发布Apache Log4j漏洞扫描器 以筛查易受攻击的应用实例