实例|拿transformer做E2E全景分割,这个通用框架霸榜挑战赛

机器之心报道
机器之心编辑部

本文中 , 来自南大、港大、英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架 , 不仅为语义分割与实例分割提供了统一的 mask 预测工作流程 , 而且使得全景分割 pipeline 更加简洁高效 。
语义分割和实例分割是两个重要且相互关联的视觉问题 , 它们之间的潜在联系使得全景分割可以统一这两个任务 。 在全景分割中 , 图像信息被分成两类:Things 和 Stuff 。 其中 Things 是可数的实例 (例如 , 人、汽车、自行车) , 每个实例都有一个惟一的 id , 以区别于其他实例 。 Stuff 是指无定形和不可数的区域 (如天空、草原和雪) , 没有实例 id 。
Things 和 Stuff 之间的差异也导致了不同的处理方式 。 许多工作只是将全景分割分解为 Things 实例分割任务和 Stuff 语义分割任务 。 然而 , 这种分离处理策略会增加模型的复杂性和不必要的工件 。 虽然一些研究考虑自底向上的实例分割方法 , 但这种方法仍然保持了类似的分离策略 。 还有一些方法在处理 Things 和 Stuff 任务时 , 试图通过在一个统一的框架中来简化全景分割 pipeline 来实现 。
来自南京大学、香港大学、英伟达等机构的研究者提出了 Panoptic SegFormer , 这是一个使用 Transformer 进行端到端全景分割的通用框架 。 该方法扩展了 Deformable DETR , 并为 Things 和 Stuff 提供了统一的 mask 预测工作流程 , 使全景分割 pipeline 简洁高效 。

实例|拿transformer做E2E全景分割,这个通用框架霸榜挑战赛
文章图片

论文地址:https://arxiv.org/pdf/2109.03814v1.pdf
该研究使用 ResNet-50 作为网络主干 , 在 COCO test-dev 拆分中实现了 50.0% 的 PQ , 在无需附属条件(bells and whistles)的情况下 , 结果显著优于 SOTA 方法 。 此外 , 使用性能更强的 PVTv2-B5 作为网络主干 , Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以单尺度输入实现了 54.1%PQ 和 54.4%PQ 的新记录 。
论文作者之一、英伟达研究院高级研究科学家 Zhiding Yu 表示:「目前 , Panoptic SegFormer 在 COCO 2020 全景分割挑战赛中位列第一名 。 」

实例|拿transformer做E2E全景分割,这个通用框架霸榜挑战赛
文章图片

COCO 全景分割挑战赛地址:https://competitions.codalab.org/competitions/19507#learn_the_details-overview
方法研究
如图 2 所示 , Panoptic SegFormer 由三个关键模块组成:transformer 编码器、位置解码器(location decoder)、掩码解码器(mask decoder) 。 其中:
(1)transformer 编码器用于细化主干给出的多尺度特征图;
(2)位置解码器用于捕获物体的位置线索;

推荐阅读