实例|拿transformer做E2E全景分割，这个通用框架霸榜挑战赛_位置|全景|研究|解码器|通用

机器之心报道
机器之心编辑部

本文中，来自南大、港大、英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架，不仅为语义分割与实例分割提供了统一的 mask 预测工作流程，而且使得全景分割 pipeline 更加简洁高效。

语义分割和实例分割是两个重要且相互关联的视觉问题，它们之间的潜在联系使得全景分割可以统一这两个任务。在全景分割中，图像信息被分成两类：Things 和 Stuff 。其中 Things 是可数的实例 (例如，人、汽车、自行车) ，每个实例都有一个惟一的 id ，以区别于其他实例。 Stuff 是指无定形和不可数的区域 (如天空、草原和雪) ，没有实例 id 。
Things 和 Stuff 之间的差异也导致了不同的处理方式。许多工作只是将全景分割分解为 Things 实例分割任务和 Stuff 语义分割任务。然而，这种分离处理策略会增加模型的复杂性和不必要的工件。虽然一些研究考虑自底向上的实例分割方法，但这种方法仍然保持了类似的分离策略。还有一些方法在处理 Things 和 Stuff 任务时，试图通过在一个统一的框架中来简化全景分割 pipeline 来实现。
来自南京大学、香港大学、英伟达等机构的研究者提出了 Panoptic SegFormer ，这是一个使用 Transformer 进行端到端全景分割的通用框架。该方法扩展了 Deformable DETR ，并为 Things 和 Stuff 提供了统一的 mask 预测工作流程，使全景分割 pipeline 简洁高效。

文章图片

论文地址：https://arxiv.org/pdf/2109.03814v1.pdf
该研究使用 ResNet-50 作为网络主干，在 COCO test-dev 拆分中实现了 50.0% 的 PQ ，在无需附属条件（bells and whistles）的情况下，结果显著优于 SOTA 方法。此外，使用性能更强的 PVTv2-B5 作为网络主干， Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以单尺度输入实现了 54.1%PQ 和 54.4%PQ 的新记录。
论文作者之一、英伟达研究院高级研究科学家 Zhiding Yu 表示：「目前， Panoptic SegFormer 在 COCO 2020 全景分割挑战赛中位列第一名。」

文章图片

COCO 全景分割挑战赛地址：https://competitions.codalab.org/competitions/19507#learn_the_details-overview
方法研究
如图 2 所示， Panoptic SegFormer 由三个关键模块组成：transformer 编码器、位置解码器（location decoder）、掩码解码器（mask decoder）。其中：
（1）transformer 编码器用于细化主干给出的多尺度特征图；
（2）位置解码器用于捕获物体的位置线索；

实例|拿transformer做E2E全景分割，这个通用框架霸榜挑战赛

推荐阅读

鸽子怎么辨别雌雄？

牛顿是什么家牛顿是什么家庭

豆角汤的做法和配方豆角汤的制作方法

平板玩王者荣耀为什么卡使用平板玩王者荣耀比较卡的原因

亚丹杰士醇珍藏干白葡萄酒的酒评是什么？

印度尼西亚发展热带种植园农业的优势条件你真的了解吗？

控制温室效应的有效措施

【布丁花果茶的功效】布丁花果茶的泡法及功效

怎样驾驶汽车不费油

怎样看待尼古拉斯凯奇成为烂片之王

聊城疫情防控消毒注意事项聊城最新防控疫情规定

凉拌秋葵的做法（私家菜）

我还有两年退休能用住房公积金贷款吗

mac mini是什么东西啊

编程语言排行榜你都学过哪些呢

婴儿感冒可以艾灸吗

如何品尝葡萄酒呢？

男女都可用的多风格伤感网名逃不出的未眠蓝鸟

冬天用冷水洗脸有什么好处呢

陆生野生动物有哪些陆生野生动物和水生野生动物