摘要

传统方法中是将异常分割方法视为每个像素的分类问题，这种方法会导致物体边界存在高度不确定性和大量误报（假阳）。

Mask2Anomaly中有三个技术创新：

(资料图片仅供参考)

1.全局掩码注意力模块：分别关注前景和背景

2.掩码对比学习：最大化异常和已知类之间的间隔

3.掩码细化解决方案：减少假阳率

以往获得异常分数有两种办法，一是判断每个像素的不确定性，二是对比预测图与原图的像素差异。在像素上单独推理会产生噪声异常分数，从而导致大量误报和定位不良的异常。如下图1所示：

因为mask-transformer架构中的mask更注重于物体一致性（将交叉注意力机制限制在掩码区域内从而提取局部特征），所以可以将异常（比如图中的动物）作为整个实体捕捉，从而产生更加一致的异常分数和减少假阳性。

方法

为了能够在掩码级别进行分割任务，该文章重新审视了Maximum Softmax Probablity（MSP），一个之前用于像素AS中的经典方法，将其运用于mask-transformer生成的mask上。

将MSP简单地运用在最好的mask-transfromer之后，发现并不能产生良好结果，于是提出了几项技术贡献，以提高mask-transformer捕获异常并拒绝误报的能力：

结构角度：提出全局掩码注意力机制，使模型能够同时关注前景对象和背景，同时保留原始掩码注意力的效率。

训练角度：开发了一个掩码对比学习框架，利用来自额外的分布数据的异常掩码来最大化异常和已知类别之间的分离

推理角度：基于掩码的细化解决方案，通过分辨"things"与"stuff"的全局分割的过滤掩码，来减少假阳性（误判）。

将以上方法集成到了mask架构之上，将此解决方案称为Mask2Anomaly。是第一个在掩码级别检测异常的AS方法。Road Anomaly, Fishyscapes, Segment Me If You Can 在这几个异常分割数据集上都获得了最佳。

三个方面细节过多，简而言之：

1.结构上增加了mask-transformer，从mask角度分类，类别得分乘以mask。

2.因为只关注前景会丢失背景中的异常信息（图3），所以输入输出又多添加了背景部分，与前景结果直接相加。

3.加强异常类与正常类差距，使用外部数据集，学习到异常类。

4.对于边缘细线等方面不重要的信息，使用Mask Contrastive Learning，让预测图与细化mask进行哈达玛积，得到细化后的预测图。（图4）

细节待考究。

.13316

标签：