AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架_互联网资讯_

机器之心专栏

机器之心编纂部

本文介绍被机器进修顶级国际会议 AAAI 2023 领受的论文《ImPRoving Training and Inference of Face Recognition Models via Random TemPErature Scaling》。论文立异性地从概率视角动身，对分类丧失函数中的温度调理参数和分类不确定度的内在关系停止阐发，提醒了分类丧失函数的温度调理因子是从命 Gumbel 散布的不确定度变量的标准系数。从而提出一个新的被叫做 RTS 的训练框架对特征抽取的可靠性停止建模。基于 RTS 训练框架来训练更可靠的识别模子，使训练过程愈加不变，并在摆设时供给一个对样本不确定度的度量分值，以拒识高不确定的样本，帮忙成立更鲁棒的视觉识别系统。大量的尝试表白 RTS 能够不变训练并输出不确定度度量值来成立鲁棒的视觉识别系统。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第1张

论文地址：https://arxiv.org/abs/2212.01015

开源模子：https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts/summary

布景

不确定性问题：视觉识别系统在实在场景中凡是会碰到多种干扰。例如：遮挡（粉饰物或者复杂的前景），成像模糊（焦点模糊或者运动模糊），极端光照（过曝或者曝光不敷等）。能够把那些干扰都归纳为噪声的影响，此外还有误检图片，凡是有猫脸或狗脸等，那些误检测的数据被称做 out-of-distribution（OOD）数据。关于视觉识别来说，上述的噪声和 OOD 数据都构成了不确定性的来源，遭到影响的样本会在基于深度模子提取的特征上叠加不确定性，给视觉识别系统带来干扰。例如若底库图被不确定干扰的样本污染，会构成 “特征黑洞”，给视觉识别系统带来隐患。因而需要对表征可靠性停止建模。

表征可靠性建模相关工做

传统多模子解法

传统的在视觉识别链路中对可靠性停止控造的办法是通过一个独立的量量模子完成的。典型的图像量量建模的体例如下：

1、搜集标注数据停止详细影响量量因素的标注，好比明晰度若何，有无遮挡以及姿势若何。

2、按照影响因素的标注 label 停止和 1～10 量量分的映射，分数越高对应的量量越好，详细示例能够参考下图左侧示例。

3、由前两步操做得到量量分的标注后停止有序回归训练，从而在摆设阶段对量量分停止预测，如下图右侧示例。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第2张

独立量量模子的计划在视觉识此外链路中需引入新的模子，且训练依赖标注信息。

DUL

不确定度建模的办法有「Data Uncertainty Learning in Face Recognition」，把特征建模为高斯散布均值和方差的加和，把包罗不确定性的特征送入之后的分类器停止训练。从而能够在摆设阶段得到和图像量量相关的不确定度的分值。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第3张

DUL 用加和的体例描述不确定度，噪声估量值的标准也和某一类数据的特征散布慎密水平相关。若是数据散布是比力慎密的，那么 DUL 估量出的噪声的标准也是比力小的。在 OOD 范畴的工做指出，数据散布的密度关于 OOD 识别来说不是一个好的度量体例。

GODIN

OOD 范畴的工做「Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data」用结合概率散布的形式处置 OOD 数据，别离用两个独立的分收 h(x) 和 g(x) 估量分类概率值和温度调理值。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第4张

因为温度值被建模为概率值，范畴被限造在 0-1 之间，对温度没有停止更好的建模。

办法

针对上述问题和相关工做，本文从概率视角动身，对分类丧失函数中的温度调理因子和不确定度之间的联系关系停止阐发，提出了 RTS 训练框架。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第5张

基于概率视角对温度调理因子停止阐发

起首对温度调理因子和不确定度之间的联系关系停止阐发。

设不确定度是契合尺度 Gumbel 散布的随机变量，则概率密度函数能够写为

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第6张

,累积散布函数为

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第7张

，分类为 k 类的概率值为：

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第8张

将

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第9张

带入上式能够得到：

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第10张

能够看到，分类为 k 类的概率值就是契合 softmax 函数的分值，同时我们能够用一个 t 来调理不确定度的标准，即

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第11张

，则契合尺度 Gumbel 散布：

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第12张

能够看到，此时分类为 k 类的概率值就是契合带温度调理值为 t 的 softmax 函数的分值。

对温度停止建模

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第13张

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第14张

对温度建模的约束在训练顶用下述的正则项实现

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第15张

训练体例

整体的算法整理为：

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第16张

更多详细的阐发和理论证明请拜见论文。

成果

在训练阶段，训练数据只包罗 face 训练数据的。误检测的猫脸和狗脸的 OOD 数据，用来在测试时验证对 OOD 数据的识别效果和测试申明 OOD 样本不确定度在训练过程中差别阶段的动态过程。

训练阶段

我们画出了 in-distribution 数据（face）和 out-of-distribution 数据（误检测为 face 的猫脸和狗脸）在差别 epoch 数的不确定度分值，从下图能够看到初始阶段所有样本的不确定度分值都散布在较大值的附近，跟着训练的停止，OOD 样本的不确定性逐步升高，face 数据的不确定度逐步降低，且 face 量量越好，不确定度就越低。通过设置阈值能够区分 ID 数据和 OOD 数据，且通过不确定度的分值反响图像量量。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第17张

为了申明在训练阶段对噪声训练数据的鲁棒性。本文对训练集施加差别比例的噪声，基于差别比例噪声训练数据的模子识别效果如下表，能够看到 RTS 对基于噪声数据的训练也能得到较好的识别效果。

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第18张

摆设阶段

下图表白在摆设阶段 RTS 框架得到的不确定度分值和 face 量量呈现高相关性

AAAI 2023 Oral | 图像质量堪忧干扰视觉识别，达摩院提出更鲁棒框架第19张

同时在 benchmark 上绘造了去掉低量量样本之后的错误婚配曲线。按照得到的不确定度分值，根据不确定度从高到底的挨次把 benchmark 中不确定度较高的样本去除，然后绘造剩下样本的错误婚配曲线。从下图能够看到，跟着过滤的不确定性较高的样本越多，错误婚配是越少的，而去掉不异数量的不确定性样本时，RTS 的错误婚配更少。