返回主页

Benign Shortcut for Debiasing: Fair Visual Recognition via Intervention with Shortcut Features(良性捷径用于去偏见:对捷径特征进行干预来实现公平视觉识别)

近年来,机器学习算法取得了显著的进展,并越来越多地应用于敏感和高风险的环境中做出重要决策,例如招聘、刑事司法和银行业务。然而,有越来越多的证据表明,最先进的模型可能会基于性别、种族等有偏见的属性进行歧视,例如,流行的COMPAS算法用于累犯预测,发现其对黑人囚犯有偏见,容易做出不公平的判决。这些伦理问题引起了大量关于公平机器学习的研究。

最近的研究表明,偏见特征(例如,性别特征)的学习是不公平性的主要原因之一。如图1的第一行所示,标准学习的模型继承了训练数据中的不公平/有偏见的模式,因此学习到的决策规则依赖于目标特征和偏见特征。这种认识催生了许多方法来防止模型学习偏见特征。最直接的方法是从训练数据中删除偏见特征(例如,直接删除所有关于性别的信息)。然而,这只适用于结构化数据,因为在其他类型的数据(如图像)中,目标特征和偏见特征紧密交织在一起。更典型的偏见缓解方法采用基于对抗的正则化项来删除模型中编码的偏见特征。以对抗去偏见为例,模型被对抗地训练以区分目标属性标签,并不能区分偏见属性标签。这些方法的目标是从模型表示中移除有偏见的信息,并增强对偏见属性的不变性。然而,由于目标特征(例如,护士)和偏见特征(例如,女性)在真实世界的训练数据中有强烈的相关性,目标任务的优化不可避免地阻碍了去偏见操作移除偏见特征。这种目标任务和去偏见之间的不兼容导致了有限的去偏见效果,也就是说模型中编码的偏见特征无法被完全移除(见图1的第二行)。

“如何更好地去偏见”这一问题因此转化为如何避免目标任务和去偏见之间的不兼容,以进一步提高去偏见效果。这种不兼容是因为与偏见属性相关的信息的学习有利于目标任务的优化,因此,解决这个问题的一个关键前提是满足目标任务对有偏见信息的学习需求。我们注意到机器学习中存在一个被称为捷径的缺陷,即模型依赖于训练集中存在但测试集中不存在的易于学习的偶然特征,而忽略了其他特征。受此启发,我们提出了Shortcut Debiasing,它可以消除模型的偏见,而不受目标任务学习的阻碍。如图1所示,Shortcut Debiasing的关键思想是构造捷径解决方案,利用人工捷径特征来替代偏见特征在目标任务优化中的作用。通过在满足目标任务对有偏见信息需求的同时消除偏见特征,打破了目标任务和去偏见之间的不兼容。得益于人工捷径特征是手动可控的,在推理时,我们可以根据因果干预用干预特征替换样本的捷径特征,以消除捷径特征造成的不公平。