团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型

机器之心专栏
机器之心编辑部

RRL的提出 , 不仅使得可解释规则模型能够适用于更大的数据规模和更广的应用场景 , 还为从业人员提供了一个更好的在模型复杂度和分类效果之间权衡的方式 。
现有的机器学习分类模型从性能和可解释性两个维度大致分为两类:以深度学习和集成学习(如随机森林、XGBoost)为代表的分类模型具有良好的分类性能 , 但模型复杂度高、可解释性差 , 而以决策树和逻辑回归为代表的模型可解释性强 , 但分类性能不理想 。
清华大学(第一作者为王建勇教授的在读博士生王焯)联合华东师范大学(张伟 , 2016 年博士毕业于清华大学)和山东大学(刘宁 , 2021 年博士毕业于清华大学)提出了一种基于规则表征学习的分类模型 RRL 。 RRL 同时具备类似决策树模型的高可解释性和类似随机森林和 XGBoost 等集成学习器的分类性能 。 相关论文已入选 NeurIPS2021 。

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

  • 论文链接:https://arxiv.org/abs/2109.15103
  • 代码链接:https://github.com/12wang3/rrl
为了同时获得良好的可解释性和分类性能 , 论文提出了一种新的分类模型——规则表征学习器(RRL) 。 RRL 能够通过自动学习可解释的非模糊规则进行数据表征和分类 。 为了高效地训练不可导的 RRL 模型 , 论文提出了一种新的训练方法——梯度嫁接法 。 借助梯度嫁接法 , 离散的 RRL 可以直接使用梯度下降法进行优化 。 此外 , 论文还设计了一种改进版的逻辑激活函数 , 既提高了 RRL 的可扩展性 , 又使其能够端到端地离散化连续特征 。
在九个小规模和四个大规模数据集上的实验表明 , RRL 的分类性能显著优于其他可解释方法(如第二届「AI 诺奖」得主 Cynthia Rudin 教授团队提出的 SBRL) , 并能与不可解释的复杂模型(如集成学习模型随机森林和 XGBoost、分段线性神经网络 PLNN)取得近似的分类性能 。 此外 , RRL 能够方便地在分类精度和模型复杂度之间进行权衡 , 进而满足不同场景的需求 。
研究背景与动机
尽管深度神经网络已在很多机器学习任务中取得了令人瞩目的成果 , 其不可解释的特性仍使其饱受诟病 。 即使人们可以使用代理模型(Surrogate Models) , 隐层探查法(Hidden Layer Investigation) , 以及其他事后(Post-hoc)方法对深度网络进行解释 , 这些方法的忠实度、一致性和具体程度都存在或多或少的问题 。
反观基于规则的模型(Rule-based Model) , 例如决策树 , 得益于其透明的内部结构和良好的模型表达能力 , 仍在医疗、金融和政治等对模型可解释性要求较高的领域发挥着重要作用 。 然而 , 传统的基于规则的模型由于其离散的参数和结构而难以优化 , 尤其在大规模数据集上 , 这严重限制了规则模型的应用范围 。 而集成模型、软规则和模糊规则等 , 虽然提升了分类预测能力 , 但牺牲了模型可解释性 。

推荐阅读