选择性集成 - MDEP (PPSN-22): Multi-objective Evolutionary Ensemble Pruning Guided by Margin Distribution

2023-12-13 10:44:15

前言

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

选择性集成，即集成剪枝（Ensemble Pruning），即从一堆基学习器（base learners）中选择一个子集，希望泛化性能（Generalization Performance）越好的同时，子集大小越小。

先前的研究通常使用验证集上的误差（Validation Error）来估计泛化性能，但最近的理论研究显示间隔分布（Margin Distribution）对泛化性能也很重要。

因此本文将使用多目标的演化学习算法，同时优化这三个目标：验证误差（Validation Error）、间隔分布（Margin Distribution）以及集成大小（Ensemble Size）。

领域介绍

集成剪枝方法通常可以划分为两大类：

基于排序的剪枝（Ordering-Based Pruning）
- 通常基于贪心策略，迭代式挑选，每次选取一个能使特定指标最大的基学习器；
- 常见的选取指标有：最小化验证误差（Validation Error），最大化学习器多样性（Diversity），最大化互补性（Complementarity），以及多项指标的组合；
基于优化的剪枝（Optimization-Based Pruning）
- 通常将集成剪枝形式化为优化问题，并使用演化算法（Evolutionary Algorithms, EAs）来寻找最优子集；
- 一开始的单目标建模（验证误差）[AIJ02] 虽然测试误差较小（Competitive with Ordering-Based Pruning），但集成大小（Ensemble Size）很大；
- 后续的双目标建模（验证误差 + 集成大小）[AAAI15]，提出了 Pareto Ensemble Pruning (PEP) 方法，同时在「测试误差」和「集成大小」两方面超越了之前的方法。

近期关于间隔的研究 [AIJ13] 指出间隔分布对泛化性能有很大影响，因此本文提出了 Margin Distribution guided multi-objective evolutionary Ensemble Pruning (MDEP) 方法，同时最小化验证误差（Validation Error）、间隔比例（Margin Ratio）以及集成大小（Ensemble Size）。

本文测试了三种多目标演化算法（Multi-Objective EAs, MOEAs）来求解上述问题，分别是：NSGA-II [TEC02]、MOEA / D [TEC07] 以及 NSGA-III [TEC13]，在实验中使用 NSGA-III 性能更好。

MDEP 方法

优化目标

如上所述，本文同时优化如下三个目标：
$\mathop{\arg \min}\limits_{\boldsymbol{s} \in\{0,1\}^n} \left(\operatorname{error}_D\left(H_{\boldsymbol{s}}\right), \rho_D^{\text {ratio}}\left(H_{\boldsymbol{s}}\right),|\boldsymbol{s}|\right),$

其中 $\boldsymbol{s}$ 表示每个基学习器选（ $s_i=1$ ）或者不选（ $s_i=0$ ）， $D=\{(\boldsymbol{x}_i,y_i)\}_{i=1}^m$ 表示验证集， $\operatorname{error}_D(H_{\boldsymbol{s}})$ 表示学习器子集直接 Voting 的误差：
$\operatorname{error}_D\left(H_{\boldsymbol{s}}\right)=\frac{1}{m} \sum_{i=1}^m\left(I\left(y_i H_{\boldsymbol{s}}\left(\boldsymbol{x}_i\right)<0\right)+\frac{I\left(y_i H_{\boldsymbol{s}}\left(\boldsymbol{x}_i\right)=0\right)}{2}\right),$

另外 $\rho_D^{\text {ratio}}\left(H_{\boldsymbol{s}}\right)$ 表示选择性集成后的模型，在验证集 $D$ 上的间隔比例（间隔方差 / 间隔均值）：
$\rho_D^{\text {ratio }}\left(H_{\boldsymbol{s}}\right)=\sqrt{\frac{\operatorname{Var}_D\left(\rho_{H_{\boldsymbol{s}}}\right)}{\operatorname{Mean}_D^2\left(\rho_{H_{\boldsymbol{s}}}\right)}}=\sqrt{\frac{m \sum_{i \neq j}\left(\rho_{H_{\boldsymbol{s}}}\left(\boldsymbol{x}_{\boldsymbol{i}}, y_i\right)-\rho_{H_{\boldsymbol{s}}}\left(\boldsymbol{x}_{\boldsymbol{j}}, y_j\right)\right)^2}{2(m-1)\left(\sum_{i=1}^m \rho_{H_{\boldsymbol{s}}}\left(\boldsymbol{x}_{\boldsymbol{i}}, y_i\right)\right)^2}},$

其中 $\rho_{H_{\boldsymbol{s}}}(\boldsymbol{x}_i,y_i)$ 表示 Pruned Ensemble $H_{\boldsymbol{s}}$ 在 $(\boldsymbol{x}_i,y_i)$ 上的间隔：
$\rho_{H_{\boldsymbol{s}}}\left(\boldsymbol{x}_{\boldsymbol{i}}, y_i\right)=y_i H_{\boldsymbol{s}}\left(\boldsymbol{x}_i\right)=\frac{1}{|\boldsymbol{s}|}\left(\sum_{t: y_i=h_t\left(\boldsymbol{x}_i\right)} \boldsymbol{s}_t-\sum_{t: y_i \neq h_t\left(\boldsymbol{x}_i\right)} s_t\right) .$

优化算法

上述目标可通过 Multi-objective Evolutionary Algorithms 进行解决，本文给出了大致的算法框架：
在这里插入图片描述
其中 5、6 两步取决于具体的演化学习算法；uniform crossover operator 即 offspring solution 中每个 bit 独立，且 1/2 的概率从 the first parent solution (from line 5) 继承，1/2 的概率从 the second parent solution (from line 5) 继承；bit-wise mutation operator 即每个 bit 独立，且 1/n 的概率翻转。

最终在 solution 集合中选取 validation error 最小的结果，第二关键字是 ensemble size。

参考

文章来源:https://blog.csdn.net/qq_41552508/article/details/133016728
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！