进化集成学习算法综述

论文链接: https://www.infocomm-journal.com/znkx/article/2021/2096-6652/2096-6652-3-1-00009.shtml

思考:视频检索本质上是一个回归任务,利用相似度返回排序列表。预训练模型可以看成学习器

1.定义与理论基础

集成学习通过将子学习器按照特定方法集成为新系统,提高学习器解决问题的能力。常见的集成方法有有 Boosting[43]、Bagging[44]、Dagging[45]、随机子空间法(random subspace method,RSM)[46]、Stacking[47]和基于投票的集成方法[48]等。Dietterich T G[49]从 3 个方面解释了集成学习的有效性:

  • 统计学:降低错误假设的风险
  • 计算数学:集成输出帮助算法逃出局部极值点
  • 表征方法:集成后扩展了搜索空间

偏差-方差-协方差分解(bias-variance-covariance decomposition)被认为是集成学习主要的理论依据之一。

\[E[\overline{y}-z]^{2}=\mathrm{bias}^{2}+\frac{1}{N}\times\mathrm{var}+\left(1-\frac{1}{N}\right)\times\mathrm{covar}\]

其中,bias、var 和 covar 分别表示偏差、方差和协方差。集成的主要目的是令covar为负实数来降低整体生成误差。此外,随着 N 的增加,var 在生成误差中所占的比例会不断降低,而 covar 的重要性会逐渐增加。因此,提高整个集成学习系统的关键在于设计相关性低的子学习器,即提高子学习器的多样性。

1.1 常见的融合策略

  • 多数投票方法:取投票数最多的
  • 基于权值:给每一票加上权重
  • 基于 Median Partition 共识函数的融合策略:加入相似度度量函数 $\psi$,多用于聚类
\[Y_3=\text{argmax}\sum_{i=1}^N\Phi\bigl[f(x),f_i(x)\bigr]\]

1.2进化算法在集成学习中的应用

  • 集成学习系统中的样本选择[4-5]、特征选择[6-10]
  • 对集成模型包含的参数[11-21]、网络结构[22-25]等进行优化
  • 使用进化优化算法选择一组最佳子学习器[1,26]或对多个子学习器的融合策略[27-38]进行优化。

2.具体应用

自学习器大部分比较简单,一般是SVM和单层的神经网络。

2.1模型参数优化

常见的集成学习模型中的参数包括神经网络的权值和阈值、SVM 的正则化参数和核参数、径向基等核函数中包括的参数以及集成模型学习过程中人为设置的一些系数(如负相关系数、误差系数)等。

  • 单目标优化:Huang T 等人[73]提出了一种自适应小生境差分(ANDE)算法。该算法通过在 DE 算法中加入启发式聚类算法来构造小生境,并以此来增强算法解决多模态问题的能力。ANDE 算法中还使用自适应的方法对 DE 算法中的参数进行调节。作者还使用ANDE 算法对神经网络的权值进行优化。
  • 多目标优化:
    • Chen H 等人[12]:最小化单个神经网络中训练数据的均方误差、最大化不同神经网络间的负相关度和最小化集成网络的正则化值。
    • Jin Y 等人[17]分别使用动态加权法(DWA)和NSGAII对MLP组成的集成学习方法的神经元连接结构和权值进行多目标优化。不同的是,DWA 是将最小化均方误差和神经网络的正则化信息的加权合并值作为一个优化目标,而 NSGAII 采用非支配排序的方法分别对两个目标函数进行优化。
    • Bui L T 等人[19]分别采用 NSGAII 和基于非支配排序的 DE 算法对以 BP 算法为子学习器的集成回归学习系统进行多目标优化。其中,优化算法的编码对象是神经网络权值,优化目标是最小化均方误差和最大化集成系统多样性。

2.2 模型结构优化

包括子学习器结构和集成网络结构的优化。前者主要优化节点分布或激活函数和学习规则,后者可以理解为挑选最佳的组合。

  • Ojha V K 等人[23]使用多目标遗传规划(MOGP)算法对子学习器的节点分布和激活函数类别进行优化。神经网络和决策树两种不同的学习器组建一种名为异质柔性神经树(HFNT)的集成学习系统。以最小化学习器学习结果的错误率、最小化树的规模和最大化多样性指标为优化目标。
  • Faceli K 等人[7]将所有子学习器(如 K-means、单连接算法(SL)、平均连接算法(AL)和共享近邻(SNN)算法)的结构参数以及样本对应的标签定义为初始种群,以最小化总体偏差(所有样本与其对应的聚类中心的距离的总和)和连接性指标(反映相邻样本被放置到同一个聚类中心的频率)为优化目标。
  • Mahmood A 等人[1]针对网络视频分类问题提出了基于 GA 的集成聚类学习算法,提出的 SS-EE 算法以子学习器(图聚类(GC)算法、仿射传播聚类(AP)算法和谱聚类(SC)算法)的种类和聚类集成方法(基于簇的相似度划分(CSPA)、元的种类聚类算法(MCLA)和超图划分算法(HGPA))的种类等信息为编码对象,使用进化算法完成对整个集成学习模型结构的优化。Mahmood A 等人根据视频信息设计了名为预配对百分比(pre-paired percentage,PPP)的指标,并以最大化 PPP 指标为优化目标指导 GA 的进化过程。

2.3融合策略优化

针对分类和回归的融合权值优化

  • 一些研究[27,29-30,32,79],通过选择差异较大的子学习器保证集成网络的多样性,然后采用进化算法对子学习器的融合策略进行分析。将完全不同的几种子学习器的结果合并输出,虽然保证了集成网络的多样性,但需要很强的经验分析。(我们在TRECVID所做的事情,缺点是经验性强,无法确定选定的子学习器一定起有利作用)
  • 多级优化:参数结构优化+融合权值寻优(缺点:忽略系统整体性,分模块最优)
  • 2.4混合进化集成学习

    分类 回归 聚类混合

非支配解:指的是一个解在所有目标函数下至少与另一个解同样好,而在某个目标函数下至少比另一个解更优。一个解被称为“非支配”的,如果没有其他解能够在所有目标函数下同时取得比它更好的结果。

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.