Fcs'20 a survey on ensemble learning

Last updated on April 11, 2024

论文链接： https://link.springer.com/article/10.1007/s11704-019-8208-z

集成学习方法利用多种机器学习算法，基于通过对数据的多样性投影提取的特征产生弱预测结果，并将结果与各种投票机制融合，以实现比单独从任何组成算法获得的性能更好的性能。[1] 在Kaggle比赛中，集成学习取得了令人满意的成绩。

Bagging[5]，AdaBoost[6]，随机森林[7]，随机子空间[8]，gradient boosting[9]

Bagging方法通过从训练数据集中随机采样来生成样本子集，然后使用这些获得的子集来训练用于集成的基本模型。
AdaBoost通过迭代调整样本的权重来关注被错误分类的样本，从而提高最终集成的基本模型的分类性能。
随机森林从两个角度训练多个决策树模型：样本维度和特征维度。因此，它通过集成多个决策树的投票结果来缓解决策树容易过度拟合的问题。
随机子空间通过随机采样特征构建一组特征子空间，然后在这些子空间中训练基本分类器以生成多个结果，然后融合到最终结果中。
Gradient Boosting 随机采样以获得样本子集，然后构建和训练每个子学习器，以减少前一个子学习器产生的残差。因此，梯度增强可以使来自集成模型的最终残差之和足够小，从而迫使预测接近实际值。（欠拟合和过拟合的结合？）

Ye等人[13]提出了一种分层采样方法，将特征分为两组：一组具有强信息，另一组具有弱信息。有了这两组，可以通过按比例从每组中采样来构建多个特征子空间。（避免样本分布不均匀）

许多基本模型被训练后用于预测，然后集成模型通过一致性函数融合来自这些基本模型的预测结果。接下来是选择子学习器的一些算法用例。

如何更好地整合基本模型的结果：

理论知识：

半监督集合分类方法侧重于扩展训练集并利用这些扩展的训练集。（不适合我们的现在工作）

聚类集成算法的工作原理是使用聚类算法生成一系列聚类分区，并将这些分区组合在一起以获得一致解。

Ayad和Kamel[121]将投票问题转化为涉及多响应和多输入变量的回归问题，并采用随机生成技术生成基本分区，该方法利用信息论算法，借助二分匹配和累积投票，从学习的集合表示中获得一致聚类和聚类数量。

理论知识：

如何从集合模型挑选聚类结果：

Fern和Lin[133]研究了如何基于聚类的多样性和质量有效地为集合选择聚类结果。第一种方法通过联合目标函数将它们结合起来，第二种方法将聚类成员分为不同的组，并在每组中选择高质量的解，第三种方法利用点来表示一对聚类解的平均质量和多样性，然后选择具有凸霍尔的解。

半监督聚类集成算法侧重于利用不能链接和必须链接等先验知识来指导聚类集成过程。

此外，基于不同卷积神经网络（CNN）架构学习不同级别的语义表示的假设，Kumar等人[176]通过对在自然图像的大数据集上初始化的CNN进行集成，开发了一种新的特征提取器。实验表明，与传统的细胞神经网络相比，细胞神经网络集合可以提取出更高质量的特征。
刘等人[177]将具有不同架构的卷积神经网络模型集成应用于视觉交通监控系统。

This line appears after every note.

Paper Reading

0. Solid Ideas Yoshua Bengio重新思考ML的投稿 1.Quantum Computing [[TKDE’16_Relevance Feedback Algorithms Inspired By Quantum Detection]]

Here are all the notes in this garden, along with their links, visualized as a graph.