《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第9章,第9.12节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

9.12 集成学习中的挑战性问题及解决方法

然而,传统的集成学习算法,特别是聚类集成算法,在集成器成员选择、聚类结果融合、集成器参数优化等方面还存在一些亟待解决的科学问题(见图 4): ① 集成器存在冗余成员,影响集成的最终结果;② 聚类集成算法集成器中多个聚类结果的融合质量有待进一步提高;③ 没有考虑到集成器参数往往受到外在环境(如样本空间和属性空间)和内在环境(如集成器基础模型的参数和权重)的影响。image
Yu et al [17] 针对上述科学问题,围绕“集成学习理论与应用”,从集成器成员选择、聚类结果融合、集成器参数优化等方面开展创新性研究,研究工作的整体框架如图 4 所示,并取得了一系列的创新成果,包括渐进式集成框架(成果 1)、基于图论的聚类集成框架(成果2)和自适应集成框架(成果3)。

第一,在集成器成员生成阶段,集成框架采用不同的数据映射技术来生成集成器中的一组成员,这组成员之间的差异性越大越好。然而并非所有的集成器成员都对最终结果有贡献。因此,需要研究如何生成一个合适的集成器,如何移除集成器中的冗余成员,使之能够增加集成器的多样性,并提升集成框架的性能。

为了解决集成器中冗余成员的移除问题,提出了渐进式集成框架,并设计了基于全局和局部代价函数的渐进式集成器成员选择过程,有效移除集成器中的冗余成员,增加了集成器的多样性。实验证明,新算法显著优于多种经典的集成算法。Yu etal [17] 考虑专家知识的影响,把专家提供的先验知识转化为约束条件,引入约束传播算法来加以利用,提出了渐进式半监督聚类集成框架。他们还结合子空间学习技术,提出了渐进式的子空间集成框架[18] ;此外,以渐进式集成框架为基础,把聚类集成扩展到聚类结构集成[19- 21] 。

第二,在聚类集成算法的聚类结果融合阶段,需要考虑如何对多个聚类结果进行融合,从而获得一个更好的综合聚类结果。然而,与分类集成算法不同,聚类集成算法的集成器中聚类结果的类的对应关系复杂,见图 5。首先,类的数量不一样,聚类结果1和2包含3个类,而聚类结果3包含4个类;其次,类类之间不是对应关系,如聚类结果 1 的类 2并不对应聚类结果 2 的类 2,而是类 3。传统的适用于分类集成算法的投票机制并不起作用 , 因此,需要设计新的一致性函数来对多个聚类结果进行融合。
image

为了解决集成器中多个聚类结果融合的问题,Yu et al [22- 26] 提出了基于图论和随机子空间的聚类集成算法,引入随机子空间技术处理高维数据,构造一致性矩阵,利用图论规范切算法构造一致性函数,对一致性矩阵进行分割,提高聚类结果融合的质量,提升了聚类集成算法在高维带噪音数据处理上的性能。在基于随机子空间和图论的聚类集成算法的基础上,Yu et al [27-28] 还引入模糊理论,充分考虑硬聚类和软聚类的有机结合,并选择互为补充的基础聚类算法,提出了多种混合模糊聚类集成框架。

第三,集成学习模型的性能往往受到外在环境(如样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型[29] ,不但能够考虑到集成模型的内在环境,而且能够把握集成模型和外在环境之间的关系。自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上,从多个不同角度加入自适应学习过程,从而获取最优化的集成学习模型。

为了解决集成器的优化问题,提出了自适应集成框架 , 引入演化计算思想和多智能体理论,把集成器中每个成员看作一个智能体,运用演化计算思想,对集成器及其成员进行优化,从而提升集成器的整体性能[29-32] 。

第四,集成学习算法可应用于带噪音高维数据的挖掘中,比如生物信息数据挖掘和多媒体数据智能处理上,既扩展了集成学习算法的应用领域,又为生物信息数据和多媒体数据的有效处理提供了新的算法支撑。

相关文章
|
1月前
|
机器学习/深度学习 Python
CatBoost高级教程:深度集成与迁移学习
CatBoost高级教程:深度集成与迁移学习【2月更文挑战第17天】
28 1
|
1月前
|
机器学习/深度学习 算法 Python
CatBoost中级教程:集成学习与模型融合
CatBoost中级教程:集成学习与模型融合【2月更文挑战第13天】
40 3
|
2月前
|
机器学习/深度学习 算法 Python
LightGBM高级教程:深度集成与迁移学习
LightGBM高级教程:深度集成与迁移学习【2月更文挑战第6天】
100 4
|
3月前
|
存储 Go
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
本文将探讨几个热门的 go 日志库如 logrus、zap 和官网的 slog,我将分析这些库的的关键设计元素,探讨它们是如何支持日志轮转与切割功能的配置。
100 0
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
|
3月前
|
机器学习/深度学习 算法
集成学习发展史
集成学习发展史
96 0
|
3月前
|
机器学习/深度学习 算法 Python
集成学习(上):机器学习基础task1-熟悉机器学习的三大主要任务
集成学习(上):机器学习基础task1-熟悉机器学习的三大主要任务
35 0
|
3月前
|
机器学习/深度学习 算法
机器学习 - [集成学习]Bagging算法的编程实现
机器学习 - [集成学习]Bagging算法的编程实现
32 1
|
30天前
|
机器学习/深度学习 算法
大模型开发:描述集成学习以及它如何工作。
集成学习通过结合多个模型预测提升性能,减少偏差和方差。分为Bagging和Boosting:Bagging使用数据子集并行训练模型,如随机森林;Boosting则顺序训练,聚焦前一轮错误,如AdaBoost。Stacking利用模型输出训练新模型。多样性是关键,广泛应用于分类、回归等任务,能有效提高泛化能力和防止过拟合。
16 0
|
1天前
|
机器学习/深度学习 缓存 算法
【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例-2
【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
19 5
|
7天前
|
机器学习/深度学习 算法 前端开发
Scikit-learn进阶:探索集成学习算法
【4月更文挑战第17天】本文介绍了Scikit-learn中的集成学习算法,包括Bagging(如RandomForest)、Boosting(AdaBoost、GradientBoosting)和Stacking。通过结合多个学习器,集成学习能提高模型性能,减少偏差和方差。文中展示了如何使用Scikit-learn实现这些算法,并提供示例代码,帮助读者理解和应用集成学习提升模型预测准确性。

热门文章

最新文章