梯度提升树回归模型（梯度提升树回归模型怎么做）

职业技能提升来源：网络编辑：小编更新时间：2025-02-08 15:00:09 浏览量：28

理论知识：

梯度提升回归树通过合并多个决策树来构建一个更为强大的模型。虽然名字里有“回归”，但这个模型既能用于回归，也能用于分类。与随机森林方法不同，梯度提升采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。默认情况下，梯度提升回归树中没有随机化，而是用到了强预剪枝。梯度提升树通常使用深度很小（1-5之间），这样的模型占用内存小，预测速度也更快。

梯度提升背后的主要思想是合并许多简单的模型（弱学习器），比如深度较小的树。每棵树只能对部分数据做出比较好的预测，因此添加的树越来越多，可以不断迭代来提高性能。

梯度提升树通常对参数设置非常敏感，但如果参数设置正确的话，模型精度会更高。

除了预剪枝和集成树的数量外，梯度提升的另一个重要参数是learning_rate（学习率），用于控制每棵树纠正前一棵树的错误的强度。较高的学习率意味着每棵树都可以做出较强的修正，这样的模型更为复杂。通过增大n_estimators来向集成中添加更多树，也可以增加模型的复杂度，因为模型有更多机会来纠正训练集上的错误。

默认参数上：树的数量为100、最大深度为3，学习率为0.1

示例：

以乳腺癌数据集为例，用分类模型：

由于训练集精度达到100%，所以很可能存在过拟合，为了降低过拟合，可以限制最大深度来加强预剪枝，也可以降低学习率：

可以看到，两种方法都降低了训练集精度，而减小树的最大深度显著提升了模型性能。

特征重要性可视化：

可以看到，梯度提升树的特征重要性与随机森林有些类似，但梯度提升树完全忽略了某些特征。

常用的方法是先尝试随机森林，因为它的鲁棒性很好，如果随机森林的效果好但预测时间太长，或者学习模型精度在小数点后两位的提高也很重要，那么切换成梯度提升树通常比较有用。

优缺点：

梯度提升树是监督学习中最强大也最常用的模型之一，它的主要缺点是需要仔细调参，而且训练时间会比较长；优点是不需要对数据进行缩放就可以表现的很好，而且也适用于二元特征和连续特征同时存在的数据集。与其他基于树的模型相同，梯度提升树通常也不适用于高纬稀疏数据。

梯度提升树的主要参数是树的数量n_estimators和学习率learning_rate。这两个参数高度相关，因为learning_rate越低，就需要更多树来构建具有相似复杂度的模型，随机森林的n_estimators值总是越大越好，但梯度提升树不同，增大n_estimators会导致模型更加复杂，进而可能导致过拟合，通常的做法是根据时间和内存的预算选择合适的n_estimators，然后会不同的learning_rate进行遍历。

另一个重要参数是max_depth，用来降低每棵树的复杂度，一般不超过5。

到此这篇梯度提升树回归模型（梯度提升树回归模型怎么做）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：梯度提升算法（梯度提升算法有哪些）

下一篇：梯度提升树分类算法（梯度提升分类器）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/jszy-jnts/33428.html

理论知识：

示例：

特征重要性可视化：

优缺点：

相关文章：