问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

xgboost需不需要特征挑选

发布网友 发布时间:2022-04-01 02:37

我来回答

3个回答

懂视网 时间:2022-04-01 06:58

gbdt和xgboost区别如下:
  
  1、传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。
  
  2、传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。
  
  3、xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是xgboost优于传统GBDT的一个特性。(关于这个点,接下来详细解释)
  
  4、Shrinkage(缩减),相当于学习速率(xgboost中的eta)。xgboost在进行完一次迭代后,会将叶子节点的权重乘上该系数,主要是为了削弱每棵树的影响,让后面有更大的学习空间。实际应用中,一般把eta设置得小一点,然后迭代次数设置得大一点。(补充:传统GBDT的实现也有学习速率)
  
  5、列抽样(column subsampling)即特征抽样。xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboost异于传统gbdt的一个特性。
  
  6、对缺失值的处理。对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向。
  
  7、xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的?注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t1次迭代的预测值)。xgboost的并行是在特征粒度上的。
  
  决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。
  
  可并行的近似直方图算法。树节点在进行分裂时,需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以xgboost还提出了一种可并行的近似直方图算法,用于高效地生成候选的分割点。
  
  

热心网友 时间:2022-04-01 04:06

相当于学习速率(xgboost中的eta)。xgboost的并行是在特征粒度上的。我们知道,xgboost在训练之前,预先对数据进行了排序,用于高效地生成候选的分割点。(补充。
xgboost在代价函数里加入了正则项。
Shrinkage(缩减),这也是xgboost异于传统gbdt的一个特性,xgboost还支持线性分类器,贪心算法效率就会变得很低,所以xgboost还提出了一种可并行的近似直方图算法,防止过拟合,这也是xgboost优于传统GBDT的一个特性。

对缺失值的处理。
xgboost工具支持并行,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的*时,需要计算每个特征的增益,最终选增益最大的那个特征去做*。xgboost在进行完一次迭代后,会将叶子节点的权重乘上该系数,让后面有更大的学习空间,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。xgboost借鉴了随机森林的做法,那么各个特征的增益计算就可以开多线程进行。

可并行的近似直方图算法。树节点在进行*时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下。实际应用中,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点):传统GBDT的实现也有学习速率)
列抽样(column subsampling),一般把eta设置得小一点,然后迭代次数设置得大一点,不仅能降低过拟合,还能减少计算。
传统GBDT在优化时只用到一阶导数信息。boosting不是一种串行的结构吗?怎么并行的?注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t-1次迭代的预测值),支持列抽样,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。对于特征的值有缺失的样本,xgboost可以自动学习出它的*方向。顺便提一下,主要是为了削弱每棵树的影响 
传统GBDT以CART作为基分类器

热心网友 时间:2022-04-01 05:24

xgb应该是对所有的特征的所有特征值点(快速方法是近似算法)计算了增益(这个增益网上自己查)再排序,然后挑出得分最高的最佳*点(这个最佳*点对应的特征就是第一个要*的特征) 进行分类,具体是否*(即树的深度控制)是可以通过设置正则项系数gamma来*
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
江苏宿迁解放6,8高栏年审要多少钱 滴滴取消订单不给钱? 谁能帮我查一下 深圳到西安 顺丰快递 在武汉全国陆运集散中心过了21小时... 求好看的女主穿越玄幻小说要完本的小说求好看的女主穿越玄幻小说要完本... excel插入的直线怎么把端点连接在一起excel画直线端点自动对齐中点... 干煎饼的正确吃法 干煎饼的吃法是什么呢 学前教育毕业生登记表的自我鉴定 毕业生登记表学前教育自我鉴定 幼师毕业生登记表的自我鉴定 2020年城市GDP50强江苏占9席!这意味着什么? 中国城市经济GDP排名前二十的城市有哪些? 2020中国城市GDP百强榜,榜单评选是看什么评选的? 我国GDP前十强城市迎来新变局,具体是什么样的变局? 微信来信息没有铃声怎么办 2020年中国GDP总量排名前十城市公布,与往年相比有何变化? 2020年中国GDP十强城市有哪些变化? 2020年GDP十强城市公布,谁更厉害? 2020年国内城市GDP已出,你的城市排第几? 中国城市(包括特别行政区)人均GDP前三是哪几个城市? 2020年城市GDP50强江苏占9席,都有哪些城市上榜? 2020年GDP十强城市公布!你所在的城市上榜了吗? 2020年中国城市GDP百强榜,哪些城市的全国前五? 2020年中国GDP十强城市,总量超过3万亿元是哪些城市? 2020年中国GDP十强城市公布,有哪些值得关系的信息? 2020年中国城市GDP百强榜,前十的城市分别是? 中国GDP最高的城市是哪个? 蛋糕上的奶油对身体有害吗 如何辨别蛋糕上面奶油是什么奶油 蛋糕上的奶油是植物奶油好还是动物奶油好? 苹果笔记本电脑(苹果系统)如何破解wifi WiFi万能钥匙有Mac版吗? 做梦梦见鱼咬我? 梦见鱼咬鱼什么预兆 Macbook Air如何使用wifi万能钥匙? 梦见一群鱼在水里游来游去咬我预兆什么? 梦见水里游来鱼要咬人,先跳起准备咬手没咬到,又奔脸咬去也没咬到,吓醒了。那位高手能帮忙解梦? 用万能钥匙查WiFi结果被MAC锁定了怎么破 梦见家里有水水里都是鱼鱼好大还要咬我 用wife万能钥匙苹果版有什么风险? 梦见水里有鱼(没见过的鱼感觉很凶恶牙齿很长),我就下水去抓,被鱼咬了,而且是咬住不放,最后挣脱了... 苹果电脑怎么下载万能钥匙? 梦见死鱼在石头上,水里有鱼要咬我 苹果系统有没有像wifi万能钥匙之类的蹭网软件 昨天晚上我梦见家里有水很多鱼咬我其中有一条金色的鱼是什么意思? 梦见鱼从水里跳出去咬我 梦见鱼咬开袋子出来想咬我 梦见水里的鱼跳走来咬到自己的手 验光单中的“OD”、“OS”、“+”、“-”中,“-”代表什么?_百度... 左眼和右眼的英文怎么拼?