当前位置: 首页 > news >正文

网站建设工作人员有哪些职责网站备案入口

网站建设工作人员有哪些职责,网站备案入口,三明交通建设集团网站,aws wordpress最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART)&am…

最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART),肯定都知道决策树可以直接天然处理离散特征,那难道sklearn的决策树可以自己判断哪些特征是离散or连续?
在这里插入图片描述

决策树怎么处理连续特征

首先要明确,分类树和回归树,只是看label值是类别型还是连续型,和特征中是离散还是连续没有关系。并不是说CART回归树不能使用离散的特征,只是CART回归树里并不使用gini系数来计算增益。【补充题外话:CART作为一个二叉树,每次分列并不会和ID3一样消耗这一列特征,只是消耗了该特征的一个分界点
关于特征为连续属性时CART决策树如何处理:二分法——先从小到大依次排序,然后依次划分,进行判定。具体可以参考这篇博客。
在这里插入图片描述

sklearn里的决策树怎么处理类别特征的

答案是——不处理。在sklearn实现的CART树中,是用同一种方式去处理离散与连续的特征的,即:把离散的特征也都当做连续的处理了,只能处理连续特征 和 做编码成数字的离散特征
在这里插入图片描述
在这里插入图片描述
可以看这个问题,我的理解是sklearn为了速度对CART的原来算法做了一定的改进,不再按照原来的方法处理离散特征,而是都统一成连续特征来处理了【所以没有categorical_columns接口】。
其实理论上来说,XGB是可以用离散变量的,毕竟增益只和结点上的样本有关,特征只是决定树的结构:
在这里插入图片描述

解决方案

如果想使用DT、RF、XGB,离散特征需要人为进行处理。可以看这个博客,对类别特征进行编码。如果类别不是很多,可以考虑用one-hot(尽管决策树不太欢迎onehot),类别特征太多的,就要考虑用target encoding或者catboost encoding等编码方式来处理了。
另一方面,一些实际应用的结果表明,在特征维度很大的情况下,直接把每个特征编码成数字然后当做数值特征来用,其实效果并不会比严格按照categorical来使用差很多,或许可以考虑直接用LabelEncoder直接对高维类别特征进行编码,转化为数值特征。
或者考虑换LGBM、CatBoost

http://www.yayakq.cn/news/902135/

相关文章:

  • 惠州seo网站管理中牟建设局网站
  • 公司微网站制作wordpress登录开发
  • 网站发布信息的基本流程上海想找人设计网站
  • 网站后台登陆不上去有哪些好的做问卷调查的网站好
  • 有什么网站可以做微信支付宝wordpress 文章首标点
  • 怎么做网站上做电子书宁夏建设银行官方网站
  • 建设网站平台费温州网站制作网站
  • 你第一个物流网站建设方案找事做搜索网站
  • 给别人做网站是外包公司百度云搜索引擎入口手机版
  • 网站关键词设置技巧淘宝联盟的网站怎么自己做
  • 大型网站开发文档jsp语言做网站
  • 余姚建设网站公司手机上的html编辑器
  • 店铺设计案例深圳sem优化
  • 网站dns错误广州黄埔网站制作
  • 做网站排行网站续费模版
  • html5网站wordpress个人博客前台模板
  • 西安网站维护招聘做网站的语言有哪些
  • 网络网站推广首荐乐云seo聊城冠县网站建设
  • 域名备案完成了怎么建设网站北京网站建设软件
  • 南京市住房和城乡建设部网站wordpress如何加入视频播放器
  • 网站建设有关书籍商城网站建设行情
  • 网站建设山西网站开发专业找什么工作
  • 网站的弹窗广告怎么做宁波seo教程app推广
  • 小企业网站建设制作平台网络运营团队
  • 做一个静态网站导航要多少钱论坛网站开发模板
  • 网站建设售后培训网站备案信息变更
  • 做铁合金用哪个外贸网站好网站建设导向
  • 网站建设简运维 简历嘉兴网站建设方案优化
  • 中国安能建设总公司网站邯郸最新通告今天
  • 静安集团网站建设连山区网站建设