当前位置: 首页 > news >正文

西安煤炭建设监理中心网站wordpress coolcode

西安煤炭建设监理中心网站,wordpress coolcode,ps做的网站稿怎么做成网站,在哪个网站找学做包子"极限森林"(Extremely Randomized Trees,简称ERT)是一种集成学习方法,它属于决策树的变体,通常被归类为随机森林(Random Forest)的一种。极限森林的核心思想是在构建决策树时引入极端…

"极限森林"(Extremely Randomized Trees,简称ERT)是一种集成学习方法,它属于决策树的变体,通常被归类为随机森林(Random Forest)的一种。极限森林的核心思想是在构建决策树时引入极端的随机性,以此来提高模型的多样性,减少过拟合的风险,并可能提高模型的泛化能力。

导入包

from sklearn.ensemble import RandomForestClassifierfrom sklearn.tree import DecisionTreeClassifier
from sklearn import tree 
from sklearn import datasets
import graphvizfrom sklearn.model_selection import train_test_split
import numpy as np
X,y =datasets.load_wine(return_X_y=True)
X_train,X_test,y_train,y_test = train_test_split(X,y)
一棵树
score =0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)model = DecisionTreeClassifier()model.fit(X_train,y_train)score += model.score(X_test,y_test)/100print('一棵决策树平均得分',score)

随机森林(多棵树)
score =0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)#分类器clfclf = RandomForestClassifier(n_estimators=100)#表示100棵树组成随机森林clf.fit(X_train,y_train)score += model.score(X_test,y_test)/100print('随机森林平均得分',score)

两种算法比较(准确率)

model.predict_proba(X_test)#一棵树,叶节点,落到哪个叶节点算作哪一类,概率0.1

clf.predict_proba(X_test)#森林

可视化

X_train.shape

#随机森林100棵
#先画第一棵树
dot_data = tree.export_graphviz(clf[0],filled =True,rounded = True)
graphviz.Source(dot_data)

#第50棵树
dot_data = tree.export_graphviz(clf[49],filled =True,rounded = True)
graphviz.Source(dot_data)

#最后一棵树
dot_data = tree.export_graphviz(clf[99],filled =True,rounded = True)
graphviz.Source(dot_data)

#随机森林步骤
#1.随机选择样本(放回抽样)
#2.随机选择特征
#3.构建决策树
#4.随机森林投票

#优点
#1.表现良好
#2.可以处理高纬度数据(维度随机选择)
#3.辅助进行特征选择
#4.得益于Bagging可以进行并行训练

#缺点
#对于噪声过大的数据容易过拟合

极限森林

#从分裂随机中筛选最优分裂条件

#依然使用上面的数据

from sklearn.ensemble import ExtraTreesClassifier
score = 0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)#葡萄酒的价格clf2 = ExtraTreesClassifier(max_depth = 3)#深度限制clf2.fit(X_train,y_train)score +=clf2.score(X_test,y_test)/100
print('极限森林平均得分是',score)

#第一棵树
dot_data = tree.export_graphviz(clf2[0],filled=True,rounded=True)
graphviz.Source(dot_data)

#第100棵树
dot_data = tree.export_graphviz(clf2[-1],filled=True,rounded=True)
graphviz.Source(dot_data)

计算gini系数

count = []
for i in range(3):count.append((y_train ==i).sum())
count = np.array(count)
p = count/count.sum()#计算概率
gini = (p*(1-p)).sum()
print('未分裂,gini系数是:',round(gini,3))

Gini系数,全称为Gini不纯度(Gini impurity),是决策树算法中用于选择最佳分裂属性的一个指标。它衡量的是数据集中的不确定性或不纯度。Gini不纯度越低,表示数据集的纯度越高,即数据集中的样本属于同一个类别的可能性越大。

Gini不纯度的计算公式如下:

其中,nn 是数据集中类别的数量,pipi​ 是选择的属性第 ii 个类别的样本比例。

http://www.yayakq.cn/news/459267/

相关文章:

  • 做网站前途h5是啥
  • 成品网站建设做网站运营有前景么
  • 免费微信网站源码深圳正规网站开发团队
  • 如何做一家专门卖零食的网站外贸网站设计案例
  • 济南网站建设 选聚搜网络金昌市建设工程质量监督站网站
  • 网站怎么在百度做推广方案企业宣传册模板文案
  • 甘肃网站备案审核时间高密公司做网站
  • 常州金坛建设局网站长沙企业网站建设多少钱
  • 万维网中文网站到期网站发布与推广怎么写
  • 网站备案名字专业做阿里巴巴网站的公司
  • 织梦网站普通地图插件小白跨境电商怎么做
  • 视频教学网站cms国美网站建设的特点
  • 维护一个网站的费用广告设计专业就业方向
  • 有没有教做蛋糕的网站建设网站用什么技术
  • 广西南宁建设厅网站首页wordpress 发布文章 自定义栏目
  • dw怎么做网站标题图标深圳公司网站开发
  • 网站建设的结论邯郸优企网络
  • h5手机网站怎么做做网站是先做界面还是先做后台
  • 网站建设入账哪个科目惠州网站建设领头
  • 各种网站制作dw做网站字体 别人 电脑
  • 龙岩网站建设的软件logo免费生成网站
  • 九江专业制作网站小程序建设网站的费用如何账务处理
  • 怎么创建一个网站公司网站建设技术的发展
  • 做外贸找生意上哪个网站pc网站开发获取位置
  • 网站优化潍坊wordpress不能登录后台
  • 个人网站怎么做cps手机网站优化技巧
  • 广西南宁市有公司网站设计岳阳网站开发网站运营哪家好
  • 公司网页网站建设做一张简单的app网站多钱
  • 瑞安网站建设优化推广西安网站设计制作多少钱
  • 厦门做企业网站支付公司网站建设费怎么入账