当前位置: 首页 > news >正文

哈尔滨手机网站建设wordpress手机主题开发

哈尔滨手机网站建设,wordpress手机主题开发,wordpress怎么分段,大宗交易查询平台第六章.决策树(Decision Tree) 6.1 ID3算法,C4.5算法 1.决策树适用的数据类型 比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析 2.信息熵 1).概念: 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确…

第六章.决策树(Decision Tree)

6.1 ID3算法,C4.5算法

1.决策树适用的数据类型

比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析
在这里插入图片描述

2.信息熵

1).概念:

  • 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确定的事情(或者是我们一无所知的事情),需要了解大量信息->信息量的度量就等于不确定性的多少

2).公式:

在这里插入图片描述

3).示例:

  • 示例1:
    假设有一个普通骰子A,扔出1-6的概率都是1/6;骰子B,扔出1-5的概率为10%,扔出6的概率为50%,骰子C,扔出6的概率为100%

  • 计算:

    ①.骰子A:
    在这里插入图片描述
    ②.骰子B:
    在这里插入图片描述
    ③.骰子C:
    在这里插入图片描述

3.ID3算法

决策树会选择最大化信息增益来对结点进行划分。

1).信息增益计算公式:

在这里插入图片描述

2).公式示例:

在这里插入图片描述

  • 分析:
    在这里插入图片描述
  • 计算:
    在这里插入图片描述
    说明:
    ①.9/14,5/14对应Class:buys_computer那一列。

3).ID3算法示例:

·AllElectronics.csv中的数据:
在这里插入图片描述
·代码:

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import graphviz
import csv# 导入数据
DTree = open(r'D:\\data\\AllElectronics.csv', 'r')
reader = csv.reader(DTree)#使用import csv是因为表格中含有很多字符# 获取第一行数据
headers = reader.__next__()
# print(headers)# 定义两个列表
featureList = []
labelList = []for row in reader:# 把Label存入ListlabelList.append(row[-1])rowDict = {}for i in range(1, len(row) - 1):# 建立一个数据字典rowDict[headers[i]] = row[i]featureList.append(rowDict)# print(featureList)# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
# print('x_data:'+ str(x_data))# 打印属性名称
feature_names = vec.get_feature_names_out()
# print(feature_names)# 打印标签
# print('labelList:'+ str(labelList))# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
# print('y_data'+str(y_data))# 创建并拟合模型
DTree_model = tree.DecisionTreeClassifier(criterion='entropy')
DTree_model.fit(x_data, y_data)# 测试
x_test = x_data[0]
print('x_test:' + str(x_test))predictions = DTree_model.predict(x_test.reshape(1, -1))#变成二维数据
print('predict:' + str(predictions))# 导出决策树
dot_data = tree.export_graphviz(DTree_model, out_file=None, feature_names=feature_names, class_names=lb.classes_,filled=True, rounded=True, special_characters=True)graph = graphviz.Source(dot_data)
graph.render('computer')

·结果展示: (文件会保存在运行目录下)
在这里插入图片描述

4.C4.5算法

ID3算法存在的缺陷:信息增益的方法倾向于首先选择因子数较多的变量。C4.5算法是ID3算法的优化版本。

1).信息增益的改进-增益率:

在这里插入图片描述

http://www.yayakq.cn/news/256300/

相关文章:

  • 做网站公司(信科网络)西安网站代维护
  • 企业网站分析报告厂房出租做推广什么网站好
  • 网站套站什么意思wordpress获得当前分类所有子分类
  • 公司logo查询网站网站优化改版
  • 网站开发软硬件环境是指什么wordpress手机端滑动侧栏
  • 孝感做网站的公司现在做什么个人网站好
  • 佛山新网站建设如何智慧校园登录入口
  • 网站估值怎么做互联网宣传方式有哪些
  • 有那种做拼贴的网站吗wordpress标签页面添加自定义字段
  • django网站开发网站数据展示
  • 怎做不下网站刷枪share poine 户做网站
  • 马云做中国最大的网站中国软件公司官网
  • 成都网站建设详细内容wordpress 旅游模板
  • 福田网站建设费用爱站小工具圣经
  • 深圳市手机网站建设怎么做网页设计的页面
  • 课程平台网站建设报价iis新建网站无法浏览
  • 自己做网站能赚钱吗2018学院网站建设方案 网站内容
  • 吉林网站建设哪家好iis部署网站 win7
  • 做网站卖什么软件网页毕业设计
  • 陕西省住房和城乡建设厅综合网站北京seo网站管理
  • 网站建设 学校长湖南营销型网站
  • 从域名角度看网站建设注意事项asp网站建设参考文献
  • 坑梓网站建设代理商黑帽seo工具
  • 厦门企业网站公司网络营销岗位介绍
  • 中国建设银行官网首页 网站首页福州网站建设制作品牌企业
  • 石家庄做网站汉狮网络蓝色扁平化网站
  • 备案期间网站能访问吗大连网络公司服务
  • 在线设计响应式网站企业网站建立制作
  • 电子政务门户网站建设教训网站建设宣传资料
  • 网站平台怎么做外贸网站怎么做谷歌搜索