当前位置: 首页 > news >正文

针织东莞网站建设技术支持wordpress 底部工具栏

针织东莞网站建设技术支持,wordpress 底部工具栏,站长工具国产2022,营销设计网站建设1、确认需求(构建问题) 我们需要做什么? 比如根据一些输入数据,预测某个值? 比如输入一些特征,判断这个是个什么动物? 这里我们要可以尝试分析一下,我们要处理的是个什么问题&…

1、确认需求(构建问题)

我们需要做什么?

比如根据一些输入数据,预测某个值?

比如输入一些特征,判断这个是个什么动物?

 这里我们要可以尝试分析一下,我们要处理的是个什么问题?

分类问题?回归问题?

目前有哪些方案处理这种问题?比如逻辑回归? SVM?神经网络?随机森林?

确认特征(获取数据)

要确认好我们需要哪些特征,以及这些特征的数据应该如何获取到?

比如数据库获取? 从文件(txt、excel等)读取?并对数据做简单的处理,比如去掉缺省值等

3、特征处理

特征编码(为什么要进行编码? 因为很多特征是字符串,我们得转化为数字或者二进制才能计算)

比较常用的:

onehot编码

# pandas进行onehot编码
import pandas as pd
df = pd.DataFrame([["green","M",20,"class1"],["red","L",21,"class2"],["blue","XL",30,"class3"],
])
df.columns = ["color","size","weight","class label"]
df2 = pd.get_dummies(df["class label"])# sklearn工具类进行onehot编码
from sklearn.feature_extraction import DictVectorizer
alist = [{"city":"beijing","temp":33},{"city":"GZ","temp":42},{"city":"SH","temp":40},
]
d = DictVectorizer(sparse=False)
feature = d.fit_transform(alist)
print(d.get_feature_names())
print(feature)

Label Encoding

但是一次只能处理一列,要for进行处理

from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
df[‘Sex’]=le.fit_transform(df[‘Sex’])

注:编码要注意的是,你编码过程模型的输入输出也是经过编码的。  上述两种编码是基于列种值的类别来进行编码的,所以你每训练一次,都需要保存下编码的类别,并在预测输入数据的时候,使用相同的类别数据进行编码:

我们可以直接保存old_dataencoder_data和之间的映射关系,字典或者下面的csv格式里都可以。

for col in beat_sparse_cols:                   # sparse_feature encoderlbe = LabelEncoder()# 直接在原来的表上进行修改beat_data[col] = lbe.fit_transform(beat_data[col])# # method 2: save dict(selected), 为每个lbe保存一个对应的字典name = "encoding_" + str(col) + "_dict"locals()[name] = {}for i in list(lbe.classes_):# encoding[i] = lbe.transform([i])[0]locals()[name][i] = lbe.transform([i])[0]# save the lbe dict, note the indexdf = pd.DataFrame(locals()[name], index = [0])# df = pd.DataFrame(list(my_dict.items()), columns=['key', 'value'])   # 否则默认保存的key是strdf.to_csv(save_dir + "/" + str(col) + "lbe_dict.csv", index = False)

在预测的新数据的时候,加载出来,查找类别,对新输入进行编码。遇到没有类别的要特殊处理如:

# train and test are pandas.DataFrame's and c is whatever column
le = LabelEncoder()
le.fit(train[c])
test[c] = test[c].map(lambda s: '<unknown>' if s not in le.classes_ else s)
le.classes_ = np.append(le.classes_, '<unknown>')
train[c] = le.transform(train[c])
test[c] = le.transform(test[c])	

 归一化(当所有数据权重一样时使用)

# 归一化
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler(feature_range=(0,1))
data = [[90,2,10,40],[60,5,15,45],[73,3,13,45]
]
data = mm.fit_transform(data)

标准化(当数据存在巨大异常值时使用)

from sklearn.preprocessing import StandardScaler
ss=StandardScaler()
data = [[90,2,10,40],[60,5,15,45],[73,3,13,45]
]
data =ss.fit_transform(data)
print(data)

方差过滤和PCA

# Filter过滤式(方差过滤)
from sklearn.feature_selection import VarianceThreshold
v = VarianceThreshold(threshold=2)
a=v.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])# PCA
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
a = pca.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])

包括PCA和标准化也和编码一样,要考虑输入单个数据的时候,如何进行?

如何进行反标准化等。

4、选择算法、训练模型

选择算法不再多说。

必须要做参数等交叉验证,方便看看哪个算法的哪个算子上表现的最好。

 model_selection.cross_val_score

【sklearn】sklearn中的交叉验证_sklearn交叉验证_L鲸鱼与海的博客-CSDN博客

训练好后,将模型保存下来:

【Sklearn】3种模型保存的文件格式及调用方法_sklearn 导出模型_人工智的博客-CSDN博客

5、工程化(应用化)

选个框架django活动flask进行web化

【python】Django_人工智的博客-CSDN博客

6、部署上线

django是单线程比较慢,可以将其部署到一个web容器上,

http://www.yayakq.cn/news/428298/

相关文章:

  • 企业网站源码 asp做网站内容来源
  • 新的网站做淘宝客宁波正规seo排名哪家好
  • 网站制作公司crm客户管理系统用word制作网页教程
  • 打电话问网站建设推广工信部网站备案注销
  • 织梦手机电影网站模板网站显示备案号
  • 如何创建一个网站0元网页图片居中代码
  • 产品营销网站建设模板之家网页模板
  • 怀化建网站网络程序设计学什么
  • 合肥seo建站高性能网站建设
  • 网站架构设计师薪资水平商务网页
  • 运城网站建设运城天气新房
  • 网站品牌建设方案职业生涯规划大赛作品
  • 学校类网站建设的分析建工网校一建
  • 宽屏公司网站源码php怎么建立挣流量的网站
  • 平台网站怎么建设高水平高职院校 建设网站
  • 清河网站制作wordpress本地运行速度慢
  • 自己的网站怎么做网盘浙江建设厅 继续教育 网站
  • 免费网站建设是什么不属于网络虚拟财产
  • 网站设计需要考虑哪些基本原则上海知名网站开发公司
  • 网站开发与维修是什么意思上海网站制作策划
  • 白云区建网站设计网站注册域名查询
  • 开发网站建设用什么框架网站动态好还是静态好
  • 网站关于我们的页面qq浏览器官网主页网址
  • py怎么做网站用vs做的网站怎么打开
  • 电商网站建设实验原理中国发达国家投票
  • 创口贴设计网站官网建设企业网站可信度的具体策略
  • 网站开发公司销售总监岗位要求应用软件商店
  • php个人网站源码下载芮城做网站的机构
  • 医疗器械类网站前置审批做外贸生意是不是需要建网站
  • wix英文网站建设站长工具高清