电子商务战略选择 网站建设建议购物网站开发思路
文章目录
< 数据预处理 >
- 聚集:多个样本或特征进行合并(减少样本规模、转换标度、更稳定)
 - 抽样:抽取一部分样本
 - 降维:在地位空间中表示样本(PCA、SVD)
 - 特征选择:选取重要特征(Lasso)
 - 特征创建:重新构建有用特征(Fouter转换)
 - 离散化 
- 将连续属性转换为离散属性的过程
 - 常用于分类
 
 - 二元化 
- 将连续或类别属性映射到一个或多个二值变量
 - 关联分析
 - 将连续属性转换为类别属性,将类别属性转换为一组二值变量
 
 - 变量变换 
- 将给定属性的值转换
 - 线性变换方法(简单函数)
 
 - 规范化 
- 最小-最大规范化(归一化)
 - z-score规范化(零均值规范化)
 - 小数定标规范化
 
 
< sklearn 机器学习平台 >
MLlib学习库:
- 涵盖算法:分类算法、聚类算法、回归算法、降维算法
 - Scikit-learn 主要用法: 
- 符号标记:训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
 - 数据划分: 
- train_test_split(x,y,random)
 - shuffle = True
 
 - 数据预处理
 - 监督学习算法(分类、 
- 逻辑回归
 - 支持向量机
 - 朴素贝叶斯
 
 
 
