当前位置：首页 > news >正文

益阳网站建设企业智慧园区展厅设计

news 2025/11/4 17:34:31

益阳网站建设企业,智慧园区展厅设计,杭州住房和城乡建设厅官网,古镇免费网站建设数据挖掘——数据预处理数据预处理数据预处理 ——主要任务数据清洗如何处理丢失的数据如何处理噪声数据如何处理不一致数据数据集成相关分析相关系数(也成为皮尔逊相关系数)协方差数据规约降维法：PCA主成分分析降数据——抽样法数据压缩数据预处理数据预处理…

数据挖掘——数据预处理

数据预处理
- 数据预处理 ——主要任务
- 数据清洗
- - 如何处理丢失的数据
  - 如何处理噪声数据
  - 如何处理不一致数据
- 数据集成
- - 相关分析
  - - 相关系数(也成为皮尔逊相关系数)
    - 协方差
- 数据规约
- - 降维法：PCA主成分分析
  - 降数据——抽样法
  - 数据压缩

数据预处理

数据预处理 ——主要任务

数据清理
- 填写缺失值，平滑噪声数据，识别或删除离群，并解决不一致问题
数据集成
- 整合多个数据库，多维数据集或文件
数据规约
- 降维
- 降数据
- 数据压缩
数据转换
- 规范化
- 离散化

数据清洗

属性值缺失：
- 例如，职业=“ ”（丢失）
噪音，错误或离群
- 例如，工资=“-10”（错误）
不一致的代码或不符的名称
- 年龄=“42”生日=“03/07/1997”
- 曾经评级“1,2,3”，现在评级“A，B，C”

如何处理丢失的数据

忽略元组：当类标号缺少时通常这么做（监督式机器学习中训练集缺乏类标签）。当每个属性缺少值比例比较大时，效果比较差
手动填写遗漏值：工作量大
自动填写
- 使用属性的平均值填充空缺值
- 最有可能的值：基于诸如贝叶斯公式或决策树推理

如何处理噪声数据

箱线图检测离群数据：删除离群点
在这里插入图片描述

如何处理不一致数据

不一致的代码或不符的名称
- 年龄=“42”生日=“09/24/1998”
- 曾经评级“1,2,3”，现在评级“A，B，C”
方法
- 计算推理、替换
- 全局替换

数据集成

将来自多个数据源的数据组合成一个连贯的数据源
在这里插入图片描述

整合多个数据库经常发生数据冗余
- Object identification：相同的属性或对象可能有不同的名字在不同的数据库中
- Derivable data：一个属性可能是“派生”的另一个表中的属性，例如，跑步能力
通过相关性分析和协方差分析可以检测到冗余的属性
仔细集成来自多个数据源，可能有助于减少/避免冗余和不一致的地方，并提高读取速度和质量

降维
降数据
数据压缩

降维法：PCA主成分分析

在这里插入图片描述

PCA主成分分析法核心idea
- 数据中很多属性之间可能存在这样或那样的相关性
- 能不能找到一个方法，将多个相关性的属性组合仅仅形成一个属性？

降数据——抽样法

在这里插入图片描述

简单随机抽样(SimpleRandomSampling)
- 相等的概率选择
- 不放回抽样(Samplingwithout replacement)
  - 一旦对象被选中，则将其删除
- 有放回抽样(Samplingwithreplacement)
  - 选择对象不会被删除
分组抽样
- 每组抽相近个数
- 用于偏斜数据

样本大小对数据质量的影响: