当前位置: 首页 > news >正文

柳城网站阿里巴巴做网站费用计入

柳城网站,阿里巴巴做网站费用计入,网站开发提案模板,网页qq空间目录特征降维概念特征选择过滤式①低方差特征过滤②相关系数③主成分分析特征降维 0维 标量 1维 向量 2维 矩阵 概念 降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 注:正是…

目录

  • 特征降维
    • 概念
  • 特征选择
  • 过滤式
    • ①低方差特征过滤
    • ②相关系数
    • ③主成分分析

特征降维

0维 标量

1维 向量

2维 矩阵

概念

降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

注:正是因为在进行训练的时候,我们都是使用特征进行学习,如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大

降维的两种方式:

  • 特征选择
  • 主成分分析(可以理解为一种特征提取的方式)

特征选择

①定义

数据中包含冗余或相关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。

②方法

  • Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
    • 方差选择法:低方差特征过滤
    • 相关系数
  • Embedded(嵌入式):算法自动选择特征(特征与目标值之间的关联)
    • 决策树:信息熵、信息增益
    • 正则化:L1、L2
    • 深度学习:卷积等

③模块

sklearn.feature_selection

过滤式

①低方差特征过滤

  • 删除低方差的一些特征

    • 特征方差小:某个特征很多样本的值比较相近
    • 特征方差大:某个特征很多样本的值都有差别
  • API

sklearn.feature_selection.VarianceThreshold(threshold=0.0)-删除所有低方差特征
-Variance.fit_transform(X)X:numpy array格式的数据[n_samples,n_features]返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征
  • 代码演示
from sklearn.feature_selection import VarianceThreshold
import pandas as pd
def variance_demo():#1.获取数据data=pd.read_csv("data.TXT")print("data:\n", data)#2.实例化一个转换器类transfer=VarianceThreshold(threshold=7)#3.调用fit_transformresult=transfer.fit_transform(data)print("result:\n", result,result.shape)return None

②相关系数

  • 皮尔逊相关系数(Pearson Correlation Coefficient)

    • 反映变量之间相关关系密切程度的统计指标
  • 公式

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2mnqAqBm-1676026457448)(C:\Users\dawei\AppData\Roaming\Typora\typora-user-images\image-20230204224211432.png)]

  • 特点

    相关系数的值介于-1与+1之间,即-1<=r<=+1,其性质如下:

    • 当r>0时,表示两变量正相关,r<0时,两变量为负相关
    • 当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系
    • 当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
    • 一般可按三级划分:|r|<0.4为低度相关;0.4<=|r|<0.7为显著性相关;0.7<=|r|<1为高度线性相关
  • API

from scipy.stats import pearsonr-x:array
-y:array
-Returns:(Pearson`s correlation coefficient,p-value)
  • 代码演示
from scipy.stats import pearsonr
def p_demo():# 1.获取数据data = pd.read_csv("data.TXT")print("data:\n", data)# 2.计算两个变量之间的相关系数r=pearsonr(data["one"],data["two"])print("相关系数:\n", r)return None

如果特征与特征之间相关性很高,通过以下方法处理:
①选取其中一个
②加权求和
③主成分分析

③主成分分析

  • 定义

    高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量

  • 作用

    是数据维数压缩,尽可能降低原数据维数(复杂度),损失少量信息

  • 应用

    回归分析或者聚类分析当中

  • API

sklearn.decomposition.PCA(n_components=None)-将数据分解为较低维数空间
-n_components:·小数:表示保留百分之多少的信息·整数:减少到多少特征
-PCA.fit_transform(X)X:numpy array格式的数据[n_samples,n_features]
-返回值:转换后指定维度的array
  • 使用
from sklearn.decomposition import PCA
def pca_demo():data=[[2,8,4,5],[6,3,0,8],[5,4,9,1]]#1.实例化一个转换器类transfer=PCA(n_components=2)#2.调用fit_transformresult=transfer.fit_transform(data)print("result:\n",result)return None
http://www.yayakq.cn/news/959930/

相关文章:

  • 网站排版网站域名解绑
  • 百度信息流代理seo实战培训王乃用
  • 网站建设要如何选择企业网站开发注意什么
  • 南宁商城网站建设7k7k小游戏大全网页版
  • 滕州网站制作网站死链接扫描
  • 网站建设需要注意网架加工价格
  • 专业网站制作公司名称网站优化人员通常会将目标关键词放在网站首页中的
  • 家用电脑做网站刷死粉网站推广
  • 手机微网站二级菜单怎么做阿里云 企业网站
  • 建设局网站简介网站信息化建设存在的困难
  • 网站建设开票单位注册一个新公司需要多少钱
  • 网页设计代码显示时间seo网站推广技术
  • 网站建设php实验报告艺麟盛世可以做网站推广吗
  • 上不了国外网站怎么做外贸做网站算新媒体运营吗
  • 做网站公司长沙哪家好原创视频素材哪里弄
  • 网站数据库密码修改了要怎么做临沂网站设计制作
  • 怎么做移动网站济南网站建设抖音平台
  • 网站鼠标经过图片代码河北工程信息网官网
  • 南通网站建设服务seo站长工具查询系统
  • 国内哪家网站建设公司好网站上的二维码怎么做
  • wordpress企业网站模板下载网站建立的步骤是( )
  • 大连地区做网站ASP网站建设招聘
  • 怎样在网站做咨询医生挣钱4s店网站模板
  • 学校网站在建设方面的的优势wordpress多合一seo包
  • 高密做网站哪家好价位网页设计与实训布置课堂作业
  • 中国公路建设协会网站宁波seo网站排名优化公司
  • 广州云脑网站建设网站制作2007
  • 企业网站建设套餐费用广州骏域网络
  • 甘肃建设厅职称查询官方网站windows优化大师怎么下载
  • 做网站延期交付了旅游类网站开发毕业设计