当前位置: 首页 > news >正文

免费的网站开发工具优化设计六年级下册语文答案

免费的网站开发工具,优化设计六年级下册语文答案,建网站选哪个,网站开发用什么工具好数据预处理 通过网盘分享的文件:银行流失预测数据和代码 链接: https://pan.baidu.com/s/1loiB8rMvZArfjJccu4KW6w?pwdpfcs 提取码: pfcs 非数值特征处理 目的:将非数值特征转换为数值型,以便模型能够处理。方法: 地理位置&am…

数据预处理

通过网盘分享的文件:银行流失预测数据和代码
链接: https://pan.baidu.com/s/1loiB8rMvZArfjJccu4KW6w?pwd=pfcs 提取码: pfcs

非数值特征处理
  • 目的:将非数值特征转换为数值型,以便模型能够处理。
  • 方法
    • 地理位置:可以使用独热编码(One-Hot Encoding)或标签编码(Label Encoding)将不同国家/地区转换为数值。
    • 性别:可以使用标签编码,将“男”和“女”分别编码为0和1。
  • 结果文件:保存为Churn-Modelling-newT.csv
数据离散化处理
  • 目的:将连续变量转换为离散变量,简化模型复杂度,提高模型的可解释性。
  • 方法
    • 统计分析:对连续数据进行描述性统计分析,了解数据的分布情况。
    • 离散化方法
      • 等宽离散化:将数据分为等宽的区间。
      • 等频离散化:将数据分为等频的区间。
      • 基于聚类的离散化:使用聚类算法确定离散化的区间。
  • 结果文件:保存为Churn-Modelling-new-tree.csv
数据筛选
  • 目的:去除与模型训练无关的特征列,保留有意义的数据,解决数据不均衡问题。
  • 方法
    • 特征筛选:舍去如行号、用户编号、用户姓名等无关特征。
    • 数据平衡
      • 过采样:增加少数类别的样本数量。
      • 欠采样:减少多数类别的样本数量。
  • 结果文件:保存为final.csv
数据分割
  • 目的:将数据集分为训练集和测试集,用于模型训练和评估。
  • 方法:按照4:1的比例分割数据集。
  • 结果文件
    • 训练集:Churn-Modelling-train.csv
    • 测试集:Churn-Modelling-test.csv
数据集预览

数据总览

数据特征列描述

RowNumber:行号
CustomerID:用户编号
Surname:用户姓名
CreditScore:信用分数
Geography:用户所在国家/地区
Gender:用户性别
Age:年龄
Tenure:当了本银行多少年用户
Balance:存贷款情况
NumOfProducts:使用产品数量
HasCrCard:是否有本银行信用卡
IsActiveMember:是否活跃用户
EstimatedSalary:估计收入
Exited:是否已流失,作为标签数据

代码部分

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, KBinsDiscretizer
# 过采样与欠采样解决数据不均衡问题
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler# 读取数据
df = pd.read_csv('Churn-Modelling.csv')# a) 非数值特征处理
# 地理位置 - 独热编码
geography_dummies = pd.get_dummies(df['Geography'], prefix='Geography')
df = pd.concat([df, geography_dummies], axis=1)
df.drop('Geography', axis=1, inplace=True)# 性别 - 标签编码
label_encoder = LabelEncoder()
df['Gender'] = label_encoder.fit_transform(df['Gender'])# 保存处理后的文件
df.to_csv('Churn-Modelling-newT.csv', index=False)# b) 数据离散化处理
# 信用分数、年龄、存贷款情况、估计收入 - 等宽离散化
discretizer = KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='uniform')
columns_to_discretize = ['CreditScore', 'Age', 'Balance', 'EstimatedSalary']
df[columns_to_discretize] = discretizer.fit_transform(df[columns_to_discretize])# 保存处理后的文件
df.to_csv('Churn-Modelling-new-tree.csv', index=False)# c) 数据筛选
# 去除无关特征列
df.drop(['RowNumber', 'Customerid', 'Surname'], axis=1, inplace=True)X = df.drop('Exited', axis=1)
y = df['Exited']# 过采样
over_sampler = RandomOverSampler(sampling_strategy=0.5)
X_over, y_over = over_sampler.fit_resample(X, y)# 欠采样
under_sampler = RandomUnderSampler(sampling_strategy=0.8)
X_resampled, y_resampled = under_sampler.fit_resample(X_over, y_over)# 保存筛选后的文件
final_df = pd.concat([X_resampled, y_resampled], axis=1)
final_df.to_csv('final.csv', index=False)# d) 数据分割
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)train_df = pd.concat([X_train, y_train], axis=1)
test_df = pd.concat([X_test, y_test], axis=1)train_df.to_csv('Churn-Modelling-train.csv', index=False)
test_df.to_csv('Churn-Modelling-test.csv', index=False)

预处理结果图

小注

要查看LabelEncoder是如何将类别值映射到整数的,你可以使用LabelEncoder对象的classes_属性。这个属性是一个数组,包含了原始类别值的排序列表,其索引位置对应于转换后的整数值。

以下是如何查看性别类别值映射的方法:

label_encoder = LabelEncoder()
df['Gender'] = label_encoder.fit_transform(df['Gender'])# 查看类别值的映射
print(label_encoder.classes_)

假设df['Gender']列包含两个唯一值'Male''Female'LabelEncoder会根据它们在数据中出现的顺序进行排序(通常是字典序),然后进行编码。例如,如果输出是:

['Female' 'Male']

这意味着'Female'被编码为0,'Male'被编码为1。如果顺序相反,那么'Male'将被编码为0,'Female'被编码为1。

如果你想要明确地指定编码方式,可以使用map函数手动设置映射:

# 假设我们想要将'Male'编码为0,'Female'编码为1
gender_mapping = {'Male': 0, 'Female': 1}
df['Gender'] = df['Gender'].map(gender_mapping)

这样就可以确保'Male'总是被编码为0,'Female'总是被编码为1。

http://www.yayakq.cn/news/164716/

相关文章:

  • php网站建设案例教程视频教程设计类专业排名
  • 网站建设技术工具步骤的近义词
  • 织梦移动网站模板免费下载网站实施要求
  • 网站建立与推广北京网站建设定制
  • 网站怎么建设模块海安网站设计公司
  • 网站制作网站维护网推app下载
  • 中小企业网站建设行情小程序开发工具
  • 电商 网站 降低 跳出率 措施 效果如何拥有自己的域名
  • 南通企业网站有哪些广府网站建设
  • 俄语网站都哪些济南建设银行网点
  • 怎么用手机做刷赞网站网页的创新型网站策划
  • 网站建设与网页设计品质好的女装品牌
  • 单页网站制作 在线 支付长沙企业100强名单
  • 沂源网站制作网站系统源码
  • wordpress wdlog主题网站优化 北京
  • 行业类网站应如何建设新闻摘抄2022最新5篇
  • 七牛云可以做网站的存储空间吗页面设计培训学校
  • 烟台住房和城乡建设厅网站特色个人网页设计
  • 咸宁网站制作培训阿克苏网站建设服务
  • 浙江中企建设集团有限公司网站兰陵住房建设局网站
  • 昆明网站建设高端定制建网站报价
  • 网站地图怎样做软件开发人员外包
  • wordpress 多语言 站点天津网站建设运营方案
  • 一般设计网站页面用什么软件做苏州知名网站建设公司排名
  • 传统外贸网站的seo运用网页布局的设计原则
  • 宿迁新站seo怎么在网上建网站
  • 网站建设管理软件上海网页优化软件
  • 如何查网站点击量校园网站建设调查问卷
  • 网站名查找如何免费虚拟网站
  • 做跨境电商一件代发的网站怎么做网站倒计时