当前位置: 首页 > news >正文

做网站在线支付系统多少钱工信部备案管理系统

做网站在线支付系统多少钱,工信部备案管理系统,智能建造技术专业学什么,深圳生产型企业网站建设专业0、前言: 这部分内容是对Pandas的回顾,同时也是对Pandas处理异常数据的一些技巧的总结,不一定全面,只是自己在数据处理当中遇到的问题进行的总结。 1、当数据中有重复行的时候需要检测重复行: 方法:使用p…

0、前言:

  • 这部分内容是对Pandas的回顾,同时也是对Pandas处理异常数据的一些技巧的总结,不一定全面,只是自己在数据处理当中遇到的问题进行的总结。

1、当数据中有重复行的时候需要检测重复行:

  • 方法:使用pandas中的duplicated方法,在该方法中有两个参数subset和keep,subset需要提供一个列表,列表中每个元素是一个列名,keep有三个可选项(‘first’,‘last’,False)
  • 示例
import pandas as pd# 创建一个包含重复行的示例数据框
data = {'A': [6, 2, 3, 4, 6], 'B': [11, 10, 9, 10, 11]}
df = pd.DataFrame(data)display(df)# 使用duplicated方法检测重复行
duplicates = df.duplicated(subset=['A'])
print(duplicates)
print('='*30)
# 使用duplicated方法检测重复行
duplicates = df.duplicated(subset=['A'],keep=False)
print(duplicates)
print('='*30)
# 使用duplicated方法检测重复行
duplicates = df.duplicated(subset=['A'],keep="first")
print(duplicates)
print('='*30)
# 使用duplicated方法检测重复行
duplicates = df.duplicated(subset=['A'],keep='last')
print(duplicates)
print('='*30)
# 使用duplicated方法检测重复行
duplicates = df.duplicated(subset=['A','B'])
print(duplicates)
print('='*30)

在这里插入图片描述


2、删除重复行:

  • 方法用pandas中的duplicated方法加loc索引即可
  • 注意:删除重复列就没有比较快捷的方法了,就需要一一比较然后用drop方法删除对应列
data = [[1,2,3,4],[5,6,7,8],[1,2,3,4]]
df = pd.DataFrame(data,columns=list('ABCD'),index=[1,2,3])
display(df)# 查找重复行
re = df.duplicated(subset=['A','B','C','D'],keep='first')
display(~re)# 删除
df_new = df.loc[~re].copy()
display(df_new)

在这里插入图片描述


3、需要替换DataFrame元素中的值:核心思想就是映射,借助python中的字典。

  • 替换中主要用到的思路就是映射,映射的含义是创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定,从其含义就可以看出和python中的字典非常像。
  • 方法1:使用replace,特点是可以替换整个DataFrame中的值,会生成一个新数组。要替换原来的数组就要重新给原来的数组把replace之后的新数组赋值过去,当然先选中需要替换的列然后再替换也是可以的。
# 测试
df = DataFrame(data=[[1,2,34,5,6],[1,2,34,5,6],[1,2,34,5,6]],index=[1,2,3],columns=['语文','数学','英语','化学','科技']
)
display(df)
a = df.replace({1:'x',5:100}).copy()
display(a)

在这里插入图片描述

  • 方法2:使用map,主要针对DataFrame中的列进行处理,其特点有3,第一可以通过已有列生成一个新列,第二适合处理某一个单独列,第三map函数中可以使用lambda函数或者自定义函数。但有个前提就是map中要处理哪一列,就要给列中所有元素给出对应的映射,不能有的给了,有的没给,没给的会修改为NaN值,这种方法会生成新列,没法修改原来的列,要修改原来的列就要给原来的列重新赋值map生成的新列
# 测试
df = DataFrame(data=[[1,2,34,5,6],[10,2,34,7,6],[15,2,34,5,6]],index=[1,2,3],columns=['语文','数学','英语','化学','科技']
)
display(df)
# 通过已有列生成新列
df['化学改'] = df.loc[:,'化学'].map({5:50,7:90})
display(df)
# 单独处理某一列
df['语文改'] = df.loc[:,'语文'].map({1:10,15:10})
display(df)
# 单独处理某一列
df['语文2改'] = df.loc[:,'语文'].map({1:10,15:10,10:10})
display(df)
# 映射函数
def n(x):if x > 60:return '及格'else:return "不及格"
df['数学判断'] = df.loc[:,'数学'].map(n)
display(df)
df['化学判断'] = df.loc[:,'化学改'].map(lambda x: '合格' if x>60 else '不合格')
display(df)

在这里插入图片描述

  • 方法3:使用rename方法替换DataFrame中的行索引和列索引
# 测试
df = DataFrame(data=[[1,2,34,5,6],[10,2,34,7,6],[15,2,34,5,6]],index=[1,2,3],columns=['语文','数学','英语','化学','科技']
)
display(df)
df1 = df.rename(index={1:'zhang'},columns={'语文':'YuWen'}).copy()
display(df1)

在这里插入图片描述

  • 方法4:factorize() 是一个在 pandas 中的函数,它可以将分类或者标签数据转换为数值形式。这个函数会返回两个值:一个整数序列(表示分类的整数代码)和一个包含分类标签的字符串系列。
    重要参数:na_option:如何处理缺失值。可以设为 ‘drop’(默认),‘keep’ 或 ‘ignore’。如果设为 ‘keep’,缺失值将被视为一个特殊的类别。如果设为 ‘drop’,含有缺失值的行将被完全忽略。如果设为 ‘ignore’,含有缺失值的行仍然会被编码,但结果可能不是整数。注意:factorize() 会返回一个新的列,如果要修改原来的列,就要给原来的列重新赋值
da = pd.DataFrame([['a','v','e'],['b','c','d']],columns=['a','b','c'],index=[1,2])
display(da)
i,j = da.a.factorize()
display(i,j)
da.a = a
display(da)
da.c,k = da.loc[:,'c'].factorize()
display(k)
display(da)

在这里插入图片描述


4、异常值筛选:

  • 使用describe()函数查看每一列的描述性统计量
# 测试
df = DataFrame(data=[[1,2,34,5,6],[10,2,34,7,6],[15,2,34,5,6]],index=[1,2,3],columns=['语文','数学','英语','化学','科技']
)
display(df)
df.describe()

在这里插入图片描述

  • 使用std()函数可以求得DataFrame对象每一列的标准差(较为简单不做示例)
  • 使用info()可以获取数据中是否有空值
  • 异常值筛选思路:先确定异常值,然后通过条件判断获取异常值
df = DataFrame(data={'height': np.random.randint(120,260,size=5),'weight': np.random.randint(40,150,size=5)}
)
df.loc[:,'weight']=[180,500,600,111,120]
display(df)
pro = df.loc[:,'weight']>180
display(df.loc[:'weight'][pro])

在这里插入图片描述

  • unique() 方法,可以对某一列或一行数据去重(较为简单不做示例)
  • df.query : 按条件查询,可以在DataFrame中以字符串的形式编写表达式来选择或过滤特定的行和列。
# 测试
df = DataFrame(data=[[1,2,34,5,6],[10,2,34,7,6],[15,2,34,5,6]],index=[1,2,3],columns=['语文','数学','英语','化学','科技']
)
display(df)
a = df.query("数学==2").copy()
display(a)
b = df.query("化学==5 and 语文==1").copy()
display(b)

在这里插入图片描述


http://www.yayakq.cn/news/225438/

相关文章:

  • 服务器租用相关网站工作室创业项目
  • 昆明网站建设c3sales1534939978姐的微信德惠市
  • 工程建设监理网站企业网站的建立费用 作什么科目
  • 宝盈集团直营网站怎么做温州网站建设模板总部
  • 免费网站注册免费创建网站做网络营销推广途径
  • 网站搭建服务器需要什么学网站开发难吗
  • 知名自适应网站建设哪家好ppt模板资源网站
  • 苏州网站设计营销公司建设一个网站价格
  • 怎么在网站挂黑链接wordpress 访问慢
  • 福安 网站设计wordpress问题解决方法
  • wordpress加载视频网站优化比较好的公司
  • php网站开发所需要的软件网站功能框架
  • wordpress怎么给别人建站医药网站怎么做
  • 小语种网站怎么做企业所得税怎么征收几个点
  • 凡建网站电影网站如何优化
  • 文秘写作网站网站开发怎么谈客户
  • 网站建设期末答案网站建设情况检查报告
  • 受欢迎的建网站哪家好申请一个app多少钱
  • 充实网站 廉政建设 板块苏州风险区域最新
  • 网站维护页面 下载扬州做网站的公司哪个好
  • 湖南省金力电力建设有限公司 网站怎样防止别人利用自己的电脑做网站服务器
  • 石家庄网站快速排名好网站范例
  • 网站统计关键词深圳网站建设 乐云seo
  • 查看网站名称免费域名注册平台
  • 建造网站的软件华联app每周四抢电影票
  • 优必选网站wordpress发布图片插件
  • php网站建设含义网站开发投票代码
  • 洪梅镇网站仿做信誉好的武进网站建设
  • 个人网站用什么域名liunx wordpress 搭建
  • 如何用ip地址做网站电脑浏览器打不开网页是什么原因