当前位置: 首页 > news >正文

二手书交易网站开发毕业设计宝塔windows建设网站

二手书交易网站开发毕业设计,宝塔windows建设网站,网代理加盟,拉新奖励的app排行【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧:get_json_object 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 …

【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧:get_json_object
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

    • 🎯 1.基本介绍
    • 💡 2. 代码用法
      • 2.1 初始化spark环境
      • 2.2 创建包含JSON的DataFrame
      • 2.3 使用get_json_object提取数据
    • 💡 3. 高级用法
      • 3.1 提取多个字段
    • 💡 4. 注意事项
    • 💡 5. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1.基本介绍

  在处理存储为JSON格式的列时,我们经常需要从嵌套结构中提取特定字段。PySpark提供了get_json_object函数,它可以从JSON字符串中提取出特定的值。这个函数对于处理具有复杂JSON结构的DataFrame非常有用。

💡 2. 代码用法

2.1 初始化spark环境

  对于pyspark来讲,常用的就是sparkcontext类,一般都是先启动一个这样的程序才可以进行相应的操作,而SparkSession可以在不创建SparkConf,SparkContext或SQLContext的情况下创建SparkSession(它们封装在SparkSession中), 这个sparksession就是用来调取dataframe相关操作的类,具体的操作如下:

    # 一般在进行spark-submit的.py文件在初始化的时候,需要创建spark对象,具体如下from pyspark import SparkConffrom pyspark import SparkContextfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark.sql import Rowfrom pyspark.sql.types import StructTypefrom pyspark.sql.types import StructFieldfrom pyspark.sql.types import StringTypefrom pyspark.sql import functions as fnfrom pyspark.sql import types as Tsc_conf = SparkConf().setAppName('b2b_fraud_data')spark = SparkSession.builder.config(conf=sc_conf).enableHiveSupport().getOrCreate()
  • 而对于上述的两个class来说,经常对创建相关的临时表,createOrReplaceTempView:创建临时视图,此视图的生命周期与用于创建此数据集的[SparkSession]相关联。
    createGlobalTempView:创建全局临时视图,此时图的生命周期与Spark Application绑定。如果想要删除的话就得使用spark.catalog.dropGlobalTempView(“tempViewName”)

2.2 创建包含JSON的DataFrame

  为了更加方便的了解解析的过程,我们创建相关的json数据格式来进行解析,具体的代码如下所示:

from pyspark.sql import Row# 创建一个包含JSON数据的DataFrame
data = [Row(id=1, features='{"choices":[{"message":{"content":"Hello World"}}]}'),Row(id=2, features='{"choices":[{"message":{"content":"Welcome to PySpark"}}]}')]df = spark.createDataFrame(data)
df.show(truncate=False)
df2 = spark.createDataFrame(data2)+---+------------------------------------------------------+
| id|features                                             |
+---+------------------------------------------------------+
|1  |{"choices":[{"message":{"content":"Hello World"}}]}   |
|2  |{"choices":[{"message":{"content":"Welcome to PySpark"}}]}|

2.3 使用get_json_object提取数据

  使用get_json_object提取features列中的content字段,具体的代码如下所示:

# 使用get_json_object提取features列中的content字段
df_with_content = df.withColumn("content", get_json_object(df.features, "$.choices[0].message.content"))# 显示结果
df_with_content.show(truncate=False)+---+------------------------------------------------------+------------+
| id|features                                             |content     |
+---+------------------------------------------------------+------------+
|1  |{"choices":[{"message":{"content":"Hello World"}}]}   |Hello World |
|2  |{"choices":[{"message":{"content":"Welcome to PySpark"}}]}|Welcome to PySpark|

💡 3. 高级用法

3.1 提取多个字段

  我假设我们需要同时提取多个字段,具体的代码如下所示:

# 假设我们需要同时提取多个字段
df_with_multiple_fields = df.withColumn("content", get_json_object(df.features, "$.choices[0].message.content")) \.withColumn("message_type", get_json_object(df.features, "$.choices[0].message.type"))# 显示结果
df_with_multiple_fields.show(truncate=False)

💡 4. 注意事项

  • get_json_object函数接受两个参数:DataFrame中的列名和JSON路径。
  • JSON路径使用美元符号 开头,后面跟随字段路径,例如 开头,后面跟随字段路径,例如 开头,后面跟随字段路径,例如.choices[0].message.content。
  • 如果JSON数据结构不匹配或路径错误,将返回null。

💡 5. 总结

  get_json_object函数是PySpark中处理嵌套JSON数据的有用工具。通过本博客的代码示例,我们学习了如何使用这个函数从复杂的JSON结构中提取所需的字段。希望这篇博客能够帮助你更好地理解get_json_object的用法,并将其应用于处理JSON数据的任务中。

http://www.yayakq.cn/news/719741/

相关文章:

  • 论坛备案网站名称哪个网站专门做高清壁纸
  • 男女做某事网站php网站后台怎么登陆
  • 写文案的网站网站拨测人员是干嘛的
  • 衡水网站建设与制作海葵音乐制作公司
  • 湖南网站建设优化跨境电商app
  • 关于网站建设的图片扬州市邗江区建设局网站
  • 有没有教做川菜的网站qq网页版在线登录聊天
  • 官网网站建设需求文档互联网兼职做网站维护
  • 郑州网站高端设计设计师素材网站e
  • 做网站首页有什么济南网站开发培训班
  • 博兴网站建设招聘商城网站 前置审批
  • 网站开发的8个步骤网站建设合同 代码应不应该给
  • 杭州品牌设计公司排名前十河北seo网站优化价格
  • 建设专业网站哪家比较好每个网站都有服务器吗
  • 天猫网站设计分析有网站吗给一个
  • 苏州网站建设网站开发个人社保缴费怎么网上缴费
  • 网站网址查询 优帮云工程师网站建设
  • 确定建设电子网站的目的关于网站建设的广告词
  • 汉滨区建设局网网站wordpress停用谷歌字体
  • 郑州网站建设zzwzjswordpress二手车主题
  • 海沧建设网站多少钱大商创源码
  • 网站建设与维护课程hui怎么做网站
  • 吉林网站建设价格区块链开发平台有哪些
  • 网站建设经济效益网站建设时怎么赚钱的
  • 网站设计合理网站建设边框
  • 做网站都需要用到什么腾讯开放平台官网
  • 怎么利用花生壳做自己的网站百度排名优化软件
  • 广州模板建站哪家好小程序免费制作平台
  • 网站服务理念北京都有那些做网站的公司
  • 网站建设系统课程长沙好的网站优化品牌