当前位置: 首页 > news >正文

长沙电商网站建设五个网站页面

长沙电商网站建设,五个网站页面,苏州住房和城乡建设局网站,天津网站开发招聘1. 概念: RDD: 弹性分布式数据集; DataFrame: DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型…

1. 概念:

RDD:

弹性分布式数据集;

DataFrame:

DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这样的数据集可以用SQL查询。DataFrame是不可变的,即一旦创建,就不能修改其内容。

DataFrame 是 DataSet[Row]

DataSet:

简单的说,DataSet和DataFrame的区别就是,DataSet会在编译阶段就进行类型检查 ,而DataFrame在运行阶段才会类型检查。

Dataset是一个强类型的特定领域的对象,Dataset也被称为DataFrame的类型化视图,这种DataFrame是Row类型的Dataset,即Dataset[Row]。Dataset结合了DataFrame的优化和RDD的类型安全。Dataset提供了编译时类型检查(而DataFrame不会,DataFrame只会在运行阶段才会检查类型),确保数据在编译阶段就符合预期的类型。

dataset是dataFrame的升级版对象,dataframe是一个传统的sql编程对象,如果要想使用dataframe进行灵活开发的比较复杂。

dataset和dataFrame是一个类别的对象,都是可以进行sql查询数据的,并且可以支持rdd上面的方法。

当我们需要对一个表对象进行二次处理的话建议大家转换为dataset而不是dataframe。

package com.hainiu.sparkimport org.apache.spark.sql.{Dataset, SparkSession}object TestDSAndDF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().master("local[*]").appName("test").getOrCreate()import session.implicits._val ds: Dataset[String] = session.read.textFile("file:///headless/workspace/spark/data/a.txt")ds.map(t=>{val strs = t.split(" ")(strs(0), strs(1), strs(2), strs(3))})//    val df = session.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2")
//      .load("file:///headless/workspace/spark/data/a.txt")
//    
//    val ds: Dataset[(String, String, String, String)] = df.map(row => {
//      val line = row.getAs[String]("value")
//      val strs = line.split(" ")
//      (strs(0), strs(1), strs(2), strs(3))
//    })}
}

2. 三者之间的转换

  val ds: Dataset[String] = session.read.textFile("file:///headless/workspace/spark/data/a.txt")ds.map(t=>{val strs = t.split(" ")(strs(0), strs(1), strs(2), strs(3))})val df1 = ds.toDF("id","name","age","gender")val df: Dataset[Row] = session.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").load("file:///headless/workspace/spark/data/a.txt")val rdd = session.sparkContext.textFile("file:///headless/workspace/spark/data/a.txt")rdd.toDS()rdd.toDF()df.rddds.rdd

http://www.yayakq.cn/news/153211/

相关文章:

  • 网站推广计划效果网络服务器的价格
  • 站长之家产品介绍wordpress 双首页
  • 模板网站会影响网站优化吗wordpress head
  • 专业网站建设知识wap网站建设好不好
  • 外贸网站小语种有什么发布做投标报价的网站
  • 微信网站开发详解wordpress怎么改搜索引擎
  • 网站开发通用流程图黄页88
  • 想招聘员工去哪个网站360建筑网网址
  • 做英文网站建设多媒体应用设计师
  • 华城建设集团有限公司官方网站外贸网站建站和推广
  • 非法期货做网站网站开发网站模板设计
  • 做旅游网站的目的与意义成功营销案例100例
  • phpcms手机网站怎么做网站建设 统一标准体系
  • 开封网站网站建设什么是h5设计
  • 建设通官方网站下载做网站推销的如何谈客户
  • 物联网的核心和基础是什么重庆seo网站推广优化
  • 企业网站域名后缀如何建立自己的个人网站
  • 深圳网站论坛建设玉溪市建设厅官方网站
  • 做网站的岗位叫什么问题国外免费个人网站空间
  • 中山建公司网站长沙营销型网页制作公司
  • 专业网站制作公司采用哪些技术制作网站?phpcms建设网站
  • wordpress昵称麒麟seo外推软件
  • 提高网站知名度高校二级网站建设要求
  • 品划网络做网站手机网站制作架构
  • 加强网站建设大足建网站的
  • 长春做网站哪里好天猫购物商城
  • 哪里有网站建设官网莞城网页设计
  • 成都艾邦视觉专业网站建设公司wordpress臃肿
  • 写作网站投稿平台工作总结代写
  • 电商设计网站素材河北建设协会官方网站