当前位置: 首页 > news >正文

大良营销网站建设市场建设网站服务器是什么

大良营销网站建设市场,建设网站服务器是什么,设计单网站建设,优秀网站建设公司电话文章目录大数据Hadoop生态圈-组件介绍1、HDFS#xff08;分布式文件系统#xff09;2、MapReduce#xff08;分布式计算框架#xff09;3、Spark#xff08;分布式计算框架#xff09;4、Flink#xff08;分布式计算框架#xff09;5、Yarn/Mesos#xff08;分布式资源… 文章目录大数据Hadoop生态圈-组件介绍1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Spark分布式计算框架4、Flink分布式计算框架5、Yarn/Mesos分布式资源管理器6、Zookeeper分布式协作服务7、Sqoop数据同步工具8、Hive/Impala基于Hadoop的数据仓库9、HBase分布式列存储数据库10、Flume日志收集工具11、Kafka分布式消息队列12、Oozie工作流调度器大数据Hadoop生态圈-组件介绍 Hadoop起源于Apache Nutch项目始于2002年是Apache Lucene的子项目之一 。2004年Google在“操作系统设计与实现”Operating System Design andImplementationOSDI会议上公开发表了题为MapReduceSimplified Data Processing on Large ClustersMapreduce简化大规模集群上的数据处理的论文之后受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架并将它与NDFSNutch Distributed File System结合用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用所以它们于2006年2月被分离出来成为一套完整而独立的软件并被命名为Hadoop。到了2008年年初hadoop已成为Apache的顶级项目包含众多子项目被应用到包括Yahoo在内的很多互联网公司。 Hadoop是目前应用最为广泛的分布式大数据处理框架其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同各种组件相继出现丰富Hadoop生态圈目前生态圈结构大致如图所示 根据服务对象和层次分为数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下来对Hadoop生态圈中出现的相关组件做一个简要介绍。 1、HDFS分布式文件系统 HDFS是整个hadoop体系的基础负责数据的存储与管理。HDFS有着高容错性fault-tolerant的特点并且设计用来部署在低廉的low-cost硬件上。而且它提供高吞吐量high throughput来访问应用程序的数据适合那些有着超大数据集large data set的应用程序。 client切分文件访问HDFS时首先与NameNode交互获取目标文件的位置信息然后与DataNode交互读写数据 NameNodemaster节点每个HDFS集群只有一个管理HDFS的名称空间和数据块映射信息配置相关副本信息处理客户端请求。 DataNodeslave节点存储实际数据并汇报状态信息给NameNode默认一个文件会备份3份在不同的DataNode中实现高可靠性和容错性。 Secondary NameNode辅助NameNode实现高可靠性定期合并fsimage和fsedits推送给NameNode紧急情况下辅助和恢复NameNode但其并非NameNode的热备份。 Hadoop 2为HDFS引入了两个重要的新功能 ——Federation和高可用HA Federation允许集群中出现多个NameNode之间相互独立且不需要互相协调各自分工管理自己的区域。 DataNode 被用作通用的数据块存储设备。每个 DataNode 要向集群中所有NameNode 注册并发送心跳报告执行所有 namenode的命令。 HDFS中的高可用性消除了Hadoop 1中存在的单点故障其中NameNode故障将导致集群中断。HDFS的高可用性提供故障转移功能备用节点从失败的主NameNode接管工作的过程以实现自动化。 2、MapReduce分布式计算框架 MapReduce是一种基于磁盘的分布式并行批处理计算模型用于处理大数据量的计算。其中Map对应数据集上的独立元素进行指定的操作生成键-值对形式中间Reduce则对中间结果中相同的键的所有值进行规约以得到最终结果。 Jobtrackermaster节点只有一个管理所有作业任务/作业的监控错误处理等将任务分解成一系列任务并分派给Tasktracker。 Tacktrackerslave节点运行 Map task和Reduce task并与Jobtracker交互汇报任务状态。 Map task解析每条数据记录传递给用户编写的map()函数并执行将输出结果写入到本地磁盘如果为map—only作业则直接写入HDFS。 Reduce task从Map 它深刻地执行结果中远程读取输入数据对数据进行排序将数据分组传递给用户编写的Reduce()函数执行。 3、Spark分布式计算框架 Spark是一种基于内存的分布式并行计算框架不同于MapReduce的是——Job中间输出结果可以保存在内存中从而不再需要读写HDFS因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Cluster Manager在standalone模式中即为Master主节点控制整个集群监控worker。在YARN模式中为资源管理器 Worker节点从节点负责控制计算节点启动Executor或者Driver。 Driver 运行Application 的main()函数 Executor执行器是为某个Application运行在worker node上的一个进程 Spark将数据抽象为RDD弹性分布式数据集内部提供了大量的库包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 开发者可以在同一个应用程序中无缝组合使用这些库。 Spark Core包含Spark的基本功能尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL提供通过Apache Hive的SQL变体Hive查询语言HiveQL与Spark进行交互的API。每个数据库表被当做一个RDDSpark SQL查询被转换为Spark操作。 Spark Streaming对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据通过短时批处理实现的伪流处理。 MLlib一个常用机器学习算法库算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法比如分类、回归等需要对大量数据集进行迭代的操作。 GraphX控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API包含控制图、创建子图、访问路径上所有顶点的操作 4、Flink分布式计算框架 Flink是一个基于内存的分布式并行处理框架类似于Spark但在部分设计思想有较大出入。对 Flink 而言其所要处理的主要场景就是流数据批数据只是流数据的一个极限特例而已。 Flink VS Spark Spark中RDD在运行时是表现为Java Object而Flink主要表现为logical plan。所以在Flink中使用的类Dataframe api是被作为第一优先级来优化的。但是相对来说在spark RDD中就没有了这块的优化了。 Spark中对于批处理有RDD对于流式有DStream不过内部实际还是RDD抽象在Flink中对于批处理有DataSet对于流式我们有DataStreams但是是同一个公用的引擎之上两个独立的抽象并且Spark是伪流处理而Flink是真流处理。 5、Yarn/Mesos分布式资源管理器 YARN是下一代MapReduce即MRv2是在第一代MapReduce基础上演变而来的主要是为了解决原始Hadoop扩展性较差不支持多计算框架而提出的。 Mesos诞生于UC Berkeley的一个研究项目现已成为Apache项目当前有一些公司使用Mesos管理集群资源比如Twitter。与yarn类似Mesos是一个资源统一管理和调度的平台同样支持比如MR、steaming等多种运算框架。 6、Zookeeper分布式协作服务 解决分布式环境下的数据管理问题统一命名状态同步集群管理配置同步等。 Hadoop的许多组件依赖于Zookeeper它运行在计算机集群上面用于管理Hadoop操作。 7、Sqoop数据同步工具 Sqoop是SQL-to-Hadoop的缩写主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序充分利用了MR的并行化和容错性。 Sqoop利用数据库技术描述数据架构用于在关系数据库、数据仓库和Hadoop之间转移数据。 8、Hive/Impala基于Hadoop的数据仓库 Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。 HQL用于运行存储在Hadoop上的查询语句Hive让不熟悉MapReduce开发人员也能编写数据查询语句然后这些语句被翻译为Hadoop上面的MapReduce任务。 Impala是用于处理存储在Hadoop集群中的大量数据的MPP大规模并行处理SQL查询引擎。 它是一个用C 和Java编写的开源软件。 与Apache Hive不同Impala不基于MapReduce算法。 它实现了一个基于守护进程的分布式架构它负责在同一台机器上运行的查询执行的所有方面。因此执行效率高于Apache Hive。 9、HBase分布式列存储数据库 HBase是一个建立在HDFS之上面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。 HBase采用了BigTable的数据模型增强的稀疏排序映射表Key/Value其中键由行关键字、列关键字和时间戳构成。 HBase提供了对大规模数据的随机、实时读写访问同时HBase中保存的数据可以使用MapReduce来处理它将数据存储和并行计算完美地结合在一起。 10、Flume日志收集工具 Flume是一个可扩展、适合复杂环境的海量日志收集系统。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流在具体的数据流中数据源支持在Flume中定制数据发送方从而支持收集各种不同协议数据。 同时Flume数据流提供对日志数据进行简单处理的能力如过滤、格式转换等。此外Flume还具有能够将日志写往各种数据目标可定制的能力。 Flume以Agent为最小的独立运行单位一个Agent就是一个JVM。单个Agent由Source、Sink和Channel三大组件构成 Source从客户端收集数据并传递给Channel。 Channel缓存区将Source传输的数据暂时存放。 Sink从Channel收集数据并写入到指定地址。 Event日志文件、avro对象等源文件。 11、Kafka分布式消息队列 Kafka是一种高吞吐量的分布式发布订阅消息系统它可以处理消费者规模的网站中的所有动作流数据。实现了主题、分区及其队列模式以及生产者、消费者架构模式。 生产者组件和消费者组件均可以连接到KafKa集群而KafKa被认为是组件通信之间所使用的一种消息中间件。KafKa内部氛围很多Topic一种高度抽象的数据结构每个Topic又被分为很多分区partition每个分区中的数据按队列模式进行编号存储。被编号的日志数据称为此日志数据块在队列中的偏移量offest偏移量越大的数据块越新即越靠近当前时间。生产环境中的最佳实践架构是FlumeKafKaSpark Streaming。 12、Oozie工作流调度器 Oozie是一个可扩展的工作体系集成于Hadoop的堆栈用于协调多个MapReduce作业的执行。它能够管理一个复杂的系统基于外部事件来执行外部事件包括数据的定时和数据的出现。 Oozie工作流是放置在控制依赖DAG有向无环图 Direct Acyclic Graph中的一组动作例如Hadoop的Map/Reduce作业、Pig作业等其中指定了动作执行的顺序。 Oozie使用hPDL一种XML流程定义语言来描述这个图。
http://www.yayakq.cn/news/4414/

相关文章:

  • 通江县网站建设网站模版与模板的使用
  • 手机免费创建个人网站wordpress加视频
  • 上海网站开发薪资好的建站软件
  • 建公司网站个人网站整站源码下载
  • 网站开发实用技术第2版seo优化推广专员招聘
  • 网站建设评判标准苏州网站推广如何
  • 广州商城网站建设地址大企业网站样式
  • 长沙人才招聘网上海关键词优化排名哪家好
  • 企业网站建设费用记入提升自己建设自己的网站
  • 徐州网站制作系统注册公司多少钱不用交税
  • 湖南网站seo营销在c盘做网站可以吗
  • 网站记录登录账号怎么做青岛全网推广怎么做
  • 网站开发的经费预算那家建设网站p2p公司最好
  • 品牌公司网站建设“哈尔滨企业服务平台”公众号
  • 大连关键词快速排名廊坊seo扣费
  • 海淀西北旺网站建设常用的网站类型有哪些类型有哪些
  • 网站销售怎么推广网站正能量入口
  • 企业网站建设方案费用wordpress更改首页模板
  • 网站界面设计和ios移动界面设计的区别深圳市手机网站建设企业
  • 做营销型网站用那个cms好上海专业网站建站
  • 秦皇岛网站开发价格企业网络拓扑图的设计方案
  • 百度 网站添加有一个外国聊天网站 动画做的
  • 做网站一年多少钱怎么开个人工作室
  • 专做hiphop的网站有什么做外贸的网站
  • wordpress的目录结构(一)网站可以同时做竞价和优化吗
  • 关于桥梁建设工程设公司网站杂志社网站模板
  • 个人做网站创业自己做电影下载网站
  • 建网站 备案网页设计代码含js
  • 做良心网站广州番禺网络科技公司
  • 正规的合肥网站建设价格企业形象标识设计