网站开发找工作asp网站怎么验证到百度站长
企业级大数据平台建设方案
- 方案简介
 - 硬件
 - 软件
 - 分布式存储:
 - Foreman作为集群管理工具
 - Spark
 - cloudera
 
方案简介
该方案是多年前在Roadstar.ai任职时的建设方案,现将方案部分细节开源,结合本博客的其他文章,能够建立可靠的企业大数据平台。
硬件
自组双路Xeon E5 + 64GB + SSD(250GB)+ 10TB*24 +万兆电口
 峰值功率~800W
软件
OS:Centos7,安装到SSD上
 存储方案:ZFS + raidz2(双奇偶校验) + 1 hot spare disk(1热备盘)
注意zfs需要0.7x版本以上,0.7x解决了两个主要问题:
 1)hot spare(热备)不能在有盘故障的情况下热接入。
 2)resilver(重同步重同步)太慢
分布式存储:
HDFS
需要使用3.x的版本(erasure code)
 冗余方案使用EC(纠删码Erasure Coding),10+4模式(10 个数据块,4 个冗余块),需要isa-l加速(英特尔存储加速库),–编译了一个启用native的hadoop。
若机器不足,namenode(名字节点)及其backup(备份节点)都和datanode(数据节点)可共用
Foreman作为集群管理工具
Foreman(集群管理工具):用来管理和自动化物理和虚拟服务器的工具。
Spark
(Apache Spark,用于大数据处理和分析的快速、通用的分布式计算系统。)
cloudera
使用Cloudera部署和管理hadoop集群
CDH 是 Cloudera 公司发布的一个综合性大数据平台,它包含了经过 Cloudera 企业级优化和增强的 Apache Hadoop 组件。
