首页 > 新闻

红象云腾童小军:建立开放联盟,加速大数据处理,完善大数据生态

2018-04-12 08:48:55.0 作者:刘学习 来源:中国软件网

在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。然而Gartner却连续多年唱衰 Hadoop。Gartner认为,尽管企业对大数据解决方案的需求不断增长,但对Hadoop的需求没有像预期那样加速。同时,25%的Spark已经开始脱离Hadoop生态单独运行。

那么现在Spark崛起和Hadoop衰落了吗?

“作为分布式系统基础架构,Hadoop在目前企业的大数据架构中发挥的作用越来越增强,并拥有其他大数据技术无非比拟的应用基础和优势。”中国大数据基础软件三巨头之一、专注于打造中国自主可控的大数据基础软件平台的红象云腾公司CEO童小军认为,“基于Hadoop的大数据平台不断完善,生态日益壮大,用户越来越多,应用越来越好。”

3月19日,红象云腾作为国内惟一的大数据基础软件提供商,在美国拉斯维加斯举行2018 OpenPOWER峰会大会上发布了最新的大数据平台CRH v6.0,红象云腾进一步融入OpenPOWER生态公司一起,同时不断完善自己的大数据应用生态。

童小军说,红象云腾与美国俄亥俄州立大学基于网络的计算实验室高性能大数据项目(HiBD)、高速网络领域的全球领军企业Mellanox、OpenPOWER系统提供商一起,打造了一个基于OpenPOWER的高性能的大数据加速联盟,为行业用户大数据应用提供高可用性、高可靠性的一体化大数据平台,进一步完善大数据生态,加速大数据处理与应用,解决用户数之急需,这是红象云腾给中国大数据用户的一份厚礼。

那么这个联盟每一个环节都有哪些亮点呢?

推出业界首个基于Hadoop 3.0产品CRH v6.0

Hadoop 3.0被认为是开源大数据项目的一个里程碑,也是迄今为止最大和最新的发布版本。红象云腾在美国推出的新产品CRH v6.0则是全球第一个公开发布的基于Hadoop 3.0的大数据基础软件,提高平台的效率、可扩展性和可靠性,是全部可以部署的应用集产品。

第二,红象云腾CRH v6.0是全球第一个可以在基于Hadoop3.0和OpenPOWER的主机上部署的大数据平台产品,通过了相关公司产品兼容性测试和认证,这对关键业务系统和POWER用户而言绝对是一大突破。

第三,CRH v6.0实现了与开源的安装项目Ambari的集成,能够自动完成Hadoop 3.0的安装、部署、配置、优化等操作。Ambari与Hadoop 等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目,作用就是创建、管理、监视 Hadoop 的集群,包括Hive、Hbase、Sqoop等外围生态正在持续升级。CRH v6.0集成了让 Hadoop 以及相关的大数据软件更容易使用的工具Ambari,可以实现Hadoop3.0快速部署。

第四,支持2个以上的NameNode, CRH v6.0提供企业级高可用性。在Hadoop 1.0 时代,Hadoop的两大核心组件HDFS NameNode 和 JobTracker 都存在单点问题,其中NameNode保存了整个HDFS的元数据信息,一旦挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 MapReduce、Hive、Pig 以及 HBase 等也都无法正常工作。

在Hadoop2.0中,HDFS NameNode 和 YARN ResourceManger的单点问题都得到了一定的缓解,经过多个版本的迭代和发展,目前已经能用于生产环境。但HDFS NameNode 的高可用实现更为复杂。

Hadoop3.0支持多于2个的NameNodes。最初的HDFS NameNode high-availability实现仅仅提供了一个Active NameNode和一个Standby NameNode,并且通过将编辑日志复制到三个Journa lNodes上,这种架构能够容忍系统中的任何一个节点的失败。然而,通过这个新特性可以实现一些需要更高的容错度的部署。

第五,纠删码(Erasure Coding,EC)将数据存储空间节省50%。Hadoop-3.0之前,HDFS存储方式为每一份数据存储3份,使得存储利用率仅为1/3。CRH v6.0借用EC技术,在小于3个副本时,实现1份数据+0.5份冗余校验数据存储方式,依然可以保证高可用性,降低了储存容量的需求,同时红象通过和IBM系统优化部合作,正在测试EC On Power 的指令集加速功能。

第六,利用开源NativeTask,获得性能大幅提升。NativeTask是一个本地数据处理引擎,专注于数据处理本身。任务级别的数据处理占用Hadoop集群绝大部分资源,而利用NativeTask的高效性能,可以显著提高数据分析速度,降低成本。

童小军说,对于大数据基础软件,红象云腾第一时间推出大数据基础软件新版本,为企业大数据实施提供一套完整的一站式大数据解决方案,将大数据技术带给更多用户。

与俄亥俄州立大学HiBD合作研发,优化网络环境

美国俄亥俄州立大学Dhabaleswar K (DK) Panda教授领导一个基于网络的计算实验室,其旗下的高性能大数据项目(HiBD)世界闻名。

从2005年以来,世界前500强的超级计算机已经越来越多由Commodify Machine集群组成。那么,能不能用超级计算机(HPC)技术加速商用的Hadoop集群性能呢?

Panda教授认为,可以借鉴HPC技术中InfiniBand网络技术,以及10-40Gbps的以太网和RoCE(RDMA over Converged Enhanced Ethernet)。这些技术可以将网络延迟缩短到1微妙以内,速率达到100Gbps,并且CPU占用非常少(5-10%)。可惜应用起来需要抛弃现有的Sockets编程接口而改用Verbs接口。

HiBD项目提供改写后的Hadoop/YARN/MapReduce,使用上述的HPC网络技术来提升Hadoop性能,提速40%到50%左右。

目前网站提供软件下载。HiBD MBI库和RDMA-Hadoop库被全球34个国家280个组织采用,下载量达到25700次,以加速大数据应用。但没有开放源码。

童小军认为,HiBD与红象云腾的一些研发方面比较接近,首先,提供Hadoop底层优化库,加速应用在IB的性能。

第二,两家都提供多CPU支持,红象云腾支持支持5种CPU,包括主流的国产CPU。如IBM Power、ARM结构的飞腾和华芯通,基于MIPS的龙芯,基于Alpha的国产CPU申威,以及基于x86的国产CPU兆芯。HiBD目前可以支持x86、Power、ARM三种CPU。

目前,通过使用HiBD提出的RDMA-Hadoop库,可以使Hadoop工作负载在相同的OpenPOWER平台上运行时性能提升2.26倍。两家公司合作,能为用户优化Hadoop应用性能,达到用“同样的车,跑出更高速度”的目标。

与MLX联合,推出高速网络+Hadoop方案

在大数据应用中,网络性能也是至关重要的一个方面。作为高速网络领域的全球领军企业,Mellanox的技术与产品能够提供高吞吐率、低延迟的网络传输能力。作为世界领先的高性能计算、数据中心端到端互连方案提供商,Mellanox凭借着Spectrum-2 ASIC将传输性能提升到400Gbps水平。

在本次会议上,红象云腾与Mellanox达成新合作,首先,双方对提高大数据应用性能意愿一致,并对关键技术环节进行咨询;第二,Mellanox将持续对红象云腾提供最新的网络产品,继续推进在其最新IB RDMA加速芯片上进行兼容性测试;第三,红象云腾和Mellanox合作向用户提供高速网络+Hadoop方案,利用红象云腾的大数据软件和Mellanox以太网方案,为用户提供高效网络支撑,让大数据应用平台充分发挥出高性能优势,共同为企业用户构建高速稳定的大数据应用平台。

强化与IBM的合作,扩大大数据平台的生态

早在2016年,红象云腾就与IBM合作,推出了OpenPOWER版的Hadoop。在“2017 OpenPOWER 中国高峰论坛”上,红象云腾荣获“2017年度OpenPOWER杰出贡献奖”殊荣。同时红象云腾CRH大数据软件针对OpenPOWER平台进行优化,支持IB高速网络,大数据应用性能得到大幅提升。


红象云腾童小军:建立开放联盟,加速大数据处理,完善大数据生态


童小军与IBM大中华区科技合作部副总裁Mary Coucher

童小军说,通过与IBM和OpenPOWER基金会的合作,红象云腾大数据应用生态日渐健全和完善,取得几大突破:

首先实现了红象云腾大数据的正式出海,在美国发布最新的产品,并把大数据平台品牌推向国际。

其次,通过与美国等众多机构的合作,把企业的研发能力扩展到海外,强化了公司产品技术的研发能力。

第三,同时通过OpenPOWER的开放生态,与众多OpenPOWER的生态伙伴建立合作关系。POWER是IBM最具价值的知识产权之一,其系统的高可靠性和高性能得到市场的验证。而IBM的POWER 9的推出,带来了差异化的高性能内核、带宽和加速器,针对计算密集型的工作负载,使得POWER 9将成为大数据、人工智能等技术发展的关键。相比x86系统,POWER 9提供了6.4-9.5倍的加速器高速接口。红象云腾新推出的产品CRH v6.0产品已经提前开始与POWER Linux深度适配的测试。

童小军认为,OpenPOWER的开源开放精神,契合了中国IT产业自主、安全及可控的全新战略。OpenPOWER针对成员业务需求定制的POWER CPU处理器和系统平台,以及建立在其上的生态,加速了各行业企业转型升级的步伐,红象云腾融入OpenPOWER生态,可以为用户提供更优化的应用与方案。

同时,红象云腾致力于将Hadoop 技术融入到各种应用场景中,打造“芯片、操作系统、云计算、算法(深度学习)、应用、行业”+Hadoop生态,并可以把+Hadoop的渠道和资源再输送给OpenPOWER,实现共赢。


原文地址:http://www.soft6.com/index.php?m=content&c=index&a=show&catid=585&id=335594


7×24小时售后支持

红象Redoop 使大数据操作更加简单、高效、可靠。