如何在Hadoop中,使用阿里云OSS作为存储系统,玩转大数据应用

400 阅读2分钟
原文链接: click.aliyun.com

2017年12月13日,Apache Hadoop正式发布了3.0.0版本,默认支持阿里云OSS对象存储系统,作为Hadoop兼容的文件系统。

500299387_banner_

OSS是中国云计算厂商第一个也是目前唯一一个被Hadoop官方版本支持的云存储系统。这是继Docker支持阿里云存储以后,又一个更重大的里程碑。这也是主流开源社区对中国的技术生态,对中国云计算行业发展成果的认可。

这意味着全球用户Hadoop生态的离线、交互、数据仓库、深度学习等程序,在不需要改代码的情况下,可自由读写OSS的对象存储。用户只需要简单的配置,就可以在Hadoop应用中使用OSS。

在Hadoop中使用OSS,也符合存储计算分离的发展趋势,能使计算业务启停、数据规模和计算节点的伸缩更灵活。用户也不用为了保存数据,而运维HDFS集群。

OSS依托高性能的阿里云数据中心网络,并与丰富的开源计算系统(如Hadoop、Alluxio等)、阿里云自研的计算系统(如EMR、MaxCompute、BatchComputer、PAI等)集成,为客户提供了方便,简单,和经济划算的数据分析和加工能力。

OSS已不仅是“存储”,而且正在成为共享的数据湖,一份数据被多种计算系统共享,达到存储与计算解耦的效果,使得资源的利用率最大化;我们会持续推进OSS与hadoop等开源计算系统、以及阿里云计算产品(如PAI)的融合和优化,帮助用户把更方便地搭建计算应用,进行数据分析和加工。


大家一起来聊一聊,利用Hadoop原生支持OSS,以及OSS的海量以及自动扩容伸缩优势:
1.可以如何更灵活、更方便地在云上,搭建Hadoop应用?
2.可以为当前的数据分析加工业务,带来哪些价值?
3.还可以完成哪些有价值、有意思的事情?