开源大数据周刊-第40期

252 阅读3分钟

摘要:
阿里云HBase支持PB级别的分布式数据库即将开始公测

阿里云E-MapReduce动态

  • 阿里云HBase支持PB级别的分布式数据库即将开始公测

资讯

2016年,大数据已从前两年的预期膨胀阶段、炒作阶段转入理性发展阶段、落地应用阶段。2017年,大数据依然处于理性发展期,依然存在诸多挑战,但前景依然非常乐观。

作为传统IT厂商的Oracle,眼看自己被逐步碾压,也不甘示弱开始加速转型,积极投身云计算。最近在纽约举行的“云世界”活动中,Oracle高管直接阐述了他们将如何与亚马逊、微软和Salesforce等同台竞技的愿景,以期赶超这些云计算巨头公司。

2月2号,Snap公布了IPO白皮书,准备登陆纽交所,期望估值达到了250亿美元。值得一提的是,Snap在S1文件中披露了在未来5年将总共斥资20亿美元用于购买Google的云基础设施服务。

我国首个大数据流通与交易技术国家工程实验室已获国家发改委正式批复认定,将由浪潮集团和上海数据交易中心联合共建。这也是继“主机系统国家工程实验室”之后浪潮获得的第二个国家工程实验室。

技术

HBase 提供很方便的shell脚本,可以对数据表进行 CURD 操作,但是有一定的学习成本的。Apache Phoenix 组件可以把 sql 语句转换成 hbase的原生API。这样就可以通过普通平常的 sql 来对HBase 进行数据的管理,使用成本大大降低。通过官方说明,Phoenix 的性能很高,相对于 HBase 原生的scan 并不会差多少,而对于类似的组件 hive、Impala等,性能有着显著的提升。

大家期待已久的Apache Flink 1.2.0今天终于正式发布了。本版本一共解决了650个issues。主要特性和改动包括:支持从不同并行度的SavePoint修改作业的并行度;支持Mesos资源调度器;支持异步I/O操作符;支持算子的状态查询等等。

过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。

Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动下,Spark 得到了越来越多的应用。今天,Facebook 团队也展示了他们使用 Apache Spark 进行大型语言模型训练的方法。