大数据 - lgscofield的收藏集 - 掘金

大数据

更多收藏集

10篇文章 · 0订阅

Flink 和 Pulsar 的批流融合

Apache Pulsar 相对比较新，它于 2017 年加入 Apache 软件基金会，2018 年才从 Apache 软件基金会毕业并成为一个顶级项目。Pulsar 由于原生采用了存储计算分离的架

Flink_China
4年前
921
2
评论

Flink 和 Pulsar 的批流融合

一键部署 Hbase 集群攻略

或许你也像我一样，工作后才发现学校里学的技术是多么落后。C++ 和 MySQL 或许已经不再是 IT 公司的宠儿。互联网时代对数据库的要求，也与传统有着很大的差别。

Cloudinsight
9年前
2.6k
59
评论

一键部署 Hbase 集群攻略

《HBase 不睡觉》第一章 - 初识 HBase

Partition tolerance（分区容错性）：可靠性。很多人以为 NoSQL 是非 SQL 的意思，其实它是 Not Only SQL 的缩写，意思是不只是 SQL。与关系型数据库正好相反，非关系型数据库 NoSQL 对事务性的要求并不严格，甚至可以说是相当马虎。 …

rochy_he
7年前
5.6k
45
3

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

在上一章节中，我们讲到实时数仓的建设，互联网大数据技术发展到今天，各个领域基本已经成熟，有各式各样的解决方案可以供我们选择。在实时数仓建设中，解决方案成熟，消息队列Kafka、Redis、Hbase鲜

王知无
6年前
8.7k
18
评论

Hive 集成 HBase 详解

Hive 提供了与 HBase 的集成，使得能够在 HBase 表上使用 HQL 语句进行查询插入操作以及进行 Join 和 Union 等复杂查询

MOBIN1419
9年前
2.7k
20
评论

Hive 集成 HBase 详解

Hive on Spark 调优

本文介绍 Hive on Spark 的调优过程（各参数的设置）及调优前后性能对比。

lzslbd
9年前
2.1k
12
评论

Flink 面试通关手册

概述2019年是大数据实时计算领域最不平凡的一年，2019年1月阿里巴巴Blink（内部的Flink分支版本）开源，大数据领域一夜间从Spark独步天下走向了两强争霸的时代。Flink因为其天然的流式

王知无
6年前
7.2k
35
1

目录：我的大数据学习笔记

可以通过长按二维码关注我的公众号，不过会先在掘金更新后同步过去。 PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整🤣，用这里去直接跳到对应的内容真的还算方便，所以就想着做个目录，以后如果写了新的，也会在这篇写上标题。按照不同技术框架的划分形式。已…

说出你的愿望吧
6年前
6.0k
75
20

带你入坑大数据（四）--- 资源调度框架Yarn

在MapReduce的时候也许很多人会有这种疑问：写了MR后，map task和reduce task是如何在多节点上并行执行的，而且又是怎么决定哪个任务执行再哪个节点上的？其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR，还可以运行各种各样的程序。…

说出你的愿望吧
6年前
5.2k
38
2

京东基于 Spark 的风控系统架构实践和技术细节

京东作为国内电商的龙头企业，在今天遭受着严酷的风险威胁。机器注册账号、恶意下单、黄牛抢购、商家刷单等等问题如果不被有效阻止，会给京东和消费者带来难以估量的损失互联网行业中，通常使用风控系统抵御这些恶意访问。在技术层面上来讲，风控领域已逐渐由传统的 “rule-base”（基于规则判断）发展到今天的大数据为基础的实时 + 离线双层识别。Hadoop，Spark 等大数据大集群分布式处理框架的不断发展为风控技术提供了有效的支撑。

方石剑
9年前
4.2k
67
评论

京东基于 Spark 的风控系统架构实践和技术细节