数据计算

数据计算

数据计算

写的简单，跑的快，是做数据计算的终极目标！

等 5 人订阅共49篇文章创建于2024-04-25

怎样写出可在各种数据库间移植的 SQL 语句

任意的 SQL 语句都可移植是做不到的。因为各种数据库的功能并不一样，某些数据库的语法在另一种数据库中根本就没有对应的实现机制，这时当然就不可能移植了。如果我们不用数据库的特殊功能，只在国际标准的范

1年前
117
1
评论

怎样写出可在各种数据库间移植的 SQL 语句

万亿秒查是真地吗？比 ORACLE 快 N 倍是不是吹牛？

我们经常听到大数据产品宣传自己性能好，“万亿秒查”是个常见的说法，大概意思就是上万亿行数据中找出查出满足条件的数据，可以秒级返回。这是真地吗？看过“1T 数据到底有多大”那期的同学大概都会觉得不可

1年前
176
1
评论

万亿秒查是真地吗？比 ORACLE 快 N 倍是不是吹牛？

轻量级的大数据处理技术

现代大数据应用的结构大概是这样的：作为数据中心（中间部分）处于各种应用与数据源之间，对下对接多种数据源处理分析所有数据，对上要为各个应用提供数据服务，其重要性不言而喻。数据中心由于要处理的数据规模庞

1年前
164
1
评论

SQLite 的挑战者

很多小微型应用程序也需要一些数据处理和计算能力，如果集成一个数据库就显得太沉重了，这种情况下 SQLite 是一个不错的选择，它架构简单，集成方便，可持久化存储数据，并提供 SQL 实现计算能力。但

1年前
172
1
评论

数据湖的不可能三角

数据湖概述提到数据湖就要先说一下数据仓库，数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后，数据仓库的出现就会成为必然

1年前
195
1
评论

分布式是大数据处理的万能药？

使用分布式集群来处理大数据是当前的主流，将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此，只要发现处理能力不足就可以通过增加节点的方式进行扩容，这也是很多拥趸者最朴素的

1年前
203
1
评论

解放数据科学家的神器

SQL 正在消耗数据科学家的生命 SQL 难写数据科学家几乎都会用 SQL 做探索分析，SQL 看上去很简单，也有一定的交互性，做数据探索分析似乎很不错。比如要进行过滤、分组等计算，简单一句就能完

1年前
111
1
评论

为什么大数据平台会回归SQL

先说观点：因为还没找到更好的。接下来说原因，首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求，海量数据存储的确不假，除了生产经营产

1年前
196
2
评论

三行五行的 SQL 只存在于教科书和培训班

教科书中 SQL 例句通常都很简单易懂，甚至可以当英语来读，这就给人造成 SQL 简单易学的印象。但实际上，这种三行五行的 SQL 只存在于教科书和培训班，我们在现实业务中写的 SQL 不会论行，而

1年前
5.3k
41
29

三行五行的 SQL 只存在于教科书和培训班

数据库太慢跑崩的另一罪魁

没错，就是著名的 JOIN。 JOIN 一直是数据库计算的老大难问题，业界想了很多办法来计算它。如果不做任何优化，那就是两个关联表循环遍历，这是个乘法级的复杂度，数据量稍大一点就受不了。成熟的数据库当

1年前
141
3
评论

数据库太慢跑崩的一大罪魁

就是非常不起眼的帐号去重计数，用 SQL 写就是 COUNT(DISTINCT …)。帐号去重计数在商业分析中很常见也有重要的业务意义。这里的帐号可能是用户 ID、银行帐户、手机号、车牌号、…。计算

1年前
897
8
评论

从 ES Kafka Mongodb Restful ... 取到 json 之后

json 是个好东西，它可以使用公共的文本形式承载了丰富的结构化数据的信息。现代很多技术都在喜欢使用 json 作为数据传输格式，比如 Elastic Search,Restful,Kafka 等，M

1年前
187
2
评论

从 ES Kafka Mongodb Restful ... 取到 json 之后

单机顶集群的大数据技术来了

大数据时代的分布式数仓（如 MPP）是个热门技术，甚至到了提到数据仓库言必称分布式的地步。但是，分布式数仓真有必要吗？毕竟这些分布式数仓产品都不便宜，无论是采购成本还是运维成本都很高。是不是有低成本

1年前
166
1
评论

不用 SQL 的数据仓库

当前绝大部分数据仓库都会采用 SQL，SQL 发展了几十年已经成为数据库界的标准语言，用户量巨大，所以支持 SQL 对于数据仓库来讲也是很正常的。但是，在当代大数据背景下，业务复杂度节节攀升，在以计算

1年前
181
1
评论

面向 Java 程序员的 SQLite 替代品

很多小微型应用程序也需要一些数据处理和计算能力，如果集成一个数据库就显得太沉重了，小巧轻量的 SQLite 是个不错的选择，因而被广泛应用。不过，SQLite 也有些不方便的地方。SQLite 对外

1年前
118
1
评论

面向 Java 程序员的 SQLite 替代品

Stream&Kotlin 还能再进化成什么

Java 很长时间都没有提供直接的数据集运算语法，写个简单的 SUM 都要很多行，更不要说分组、排序等复杂运算了。完全同样数据处理功能的代码远比 SQL 长，开发效率低下。从 Java8 开始，St

1年前
149
1
评论

比 SQL 快出数量级的大数据计算技术

SQL 经常跑得很慢 SQL 是最常用的大数据计算语言，但是，SQL 经常跑得很慢，严重浪费硬件资源。某银行的反洗钱准备计算，36 亿行，11 节点的 Vertica 集群跑了 1.5 小时。某电

1年前
643
6
评论

格子里的低代码

是的！你没看错，SPL，Structured Process Language，就是这样一种写在格子里的开源程序设计语言，专门用于处理结构化数据。我们知道，几乎所有编程语言都是写成文本的，那写在格子

1年前
268
1
评论

外键预关联（JOIN 简化和提速系列 6）

我们再来研究如何利用 JOIN 的特征实现性能优化，这些内容的细节较多，我们挑一些易于理解的情况来举例，更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。六、外键预关联先看全内存下外键

1年前
109
2
评论

解决关联查询（JOIN 简化和提速系列 5）

五. 解决关联查询我们重新审视和定义了等值 JOIN 运算，并简化了语法。一个直接的效果显然是让语句书写和理解更容易。外键属性化、同维表等同化和子表集合化方案直接消除了 JOIN 关键字，也更符合自

1年前
118
2
评论

解决关联查询（JOIN 简化和提速系列 5）