获得徽章 0
- #每天一个知识点# RisingWave 产品简报「25 年 2 月」
RisingWave 是一个面向事件流工作负载的开源数据库,涵盖数据摄取、处理、存储和服务。流批一体,兼容 Postgres!评论点赞 - 「RisingWave 速查表(三)」
RisingWave 是一款分布式 SQL 数据库,专为实时流处理和分析设计,利用增量计算确保低延迟、高吞吐量的数据处理。等人赞过36 - #每日快讯# 7 月两场 Meetup,欢迎对数据库有兴趣的伙伴参加呀!
🇸🇬新加坡 7 月 9 日 6:30 PM to 9:30 PM GMT+8www.meetup.com
🇻🇳越南 7 月 26 日 2:30 - 5pm GMT+7www.eventbrite.com
展开
评论点赞 - #每天一个知识点# Rockset被OpenAI收购,用户怎么办??
6月21日,OpenAI 宣布收购 Rockset。对于 Rockset 现在的用户来说,时间紧迫。根据 Rockset 提供的详细 FAQ,所有没有合同的按月付费用户必须在2024 年 9 月 30 日之前完成迁移;而有合同的客户则可以与 Rockset 团队协调,制定合适的迁移计划。
所有客户都需要迅速找到 Rockset 的替代方案,如下开源实时分析平台可供选择:
- RisingWave:RisingWave 是一个高性能的实时分析平台(流式数据库),能够简单、高效、可靠地处理流数据,其具备优秀的可扩展性和高可用性,用户能够以类似操作 PostgreSQL 数据库的方式进行流处理。
- Apache Druid:Druid是一个高性能的实时分析数据库,它能够在秒级甚至毫秒级内进行快速的数据分析和查询,适用于需要即时响应的业务场景。
- ClickHouse:ClickHouse 是一个高性能的列式数据库,能够高效处理大规模数据并支持复杂的分析查询,允许使用SQL查询实时生成分析数据报告。
- StarRocks:StarRocks 是一个开源的分布式实时分析数据库,能够在其列存储引擎上实现较为快速的数据更新和查询响应,通常能够达到秒级甚至亚秒级的数据新鲜度。展开
赞过评论2 - #每日快讯# 错过了 Kafka Summit London?没关系
,带大家对比一下 Kafka Summit London 2024 和Confluent 2023 的要点区别,探究一下 Confluent 的愿景演变。数据产品(2023)➡ 全球数据产品(2024)
Confluent的雄心不仅仅是创造一个数据产品;他们的目标是开发一个涵盖运营和分析领域的全球数据产品。
📘 Kora 速度提升10倍(2023)➡ 速度提升16倍(2024)
Kora现在比以前更快了,成本减半!成本仍然是大多数客户的主要痛点,而且这个领域还有更多创新出现!
📙 流式仓库(2023)➡ 基于Iceberg的TableFlow(2024)
Iceberg正成为事实上的标准。Confluent已经选择Iceberg作为数据持久化的默认开放表格式,放弃了其他数据格式。
📕 模糊的AI视觉(2023)➡ GenAI(2024)
GenAI 如此引人注目,以至于包括Confluent在内的每家公司都想利用它来吸引更多关注!
更详细的介绍,可参考链接文章。展开Changes You Should Know in the Data Streaming Space: Takeaways From Kafka Summit 2024risingwave.com评论点赞 - #每天一个知识点# 流数据库与实时分析数据库有何异同?
主流的流数据库包括了 RisingWave、KsqlDB 等;主流的实时分析数据库包括了 ClickHouse、Apache Doris 等。
从应用上来讲,流数据库主要被用来做监控、报警、实时动态报表等业务;实时分析数据库主要被用来做交互式报表等业务。与此同时,流数据库也被用来做流式 ETL 操作。
从功能上来讲,无论是在流数据库还是在实时分析数据库中,用户均可以通过物化视图支持预定义查询,也可以直接发送随机查询。然而,流数据库的强项在支持预定义查询,而实时分析数据库的强项在于支持随机查询。
从设计上来讲,流数据库与实时分析数据库优化的方向截然不同。在 Napa 论文中,Google 的工程师提出了系统的权衡三角,即任何一个系统,只能在:
(1)结果新鲜度
(2)随机查询性能
(3)资源成本
三者中优化两项,而并不能同时优化所有方向。
假设资源成本固定,那么流数据库本质是在优化结果新鲜度,而实时分析数据库本质是在优化随机查询性能。下图展示了流数据库、OLAP 数据库、数据仓库三者之间在设计方面的取舍。展开赞过评论1 - #每天一个知识点# 流数据库=流处理引擎+数据库组合?
流数据库不是简单的流处理引擎(如 Apache Flink)与数据库(如 PostgreSQL)的拼接。主要原因包括:
(1)从设计来讲,流数据库使用同一套存储进行内部状态管理与结果存储与结果随机查询。独立的数据库很显然不适合做内部状态存储,因为频繁跨系统数据访问会造成巨大开销,对流处理系统这类对延迟敏感的系统来说并不可取。事实上,早年的分布式流处理引擎,如 Apache Storm、Apache S4 等,均试过这条道路,但这种设计并没有成功延续下来;
(2)从功能上来讲,流数据库的核心功能之一是层级物化视图。想要模拟出层级物化视图,用户需要在流处理引擎与数据库之外,再引入如 Kafka 等消息队列,来实现物化视图与物化视图之间的消息传递;
从实现来讲,想要在多个独立系统之间保证一致性,则需要建立一套框架保证即便在某一系统宕机之后,不同系统之间仍能够做到一致。实现这一框架显然需要付出更多的工程投入;
(3)从运维来讲,很显然运维多套不同的系统会带来非常高的运维成本;
(4)从用户体验来讲,用户使用多套系统的体验与使用一套系统的体验有相当大的差距。展开赞过评论3 - #每日快讯# TiDB:AI 时代的数据库是怎样的?
过去 7 个月,GitHub 上新增的源代码已经有超过 46% 是 AI 生成的。过去需要写 SQL 才能查询的数据,现在依靠自然语言十分钟就能做到。这样巨大的生产力提升意味着数据消费的门槛变得极低,换而言之,数据库的巨大挑战来了。如果数据增加 10 倍、100 倍会怎么样?它还能做到人人可用,人人轻松使用吗?
如果为全世界开发者提供一个免费好用的数据库,它的架构应该是什么样的?PingCAP 的答案是 TiDB Serverless。
TiDB Serverless 采用了完全分离式的架构,不只是存算分离,还包括算算分离、存存分离,这让整个数据库不仅使用起来异常简单,而且还具有非常强的弹性——也就是说,用户只需要为正在使用的部分付费,而不需要按照自己最高峰值的需求去配置一个在大多数时用不到的数据库。
本周天下午,RisingWave X Apache Doris X TiDB Meetup 北京站活动中,PingCAP TiDB Serverless 研发负责人孙晓光将详细介绍 TiDB Serverless 的产品特点、技术架构以及适用场景。
🙋演讲大纲:
- TiDB Serverless 的基本介绍
- TiDB Serverless 的技术架构
- 面向不同人群和不同场景的案例介绍
- 总结和计划时间与地点:
-2023 年 8 月 27 日(周日)下午 13:30-17:00
-海淀区中关村创业大街 6 号楼 B1 阶梯教室我们热切期待已经报名的小伙伴们的到来,也欢迎现在看到活动通知的小伙伴们抓紧最后的时间报名参加,还有精美茶歇、伴手礼等待大家的到来。
展开评论点赞 - #每日快讯# 「Apache Doris 2.0 数据更新能力解读」
在实时数据仓库的业务场景中,实时数据面对上游数据变化,需要快速获取到数据变更记录并及时进行数据更新,以提升业务决策的时效性。
在 Apache Doris 2.0 版本中对数据更新能力进行了全面提升:将 Merge on Write 写时合并的数据更新模式进行了全面增强,引入了全新的部分列更新能力。通过一系列优化,实现了在海量数据上的实时更新和极速分析能力。
本周天下午,RisingWave X Apache Doris X TiDB Meetup 北京站活动中,SelectDB 资深研发工程师、Apache Doris Committer 张晨将会对以上功能和优化进行详细的介绍。
🙋演讲大纲:
- Apache Doris 基本介绍与技术特性
- OLAP 中的数据更新:行更新与列更新
- 实时数据更新与极速分析如何兼得
- 高并发实时数据更新的挑战及解决方案
- 用户案例
- 总结与规划时间与地点:
-2023 年 8 月 27 日(周日)下午 13:30-17:00
-海淀区中关村创业大街 6 号楼 B1 阶梯教室我们热切期待已经报名的小伙伴们的到来,也欢迎现在看到活动通知的小伙伴们抓紧最后的时间报名参加,可直接扫描下方图片二维码进入官方活动群,还有精美茶歇、伴手礼等待大家的到来。
#程序员 #IT技术分享 #北京活动 #数据库 #实时数据 #流处理 #云服务展开赞过评论2
,带大家对比一下 Kafka Summit London 2024 和Confluent 2023 的要点区别,探究一下 Confluent 的愿景演变。