首页
首页
沸点
课程
直播
资讯
活动
开放社区
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
掘金会员预售 5.16-6.16
登录
大数据
21756 关注,6755 文章
关注
热门
最新
最热
守护石
8小时前
大数据
分布式
探索Cassandra的去中心化分布式架构
关系型模型之父Edgar F. Codd,在1970年Communications of ACM 上发表了《大型共享数据库数据的关系模型》,成为了永恒的经典,关系模型的语义设计易于理解,语法上嵌套、闭
159
点赞
评论
字节跳动技术团队
6天前
数据库
大数据
算法
大规模实时分位数计算——Quantile Sketches 简史
概念及入门 前言 在数据领域,有几类经典的查询场景: 想要统计某段时间内访问某网站的 UV 数,或是统计某段时间内既访问了页面 A 又访问了页面 B 的 UV 数
3691
7
评论
笑看风云路
6天前
大数据
Hbase集群搭建超详细教程
大家好,我是风云,欢迎大家关注我的博客,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己! 前言 HBase 是一个开源的、分布式的、版本化的非关系型数据库,它利用Hadoo
2293
点赞
评论
笑看风云路
6天前
大数据
zookeeper集群搭建超详细教程
前言 大家好,我是风云,欢迎大家关注我的博客,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己! 正如大家知道的那样,在大数据领域呢,有很多组件都会依赖zookeeper进行
2089
1
评论
笑看风云路
6天前
大数据
kafka集群搭建超详细教程
前言 大家好,我是风云,欢迎大家关注我的博客,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己! 百度百科对Kafka有如下描述: Kafka是由Apache软件基金会开发的
1867
点赞
评论
克己l守心
3天前
大数据
HBase
一文解决大数据环境下小文件的存储和索引相关的需求
需求 本文档描述大段落文本信息的存储,查询功能实现 需求:能够从Web页面上通过各种条件查看大段文本信息,能够下载完整文本信息 环境信息 Hadoop2.6,HBase1.2,Elasticsearc
722
3
评论
笑看风云路
6天前
大数据
Spark集群搭建超详细教程
前言 在上一篇文章《Hadoop集群搭建配置教程》中详细介绍了Hadoop集群搭建的全部过程,今天为大家带来分布式计算引擎Spark集群搭建,还是使用三个虚拟机节点上进行安装部署,围绕Standalo
1305
点赞
评论
笑看风云路
6天前
大数据
手把手教学hive on spark,还不会的小伙伴快上车了
前言 经过前面几篇文章的讲解,相信大家都已经成功搭建Hadoop集群,Spark集群以及安装好了Hive。由于Hive默认的引擎是MR,相信体验过的小伙伴在执行SQL语句时,都会感叹怎么这么龟速呢,那
1143
点赞
评论
百度Geek说
13天前
架构
大数据
百度交易中台之钱包系统架构浅析
本文主要介绍了钱包从0到1的搭建过程、遇到的各种问题以及相应的解决方案,旨在抛砖引玉,希望能给读者带来思考和帮助。
3244
2
评论
笑看风云路
6天前
大数据
Hive安装超详细教程
前言 在上篇《Spark集群搭建超详细教程》提到了Hive安装,那么今天就带领大家进行Hive的安装,闲言少叙,撸起袖子加油干! 初始准备 还是需要准备3台虚拟机,并且还需要做如下准备工作: 需要安装
921
点赞
评论
克己l守心
6天前
Elasticsearch
大数据
Elasticsearch shard&segment规划原则和方案
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 需求来源 在ElasticSearch的生产应用中,尤其在数据量比较大的场景下,性能优化就显得十分重要。可以说在ElasticSearch的使用场
537
1
评论
ChinaManor
6天前
大数据
滴滴出行大数据数仓实战
持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第22天,点击查看活动详情 前言 作为技术人,我是不怎么八卦的,奈何这次国家重拳整理的是“大数据乱象”,manor作为大数据专业的学
415
1
评论
vivo互联网技术
28天前
Kafka
大数据
负载均衡
Kafka 负载均衡在 vivo 的落地实践
副本迁移是Kafka最高频的操作,对于一个拥有几十万个副本的集群,通过人工去完成副本迁移是一件很困难的事情。Cruise Control作为Kafka的运维工具,它包含了Kafka服务上下线、集群内负
2553
4
2
Tapdata
10天前
大数据
Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?
什么是实时数据?如何获取实时数据?API 集成、Kafka ETL 等常见的实时数据集成方案方案有何利弊?新的十年,实时数据架构技术又有什么革新?
682
2
评论
政采云技术团队
13天前
大数据
Spark
基于流量域的数据全链路治理
众所周知,在数仓建设过程中,首先都需要划分数据域,以确定数据的方向。如交易域、营销域、客满域等,流量域也属于其中一部分,主要是针对埋点数据做一些数据处理和数据分析的动作
557
8
2
美团技术团队
17天前
后端
大数据
美团综合业务推荐系统的质量模型及实践
推荐系统是效果导向的数据应用服务,在功能的“有”和“无”之间,有很长的效果“好”和“坏”的光谱。本文通过综合业务推荐系统的质量模型建设,为类似多业务线、效果导向的系统质量度量提供一种新的思考角度和实践
637
4
评论
字节跳动技术团队
2月前
大数据
安全
差分隐私技术在火山引擎的应用实践
对于广大互联网厂商来说,研发高质量的隐私保护服务,以解决统计查询、数据采集等场景中的用户隐私泄露问题,同时保证数据的可用性,从而满足监管要求,为业务赋能,成为了重要的工作。
8476
6
评论
Flink_China
12天前
Flink
大数据
美团基于 Flink 的实时数仓平台建设新进展
美团实时数仓平台负责人姚冬阳在 Flink Forward Asia 2021 实时数仓专场的演讲。
426
5
评论
百思不得小赵
13天前
大数据
深入浅出理解Flink运行时架构
Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:`作业管理器(JobManager)`、`资源管理器(ResourceManager)`、`任务管理器(TaskMa
600
点赞
评论
vivo互联网技术
1月前
大数据
Kafka
数据分析
Kafka 万亿级消息实践之资源组流量掉零故障排查分析
本篇对在kafak万亿消息实践中一次典型的故障进行详细分析和说明。深入到kafka架构原理层分析故障出现的根因及对应的解决方案。
2306
8
2