首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
felix331
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
Hadoop和大数据:60款顶级开源工具
这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾,许多新项目纷纷启动。许多最知名的项目由Apache基金会管理,与Hadoop密切相关。请注意:本文不是要搞什么排名;相反,项目按类别加以介绍。与往常一样,要是你知道另外的开源大数据及/或Hadoop工具应该榜
MySQL Binlog 解析工具 Maxwell 详解
Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集…
一文讲清HBase存储结构
Hbase 是一个分布式的、多版本、面向列的开源 KV 数据库。运行在 HDFS 的基础上,支持 PB 级别、百万列的数据存储。作为性能如此强大的KV数据库,HBase的存储结构究竟是怎样的呢?面向列的存储结构究竟有什么样的不同之处呢?接下来会详细讲解这部分。 为了清晰地表述这…
基于代理的数据库分库分表框架 Mycat实践
在如今海量数据充斥的互联网环境下,分库分表的意义我想在此处就不用赘述了。而分库分表目前流行的方案最起码有两种: 而本文即将要实验的 MyCAT框架就属于第二种方案的代表作品。 由于插入的这两条记录的 create_date分别是 2018-11-3和 2018-12-3,而我们…
使用 Airflow 替代你的 crontab
Airflow 是 Airbnb 开发的用于工作流管理的开源项目,自带 web UI 和调度。现在 Apache 下做孵化,地址是 https://github.com/apache/incubator-airflow Airflow 主要解决的问题可以参考 Airbnb 官方…
你的大数据学习路线
本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线,帮助他们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复,每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。
[译] Robinhood 为什么使用 Airflow
Robinhood 通过定时作业批处理大量任务。这些作业涵盖了从数据分析和指标汇总到经纪业务如股息支付的范围。我们起初使用 cron 来调度这些工作,但随着它们的数量和复杂性的增加,这越来越具有挑战性: 依赖管理难。使用 cron,我们得用上游作业的最坏预期时长来安排下游作业。…
从 Java 到 Scala,再到 Kotlin
在 Java 之后,JVM 平台上出现了一些其他的编程语言,Scala 和 Kotlin 可以算是其中的佼佼者。Scala 已成为大数据领域的明星,Kotlin 在 2017 年 Google IO 大会之后,俨然也成为了安卓平台潜力巨大的官方支持语言。他们都被冠以“更好的Ja…
🌊刷掉 90% 候选人的互联网大厂海量数据面试题(附题解+方法总结)
1. 如何从大量的 URL 中找出相同的 URL? 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。 由…
MySQL分区表使用方法
1.确认MySQL服务器是否支持分区表命令:2.MySQL分区表的特点在逻辑上为一个表,在物理上存储在多个文件中HASH分区(HASH)HASH分区的特点根据MOD(分区键,分区数)的值把数据行存储到