big data - mayne_wong的收藏集 - 掘金

big data

更多收藏集

4篇文章 · 0订阅

基于TableStore的数据采集分析系统介绍

摘要：摘要在互联网高度发达的今天，ipad、手机等智能终端设备随处可见，运行在其中的APP、网站也非常多，如何采集终端数据进行分析，提升软件的品质非常重要，例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单，但是数据量大，对系统的吞吐量、实时性、分析能力、查询能力都…

猫耳_
8年前
852
9
评论

深度解析某头条的一道面试题

首先，某头条的文章量、用户量都是很大的，点击量那就更恐怖了。请问，如果实时展现热门文章，比如近8小时点击量最大的文章前100名。要听清题目，说好的8小时动态时间窗口，计数是会过期的。还有，头条的量有这么小么，一个redis就搞定了？同学啊，我告诉你，文章的量你起码得估计个几…

老錢
8年前
4.1k
51
6

使用生成器把Kafka写入速度提高1000倍G

通过本文你会知道Python里面什么时候用yield最合适。本文不会给你讲生成器是什么，所以你需要先了解Python的yield，再来看本文。多年以前，当我刚刚开始学习Python协程的时候，我看到绝大多数的文章都举了一个生产者-消费者的例子，用来表示在生产者内部可以随时调用…

青南
7年前
2.3k
59
1

数据流时代，Teads 如何做到每天赋予1000亿事件价值？

在这篇文章中，我们描述了如何协调Kafka，Dataflow和BigQuery共同采集和转换大数据流。当增加了模式和延时的约束时，调优和重新排序成了很大的挑战，下面展示了我们是如何解决它的。

金正皓
7年前
605
7
评论