大数据 - guofeng的收藏集 - 掘金

大数据

更多收藏集

14篇文章 · 0订阅

京东亿级商品搜索核心技术解密

京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎，主要功能是为海量京东用户提供精准、快速的购物体验。目前入口主要有 PC / 移动 / 微信 / 手 Q 搜索、移动列表页、店铺搜索、店铺列表等。虽然只有短短几年的时间，系统已经能够支持日均 PV 过亿的请求，并且经过了多次 618 店庆和双 11 的考验。

方石剑
9年前
6.7k
68
评论

Spark Streaming VS Flink

本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长，建议先收藏～ Executor:负责执行 task，反馈执行…

美图数据技术团队
7年前
3.6k
36
评论

不同的瑞士军刀：对比 Spark 和 MapReduce

作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 MapReduce 的二阶段范式。这大大加快了重复访问同一数据的速度。

关关_关关
10年前
1.1k
16
评论

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

换个姿势入门大数据

这篇文章是我近期准备在公司做大数据分享的内容。因为习惯了全英文的 keynote，所以本来标题叫《Introduction to bigdata》，但微信的英文标题字体总觉得有些别扭，所以还是取了这么个中文名。这篇文章的目的是带那些对大数据不了解又有兴趣的人入门。如果你是老手…

自闭
7年前
2.3k
35
2

淘宝大数据之路

2003 年至今淘宝网从零开始飞速发展，走过了 13 个年头，支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台，淘宝大数据平台，就是其中非常重要的一个组成部分，承担了数据采集、加工处理、数据应用的职责，淘宝大数据平台一路到今天，总共经历了三个大的阶段（如图 1），不同阶段面临了不一样的挑战，随着我的理解回顾下这些年大数据所经历过的故事：图 1 数据仓库平台发展三个阶段第一个阶段：RAC 时代 &n

骑猪逛街666
9年前
1.3k
43
1

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统。

已注销
7年前
2.9k
29
评论

美图离线ETL实践

美图收集的日志需要通过 ETL 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理。 ETL 即 Extract-Transform-Load，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的…

美图数据技术团队
7年前
4.0k
39
1

美图离线ETL实践

感谢阅读「美图数据技术团队」的第 13 篇文章，关注我们持续获取美图最新数据技术动态。美图收集的日志需要通过 Hiv 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理。图 1 / 什么是 ETL？ / ETL 即 Extract-Transf…

落寞的搬运工
7年前
2.2k
21
评论