大数据 - PrototypeOne的收藏集 - 掘金

大数据

更多收藏集

2篇文章 · 0订阅

大数据开发！Pandas转spark无痛指南！

Pandas灵活强大，是数据分析必备工具库！但处理大型数据集时，需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段，掌握即可丝滑切换。

ShowMeAI
3年前
11k
21
1

大数据开发！Pandas转spark无痛指南！

Hadoop YARN 架构详解

YARN是MRv1基础上演化而来的，克服了MRv1中的各种局限性。在正式的介绍YARN之前，我们先要了解MRv1的一些局限性，这可概括为以下几个方面：扩展性差：在MRv1中，JobTracker同时兼备了资源管理和作业控制两个功能，这个成为系统的一个最大瓶颈，严重制约了Had…

Michaelhbjian
6年前
4.6k
1
评论