首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
life_is_short
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 25
沸点 0
赞
25
返回
|
搜索文章
最新
热门
基于pandas实现UDF函数
pandas UDF pandas UDF 是用户定义的函数, 由spark来执行, 使用arrow传输数据, pandas函数处理数据(写的py函数),允许向量化(充分的利用计算机的并行性)操作 ,
spark如何使用窗口函数
1 spark如何使用窗口函数 开窗函数格式: 如何使用: 通过SQL的方式来使用: 与在hive中书写格式几乎没有太大的区别 尝试使用DSL方式实现窗口函数: \
dataFrame的构建方式
「这是我参与11月更文挑战的第15天,活动详情查看:2021最后一次更文挑战」 RDD的checkpoint检查点 dataFrame的构建方式 方式一: 将RDD对象转换为dataFrame对象:
RDD的checkpoint检查点以及与缓存的区别
2 RDD的checkpoint检查点 checkPoint: 可以将某一个阶段下的RDD的数据进行持久化的保存, 可以将数据保存在HDFS上, 来确保数据的可靠性, 一旦开启检查点后, 可以切断
RDD的缓存
1.RDD的缓存 RDD缓存: 指的在整个执行链条中, 可以将那些计算比较复杂RDD 而且这些RDD需要被重复的使用, 此时可以提前将这个RDD的结果数据缓存起来, 这样后续在使用到这些RDD的时
RDD的Transformation算子操作
1 RDD的Transformation算子操作 值类型的相关的操作: 数据类型只有value 或者说算子只对value对处理 map算子: 作用: 将每一个数据, 根据自定义函数转换为另一个数据的操
如何构建RDD
如何构建RDD 构建RDD对象的方式主要有二种: 1 通过并行化方式来构建RDD 代码演示: 说明: 2 通过外部数据方式构建RDD 如何设置 pycharm的python脚本模板: 代码实现:
Hive函数进阶
Hive函数进阶 explode(UDTF) NBA总冠军球队 lateral View 行列转换 concat 列比较 男 女 30 40 行比较 gender count 男 30 女 40 行转
Hive知识
数据库操作 数据库创建 数据库查看 数据库删除 数据库修改 数据表操作 创建(创建) 查看 删除 修改 内部表和外部表 内部表 默认情况创建的表是内部表 外部表 外部表创建关键词是external,删
Hive知识
hql语句形式 DDL 库、表、视图 创建修改删除 create、alter、drop DML 表的具体数据的事务操作 数据写入 数据的修改 数据的删除 DQL 数据查询 from、where、gro
下一页
个人成就
文章被点赞
35
文章被阅读
10,011
掘力值
447
关注了
1
关注者
2
收藏集
0
关注标签
2
加入于
2021-08-02