首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
life_is_short
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 25
沸点 0
赞
25
返回
|
搜索文章
赞
文章( 25 )
沸点( 0 )
基于pandas实现UDF函数
pandas UDF pandas UDF 是用户定义的函数, 由spark来执行, 使用arrow传输数据, pandas函数处理数据(写的py函数),允许向量化(充分的利用计算机的并行性)操作 ,
spark如何使用窗口函数
1 spark如何使用窗口函数 开窗函数格式: 如何使用: 通过SQL的方式来使用: 与在hive中书写格式几乎没有太大的区别 尝试使用DSL方式实现窗口函数: \
RDD的checkpoint检查点以及与缓存的区别
2 RDD的checkpoint检查点 checkPoint: 可以将某一个阶段下的RDD的数据进行持久化的保存, 可以将数据保存在HDFS上, 来确保数据的可靠性, 一旦开启检查点后, 可以切断
如何构建RDD
如何构建RDD 构建RDD对象的方式主要有二种: 1 通过并行化方式来构建RDD 代码演示: 说明: 2 通过外部数据方式构建RDD 如何设置 pycharm的python脚本模板: 代码实现:
RDD的缓存
1.RDD的缓存 RDD缓存: 指的在整个执行链条中, 可以将那些计算比较复杂RDD 而且这些RDD需要被重复的使用, 此时可以提前将这个RDD的结果数据缓存起来, 这样后续在使用到这些RDD的时
RDD的Transformation算子操作
1 RDD的Transformation算子操作 值类型的相关的操作: 数据类型只有value 或者说算子只对value对处理 map算子: 作用: 将每一个数据, 根据自定义函数转换为另一个数据的操
Hive函数进阶
Hive函数进阶 explode(UDTF) NBA总冠军球队 lateral View 行列转换 concat 列比较 男 女 30 40 行比较 gender count 男 30 女 40 行转
Hive知识
数据库操作 数据库创建 数据库查看 数据库删除 数据库修改 数据表操作 创建(创建) 查看 删除 修改 内部表和外部表 内部表 默认情况创建的表是内部表 外部表 外部表创建关键词是external,删
hdfs服务
HDFS服务 HDFS设计目标 故障检测和自动恢复功能 存储大文件数据 高吞吐量 一次写入多次读取 兼容性 HDFS的特性 主从管理结构 主服务 namenode 所有请求都要经过namenode 负
Hive知识
hql语句形式 DDL 库、表、视图 创建修改删除 create、alter、drop DML 表的具体数据的事务操作 数据写入 数据的修改 数据的删除 DQL 数据查询 from、where、gro
下一页
个人成就
文章被点赞
35
文章被阅读
9,717
掘力值
446
关注了
1
关注者
2
收藏集
0
关注标签
2
加入于
2021-08-02