首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
会员
登录
举报沸点
请选择举报理由
和话题不符
恶意攻击谩骂
广告营销
海树
数据研发工程师
专注于数据仓库,开发,治理,产品设计领域
关注
私信
获得徽章 0
动态
文章
专栏
沸点
收藏集
1
关注
赞
0
文章 0
沸点 0
资讯 0
赞
0
关注
返回
|
搜索文章
文章
热门
最新
海树
1年前
数据分析
数据清洗:缺失值,异常值和重复值的处理
在数据清洗过程中,主要处理的是缺失值,异常值和重复值。所谓清洗,是对数据进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。
1180
点赞
1
海树
1年前
Python
Python:聚类算法实现
聚类常用于数据探索或挖掘前期,在没有做先验经验的背景下做的探索性分析,也适用于样本量较大情况下的数据预处理工作。例如针对企业整体的用户特征,在未得到相关只是或经验之前先根据数据本身特点进行用户分群
1152
点赞
评论
海树
1年前
Python
Pandas 的Merge总结
Pandas Merge pandas 的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。
332
点赞
评论
海树
1年前
Python
Python:Matplotlib可视化
Python Matplotlib可视化学习 Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起
105
点赞
评论
海树
1年前
Python
Pandas:基本统计分析
基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一个四分位值,中值,第三个四分位值以及最大值。 描述性统计分析函数为describe,该函数返回值有均值,标准差,最大值,最小值,分位数等。
461
点赞
评论
海树
1年前
Python
Pandas:数据分析与处理
Pandas:数据分析与处理,分组分析:分组分析是指根据分组字段将分析对象划分成不同的部分,以对比分析各组之间差异性的一种分析方法。常用的统计指标有:计数,求和,平均值。
377
点赞
评论
海树
1年前
大数据
数据仓库之模型评审
数据模型记分卡是一种积极,有效的数据模型质量评价方法。 在数据建设初期使用记分卡可以有效降低返工几率,即便一些新手也可以对数据模型提出改进意见。
626
1
评论
海树
1年前
大数据
数据仓库之数据架构分层
数据分层的原因 首先从宏观上来讲,数据分层是为了更好的去组织、管理、维护和使用数据。为了达到以上目的,采用了数据解耦的方式来实现,而数据分层就是解耦的方式之一,另外一种方式就是主题域划分。
249
2
评论
海树
1年前
大数据
数据仓库-【面试题】
对于数据仓库的理解,数据仓库解决什么问题? 数据仓库可以理解为一个大的数据集合,它的功能是面向数据分析和决策支持; 数据仓库不生产数据,它所有的数据都是同步自业务系统,而众多业务系统数据会面临
1376
2
评论
海树
1年前
大数据
一个真实的数仓项目总结
背景 公司业务整合,指标管理混乱,数据不一致问题严重,另外指标的开发和迭代效率也比较低; 举措:进行集团指标认证,数据指标重新开发; 建设前 面临的问题 指标非常多,业务复杂,变化快; 人少,排期紧张
2720
12
4
下一页
个人成就
文章被点赞
17
文章被阅读
8,578
掘力值
294
关注了
0
关注者
11
收藏集
1
关注标签
0
加入于
2021-07-21
温馨提示
当前操作失败,如有疑问,可点击申诉