第一章:Python数据可视化概述
- 1.1数据可视化的概念:
研究利用图形展现数据中隐含的信息并发掘其中规律;可通过图表直观展示数据间的量级关系,将隐藏于数据中的规律直观地展现出来
- 1.2数据可视化的流程:
需求分析 --> 数据获取 --> 数据处理 --> 分析与可视化 --> 分析报告
(1)需求分析:需求分析的主要内容是基于对商业的理解,明确目标,整理分析框架和分析思路,确定数据分析的目的和方法
(2)数据获取:数据获取是根据分析的目的,收集、整合、提取相关的数据,是数据分析工作的基础
(3)数据处理:数据处理是指通过工具对数据中的噪声数据进行处理,并将数据转换为适用分析的形式。数据处理主要包括数据清洗、数据合并等处理方法
(4)分析与可视化:数据分析通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律。可视化是指对具体数据指标的计算和分析,发现数据中潜在的规律,并借助图表等可视化的方式直观的展示数据之间的关联信息,使得抽象的数据变得更加清晰、具体,易于观察,便于决策
(5)分析报告:分析报告是指以特定的形式将数据分析的过程、结果、方案完整呈现出来,图文并茂,层次明晰,直观地看清楚问题和结论,便于需求者了解情况。分析报告包括了背景与目的、分析思路、分析结果、总结和建议
- 1.3常用可视化图形:
一:基础图形
(1)散点图(Scatter):判断两变量之间是否存在某种关联或总结坐标点的分布模式
(2)折线图:用于显示随时间或有序类别而变化的趋势。在折线图中,通常沿横轴标记类别,沿纵轴标记数值。
(3)条形图/柱形图(Bar):以宽度相等的条形长度的差异显示统计指标数值大小的一种图形
(4)饼图:以一个完整的圆表示数据对象的全体,其中扇形面积表示各个组成部分。饼图常用于描述百分比构成
(6)箱线图(Boxplot):利用数据的统计量描述数据的一种图形,一般包括上界、上四分位数、中位数、下四分位数、下界和异常值这6个统计量
二:高级图形
(1)仪表盘(Gauge):仪表盘的颜色可以用于划分指示值的类别,使用刻度标示数据,指针指示维度,指针角度表示数值。只需分配最小值和最大值,并定义一个颜色范围,指针(指数)将显示出关键指标的数据或当前进度
(2)漏斗盘(Funnel):也称倒三角图,漏斗图将数据呈现为几个阶段,每个阶段的数据都是整体的一部分,从一个阶段到另一个阶段数据自上而下逐渐下降。适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗图对各环节业务数据进行比较,能够直观地发现和说明问题
(3)雷达图(Radar):也称戴布拉图、蜘蛛网图,将纵向和横向的分析比较方法结合起来,可以展示出数据集中各个变量的权重高低情况
(4)热力图(HeatMap):通过颜色的深浅表示数据的分布,颜色越深数据越大
(5)词云图(WordCloud):对文字中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”。
(6)关系图(Graph):又称关联图,可用于分析事物之间“原因与结果”“目的与手段”等复杂关系
(7)桑基图(Sankey):又称桑基能量分流图、桑基能量平衡图,是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小。作用是展示数据的流动,最明显的特征是,始末端的分支宽度总和相等,保持能量的平衡
- 1.4一些可视化工具
工具名称 难易程度 是否免费 用户体验 支持平台
Excel 简单易学 收费授权 一般 以Windows为主
Tableau 灵活易用 收费授权 精美直观 以Windows为主
Power BI 集成度高 免费/专业版 动态交互式 以Windows为主
JavaScript 有一定难度 免费开源 扩展库丰富 跨终端、跨平台
Python 简单容易 免费开源 组件丰富 跨平台
Python常用可视化工具库:pandas、Mathplotlib、seaborn、pyecharts等