前段时间,胡润研究院发布了2021“胡润百富榜”,这是自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元,通过分析今年的"胡润百富榜"看看这些富豪都是谁、富豪们主要从事的行业等等。和我一起来看看
1、数据读取及预处理
df = pd.read_csv('/home/mw/input/hrbf9490/2021胡润百富 - 榜单.csv')
df.replace('New ~','New',inplace=True)
df['行业'] = df['行业'].map(lambda x:x[3:])
df['排名变化'] = df['排名变化'].map(lambda x:x if x=='New' else('Up' if int(x)>0 else('Down' if int(x)<0 else 'Unchanged')))
df['财富'] = df['财富'].astype('int')
df['人物1'] = df['性别'].map(lambda x:x.split('、')[0])
df['人物2'] = df['性别'].map(lambda x:x.split('、')[1] if len(x) == 13 else '')
df.drop('性别',axis=1,inplace=True)
df['人物1_性别'] = df['人物1'].map(lambda x:x.split()[0])
df['人物1_年龄'] = df['人物1'].map(lambda x:x.split()[1])
df['人物2_性别'] = df['人物2'].map(lambda x:x.split()[0] if len(x) != 0 else '')
df['人物2_年龄'] = df['人物2'].map(lambda x:x.split()[1] if len(x) != 0 else '')
df.drop(['人物1','人物2'],axis=1,inplace=True)
2、百富榜Top10可视化 结果如图:
看到这个表,我就想着我心里最富有的马云怎么跑第五去了,居然由养生堂董事长 钟睒睒 以3900亿人民币占榜榜首,字节跳动的创始人 张一鸣 以3400亿人民币位居榜单第二;宁德时代的 曾毓群 以3200亿人民币位居第三,这上榜的都是真正的富豪级别。
2.1源码:
from pyecharts.charts import *
import pyecharts.options as opts
from pyecharts.commons.utils import JsCode
## 财富
bins = [0,50,100,500,1000,1800,10000000]
labels = ['0-50','50-100','100-500','500-1000','1000-1800','1800+']
df['财富_cut'] = pd.cut(df['财富'],bins,labels=labels)
df_t = df.head(10).sort_values('财富',ascending = True)
df_t = df_t[['财富','姓名','企业']]
df_t['姓名'] = df_t['姓名']+' '+df_t['企业']
# 富文本
rich_text1 = {
"b": {"color": "#ffffff","fontSize": 12, "lineHeight": 12},
"per": {
"color": "#ffffff",
},
}
bar = (Bar(init_opts=opts.InitOpts(width='980px',theme='light',bg_color='#070B50'))
.add_xaxis([y for x, y, z in df_t.values])
.add_yaxis('',[x for x, y, z in df_t.values],
itemstyle_opts={
'shadowBlur': 10,
'shadowColor': 'rgba(0, 0, 0, 0.5)',
'shadowOffsetY': 5,
'shadowOffsetX': 5,
'barBorderRadius': [10, 10, 10, 10],
},
label_opts=opts.LabelOpts(
is_show=True,
position='insideRight',
formatter='{b}:{c}亿¥'
))
)
bar.reversal_axis()
items = df['财富_cut'].value_counts().index.tolist()
value = df['财富_cut'].value_counts().values.tolist()
pie =(Pie()
.add('',[list(z) for z in zip(items,value)],radius=['15%','30%'],center=['77%','70%'])
.set_series_opts(label_opts=opts.LabelOpts(is_show=True,formatter="{b|{b}: }{per|{d}%} ",
rich=rich_text1))
.set_global_opts(legend_opts=opts.LegendOpts(is_show=False))
)
bar.overlap(pie)
bar.set_global_opts(title_opts=opts.TitleOpts(title='2021中国胡润百富榜Top10',
subtitle='数据来源:2021年 衡昌烧坊·胡润百富榜',pos_left='center',
title_textstyle_opts=opts.TextStyleOpts(color='white')),
legend_opts = opts.LegendOpts(is_show=False),
xaxis_opts=opts.AxisOpts(is_show=False),
yaxis_opts=opts.AxisOpts(is_show=False),
)
bar.render_notebook()
3、相比去年排名变化和富豪们的性别比例 结果如图:
有1605个企业富豪的排名是下降的,占比达到55%,后起之秀有838个企业富豪,占比为28.72%,男士的数量明显多余女士,比例接近9:1,也不知何时我在梦里也能成为富豪。
3.1 源码:
df_t = pd.DataFrame(df['人物1_性别'].value_counts() + df['人物2_性别'].value_counts()).reset_index().dropna(axis=0)
df_t.columns = ['sex','count']
df_t1 = df.排名变化.value_counts().reset_index()
label = df_t['sex'].tolist()
value = df_t['count'].tolist()
label1 = df_t1['index'].tolist()
value1 = df_t1['排名变化'].tolist()
# 富文本
rich_text1 = {
"b": {"color": "#ffffff","fontSize": 16, "lineHeight": 40},
"per": {
"color": "#ffffff",
"backgroundColor": "#334455",
"padding": [4, 2],
"borderRadius": 2,
},
}
pie =(Pie(init_opts=opts.InitOpts(width='980px',bg_color='#070B50',theme='light'))
.add('',[list(z) for z in zip(label,value)],radius=['25%','45%'],center=['75%','55%'],)
.add('',[list(z) for z in zip(label1,value1)],radius=['25%','45%'],center=['30%','55%'],)
.set_series_opts(label_opts=opts.LabelOpts(position='outsiede',formatter="{b|{b}: }{c} {per|{d}%} ",rich=rich_text1))
.set_global_opts(
title_opts=[
dict(
text='2021中国胡润百富榜排名变化及性别比例',
left='center',
top='5%',
textStyle=dict(
color='#ffffff',
fontSize=20)),
dict(
text='数据来源:2021年 衡昌烧坊·胡润百富榜',
left='center',
top='12%',
textStyle=dict(
color='#C0C0C0',
fontSize=14)),
dict(
text='排名变化',
left='25%',
top='52%',
textStyle=dict(
color='#ffffff',
fontSize=22)),
dict(
text='性别',
left='72%',
top='52%',
textStyle=dict(
color='#ffffff',
fontSize=22))
],
legend_opts=opts.LegendOpts(is_show=False),
)
)
pie.render_notebook()
4、富豪们主要从事什么方面工作 结果如图:
4.1源码:
## 行业词云图
hy = []
for i in df['行业'].map(lambda x:x.split('、')):
hy.extend(i)
df_t = pd.DataFrame(hy,columns=['行业'])
df1 = df_t['行业'].value_counts().reset_index()
cloud_words = [tuple(xi) for xi in df1.values]
wc = (
WordCloud()
.add("", cloud_words,word_size_range=[10, 120],shape='diamond')
.set_global_opts(title_opts=opts.TitleOpts(title='2021中国胡润百富榜热门行业',
subtitle='数据来源:2021年 衡昌烧坊·胡润百富榜',pos_left='center',))
)
wc.render_notebook()
果然,房地产是最赚钱的,做房地产的人也是最多的,其次就是投资行业以及医药行业,走走走,我们干销售房产去。
领取🎁 Q群号: 675240729(纯技术交流和资源共享)以自助拿走。
①行业咨询、专业解答 ②Python开发环境安装教程 ③400集自学视频 ④软件开发常用词汇 ⑤最新学习路线图 ⑥3000多本Python电子书