Python解密2021年最新富豪榜,马云居然连前三都没进

228 阅读4分钟

前段时间,胡润研究院发布了2021“胡润百富榜”,这是自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元,通过分析今年的"胡润百富榜"看看这些富豪都是谁、富豪们主要从事的行业等等。和我一起来看看 在这里插入图片描述

1、数据读取及预处理

df = pd.read_csv('/home/mw/input/hrbf9490/2021胡润百富 - 榜单.csv')
df.replace('New ~','New',inplace=True)
df['行业'] = df['行业'].map(lambda x:x[3:])
df['排名变化'] = df['排名变化'].map(lambda x:x if x=='New' else('Up' if int(x)>0 else('Down' if int(x)<0 else 'Unchanged')))
df['财富'] = df['财富'].astype('int')
df['人物1'] = df['性别'].map(lambda x:x.split('、')[0])
df['人物2'] = df['性别'].map(lambda x:x.split('、')[1] if len(x) == 13 else '')
df.drop('性别',axis=1,inplace=True)
df['人物1_性别'] = df['人物1'].map(lambda x:x.split()[0])
df['人物1_年龄'] = df['人物1'].map(lambda x:x.split()[1])
df['人物2_性别'] = df['人物2'].map(lambda x:x.split()[0] if len(x) != 0 else '')
df['人物2_年龄'] = df['人物2'].map(lambda x:x.split()[1] if len(x) != 0 else '')
df.drop(['人物1','人物2'],axis=1,inplace=True)

2、百富榜Top10可视化 结果如图:

在这里插入图片描述 看到这个表,我就想着我心里最富有的马云怎么跑第五去了,居然由养生堂董事长 钟睒睒 以3900亿人民币占榜榜首,字节跳动的创始人 张一鸣 以3400亿人民币位居榜单第二;宁德时代的 曾毓群 以3200亿人民币位居第三,这上榜的都是真正的富豪级别。

在这里插入图片描述

2.1源码:

from pyecharts.charts import *
import pyecharts.options as opts
from pyecharts.commons.utils import JsCode
## 财富
bins = [0,50,100,500,1000,1800,10000000]
labels = ['0-50','50-100','100-500','500-1000','1000-1800','1800+']
df['财富_cut'] = pd.cut(df['财富'],bins,labels=labels)
df_t = df.head(10).sort_values('财富',ascending = True)
df_t = df_t[['财富','姓名','企业']]
df_t['姓名'] = df_t['姓名']+'   '+df_t['企业']
# 富文本
rich_text1 = {
    "b": {"color": "#ffffff","fontSize": 12, "lineHeight": 12},
    "per": {
        "color": "#ffffff",
        },
}
bar = (Bar(init_opts=opts.InitOpts(width='980px',theme='light',bg_color='#070B50'))
    .add_xaxis([y for x, y, z in df_t.values])
    .add_yaxis('',[x for x, y, z in df_t.values],
        itemstyle_opts={
            'shadowBlur': 10, 
            'shadowColor': 'rgba(0, 0, 0, 0.5)',
            'shadowOffsetY': 5,
            'shadowOffsetX': 5,
            'barBorderRadius': [10, 10, 10, 10],
    },
        label_opts=opts.LabelOpts(
            is_show=True,
            position='insideRight',
            formatter='{b}:{c}亿¥' 
            ))
)
bar.reversal_axis()

items = df['财富_cut'].value_counts().index.tolist()
value = df['财富_cut'].value_counts().values.tolist()
pie =(Pie()
    .add('',[list(z) for z in zip(items,value)],radius=['15%','30%'],center=['77%','70%'])
    .set_series_opts(label_opts=opts.LabelOpts(is_show=True,formatter="{b|{b}: }{per|{d}%}  ",
                     rich=rich_text1))
    .set_global_opts(legend_opts=opts.LegendOpts(is_show=False))
)
bar.overlap(pie)
bar.set_global_opts(title_opts=opts.TitleOpts(title='2021中国胡润百富榜Top10',
            subtitle='数据来源:2021年 衡昌烧坊·胡润百富榜',pos_left='center',
            title_textstyle_opts=opts.TextStyleOpts(color='white')),
            legend_opts = opts.LegendOpts(is_show=False),
            xaxis_opts=opts.AxisOpts(is_show=False),
            yaxis_opts=opts.AxisOpts(is_show=False),
    )
bar.render_notebook()

3、相比去年排名变化和富豪们的性别比例 结果如图:

在这里插入图片描述 有1605个企业富豪的排名是下降的,占比达到55%,后起之秀有838个企业富豪,占比为28.72%,男士的数量明显多余女士,比例接近9:1,也不知何时我在梦里也能成为富豪。

在这里插入图片描述

3.1 源码:

df_t = pd.DataFrame(df['人物1_性别'].value_counts() + df['人物2_性别'].value_counts()).reset_index().dropna(axis=0)
df_t.columns = ['sex','count']
df_t1 = df.排名变化.value_counts().reset_index()
label = df_t['sex'].tolist()
value = df_t['count'].tolist()
label1 = df_t1['index'].tolist()
value1 = df_t1['排名变化'].tolist()
# 富文本
rich_text1 = {
    "b": {"color": "#ffffff","fontSize": 16, "lineHeight": 40},
    "per": {
        "color": "#ffffff",
        "backgroundColor": "#334455",
        "padding": [4, 2],
        "borderRadius": 2,
    },
}
pie =(Pie(init_opts=opts.InitOpts(width='980px',bg_color='#070B50',theme='light'))
    .add('',[list(z) for z in zip(label,value)],radius=['25%','45%'],center=['75%','55%'],)
    .add('',[list(z) for z in zip(label1,value1)],radius=['25%','45%'],center=['30%','55%'],)
    .set_series_opts(label_opts=opts.LabelOpts(position='outsiede',formatter="{b|{b}: }{c}  {per|{d}%}  ",rich=rich_text1))
    .set_global_opts(
        title_opts=[
            dict(
                text='2021中国胡润百富榜排名变化及性别比例',
                left='center',
                top='5%',
                textStyle=dict(
                    color='#ffffff',
                    fontSize=20)),
            dict(
                text='数据来源:2021年 衡昌烧坊·胡润百富榜',
                left='center',
                top='12%',
                textStyle=dict(
                    color='#C0C0C0',
                    fontSize=14)),
            dict(
                text='排名变化',
                left='25%',
                top='52%',
                textStyle=dict(
                    color='#ffffff',
                    fontSize=22)),
            dict(
                text='性别',
                left='72%',
                top='52%',
                textStyle=dict(
                    color='#ffffff',
                    fontSize=22))
    ],
        legend_opts=opts.LegendOpts(is_show=False),
        )
)
pie.render_notebook()

4、富豪们主要从事什么方面工作 结果如图:

在这里插入图片描述

4.1源码:

## 行业词云图
hy = []
for i in df['行业'].map(lambda x:x.split('、')):
    hy.extend(i)
df_t = pd.DataFrame(hy,columns=['行业'])
df1 = df_t['行业'].value_counts().reset_index()
cloud_words = [tuple(xi) for xi in df1.values]
wc = (
    WordCloud()
    .add("", cloud_words,word_size_range=[10, 120],shape='diamond')
    .set_global_opts(title_opts=opts.TitleOpts(title='2021中国胡润百富榜热门行业',
            subtitle='数据来源:2021年 衡昌烧坊·胡润百富榜',pos_left='center',))
)
wc.render_notebook()

在这里插入图片描述

果然,房地产是最赚钱的,做房地产的人也是最多的,其次就是投资行业以及医药行业,走走走,我们干销售房产去。

领取🎁 Q群号: 675240729(纯技术交流和资源共享)以自助拿走。

①行业咨询、专业解答 ②Python开发环境安装教程 ③400集自学视频 ④软件开发常用词汇 ⑤最新学习路线图 ⑥3000多本Python电子书