1 简介
本文使用python对IJCAI-18 阿里妈妈搜索广告转化预测大赛数据进行了探索与分析,以可视化的方式做了一点微小的工作,供大家参考,文中有错误的内容望读者及时指正。
搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,即广告商品被用户点击后产生购买行为的概率。本次比赛依托电商CTR数据为基础,旨在通过广告商品信息、用户信息、上下文信息和店铺信息等4类数据,对转化率进行预估以辅助商家决策。
本次比赛为参赛选手提供了5类数据(基础数据、广告商品信息、用户信息、上下文信息和店铺信息)如下。基础数据表提供了搜索广告最基本的信息,以及“是否交易”的标记。广告商品信息、用户信息、上下文信息和店铺信息等4类数据,提供了对转化率预估可能有帮助的辅助信息。
- 基础数据:各类数据的编号
- 广告商品信息:商品的具体信息
- 用户信息:用户基本个人信息
- 上下文信息:广告展示页面的基本信息
用于初赛的数据包含了若干天的样本。最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手;。
在上述各张数据表中,绝大部分样本包含了完整的字段数据,也有少部分样本缺乏特定字段的数据。如果一条样本的某个字段为“-1”,表示这个样本的对应字段缺乏数据。
2 数据探索
2.1 基础数据
| 字段 | 解释 |
| instance_id | 样本编号,Long |
| is_trade | 是否交易的标记位,Int类型;取值是0或者1,其中1 表示这条样本最终产生交易,0 表示没有交易 |
| item_id | 广告商品编号,Long类型 |
| user_id | 用户的编号,Long类型 |
| context_id | 上下文信息的编号,Long类型 |
| shop_id | 店铺的编号,Long类型 |
-
is_trade负正比例不均匀,大约为52
-
-
-
有大量重复item、shop,商品符合电商长尾分布规律
-
一共有3959家店铺,店铺shop_id6597981382309269962出现11278次
一共有10075个商品,商品item_id7571023501622243456出现3001次
-
user、context有少量重复出现数据
2.2 用户信息
| 字段 | 解释 |
| user_id | 用户的编号,Long类型 |
| user_gender_id | 用户的预测性别编号,Int类型;0表示女性用户,1表示男性用户,2表示家庭用户 |
| user_age_level | 用户的预测年龄等级,Int类型;数值越大表示年龄越大 |
| user_occupation_id | 用户的预测职业编号,Int类型 |
| user_star_level | 用户的星级编号,Int类型;数值越大表示用户的星级越高 |
- 女性用户为主要对象,占到用户比例的75.5%
- 用户年龄主要集中在1002
1005,推测可能为2050岁区间,其中30岁为主力消费人群 - 职业,主要集中在2005和2000,信息不详
- 3009和3010等级最高人数也最少,其他用户星级之间差异并不大,
2.3 店铺信息
| 字段 | 解释 |
| shop_id | 店铺的编号,Long类型 |
| shop_review_num_level | 店铺的评价数量等级,Int类型;取值从0开始,数值越大表示评价数量越多 |
| shop_review_positive_rate | 店铺的好评率,Double类型;取值在0到1之间,数值越大表示好评率越高 |
| shop_star_level | 店铺的星级编号,Int类型;取值从0开始,数值越大表示店铺的星级越高 |
| shop_score_service | 店铺的服务态度评分,Double类型;取值在0到1之间,数值越大表示评分越高 |
| shop_score_delivery | 店铺的物流服务评分,Double类型;取值在0到1之间,数值越大表示评分越高 |
| shop_score_description | 店铺的描述相符评分,Double类型;取值在0到1之间,数值越大表示评分越高 |
- 店铺星级和评价数呈正太分布,中间等级的占大部份
| shop_review_positive_rate | 0.714 |
|---|---|
| shop_score_service | 0.787 |
| shop_score_delivery | 0.83 |
| shop_score_description | 0.787 |
- 店铺好评大部份等于1,0.7~0.9有少量离群点最小值为0.714
- 店铺服务态度评分分布在0.96
0.98,在0.850.90之间出现一系列离群点,最小值为0.787 - 店铺物流评分与服务评分分布分布在0.96~0.95,最小值为0.92
- 店铺描述相符评分集中分布在0.98附近,最小值仅有0.787
查看本文全部内容,欢迎访问天池技术圈官方地址:【IJCAI-2018】搜索广告数据探索与可视化_天池技术圈-阿里云天池