本文基于Airbnb于2019年4月17日公开的北京地区数据对北京地区的房源信息及房源热度情况进行了分析,围绕地区、价格与热度进行了描述性统计和回归建模,探究客户偏好,为北京地区的运营战略提供了建议。
01 背景介绍
共享经济最早传入中国,就是共享住宿领域充当先锋。2011年底,国内各短租民宿预订平台纷纷上线,经过近8年的发展,国内短租民宿市场形成以Airbnb、木鸟、途家为第一梯队,榛果为新手玩家的市场定位。Airbnb成立于美国,在2017年之前的发展重点放在中国之外的国家和地区,截止到2019年8月,Airbnb房源覆盖超过191个国家,房源数量超过600万,但是国内房源仅有15万套。
近些年,我国共享住宿行业的发展迅猛,随着短租标准化、合法化的发展,用户需求也逐渐觉醒,逐渐从可洗衣做饭的入门级民宿,对装修风格及设施品质有了更高的要求。那么,Airbnb的房源特点究竟如何,用户的偏好怎样,为平台带来了收入如何也就是这篇文章的的分析目的。
02 数据说明
本文所使用的数据来自Airbnb于2019年4月17日公开的北京地区数据,总共有28452个房源信息,包含有房源的id和name、房东的id和name、区、位置:经度和纬度、类型、价格、评论数量、最后一次评论时间、平均每月评论数、房东在平台的房屋数、可租时间等信息。
03 定义分析目标与假设
- 分析总体数据,描述每个区的房源特点;
- 探究客户的偏好,主要通过文本分析和用户评论;
- 发现有待发展的细分领域。
- 假设:用户完成订单后会对房屋进行评价,评论数反映了房屋的订单量。
一、描述性统计分析
按地区分布的统计分析
1. 房源数量的地区分布
统计北京各区的房源数量,并进行可视化展示。
朝阳区的房屋最多,是第二名东城区的三倍多;除朝阳区外的其他区的房源数均在3500以下,石景山区、门头沟区、平谷区的房屋数最少。
2.价格的地区分布特点
按地区绘制价格箱型图。
可以看到这样直接绘制时有太多的异常值,所以将价格限制限制4000以下绘制箱型图查看价格的地区分布特点。
怀柔区、平谷区、延庆县、密云县的价格明显高于其他地区,而朝阳区、海淀区虽然房源数量多,但价格在总体上却不高,同样房屋数量较高的东城区,价格要高于朝阳区和海淀区。
价格分布具有明显的地区差异,朝阳区与海淀区价格分布集中与1000以下,怀柔区的分布相对分散,2000以上房屋的比例较高。
3.各地区热度情况
在本次分析中利用用户的评论数来反映房源受欢迎程度,下面统计了不同地区的评论数量,并绘制箱型图。
也同样的含有较多异常值,为更加清晰的了解热度情况,将评论数限制在50。
发现房源数量较多的地区热度明显较高,如海淀区、东城区、朝阳区,特别的是虽然东城区的房源数量没有朝阳区多,但东城区房源热度却高于海淀与朝阳。
4.各地区房屋类型占比
大部分城区整套房子的比率要高于单个房间,合住房间的占比最少;但是海淀区、密云县、怀柔区、延庆县、昌平区整套房子与单个房间的比例接近1:1,与其他城区有着明显的不一致的分布特点。 从目前分析可以得出,北京房源按地区分布来说具有明显的特征如下: 朝阳区、东城区、海淀区等:房源数多,价格不高,大部分房型为整屋、公寓、独立房间,也有一部分合租屋; 怀柔区、密云县、延庆县等:房源少,价格高,房屋类型整房与独立房间的比例接近1:1。
按价格的统计分析
1.热度与价格
统计不同价格区间里的评论数,如下图所示:
总体趋势上,随着房屋价格的上升,房屋的热度也在下降,但是在2001-2500这个价格区间内热度偏高,有可能在这个价格区间内,代表着某种类型的房源,所以呈现这种分布。
根据上面的分析结果,对1001-2000和2001-3000这两个区间的房屋描述次词云图进行对比分析:
价格区间在1001-2000的名称描述词云呈现出了这个价格区间房源的主要特点,房屋类型比较热门的有公寓、小院、四合院,同时北京的各大景点如故宫、天安门、南锣鼓巷等出现频次较高,温馨、豪华等词汇也是这个区间的特点。推测这个价格区间的房屋,主打北京特色,吸引来北京旅游的游客。
将价格在2001-3000内的房源与价格区间在1001-2000的名称描述词云进行对比,呈现出不同的组合,就房源类型来说四合院、小院和别墅是出现频次最高的词语,其次还有家庭、民宿、轰趴等等,而近地铁及旅游景点的频次则没有那么高。可以推测这个价格的房屋多半是希望租一个适合聚会的地方,这个价格区间面向的用户可能不是来自外地的游客,而是北京本地希望能有合适聚会的场所的用户。
2.价格2000元以下及2000元以上房源的地区分布
从上面分析可以得知,以2000元为界限进行划分,基本可以代表着不同种类、不同用途的短租房源,为了解这些房源的具体分布情况,接下来进行统计。
可以看到不同价格区间的地区分布有着明显的差异,低于2000元的房屋有大概50%位于朝阳区与海淀区,而高于2000元的房屋则主要集中于怀柔区、昌平区、延庆县、密云县。 与上面的分析结果也是相一致的,朝阳区、海淀区位于中心城区,距离旅游景点近,多半是公寓式房屋;而怀柔区、昌平区、密云县远离中心城区,多半是别墅类,适合聚会、团建,租房价格也就相对较高。
3.价格2000元以下及2000元以上房源的收入分析
假设评论数为订单量,收入=房屋价格*订单量
| 低于2000的房屋 | 高于2000的房屋 | |
|---|---|---|
| 房屋均价 | 444.74 | 4972.14 |
| 房屋数占比 | 0.96 | 0.04 |
| 订单数占比 | 0.99 | 0.01 |
| 总收入占比 | 0.89 | 0.11 |
高于2000的房屋占比仅为4%,订单量仅为1%,却提供了11%的收入,别墅类房屋出租可能具有一定的发展空间。
用户偏好分析
评论数可以反映房主自开始经营短租事业以来房源的受欢迎程度.
为了分析用户的偏好,对评论数排名前2000的房屋描述(也即name)进行词频统计分析,绘制词云图如下:
公寓式房屋受欢迎,在地理位置上离地铁要近,温馨、阳光、家等对房屋的描述在热门房屋中出现次数较高,其次,三里屯、天安门、故宫、南锣鼓巷、太古里等旅游热门地点出现的频次比较高。 可以推测,热门房源,即月平均评论数较高的房屋,一般是来京旅游的人群的选择,在位置上离地铁等公共交通较近以及离热门景点较近,出门旅游的人们更加注重短租场所的舒适与温馨,这也是与选择宾馆、旅店的人群的显著差别。
二、回归模型
为进一步了解房源热度与价格、地区分布等因素的关系,本文以评论数作为评估房源热度的指标,视为因变量,房源分布、价格、类型、房主持有的房产数作为自变量。使用线性回归对数据进行拟合,最终得到的各变量的回归系数及显著性分析见下表。最终模型的P值小于0.001,调整R方为0.057。
根据模型的回归系数,在控制其他因素不变的情况下,可以得出以下结论:
- 地区分布:与箱型图的结论相一致,大兴区、密云县、平谷区、延庆县、怀柔区、房山区、昌平区等的热度都要低于顺义区,东城区、丰台区、朝阳区、海淀区、西城区的热度高于顺义区;
- 房屋类型:整租和独立房间要分别是合租1.397和2.36倍;
- 价格:与评论数呈现负相关的趋势,价格越高评论数越少;
- 房主持有的房产数:持有房产数与评论数呈现负相关趋势。
三、分析结论
从上述的描述性统计分析、文本分析和回归分析中,我们可以得知Airbnb除了满足一般的短租需求,更加注重品质与房源的精致性。
- 海淀区、朝阳区等中心城区是旅游人群的热门选择地点,这些地方的房屋价格一般在500左右,主要需求是与公共交通和旅游景点距离要近,这些地区的房屋数量多,大多是独立房间类型,订单量也大;怀柔区、密云县等短租房屋的价格则明显较高,大多为整租,订单量相对较少。
- 对热度较高的短租房屋进行描述文本分析,发现有明显的偏向性,主要偏好集中在与公共交通和旅游景点的距离,阳光、温馨、偏向家庭的风格。通过分析不同价格区间的订单量,也发现了不同价格之间较为明显的差异。北京内短租房屋类型大体上可分为两类,一类是公寓类房屋,可能是受外来游客的欢迎,价格一般在1000以下,距离公共交通以及旅游景点较近,风格偏向北京特色,集中在朝阳、海淀等中心城区;另一类是别墅类房屋,价格在2000以上,主要是为了聚会、轰趴等团体性活动,则主要在怀柔、密云等地区。
- airbnb近些年在国内市场扩展势力强势,发展目标则主要在中高端房源。通过数据分析发现,2000以上的高价房源以仅4%的房屋占比,1%的订单量,提供了11%的收入;而且,在2000到2500这一区间的房源具有明显的热度上升,证明了中高端房源的经营策略的可行性。而且近些年,各大短租平台竞争激烈,继续瞄准中高端房源也许是airbnb突出重围的可行策略。