机器学习 增幅预测

223 阅读22分钟
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
data1 = pd.read_csv('lianjia1.csv', encoding='gbk')
data2 = pd.read_csv('lianjia2.csv', encoding='gbk')
data3 = pd.read_csv('lianjia3.csv', encoding='utf-8')
data4 = pd.read_csv('lianjia4.csv', encoding='utf-8')
data5 = pd.read_csv('lianjia5.csv', encoding='utf-8')
data6 = pd.read_csv('lianjia6.csv', encoding='utf-8')
data7 = pd.read_csv('lianjia7.csv', encoding='utf-8')
data = pd.concat([data1, data2, data3, data4, data5,data6,data7])
data.columns
Index(['cjtaoshu', 'mendian', 'cjzongjia', 'zhiwei', 'haoping', 'cjdanjia',
       'cjxiaoqu', 'xingming', 'cjzhouqi', 'biaoqian', 'cjlouceng',
       'cjshijian', 'congyenianxian', 'bankuai'],
      dtype='object')
data = data[['cjzongjia', 'cjdanjia', 'cjxiaoqu', 'cjlouceng', 'cjshijian', 'bankuai', 'mendian', 'xingming', 'congyenianxian', ]]
data = data.dropna()
data.cjdanjia = np.round(data.cjdanjia.str.replace('元/平','').astype(np.float32).map(lambda x: x/10000), 2)
data.head()
cjzongjia cjdanjia cjxiaoqu cjlouceng cjshijian bankuai mendian xingming congyenianxian
0 251.0 4.40 红莲北里 3室1厅 57平 南 北/高楼层/6层 签约时间:2015-05-24 马连道 红莲北里店 郭海龙 4-5年
1 159.0 3.70 红莲南里 1室1厅 43平 南/高楼层/7层 签约时间:2015-05-10 马连道 红莲北里店 郭海龙 4-5年
2 257.0 3.90 常青藤嘉园 1室1厅 65平 北/低楼层/16层 签约时间:2015-04-26 马连道 红莲北里店 郭海龙 4-5年
3 243.0 4.13 红莲北里 2室1厅 58平 南 北/高楼层/6层 签约时间:2015-04-04 马连道 红莲北里店 郭海龙 4-5年
4 372.5 4.21 广安门外大街 3室1厅 88平 东 南 西 北/中楼层/18层 签约时间:2015-04-01 马连道 红莲北里店 郭海龙 4-5年
data = data[data.cjshijian.str.contains('签约时间:')]
data['cjshijian'] = pd.to_datetime(data.cjshijian.str.replace('签约时间:',''))
data.head(3)
cjzongjia cjdanjia cjxiaoqu cjlouceng cjshijian bankuai mendian xingming congyenianxian
0 251.0 4.4 红莲北里 3室1厅 57平 南 北/高楼层/6层 2015-05-24 马连道 红莲北里店 郭海龙 4-5年
1 159.0 3.7 红莲南里 1室1厅 43平 南/高楼层/7层 2015-05-10 马连道 红莲北里店 郭海龙 4-5年
2 257.0 3.9 常青藤嘉园 1室1厅 65平 北/低楼层/16层 2015-04-26 马连道 红莲北里店 郭海龙 4-5年
data.set_index('cjshijian', inplace=True)
data.sort_index(inplace=True)
data
cjzongjia cjdanjia cjxiaoqu cjlouceng bankuai mendian xingming congyenianxian
cjshijian
2002-06-01 152.5 1.71 紫金新干线 2室2厅 89平 南 北/中楼层/9层 霍营 龙锦东一店 韩冀英 5年以上
2003-07-31 160.7 2.69 天下儒寓 2室1厅 59平 东 南/中楼层/28层 科技园区 中海国际店 徐淑莹 5年以上
2006-01-02 160.0 1.65 宏盛家园 2室2厅 97平 南 北/低楼层/6层 西红门 鸿坤广场店 刘振东 5年以上
2006-01-02 160.0 1.65 宏盛家园 2室2厅 97平 南 北/低楼层/6层 西红门 鸿坤广场店 刘振东 5年以上
2006-01-02 160.0 1.65 宏盛家园 2室2厅 97平 南 北/低楼层/6层 西红门 鸿坤广场店 刘振东 5年以上
2010-09-25 175.0 2.82 半导体宿舍 2室1厅 62平 南 北/低楼层/6层 双榆树 中关村东路临时店 王雨 5年以上
2010-09-25 175.0 2.82 半导体宿舍 2室1厅 62平 南 北/低楼层/6层 双榆树 中关村东路临时店 王雨 5年以上
2011-01-21 218.0 3.85 花家地南里 2室1厅 56平 南/中楼层/6层 望京 利泽西园店 柳智远 5年以上
2011-03-28 168.0 3.15 展春园 2室1厅 53平 南 北/低楼层/6层 双榆树 中关村东路临时店 王雨 5年以上
2011-03-28 168.0 3.15 展春园 2室1厅 53平 南 北/低楼层/6层 双榆树 中关村东路临时店 王雨 5年以上
2011-05-15 530.0 4.08 上元君庭 2室1厅 129平 东 西/中楼层/31层 奥林匹克公园 世茂奥临新店 赵晴 5年以上
2011-05-31 178.0 3.03 朗琴园 1室1厅 58平 东/中楼层/29层 广安门 远见国际店 孙银 5年以上
2011-06-02 205.0 2.89 车道沟南里 2室1厅 70平 东 南/低楼层/17层 紫竹桥 车道沟南里店 胡小刚 5年以上
2011-06-02 205.0 2.89 车道沟南里 2室1厅 70平 东 南/低楼层/17层 紫竹桥 车道沟南里店 胡小刚 5年以上
2011-06-02 205.0 2.89 车道沟南里 2室1厅 70平 东 南/低楼层/17层 紫竹桥 车道沟南里店 胡小刚 5年以上
2011-06-03 240.0 3.69 双榆树北里 2室1厅 65平 南/高楼层/6层 双榆树 双安店 邹芳友 5年以上
2011-06-05 269.0 2.45 芳城园一区 3室2厅 110平 南 北/中楼层/26层 方庄 芳城园店 阎浩 5年以上
2011-06-11 159.5 2.68 京汉旭城 1室1厅 59平 东 南/高楼层/23层 鲁谷 远洋山水一店 冯丽琴 5年以上
2011-06-14 95.0 1.72 林肯公园 1室1厅 55平 西/中楼层/24层 亦庄 亦庄桥店 宋九龙 5年以上
2011-06-15 270.0 4.15 新风街 2室1厅 65平 东 南/高楼层/16层 德胜门 马甸桥店 刘景州 5年以上
2011-06-16 244.0 3.18 安慧里二区 3室1厅 76平 南 北/中楼层/25层 亚运村 洛克地铁站店 刘宪峰 5年以上
2011-06-19 189.0 2.02 万象新天四区 2室1厅 93平 南/低楼层/9层 常营 新万象新天店 王振雷 5年以上
2011-06-19 156.0 2.29 广渠门外南街 2室1厅 68平 南 西/高楼层/12层 崇文门 水上华城店 白青龙 5年以上
2011-06-22 10.0 0.00 万博苑 --室--厅 0平 南 北/地下室/6层 右安门内 宣师一附小店 郭亮 5年以上
2011-06-22 103.5 1.56 金惠园三里 2室1厅 66平 东 西/低楼层/7层 黄村北 翡翠城店 范凌振 5年以上
2011-06-23 271.0 3.48 牡丹园东里 3室1厅 77平 南 北/高楼层/6层 北太平庄 花园北路店 张志鹏 5年以上
2011-06-23 100.0 2.00 万博苑 4室2厅 50平 南 北/地下室/6层 右安门内 宣师一附小店 郭亮 5年以上
2011-06-23 95.5 2.35 永乐西区 1室1厅 40平 南/中楼层/6层 鲁谷 远洋山水东门店 张楠 4-5年
2011-06-24 157.0 2.48 华威北里 2室1厅 63平 南 西/高楼层/18层 崇文门 水上华城店 白青龙 5年以上
2011-06-25 178.0 3.29 富润家园 1室--厅 54平 南/低楼层/18层 学院路 逸成东苑店 李又林 5年以上
... ... ... ... ... ... ... ... ...
2016-11-09 1315.0 7.68 雍和家园一期 3室1厅 171平 南 北/高楼层/16层 和平里 小街桥店 刘广军 5年以上
2016-11-09 715.0 8.16 北三环中路43号院 3室1厅 87平 西南/中楼层/14层 北太平庄 冠城南园店 赵海龙 4-5年
2016-11-09 266.3 4.25 名佳花园一区 1室1厅 62平 南 北/高楼层/6层 北七家 名佳花园三区临时店 邵晓凡 <1年
2016-11-09 780.0 8.94 金泰城丽湾 2室1厅 87平 南 北/中楼层/18层 菜户营 金泰丽湾店 贺佳铠 <1年
2016-11-09 233.0 6.30 卡夫卡公社 1室1厅 36平 南/中楼层/13层 定福庄 定福家园店 刘佳宾 2-3年
2016-11-09 260.0 4.14 中山大街108号院 1室1厅 62平 南 北/中楼层/6层 果园 新华联广场店 王春扬 1-2年
2016-11-09 336.0 5.85 八里庄南里 2室1厅 57平 西北/高楼层/18层 十里堡 慈云寺店 李勇 <1年
2016-11-09 183.0 2.02 鹭峯国际 2室1厅 90平 北/中楼层/14层 顺义城 石园东苑店 刘惠敏 <1年
2016-11-09 70.0 4.34 华人一品阁 1室--厅 16平 南/低楼层/3层 朝阳门内 史家小学店 王亚楠 <1年
2016-11-09 450.0 8.72 花园路14号院 2室1厅 51平 南/中楼层/5层 马甸 花园公寓临时店 刘刁 4-5年
2016-11-09 580.0 7.71 逸成东苑 2室1厅 75平 西南/中楼层/22层 五道口 逸成东苑店 尚小龙 1-2年
2016-11-09 375.0 3.44 天通苑北二区 2室2厅 109平 南 北/中楼层/18层 天通苑 天通北苑二区店 宋官军 <1年
2016-11-09 210.0 4.38 中海城紫鑫阁 1室1厅 48平 北/高楼层/20层 成寿寺 中海城紫鑫阁店 徐芳 <1年
2016-11-10 339.0 4.37 广安﹒康馨家园 2室1厅 77平 南 北/低楼层/32层 卢沟桥 康馨家园店 石永磊 <1年
2016-11-10 375.0 6.92 泰悦豪庭 1室--厅 54平 南/低楼层/22层 三里屯 富力爱丁堡店 梁晓霞 1-2年
2016-11-10 379.0 7.66 新纪家园 1室1厅 49平 北/中楼层/21层 太阳宫 国际村店 韩婷 1-2年
2016-11-10 396.0 5.71 六里桥7号院 2室1厅 69平 南 北/中楼层/5层 六里桥 风荷曲苑店 赵雅南 4-5年
2016-11-10 339.0 4.37 广安﹒康馨家园 2室1厅 77平 南 北/低楼层/32层 卢沟桥 康馨家园店 石永磊 <1年
2016-11-10 103.6 1.49 熙旺中心 1室1厅 69平 东/中楼层/25层 门头沟其它 梧桐苑店 彭志和 1-2年
2016-11-10 579.0 2.63 龙禧苑二区 5室2厅 220平 南 北/高楼层/7层 回龙观 龙禧店 王强 <1年
2016-11-10 289.0 4.96 马家堡路8号院 2室1厅 58平 东南/高楼层/6层 洋桥 西罗园旗舰店 王云霞 1-2年
2016-11-10 542.0 8.42 民族大学南路7号院 3室1厅 64平 南 北/低楼层/5层 白石桥 主语城店 罗静宇 1-2年
2016-11-10 760.0 4.98 里外里公寓 3室2厅 152平 南 北/低楼层/17层 望京 新城中心店 许世宠 5年以上
2016-11-10 290.0 3.79 仓上小区 3室1厅 76平 东南/低楼层/6层 顺义城 石园东苑店 方辛川 4-5年
2016-11-10 259.0 3.48 新海北里 2室1厅 74平 南 北/中楼层/6层 马驹桥 珠江逸景店 姜尧 1-2年
2016-11-11 428.0 8.21 西豪逸景 1室1厅 52平 东/中楼层/28层 广安门 西豪小区店 李静 1-2年
2016-11-11 240.0 2.78 天洋城 2室1厅 86平 南/低楼层/26层 燕郊城区 天洋城二店 郝惠 <1年
2016-11-11 469.0 5.07 新里.西斯莱公馆 3室1厅 92平 南 北/中楼层/18层 黄村中 兴创屹墅店 王玮 1-2年
2016-11-11 489.0 3.48 金科王府 3室1厅 140平 南 北/中楼层/9层 北七家 北京洋房店 孙伟冬 <1年
2016-11-11 387.3 4.32 玲珑天地 2室1厅 89平 东北/中楼层/12层 定慧寺 定慧福里店 赵倩 <1年

160894 rows × 8 columns

data3 = data['2015-01-01' : '2015-09-30']
data4 = data['2015-10-01' : '2015-12-31']
data4
cjzongjia cjdanjia cjxiaoqu cjlouceng bankuai mendian xingming congyenianxian
cjshijian
2015-10-01 466.0 3.33 柏林爱乐二期 3室2厅 140平 南 北/高楼层/8层 管庄 管庄店 江凯 3-4年
2015-10-01 335.0 3.54 北苑家园茉藜园 2室1厅 94平 南 北/高楼层/18层 北苑 茉藜园店 王爱民 5年以上
2015-10-01 380.0 2.61 立城苑 3室2厅 145平 南 北/中楼层/6层 北苑 奥北中心南区店 丁飞 2-3年
2015-10-01 211.0 1.98 石园北区 3室2厅 106平 南 北/中楼层/6层 顺义城 马坡新城店 景盼盼 1-2年
2015-10-01 191.0 2.74 芍药居北里 2室1厅 69平 南 北/地下室/7层 芍药居 芍药居北里北门店 王凯 3-4年
2015-10-01 135.0 1.36 珠江逸景 2室1厅 99平 东 北/高楼层/14层 马驹桥 融科店 孙丽莎 4-5年
2015-10-01 0.0 0.00 长阳半岛1号院 --室--厅 88平 暂无数据/低楼层/1层 长阳 长阳半岛店 来宝根 5年以上
2015-10-01 280.0 5.53 魏公村小区 2室1厅 50平 南/中楼层/5层 魏公村 北理工店 魏斌 5年以上
2015-10-01 240.0 2.75 银地家园 3室1厅 87平 南 西 北/中楼层/7层 花乡 风格店 李盼盼 2-3年
2015-10-01 0.0 0.00 北京北 --室--厅 56平 暂无数据/高楼层/20层 立水桥 新明天第一城店 王杰 5年以上
2015-10-01 1500.0 7.28 富力城D区 4室2厅 205平 南 北 西/低楼层/22层 双井 富力城旗舰店 吴翠芝 5年以上
2015-10-01 266.0 2.80 甘露园南里 2室1厅 94平 南 北/低楼层/20层 六铺炕 阳光丽景北园店 王国建 5年以上
2015-10-01 230.0 3.18 大屯里小区 --室--厅 72平 暂无数据/高楼层/28层 亚运村 新青年汇店 李玉新 5年以上
2015-10-01 420.0 5.28 学院南路66号院 3室1厅 79平 南 西/低楼层/14层 魏公村 人济山庄一店 王震 5年以上
2015-10-01 157.0 1.75 城子西街1号院 2室1厅 89平 南 北/高楼层/5层 门头沟其它 月季园店 高金玲 4-5年
2015-10-01 390.0 6.08 万泉河62号院 --室--厅 64平 暂无数据/低楼层/6层 苏州桥 苏州街地铁店 王诗嘉 5年以上
2015-10-01 168.0 2.16 乔庄北区 2室1厅 77平 南 北/高楼层/6层 梨园 梨园店 田丽 5年以上
2015-10-01 559.0 5.55 万泉河62号院 3室1厅 100平 东 北/低楼层/16层 苏州桥 苏州街地铁店 王诗嘉 5年以上
2015-10-01 528.0 5.32 新兴年代 2室1厅 99平 南/高楼层/18层 五棵松 五一小学学区临时店 王凯 5年以上
2015-10-01 151.0 1.96 和平家园小区 --室--厅 76平 暂无数据/高楼层/12层 东关 京科苑临时一店 曾建民 1-2年
2015-10-01 168.0 2.87 龙华园 1室1厅 58平 南 北/高楼层/6层 霍营 佰嘉城店 胡艳荣 5年以上
2015-10-01 0.0 0.00 长阳半岛1号院 --室--厅 88平 暂无数据/高楼层/21层 长阳 长阳半岛店 来宝根 5年以上
2015-10-01 230.0 2.83 龙华园 2室1厅 81平 东 南 西/中楼层/6层 霍营 佰嘉城店 胡艳荣 5年以上
2015-10-01 473.8 5.96 水上华城 1室1厅 79平 西/低楼层/23层 广渠门 水上华城店 黄柳 5年以上
2015-10-01 335.0 3.54 北苑家园茉藜园 2室1厅 94平 南 北/高楼层/18层 北苑 茉藜园店 王爱民 5年以上
2015-10-01 240.0 2.53 大城小镇 2室1厅 94平 西 南/低楼层/11层 旧宫 巧克力城一店 张凯 4-5年
2015-10-01 330.0 6.75 金尚嘉园 1室1厅 48平 东/中楼层/14层 燕郊城区 星河皓月一店 杜红梅 5年以上
2015-10-01 430.0 5.66 花园路3号院 3室1厅 76平 南 北/低楼层/6层 燕郊城区 星河皓月一店 杜红梅 5年以上
2015-10-01 305.0 3.49 金地仰山 3室1厅 87平 南 北/中楼层/18层 黄村北 翡翠城店 杨建坤 2-3年
2015-10-01 486.0 5.24 和平里五区 3室1厅 92平 南 北/高楼层/6层 和平里 和平里六区一店 王银川 5年以上
... ... ... ... ... ... ... ... ...
2015-12-31 320.0 2.69 站前巴黎 3室2厅 119平 南 北/高楼层/6层 梨园 新时尚街区店 黄灿 5年以上
2015-12-31 525.0 4.10 怡海花园恒丰园 2室2厅 128平 南/高楼层/22层 花乡 怡海旗舰店 田大江 5年以上
2015-12-31 480.0 2.80 富力又一城B区 3室2厅 171平 南 北/高楼层/20层 豆各庄 新富力又一城三店 马维 5年以上
2015-12-31 465.0 5.17 嘉铭园 3室1厅 89平 西南/高楼层/6层 芍药居 芍药居社区店 李祥胜 1-2年
2015-12-31 330.0 5.32 东直门北大街 2室1厅 61平 东 西/高楼层/12层 国展 柳芳店 杜倩 5年以上
2015-12-31 420.0 7.22 东南小区 2室1厅 58平 南 北/高楼层/12层 双榆树 中关村中学店 朱涛 5年以上
2015-12-31 379.0 7.42 铁路巷 2室1厅 51平 南 北/低楼层/5层 西直门 西直门华堂店 王鹏 5年以上
2015-12-31 159.0 2.52 天通苑东三区 1室1厅 63平 南 北/中楼层/6层 回龙观 龙博苑店 冀勇亮 3-4年
2015-12-31 358.0 3.76 北京新天地 2室1厅 95平 东南/高楼层/27层 管庄 北京新天地店 吴志男 5年以上
2015-12-31 339.0 4.33 晨光家园 2室1厅 78平 西南/低楼层/30层 十里堡 晨光家园店 车玉阳 3-4年
2015-12-31 176.5 2.47 晓月苑二里 2室1厅 71平 南 北/中楼层/6层 卢沟桥 沸城临时一店 陈婷 2-3年
2015-12-31 532.0 7.43 安德馨居 2室1厅 71平 东 西/低楼层/6层 六铺炕 鼓楼店 尚靖 5年以上
2015-12-31 186.0 3.22 西大望路 2室1厅 57平 南 北/高楼层/7层 红庙 红庙店 李涛 1-2年
2015-12-31 290.0 2.12 龙湖香醍漫步四区南区 3室2厅 136平 南 北/中楼层/8层 顺义城 裕龙一店 温萍萍 5年以上
2015-12-31 145.0 1.50 潮白星光公馆 2室2厅 96平 东南/中楼层/24层 燕郊城区 星河皓月一店 雷宇 4-5年
2015-12-31 317.0 3.76 幸福时光 2室1厅 84平 南 北/高楼层/6层 回龙观 云趣园小区店 孔相瑞 5年以上
2015-12-31 150.0 1.33 朝阳园 1室1厅 112平 西/中楼层/29层 和平里 和平里六区一店 刘如意 2-3年
2015-12-31 124.0 2.23 上潞园 1室2厅 55平 东 南/高楼层/6层 潞苑 珠江国际店 祝建军 1-2年
2015-12-31 720.0 5.82 珠江帝景 2室2厅 123平 西南/中楼层/26层 大望路 珠江帝景三店 黄友超 5年以上
2015-12-31 132.0 1.66 樱花园一区 2室1厅 79平 东南/高楼层/6层 首都机场 馨港商业街店 马占一 1-2年
2015-12-31 318.0 4.02 华威西里 2室1厅 79平 南/中楼层/22层 劲松 劲松西口店 徐天 2-3年
2015-12-31 270.0 3.54 前泥洼小区 2室1厅 76平 南 北/中楼层/6层 西红门 兴海家园店 王安东 5年以上
2015-12-31 251.0 4.32 永泰东里 2室1厅 58平 东 西/高楼层/6层 清河 清河店 徐松华 5年以上
2015-12-31 151.0 2.86 花园闸小区 2室1厅 52平 北/低楼层/18层 定福庄 新定福庄店 李占伟 5年以上
2015-12-31 498.0 6.55 东直门内北小街16号 2室1厅 76平 东 西/高楼层/10层 东直门 安德馨居店 海奎 5年以上
2015-12-31 169.0 4.04 中海御鑫阁 1室--厅 41平 南/高楼层/20层 科技园区 中海国际店 白霞 1-2年
2015-12-31 465.0 5.17 嘉铭园 3室1厅 89平 西南/高楼层/6层 芍药居 芍药居社区店 李祥胜 1-2年
2015-12-31 365.0 6.41 东厂胡同 2室1厅 56平 南 北/高楼层/6层 朝阳门内 灯市口一店 陈倩如 3-4年
2015-12-31 537.0 6.18 半壁街南路1号院 3室1厅 86平 南 西 北/中楼层/24层 紫竹桥 理工附中店 薛帅国 1-2年
2015-12-31 154.0 2.62 模式口东里 2室1厅 58平 东 南/低楼层/16层 苹果园 金顶北街店 张博学 5年以上

15019 rows × 8 columns

data3 = data3.assign(xiaoqu = data3.cjxiaoqu.map(lambda x : x.split()[0]))
a116 = data3.xiaoqu.value_counts()[data3.xiaoqu.value_counts() > 5].index
data3 = data3[data3.xiaoqu.isin(a116)]
data3_m = data3.groupby('xiaoqu').cjdanjia.mean()
data4 = data4.assign(xiaoqu = data4.cjxiaoqu.map(lambda x : x.split()[0]))
data4 = data4[data4.xiaoqu.isin(a116)]
data4_m = data4.groupby('xiaoqu').cjdanjia.mean()
xq_up = (data4_m - data3_m)/data3_m
(xq_up > 0.1).sum()
598
xq_up = xq_up.dropna()
type(xq_up)
pandas.core.series.Series
xq_up = xq_up.to_frame()
xq_up
cjdanjia
xiaoqu
10AM新坐标 0.029167
11站 0.176294
7克拉 -0.084072
@北京 0.150740
BOBO自由城 0.190198
CBD传奇 0.047947
CBD总部公寓一期 0.034339
DBC加州小镇 0.147267
DBC加州小镇C区 0.340723
K2清水湾 0.210142
SOCO公社 0.025779
SOHO现代城 0.025157
UHN国际村 0.018182
gogo新世代 -0.019223
iMOMA -0.106553
一品亦庄 -0.071705
七星园 -0.118217
七贤村 0.084302
万博苑 -0.070674
万国城MOMA -0.031224
万寿园 0.097382
万寿路1号院 0.152135
万寿路甲15号院五区 0.123483
万寿路甲15号院四区 0.127674
万寿路西街11号院 0.174028
万年花城三期 0.063505
万年花城二期 0.144477
万年花城五期 0.071732
万年花城四期 -0.080442
万恒家园 0.085331
... ...
龙湖时代天街 0.076194
龙湖花盛香醍 0.225815
龙湖蔚澜香醍 0.170194
龙湖香醍漫步一区 -0.044834
龙湖香醍漫步二区 0.175217
龙湖香醍漫步四区北区 0.157096
龙湖香醍漫步四区南区 0.008978
龙禧苑一区 -0.063383
龙翔路小区 0.078258
龙腾苑三区 -0.000943
龙腾苑二区 0.014377
龙腾苑五区 0.184534
龙腾苑六区 -0.004383
龙腾苑四区 -0.030092
龙跃苑一区 -0.033465
龙跃苑三区 0.153478
龙跃苑东二区 -0.075813
龙跃苑东五区 0.178068
龙跃苑东四区 0.034004
龙跃苑二区 0.004402
龙跃苑四区 0.026828
龙锦苑东一区 0.010374
龙锦苑东三区 -0.010902
龙锦苑东二区 0.027718
龙锦苑东五区 0.072558
龙锦苑东四区 -0.068640
龙锦苑二区 0.105667
龙锦苑六区 0.083662
龙锦苑四区 -0.088337
龙鼎园 0.212195

1606 rows × 1 columns

xq_up = xq_up.assign(zhangfu = (xq_up.cjdanjia > 0.1).astype('int'))
data3.columns
Index(['cjzongjia', 'cjdanjia', 'cjxiaoqu', 'cjlouceng', 'bankuai', 'mendian',
       'xingming', 'congyenianxian', 'xiaoqu'],
      dtype='object')
data_taoshu = data3.groupby('xiaoqu').count()['cjxiaoqu'].to_frame().rename(columns={'cjxiaoqu':'taoshu'})
data_taoshu
taoshu
xiaoqu
10AM新坐标 19
11站 11
7克拉 13
@北京 6
BOBO自由城 28
CBD传奇 17
CBD总部公寓一期 11
DBC加州小镇 36
DBC加州小镇C区 28
K2清水湾 27
SOCO公社 10
SOHO现代城 7
UHN国际村 8
gogo新世代 23
iMOMA 7
一品亦庄 6
七星园 26
七贤村 8
万博苑 8
万国城MOMA 6
万寿园 10
万寿寺北里 7
万寿路1号院 12
万寿路甲15号院五区 10
万寿路甲15号院四区 8
万寿路西街11号院 9
万年花城三期 15
万年花城二期 15
万年花城五期 8
万年花城四期 27
... ...
龙湖时代天街 12
龙湖花盛香醍 14
龙湖蔚澜香醍 16
龙湖香醍漫步一区 7
龙湖香醍漫步二区 6
龙湖香醍漫步四区北区 11
龙湖香醍漫步四区南区 8
龙禧苑一区 11
龙翔路小区 24
龙腾苑三区 16
龙腾苑二区 9
龙腾苑五区 10
龙腾苑六区 16
龙腾苑四区 23
龙跃苑一区 21
龙跃苑三区 16
龙跃苑东二区 10
龙跃苑东五区 16
龙跃苑东四区 15
龙跃苑二区 14
龙跃苑四区 16
龙锦苑东一区 33
龙锦苑东三区 15
龙锦苑东二区 12
龙锦苑东五区 32
龙锦苑东四区 17
龙锦苑二区 9
龙锦苑六区 15
龙锦苑四区 11
龙鼎园 21

1728 rows × 1 columns

data = pd.merge(xq_up, data_taoshu, left_index=True, right_index=True, how='left')
data.head(3)
cjdanjia zhangfu taoshu
xiaoqu
10AM新坐标 0.029167 0 19
11站 0.176294 1 11
7克拉 -0.084072 0 13
del data['cjdanjia']
data_danjia = data3.groupby('xiaoqu').cjdanjia.mean().to_frame()
data = pd.merge(data, data_danjia, left_index=True, right_index=True, how='left')
data_zongjia = data3.groupby('xiaoqu').cjzongjia.mean().to_frame()
data = pd.merge(data, data_zongjia, left_index=True, right_index=True, how='left')
index = np.random.permutation(len(data))
data_train = data.iloc[index[: int(0.7 * len(data))]]
data_test = data.iloc[index[int(0.7 * len(data))]:]
x_train, y_train = data[['taoshu', 'cjdanjia', 'cjzongjia']], data.zhangfu
x_train.head(3)
taoshu cjdanjia cjzongjia
xiaoqu
10AM新坐标 19 3.431579 178.410526
11站 11 2.352727 173.736364
7克拉 13 3.601538 130.538462
x_test, y_test = data[['taoshu', 'cjdanjia', 'cjzongjia']], data.zhangfu
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(x_train, y_train)
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)
model.score(x_test,y_test)
0.6282689912826899
data_jjr_num = data3.groupby('xiaoqu').xingming.unique().map(len).to_frame()
data = pd.merge(data, data_jjr_num, left_index=True, right_index=True, how='left')
data.head(3)
zhangfu taoshu cjdanjia cjzongjia xingming
xiaoqu
10AM新坐标 0 19 3.431579 178.410526 10
11站 1 11 2.352727 173.736364 10
7克拉 0 13 3.601538 130.538462 8