首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
padluo
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
37
文章 37
沸点 0
赞
37
返回
|
搜索文章
最新
热门
Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)
开始链家爬虫的时候,了解到需要实现模拟登录,不登录不能爬取三个月之内的数据,目前暂未验证这个说法是否正确,这一小节记录一下利用浏览器(IE11)的开发者工具去分析模拟登录网站(链家)的内部逻辑过程,花了一个周末的时间,部分问题暂未解决。 利用浏览器(IE11)的开发者工具,启用…
搜狗词库爬虫(2):基础爬虫框架的运行流程
getCategory.py,提取词库分类ID和名字,以字典形式返回。 SpiderMan.py,爬虫调度器。 UrlManager.py,URL管理器。 HtmlDownloader.py,网页下载器。 HtmlParser.py,网页解析器。 DataOutput.py,数…
搜狗词库爬虫(1):基础爬虫架构和爬取词库分类
基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。 爬虫调度器:启动、执行、停止爬虫,统筹其他模块的协调工作。 URL管理器:管理已爬取的URL和未爬取的URL这两个数据,提供获取新URL链接的接口。 网页下载器:将URL管理器提供的一…
Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据
本案例以Data Tech 2017浙江大数据建模与创新应用大赛的模型挑战赛选题三: 通信信用风险评估为例说明。此次比赛还在进行中,开放了浙江移动及相关企业脱敏后的数据,大家都可以拿来练练手。 本选题用到的数据包括公共数据集、用户通话数据、违约行为数据。 训练集数据:用户通话数…
Python数据挖掘与机器学习_通信信用风险评估实战(2)——数据预处理
通过对读取数据的实践,下面是数据集文件对应读取后的DataFrame说明。 其中train_comm有201703-201706共4个月的用户通话数据,以"长格式(long)"或"堆叠格式(stacked)"存储,UserI_Id直接关联其他DataFrame会出现一对多的情况…
Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程
有这么一句话在业界广为流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 数据使用经数据预处理,合并后的宽表train_user_comm_basic。 根据单特征的分析,进行特征处理。 缺失值处理,依据对通信的业务和数据理解,填充缺失值。AGE列缺失数据…
Python数据挖掘与机器学习_通信信用风险评估实战(4)——模型训练与调优
把训练数据拆分为训练集和交叉验证集,比例为7:3。x_train和y_train用来训练模型,x_test和y_test用来交叉验证。 首先随机森林采用默认参数,用袋外分数评估模型好坏.在bagging的每轮随机采样中,训练集中大约有36.8%的数据没有被采样集采集中。对于这部…
Hadoop实战(3)_虚拟机搭建CDH的全分布模式
客户机操作系统:rhel-server-6.5-x86_64。 网络连接:NAT模式。Connecet automaticcally:打勾。不会随宿主机网段变化发生IP变化。 禁用透明大页面,首先查看透明大页面是否启用,[always] never表示已启用,always [n…
Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式
客户机操作系统:CentOS-6.5-x86_64。 网络连接:host-only。Connecet automaticcally:打勾。 /mnt/dvd1和/mnt/dvd2,用于挂载Centos6.5原有的两个镜像ISO文件。 /mnt/dvd,合并后的镜像文件存放目录。…
Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境
bug解决:64bit的操作系统,无法运行32bit的应用程序,需要安装32bit的glibc库。 修改hostname,/etc/hosts下的地址必须使用私有地址。 微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
下一页
个人成就
文章被阅读
11,570
掘力值
112
关注了
0
关注者
1
收藏集
0
关注标签
11
加入于
2016-09-18