首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
padluo
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
赞
37
文章 37
沸点 0
赞
37
返回
|
搜索文章
文章
热门
最新
Hadoop实战(9)_Hive进阶及UDF开发
当cm界面里执行部署客户端配置时,如上两个conf目录都会覆盖。 基于HiveServer2服务。 SecureRT,sz设置下载目录,Options-Xmodem/Zmodem-Download。 HiveServer2端口,10000。 Default Settings-E…
Hadoop实战(8)_CDH添加Hive服务及Hive基础
Hive有2个服务端守护进程:Hiveserver2:支撑JDBC访问,Thrift服务。MetaStore Server:支撑访问元数据库的服务。 Complier:编译器,编译hql语法。 Optimizer:优化hql代码,产生最优执行计划。通过explain selec…
Hadoop实战(4)_Hadoop的集群管理和资源分配
如果有多个挂载点,可以有多个DataNode数据目录。 目前服务器硬件,标准小型机配置:32核、64G(128G)、64T(4T*16盘SAS盘)。通常为了提升磁盘吞吐量,每个盘单独挂载。/data1、/data2、……、/data16。优点是大大提升磁盘的吞吐量(IO性能),…
Hadoop实战(5)_Hadoop的运维经验
CM manager的日志,/var/log/cloudera-manager-installer、/var/log/cloudera-scm-agent、/var/log/cloudera-scm-server。 各个服务的安装根目录,/opt/cloudera/parcel…
Hadoop实战(7)_Apache Hadoop安装和配置Hue
微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。
Hadoop实战(6)_搭建Apache Hadoop的Eclipse开发环境
1、hadoop-eclipse-plugin-2.4.1.jar插件放到Eclipse的plugins目录下。 2、Window-Preferences-Hadoop Map/Reduce选项,指定Hadoop的Home目录(Windows上模拟的Hadoop安装目录,与集群…
Hadoop实战(10)_Sqoop import与抽取框架封装
Sqoop import是相对于HDFS来讲,即从关系数据库import到HDFS上。 mysql的驱动包放到sqoop/lib下。 执行opt文件,不能传参,sqoop --options-file aa.opt。-m,指定map数,如果抽取的表数据量大,则调大map数。如果…
Python爬虫实战之爬取链家广州房价_01简单的单页爬虫
爬取链家广州所有小区信息、在售楼盘及所有历史成交记录,对于超过100个页面的信息,采用曲线爬取的方式,先爬每个小区,然后爬每个小区的在售楼盘及成交记录,后期将进行相应更新,进一步研究Cookie的使用、Proxy(代理)的设置、模拟登录、验证码识别等问题。环境基于Python …
Python爬虫实战之爬取链家广州房价_02把小爬虫变大
上一小节简单介绍了单个页面的爬取,涉及到请求和解析两个模块,其中请求使用urllib,解析使用BeautifulSoup,爬取了链家的单个页面,处理了我们想要的页面元素,输出到控制台。我们通过浏览器上网打开页面,来源有两种,一种是已知的地址,如Google,另一种是通过前面爬下…
Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)
开始链家爬虫的时候,了解到需要实现模拟登录,不登录不能爬取三个月之内的数据,目前暂未验证这个说法是否正确,这一小节记录一下利用浏览器(IE11)的开发者工具去分析模拟登录网站(链家)的内部逻辑过程,花了一个周末的时间,部分问题暂未解决。 利用浏览器(IE11)的开发者工具,启用…
下一页
个人成就
文章被阅读
7,596
掘力值
78
关注了
0
关注者
1
收藏集
0
关注标签
11
加入于
2016-09-18