首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
杨小邪
掘友等级
Python Developer
for (;;) practice();
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
爬虫编码问题的一些思考
写爬虫,尤其时抓取中文页面,总是不可避免的要和不同的编码打交道。 最常用的UTF-8,GBK,如果抓取时返回的是二进制数据,解码的encoding设置不对很可能引起乱码。 r.text会自动猜测文件编码,返回str格式的内容,但好像经常猜不准,所以还是乱码,很蛋疼。 所以事先如…
小bug记
jieba分词,很好的中文分词库。前一段时间我用它来检测网页的敏感词。 遇到几个问题,记一下。 我的敏感词库里面,‘妈比’是个敏感词。将敏感词库(TXT)导入结巴的辞典,分词结果为辣妈,妈比,比美,很尴尬 我先用scrapy将网页内容抓取下来存入HBASE,然后从HBASE中取…
Python引用自定义模块报错——设置PYTHONPATH
e.g. e.g.
HBase: HMaster服务自动停止,且关闭集群时HRegionserver无法关闭的问题解决
先说废话,这是半个多月之前遇到的问题了,趁历史记录还找得到赶快记一下背景:三台阿里云Ubuntu服务器,Hadoop(2.6.5)完全分布式搭建,Zookeeper(3.4.10),HBase(1.2
HBase: Thrift写数据报错——socket.error: [Errno 32] Broken pipe hbase
昨天用HBase存数据的时候出了点小问题,程序放在服务器上,运行几分钟之后就开始报错:而这个问题在我自己的电脑上测试时从未遇到过,查了些资料,先放解决办法:在conf/hbase-site.xml中添
个人成就
文章被点赞
1
文章被阅读
5,224
掘力值
84
关注了
1
关注者
0
收藏集
0
关注标签
10
加入于
2017-11-24