一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第9天,点击查看活动详情。
请求网页
直接下载网页资源(文本,音频,视频,图片)
通过将返回内容,直接写入文件
!pip3 install requests
Collecting requests
Downloading requests-2.25.1-py2.py3-none-any.whl (61 kB)
[K |████████████████████████████████| 61 kB 169 kB/s
[?25hCollecting idna<3,>=2.5
Downloading idna-2.10-py2.py3-none-any.whl (58 kB)
[K |████████████████████████████████| 58 kB 759 kB/s
[?25hRequirement already satisfied: chardet<5,>=3.0.2 in /usr/local/lib/python3.9/site-packages (from requests) (4.0.0)
Collecting urllib3<1.27,>=1.21.1
Downloading urllib3-1.26.5-py2.py3-none-any.whl (138 kB)
[K |████████████████████████████████| 138 kB 585 kB/s
[?25hCollecting certifi>=2017.4.17
Downloading certifi-2021.5.30-py2.py3-none-any.whl (145 kB)
[K |████████████████████████████████| 145 kB 1.4 MB/s
[?25hInstalling collected packages: urllib3, idna, certifi, requests
Successfully installed certifi-2021.5.30 idna-2.10 requests-2.25.1 urllib3-1.26.5
import requests
# 百度首页
re = requests.get('https://www.baidu.com')
re.status_code
200
re.text # 响应内容的字符串形式,获取文字
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>ç\x99¾åº¦ä¸\x80ä¸\x8bï¼\x8cä½\xa0å°±ç\x9f¥é\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=ç\x99¾åº¦ä¸\x80ä¸\x8b class="bg s_btn" autofocus></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>æ\x96°é\x97»</a> <a href=https://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>å\x9c°å\x9b¾</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>è§\x86é¢\x91</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>è´´å\x90§</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>ç\x99»å½\x95</a> </noscript> <script>document.write(\'<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=\'+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ \'" name="tj_login" class="lb">ç\x99»å½\x95</a>\');\r\n </script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ\x9b´å¤\x9a产å\x93\x81</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>å\x85³äº\x8eç\x99¾åº¦</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>©2017 Baidu <a href=http://www.baidu.com/duty/>使ç\x94¨ç\x99¾åº¦å\x89\x8då¿\x85读</a> <a href=http://jianyi.baidu.com/ class=cp-feedback>æ\x84\x8fè§\x81å\x8f\x8dé¦\x88</a> 京ICPè¯\x81030173å\x8f· <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
re.content # 响应内容的二进制形式,获取图片,视频,音频等
b'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b class="bg s_btn" autofocus></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>\xe6\x96\xb0\xe9\x97\xbb</a> <a href=https://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>\xe5\x9c\xb0\xe5\x9b\xbe</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>\xe8\xa7\x86\xe9\xa2\x91</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>\xe8\xb4\xb4\xe5\x90\xa7</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>\xe7\x99\xbb\xe5\xbd\x95</a> </noscript> <script>document.write(\'<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=\'+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ \'" name="tj_login" class="lb">\xe7\x99\xbb\xe5\xbd\x95</a>\');\r\n </script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">\xe6\x9b\xb4\xe5\xa4\x9a\xe4\xba\xa7\xe5\x93\x81</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>\xe5\x85\xb3\xe4\xba\x8e\xe7\x99\xbe\xe5\xba\xa6</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>©2017 Baidu <a href=http://www.baidu.com/duty/>\xe4\xbd\xbf\xe7\x94\xa8\xe7\x99\xbe\xe5\xba\xa6\xe5\x89\x8d\xe5\xbf\x85\xe8\xaf\xbb</a> <a href=http://jianyi.baidu.com/ class=cp-feedback>\xe6\x84\x8f\xe8\xa7\x81\xe5\x8f\x8d\xe9\xa6\x88</a> \xe4\xba\xacICP\xe8\xaf\x81030173\xe5\x8f\xb7 <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
re.encoding # 响应内容的编码
'ISO-8859-1'
# 纯文本网页
re = requests.get('https://apiv3.shanbay.com/codetime/articles/mnvdu')
with open('孔乙己.txt', 'w') as file:
print(f'爬取中:{re.status_code}')
file.write(re.text)
爬取中:200
# 纯图片网页
re = requests.get('https://img-blog.csdnimg.cn/20210424184053989.PNG')
with open('datawhale.png', 'wb') as png:
png.write(re.content)
解析和提取网页(html)
从html标签中获取所需信息或资源
第三方库:BeautifulSoup
安装:pip3 install bs4
官方文档:www.crummy.com/software/Be…
!pip3 install bs4
Collecting bs4
Downloading bs4-0.0.1.tar.gz (1.1 kB)
Collecting beautifulsoup4
Downloading beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
[K |████████████████████████████████| 115 kB 195 kB/s
[?25hCollecting soupsieve>1.2
Downloading soupsieve-2.2.1-py3-none-any.whl (33 kB)
Building wheels for collected packages: bs4
Building wheel for bs4 (setup.py) ... [?25ldone
[?25h Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1273 sha256=063d2532d9704e7bb5279f7f010423af9d1dfc43ba9e256a526d64a0c9109aa1
Stored in directory: /Users/lichizou/Library/Caches/pip/wheels/73/2b/cb/099980278a0c9a3e57ff1a89875ec07bfa0b6fcbebb9a8cad3
Successfully built bs4
Installing collected packages: soupsieve, beautifulsoup4, bs4
Successfully installed beautifulsoup4-4.9.3 bs4-0.0.1 soupsieve-2.2.1
from bs4 import BeautifulSoup
import io
import sys
import requests
# f12找报文的用户代理
url = 'https://book.douban.com/top250'
# 伪装正常访问,防止被当爬虫拒绝服务
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
#如果出现了乱码报错,可以修改编码形式
#sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
re = requests.get(url, headers=headers)
# 将网页源代码的字符串解析成bs对象
soup = BeautifulSoup(re.text, 'lxml')
# soup
type(soup)
bs4.BeautifulSoup
# bs 定位
soup.find('a') # 找到第一个a标签
<a class="nav-login" href="https://accounts.douban.com/passport/login?source=book" rel="nofollow">登录/注册</a>
soup.find_all('a') # 找到所有a标签
[<a class="nav-login" href="https://accounts.douban.com/passport/login?source=book" rel="nofollow">登录/注册</a>,
<a class="lnk-doubanapp" href="https://www.douban.com/doubanapp/app?channel=top-nav">下载豆瓣客户端</a>,
<a class="tip-link" href="https://www.douban.com/doubanapp/app?channel=qipao">豆瓣 <span class="version">6.0</span> 全新发布</a>,
<a class="tip-close" href="javascript: void 0;">×</a>,
<a href="https://www.douban.com/doubanapp/redirect?channel=top-nav&direct_dl=1&download=iOS">iPhone</a>,
<a class="download-android" href="https://www.douban.com/doubanapp/redirect?channel=top-nav&direct_dl=1&download=Android">Android</a>,
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>,
<a data-moreurl-dict='{"from":"top-nav-click-book","uid":"0"}' href="https://book.douban.com">读书</a>,
<a data-moreurl-dict='{"from":"top-nav-click-movie","uid":"0"}' href="https://movie.douban.com" target="_blank">电影</a>,
<a data-moreurl-dict='{"from":"top-nav-click-music","uid":"0"}' href="https://music.douban.com" target="_blank">音乐</a>,
<a data-moreurl-dict='{"from":"top-nav-click-location","uid":"0"}' href="https://www.douban.com/location" target="_blank">同城</a>,
<a data-moreurl-dict='{"from":"top-nav-click-group","uid":"0"}' href="https://www.douban.com/group" target="_blank">小组</a>,
<a data-moreurl-dict='{"from":"top-nav-click-read","uid":"0"}' href="https://read.douban.com/?dcs=top-nav&dcm=douban" target="_blank">阅读</a>,
<a data-moreurl-dict='{"from":"top-nav-click-fm","uid":"0"}' href="https://douban.fm/?from_=shire_top_nav" target="_blank">FM</a>,
<a data-moreurl-dict='{"from":"top-nav-click-time","uid":"0"}' href="https://time.douban.com/?dt_time_source=douban-web_top_nav" target="_blank">时间</a>,
<a data-moreurl-dict='{"from":"top-nav-click-market","uid":"0"}' href="https://market.douban.com/?utm_campaign=douban_top_nav&utm_source=douban&utm_medium=pc_web" target="_blank">豆品</a>,
<a href="https://book.douban.com">豆瓣读书</a>,
<a href="https://book.douban.com/cart/">购书单</a>,
<a href="https://read.douban.com/ebooks/?dcs=book-nav&dcm=douban" target="_blank">电子图书</a>,
<a href="https://market.douban.com/book?utm_campaign=book_nav_freyr&utm_source=douban&utm_medium=pc_web">豆瓣书店</a>,
<a href="https://book.douban.com/annual/2020?source=navigation" target="_blank">2020年度榜单</a>,
<a href="https://www.douban.com/standbyme/2020?fullscreen=true&hidenav=true&autorotate=false&source=book_navigation" target="_blank">2020书影音报告</a>,
<a href="https://market.douban.com/cart/?biz_type=book&utm_campaign=book_nav_cart&utm_source=douban&utm_medium=pc_web" target="_blank">购物车</a>,
<a class="bookannual" href="https://book.douban.com/annual/2020?source=book_navigation"></a>,
<a class="nbg" href="https://book.douban.com/subject/1007305/" onclick="moreurl(this,{i:'0'})">
<img src="https://img1.doubanio.com/view/subject/s/public/s1070959.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1007305/" onclick=""moreurl(this,{i:'0'})"" title="红楼梦">
红楼梦
</a>,
<a class="nbg" href="https://book.douban.com/subject/4913064/" onclick="moreurl(this,{i:'1'})">
<img src="https://img3.doubanio.com/view/subject/s/public/s29053580.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/4913064/" onclick=""moreurl(this,{i:'1'})"" title="活着">
活着
</a>,
<a class="nbg" href="https://book.douban.com/subject/6082808/" onclick="moreurl(this,{i:'2'})">
<img src="https://img3.doubanio.com/view/subject/s/public/s27237850.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/6082808/" onclick=""moreurl(this,{i:'2'})"" title="百年孤独">
百年孤独
</a>,
<a class="nbg" href="https://book.douban.com/subject/4820710/" onclick="moreurl(this,{i:'3'})">
<img src="https://img1.doubanio.com/view/subject/s/public/s4371408.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/4820710/" onclick=""moreurl(this,{i:'3'})"" title="1984">
1984
</a>,
<a class="nbg" href="https://book.douban.com/subject/1068920/" onclick="moreurl(this,{i:'4'})">
<img src="https://img1.doubanio.com/view/subject/s/public/s1078958.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1068920/" onclick=""moreurl(this,{i:'4'})"" title="飘">
飘
</a>,
<a class="nbg" href="https://book.douban.com/subject/6518605/" onclick="moreurl(this,{i:'5'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s28357056.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/6518605/" onclick=""moreurl(this,{i:'5'})"" title="三体全集">
三体全集
<span style="font-size:12px;"> : 地球往事三部曲 </span>
</a>,
<a class="nbg" href="https://book.douban.com/subject/1019568/" onclick="moreurl(this,{i:'6'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s1076932.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1019568/" onclick=""moreurl(this,{i:'6'})"" title="三国演义(全二册)">
三国演义(全二册)
</a>,
<a class="nbg" href="https://book.douban.com/subject/27614904/" onclick="moreurl(this,{i:'7'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s29651121.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/27614904/" onclick=""moreurl(this,{i:'7'})"" title="房思琪的初恋乐园">
房思琪的初恋乐园
</a>,
<a class="nbg" href="https://book.douban.com/subject/10554308/" onclick="moreurl(this,{i:'8'})">
<img src="https://img1.doubanio.com/view/subject/s/public/s24514468.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/10554308/" onclick=""moreurl(this,{i:'8'})"" title="白夜行">
白夜行
</a>,
<a class="nbg" href="https://book.douban.com/subject/2035179/" onclick="moreurl(this,{i:'9'})">
<img src="https://img3.doubanio.com/view/subject/s/public/s2347590.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/2035179/" onclick=""moreurl(this,{i:'9'})"" title="动物农场">
动物农场
</a>,
<a class="nbg" href="https://book.douban.com/subject/1040211/" onclick="moreurl(this,{i:'10'})">
<img src="https://img3.doubanio.com/view/subject/s/public/s1229240.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1040211/" onclick=""moreurl(this,{i:'10'})"" title="福尔摩斯探案全集(上中下)">
福尔摩斯探案全集(上中下)
</a>,
<a class="nbg" href="https://book.douban.com/subject/1084336/" onclick="moreurl(this,{i:'11'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s1103152.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1084336/" onclick=""moreurl(this,{i:'11'})"" title="小王子">
小王子
</a>,
<a class="nbg" href="https://book.douban.com/subject/1255625/" onclick="moreurl(this,{i:'12'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s26018275.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1255625/" onclick=""moreurl(this,{i:'12'})"" title="天龙八部">
天龙八部
</a>,
<a class="nbg" href="https://book.douban.com/subject/1060068/" onclick="moreurl(this,{i:'13'})">
<img src="https://img3.doubanio.com/view/subject/s/public/s1066570.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1060068/" onclick=""moreurl(this,{i:'13'})"" title="撒哈拉的故事">
撒哈拉的故事
</a>,
<a class="nbg" href="https://book.douban.com/subject/1046209/" onclick="moreurl(this,{i:'14'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s1034062.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1046209/" onclick=""moreurl(this,{i:'14'})"" title="安徒生童话故事集">
安徒生童话故事集
</a>,
<a class="nbg" href="https://book.douban.com/subject/1200840/" onclick="moreurl(this,{i:'15'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s1144911.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1200840/" onclick=""moreurl(this,{i:'15'})"" title="平凡的世界(全三部)">
平凡的世界(全三部)
</a>,
<a class="nbg" href="https://book.douban.com/subject/4908885/" onclick="moreurl(this,{i:'16'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s4468484.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/4908885/" onclick=""moreurl(this,{i:'16'})"" title="局外人">
局外人
</a>,
<a class="nbg" href="https://book.douban.com/subject/1008145/" onclick="moreurl(this,{i:'17'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s1070222.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1008145/" onclick=""moreurl(this,{i:'17'})"" title="围城">
围城
</a>,
<a class="nbg" href="https://book.douban.com/subject/1054685/" onclick="moreurl(this,{i:'18'})">
<img src="https://img1.doubanio.com/view/subject/s/public/s1447349.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1054685/" onclick=""moreurl(this,{i:'18'})"" title="沉默的大多数">
沉默的大多数
<span style="font-size:12px;"> : 王小波杂文随笔全编 </span>
</a>,
<a class="nbg" href="https://book.douban.com/subject/3674537/" onclick="moreurl(this,{i:'19'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s3745215.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/3674537/" onclick=""moreurl(this,{i:'19'})"" title="明朝那些事儿(1-9)">
明朝那些事儿(1-9)
<span style="font-size:12px;"> : 限量版 </span>
</a>,
<a class="nbg" href="https://book.douban.com/subject/10594787/" onclick="moreurl(this,{i:'20'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s11284102.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/10594787/" onclick=""moreurl(this,{i:'20'})"" title="霍乱时期的爱情">
霍乱时期的爱情
</a>,
<a class="nbg" href="https://book.douban.com/subject/1336330/" onclick="moreurl(this,{i:'21'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s1358984.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/1336330/" onclick=""moreurl(this,{i:'21'})"" title="冰与火之歌(卷一)">
冰与火之歌(卷一)
<span style="font-size:12px;"> : 权力的游戏 </span>
</a>,
<a class="nbg" href="https://book.douban.com/subject/24531956/" onclick="moreurl(this,{i:'22'})">
<img src="https://img9.doubanio.com/view/subject/s/public/s29101586.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/24531956/" onclick=""moreurl(this,{i:'22'})"" title="哈利·波特">
哈利·波特
</a>,
<a class="nbg" href="https://book.douban.com/subject/6781808/" onclick="moreurl(this,{i:'23'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s23128183.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/6781808/" onclick=""moreurl(this,{i:'23'})"" title="杀死一只知更鸟">
杀死一只知更鸟
</a>,
<a class="nbg" href="https://book.douban.com/subject/25985021/" onclick="moreurl(this,{i:'24'})">
<img src="https://img2.doubanio.com/view/subject/s/public/s27814883.jpg" width="90"/>
</a>,
<a href="https://book.douban.com/subject/25985021/" onclick=""moreurl(this,{i:'24'})"" title="人类简史">
人类简史
<span style="font-size:12px;"> : 从动物到上帝 </span>
</a>,
<a href="https://book.douban.com/top250?start=25">2</a>,
<a href="https://book.douban.com/top250?start=50">3</a>,
<a href="https://book.douban.com/top250?start=75">4</a>,
<a href="https://book.douban.com/top250?start=100">5</a>,
<a href="https://book.douban.com/top250?start=125">6</a>,
<a href="https://book.douban.com/top250?start=150">7</a>,
<a href="https://book.douban.com/top250?start=175">8</a>,
<a href="https://book.douban.com/top250?start=200">9</a>,
<a href="https://book.douban.com/top250?start=225">10</a>,
<a href="https://book.douban.com/top250?start=25">后页></a>,
<a href="https://www.douban.com/hnypt/variformcyst.py" style="display: none;"></a>,
<a href="https://www.douban.com/about">关于豆瓣</a>,
<a href="https://www.douban.com/jobs">在豆瓣工作</a>,
<a href="https://www.douban.com/about?topic=contactus">联系我们</a>,
<a href="https://www.douban.com/about/legal">法律声明</a>,
<a href="https://help.douban.com/?app=book" target="_blank">帮助中心</a>,
<a href="https://book.douban.com/library_invitation">图书馆合作</a>,
<a href="https://www.douban.com/doubanapp/">移动应用</a>,
<a href="https://www.douban.com/partner/">豆瓣广告</a>]
soup.find('div', id='doubanapp-tip') # 找id为doubanapp-tip的div标签
<div id="doubanapp-tip">
<a class="tip-link" href="https://www.douban.com/doubanapp/app?channel=qipao">豆瓣 <span class="version">6.0</span> 全新发布</a>
<a class="tip-close" href="javascript: void 0;">×</a>
</div>
soup.find_all('span', class_='rating_nums') # 找所有class为rating_nums的span标签。注意是class_,有个下划线
[<span class="rating_nums">9.6</span>,
<span class="rating_nums">9.4</span>,
<span class="rating_nums">9.3</span>,
<span class="rating_nums">9.4</span>,
<span class="rating_nums">9.3</span>,
<span class="rating_nums">9.4</span>,
<span class="rating_nums">9.3</span>,
<span class="rating_nums">9.2</span>,
<span class="rating_nums">9.1</span>,
<span class="rating_nums">9.2</span>,
<span class="rating_nums">9.3</span>,
<span class="rating_nums">9.0</span>,
<span class="rating_nums">9.1</span>,
<span class="rating_nums">9.2</span>,
<span class="rating_nums">9.2</span>,
<span class="rating_nums">9.0</span>,
<span class="rating_nums">9.0</span>,
<span class="rating_nums">8.9</span>,
<span class="rating_nums">9.1</span>,
<span class="rating_nums">9.1</span>,
<span class="rating_nums">9.0</span>,
<span class="rating_nums">9.3</span>,
<span class="rating_nums">9.7</span>,
<span class="rating_nums">9.2</span>,
<span class="rating_nums">9.1</span>]
案例1:爬取自如公寓数据
分析:
自如公寓官网:wh.ziroom.com/z/z/
第一页地址:wh.ziroom.com/z/z/ , 也可以是:
第二页地址:wh.ziroom.com/z/p2/
第三页地址:wh.ziroom.com/z/p3/
获得第n页地址:wh.ziroom.com/z/p{n}/
f12查看元素,发现房子详情页地址:roomid,比如:808094513
以该页为例:wh.ziroom.com/x/740199516…
f12元素审查,获得各个元素的标签
import requests
from bs4 import BeautifulSoup
import random
import time
import csv
# 找一堆用户代理
user_agent = [
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",
"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)"]
for i in range(1, 5):
print(i)
1
2
3
4
for i in range(10):
print(0 + 31.24 * i)
0.0
31.24
62.48
93.72
124.96
156.2
187.44
218.67999999999998
249.92
281.15999999999997
# 观察得知,自如房间价格为一张带0-9图片,对图片进行定位。图片固定,因此10个数字的值固定,这里做一个映射
# 定位图为随机图,需要对图片进行切割,然后识别
# 图片里数字的位置会发生改变,但坐标不会改变。即图片上数字序列的顺序是可以知道的。将图片转化成字符串,根据顺序/索引即可获得正确的价格值。
# position依然要去搜集,找到10个值
# str_position: 如background-position:-124.96px,返回在图片里的序列索引
def get_ziru_room_price_index(str_position):
# price_map = {
# -0,-31.24,-62.48,-93.72,-124.96, 156.2, 187.44,218.68, 249.92,281.16 # 即取31.24的倍数
# 'background-position:-124.96px':'1',
# 'background-position:-93.72px':'2',
# 'background-position:-93.72px':'3',
# 'background-position:-187.44px':'4',
# 'background-position:-156.2px':'5',
# 'background-position:-62.48px':'6',
# 'background-position:-187.44px':'7',
# 'background-position:-249.92px':'8',
# 'background-position:-62.48px':'9',
# 'background-position:-281.16px':'0'
# }
return int(float(re.findall(r"\d+\.?\d*",str_position)[0]) / 31.24)
import re
int(float(re.findall(r"\d+\.?\d*",'background-position:-124.96px')[0]) / 31.24)
4
!pip3 install pytesseract
Requirement already satisfied: pytesseract in /usr/local/lib/python3.9/site-packages (0.3.7)
Requirement already satisfied: Pillow in /usr/local/lib/python3.9/site-packages (from pytesseract) (8.2.0)
# 先对文字进行剪切,然后文字识别
import pytesseract
from PIL import Image
img = Image.open('ziru2.png')
#help(img)
!pip3 install tesseract
Collecting tesseract
Downloading tesseract-0.1.3.tar.gz (45.6 MB)
[K |████████████████████████████████| 45.6 MB 614 kB/s
[?25hBuilding wheels for collected packages: tesseract
Building wheel for tesseract (setup.py) ... [?25ldone
[?25h Created wheel for tesseract: filename=tesseract-0.1.3-py3-none-any.whl size=45562569 sha256=0e1bbe23c7116beb9f1bae386e9f507f49fedb60a68807a5bd38e33dc67f6a27
Stored in directory: /Users/lichizou/Library/Caches/pip/wheels/6c/c5/81/8310cc52076953e53412ed1875a5e224c92940235bdcee21a2
Successfully built tesseract
Installing collected packages: tesseract
Successfully installed tesseract-0.1.3
!brew install tesseract #--all-languages # 必须这样安装,不然运行会提示找不到路径
[33mWarning:[0m tesseract 4.1.1 is already installed and up-to-date.
To reinstall 4.1.1, run:
brew reinstall tesseract
# 无法识别:1.下载本地中文包 2.自己添加数据训练
img = Image.open('ziru2.png')
text = pytesseract.image_to_string(img, lang='eng')
def get_ziru_house_detail(room_href):
time.sleep(1)
headers = {'User-Agent': random.choice(user_agent)}
response = requests.get(room_href, headers=headers)
response = response.content.decode('utf-8', 'ignore')
soup = BeautifulSoup(response, 'lxml')
house_name = soup.find('h1', class_='Z_name').text
house_area = soup.find('div', class_='Z_home_b clearfix').find_all('dd')
area = house_area[0].text # 使用面积:17.5㎡
orien = house_area[1].text # 朝向:朝南
house_type = house_area[2].text # 户型:5室1厅
addr_info = soup.find('ul', class_='Z_home_o').find_all('li')
location = addr_info[0].find('span', class_='va').text.replace('\n', '') # 位置
floor = addr_info[1].find('span', class_='va').text # 楼层
dianti = addr_info[2].find('span', class_='va').text # 电梯
build_year = addr_info[3].find('span', class_='va').text # 年代
mensuo = addr_info[4].find('span', class_='va').text # 门锁
lvhua = addr_info[5].find('span', class_='va').text # 绿化
price_list = soup.find('div', class_='Z_price').find_all('i')
#rint(get_ziru_room_price(price_list[0]['style'].split(';')[0]))
room_info = [house_name, area, orien, house_type, location, floor, dianti, build_year, mensuo, lvhua]
return room_info
get_ziru_house_detail('https://wh.ziroom.com/x/740199516.html')
['自如友家·融侨锦城·5居室-06卧', '17.5㎡', '朝南', '5室1厅', '小区距1号线古田三路站步行约353米 ', '10/11', '有', '2007年建成', '智能门锁', '36%']
# 爬 [page_star=1, page_end=50]页
def get_ziru_romm_info(save_path, page_star=1, page_end=50):
csv_header = ['名称', '面积', '朝向', '户型', '位置', '楼层', '是否有电梯', '建成时间', '门锁', '绿化']
with open(save_path, 'a+', newline='') as csv_file:
writer = csv.writer(csv_file)
writer.writerow(csv_header)
for page in range(page_star, page_end + 1): # 51
print(f'正在爬取第{page}页')
time_list = [1, 2, 3]
time.sleep(random.choice(time_list)) # 随机休息1-3s,不给对方服务器太大压力
url = f'https://wh.ziroom.com/z/p{page}/'
headers = {'User-Agent': random.choice(user_agent)}
r = requests.get(url, headers=headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'lxml')
all_info = soup.find_all('div', class_='info-box') # 'pic_box'也可以
#print(all_info)
for info in all_info:
href = info.find('a')
if href != None:
link = 'https:' + href['href']
try:
print(f'正在爬{link}')
house_info = get_ziru_house_detail(link)
print(f'{page}:{house_info}')
writer.writerow(house_info)
except:
print(f'err:{href}')
print(f'爬完啦:{url}')
get_ziru_romm_info('wuhan_ziru_1.csv', 1, 2) # 爬1,2页
正在爬取第1页
正在爬https://wh.ziroom.com/x/808008609.html
1:['自如友家·常阳永清城·4居室-01卧', '20㎡', '朝南', '4室1厅', '小区距1号线黄浦路站步行约128米 ', '28/32', '有', '2009年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807004676.html
1:['自如友家·丽岛紫园·5居室-06卧', '17.5㎡', '朝南', '5室1厅', '小区距8号线文治街站步行约38米 ', '4/16', '有', '2005年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808093134.html
1:['自如友家·兴华尚都国际·3居室-01卧', '约18.17㎡', '朝南', '3室1厅', '小区距3号线双墩站步行约542米 ', '31', '有', '2018年建成', '普通门锁', '30%']
正在爬https://wh.ziroom.com/x/807130753.html
1:['自如友家·顶琇国际城·4居室-05卧', '17.67㎡', '朝南', '4室1厅', '小区距6号线唐家墩站步行约430米 ', '32/47', '有', '2016年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/807192983.html
1:['自如友家·紫阳金利屋·4居室-01卧', '16.57㎡', '朝南', '4室1厅', '小区距8号线复兴路站步行约39米 ', '15/28', '有', '2006年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807953610.html
1:['自如友家·纽宾凯公园里·4居室-01卧', '13.8㎡', '朝南', '4室1厅', '小区距4号线十里铺站步行约86米 ', '44/47', '有', '2018年建成', '智能门锁', '18%']
正在爬https://wh.ziroom.com/x/807844823.html
1:['自如友家·凯乐桂园·5居室-06卧', '14.9㎡', '朝南', '5室1厅', '小区距2号线虎泉站步行约183米 ', '11/30', '有', '2019年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/791823013.html
1:['自如友家·城开玉桥新都·4居室-05卧', '18.6㎡', '朝南', '4室1厅', '小区距2号线积玉桥站步行约157米 ', '2/11', '有', '2006年建成', '智能门锁', '51%']
正在爬https://wh.ziroom.com/x/807919198.html
1:['自如友家·常青花园十一小区·4居室-05卧', '15.1㎡', '朝南', '4室1厅', '小区距2号线常青花园站步行约182米 ', '15/30', '有', '2008年建成', '智能门锁', '36%']
正在爬https://wh.ziroom.com/x/793749918.html
1:['自如友家·汇悦天地·4居室-01卧', '22.6㎡', '朝南', '4室1厅', '小区距8号线塔子湖站步行约295米 ', '4/9', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807827309.html
1:['自如友家·凯乐桂园·3居室-03卧', '15㎡', '朝北', '3室1厅', '小区距2号线虎泉站步行约183米 ', '17/30', '有', '2019年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/789408295.html
1:['自如友家·国创光谷上城·5居室-06卧', '20.6㎡', '朝南', '5室1厅', '小区距11号线湖口站步行约270米 ', '10/11', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/768041620.html
1:['自如友家·千禧城·5居室-06卧', '17.7㎡', '朝南', '5室1厅', '小区距1号线古田三路站步行约280米 ', '25/47', '有', '2019年建成', '智能门锁', '55%']
正在爬https://wh.ziroom.com/x/807215719.html
1:['自如友家·汉口新界广场·5居室-01卧', '16.5㎡', '朝南', '5室1厅', '小区距2号线青年路站步行约520米 ', '10/43', '有', '2018年建成', '智能门锁', '22%']
正在爬https://wh.ziroom.com/x/807853636.html
1:['自如友家·光明上海公馆·5居室-06卧', '15.9㎡', '朝南', '5室1厅', '小区距8号线塔子湖站步行约547米 ', '25/40', '有', '2014年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807013293.html
1:['自如友家·新世纪都市花园梅园·4居室-05卧', '18.7㎡', '朝南', '4室1厅', '小区距2号线范湖站步行约706米 ', '6/7', '无', '2003年建成', '智能门锁', '44%']
正在爬https://wh.ziroom.com/x/761952348.html
1:['自如友家·磨山港湾·4居室-01卧', '18.5㎡', '朝南', '4室1厅', '小区距4号线玉龙路站步行约594米 ', '18/32', '有', '2017年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/807251426.html
1:['自如友家·电建地产盛世江城·3居室-03卧', '13.96㎡', '朝南', '3室1厅', '小区距2号线长港路站步行约231米 ', '31/45', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807927507.html
1:['自如友家·惠东花园·6居室-05卧', '15.8㎡', '朝北', '6室1厅', '小区距3号线香港路站步行约101米 ', '6/7', '无', '2015年建成', '智能门锁', '暂无数据']
正在爬https://wh.ziroom.com/x/748158172.html
1:['自如友家·银海雅苑·4居室-05卧', '21.78㎡', '朝南', '4室1厅', '小区距2号线广埠屯站步行约423米 ', '7/33', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807722078.html
1:['自如友家·葛洲坝城市花园·4居室-05卧', '14.4㎡', '朝南', '4室1厅', '小区距1号线硚口路站步行约463米 ', '25/29', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/785748194.html
1:['自如友家·统建新干线·4居室-05卧', '14.9㎡', '朝南', '4室1厅', '小区距1号线堤角站步行约4米 ', '11/31', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808087975.html
1:['自如友家·福星华府誉境·3居室-03卧', '17.3㎡', '朝南', '3室1厅', '小区距6号线杨汊湖站步行约844米 ', '12/36', '有', '2020年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/790382757.html
1:['自如友家·琨瑜府·4居室-05卧', '19.9㎡', '朝南', '4室1厅', '小区距2号线华中科技大学站步行约741米 ', '27/55', '有', '2019年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/796049691.html
1:['自如友家·统建新干线·3居室-03卧', '13.4㎡', '朝南', '3室1厅', '小区距1号线堤角站步行约4米 ', '14/31', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808099154.html
1:['自如友家·汉阳人信汇四期天誉·3居室-01卧', '约13.83㎡', '朝南', '3室1厅', '小区距3号线龙阳村站步行约349米 ', '27/45', '有', '2018年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/792641596.html
1:['自如友家·香港映象·4居室-05卧', '26㎡', '朝南', '4室1厅', '小区距1号线古田四路站步行约333米 ', '12/32', '有', '2006年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807770707.html
1:['自如友家·地铁汉阳城·3居室-01卧', '12㎡', '朝南', '3室1厅', '小区距4号线汉阳火车站站步行约83米 ', '27/33', '有', '2019年建成', '智能门锁', '32%']
正在爬https://wh.ziroom.com/x/793643315.html
1:['自如友家·新地盛世东方·4居室-05卧', '15㎡', '朝南', '4室1厅', '小区距3号线兴业路站步行约121米 ', '17/18', '有', '2013年建成', '智能门锁', '35%']
正在爬取第2页
正在爬https://wh.ziroom.com/x/775808119.html
2:['自如友家·安顺星苑·4居室-01卧', '16.2㎡', '朝南', '4室1厅', '小区距4号线楚河汉街站步行约92米 ', '12/12', '有', '2003年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/790675697.html
2:['自如友家·当代国际花园三期·4居室-01卧', '21㎡', '朝南', '4室1厅', '小区距2号线金融港北站步行约460米 ', '2/5', '无', '2012年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807317891.html
2:['自如友家·世茂锦绣长江五期·4居室-01卧', '17.4㎡', '朝南', '4室1厅', '小区距6号线马鹦路站步行约606米 ', '50/57', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/808098503.html
2:['自如友家·光谷创新天地·4居室-01卧', '14.17㎡', '朝南', '4室1厅', '小区距11号线光谷六路站步行约33米 ', '10/17', '有', '2021年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/793785032.html
2:['自如友家·世茂锦绣长江五期·4居室-01卧', '17.2㎡', '朝南', '4室1厅', '小区距6号线马鹦路站步行约606米 ', '20/57', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/783071479.html
2:['自如友家·千禧城·4居室-05卧', '15.8㎡', '朝南', '4室1厅', '小区距1号线古田三路站步行约280米 ', '12/46', '有', '2019年建成', '智能门锁', '55%']
正在爬https://wh.ziroom.com/x/794812553.html
2:['自如友家·紫阳金利屋·4居室-05卧', '16.1㎡', '朝南', '4室1厅', '小区距8号线复兴路站步行约39米 ', '18/18', '有', '2006年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/760211198.html
2:['自如友家·世茂锦绣长江五期·4居室-05卧', '18.3㎡', '朝南', '4室1厅', '小区距6号线马鹦路站步行约606米 ', '49/52', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/764854103.html
2:['自如友家·幸福时代四期·4居室-05卧', '17.5㎡', '朝南', '4室1厅', '小区距21号线(阳逻线)百步亭花园路站步行约525米 ', '2/34', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807126679.html
2:['自如友家·紫薇花园·3居室-03卧', '17.2㎡', '朝南', '3室1厅', '小区距1号线古田四路站步行约309米 ', '5/6', '无', '2004年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807926604.html
2:['自如友家·东辉花园·4居室-01卧', '18.3㎡', '朝南', '4室1厅', '小区距1号线硚口路站步行约391米 ', '3/11', '有', '2004年建成', '智能门锁', '37%']
正在爬https://wh.ziroom.com/x/764283743.html
2:['自如友家·中力名居·5居室-01卧', '18.79㎡', '朝南', '5室1厅', '小区距8号线徐东站步行约263米 ', '8/11', '有', '2006年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/807309673.html
2:['自如友家·航天花园·5居室-01卧', '17.5㎡', '朝南', '5室1厅', '小区距3号线云飞路站步行约343米 ', '6/7', '有', '2002年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/808060521.html
2:['自如友家·美联奥林匹克花园六期·5居室-06卧', '12.1㎡', '朝南', '5室1厅', '小区距2号线金银潭站步行约41米 ', '20/34', '有', '2019年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/796652740.html
2:['自如友家·沁康园·4居室-01卧', '16.5㎡', '朝南', '4室1厅', '小区距7号线建安街站步行约415米 ', '3/6', '无', '2005年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/748156135.html
2:['自如友家·银海雅苑·4居室-01卧', '17㎡', '朝南', '4室1厅', '小区距2号线广埠屯站步行约423米 ', '7/33', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/796787085.html
2:['自如友家·新华明珠·5居室-06卧', '30.1㎡', '朝西', '5室1厅', '小区距7号线取水楼站步行约558米 ', '13/30', '有', '2008年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/739173256.html
2:['自如友家·汉江湾壹号·4居室-05卧', '15.2㎡', '朝南', '4室1厅', '小区距1号线古田一路站步行约282米 ', '12/23', '有', '2017年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/759004324.html
2:['自如友家·统建新干线·4居室-05卧', '14.9㎡', '朝南', '4室1厅', '小区距1号线堤角站步行约4米 ', '25/31', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/792948989.html
2:['自如友家·沁康园·4居室-01卧', '17.8㎡', '朝南', '4室1厅', '小区距7号线建安街站步行约415米 ', '7/11', '有', '2005年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/808010576.html
2:['自如友家·星星新城·4居室-05卧', '16.1㎡', '朝南', '4室1厅', '小区距8号线小洪山站步行约375米 ', '8/32', '有', '2007年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/793694919.html
2:['自如友家·地铁时代常青城·4居室-01卧', '15.5㎡', '朝南', '4室1厅', '小区距2号线常青城站步行约3米 ', '16/16', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/776444439.html
2:['自如友家·复地东湖国际四期·4居室-01卧', '21.4㎡', '朝南', '4室1厅', '小区距4号线青鱼嘴站步行约717米 ', '4/32', '有', '2014年建成', '智能门锁', '43%']
正在爬https://wh.ziroom.com/x/756115664.html
2:['自如友家·金地自在城·4居室-05卧', '14.72㎡', '朝南', '4室1厅', '小区距4号线园林路站步行约139米 ', '23/29', '有', '2019年建成', '智能门锁', '31%']
正在爬https://wh.ziroom.com/x/792494059.html
2:['自如友家·融创融公馆·4居室-05卧', '16.7㎡', '朝南', '4室1厅', '小区距6号线杨汊湖站步行约448米 ', '2/48', '有', '2018年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/778614911.html
2:['自如友家·统建同安家园·4居室-05卧', '18.3㎡', '朝南', '4室1厅', '小区距3号线后湖大道站步行约465米 ', '14/18', '有', '2009年建成', '智能门锁', '47%']
正在爬https://wh.ziroom.com/x/769194950.html
2:['自如友家·新地盛世东方·5居室-06卧', '16.6㎡', '朝北', '5室1厅', '小区距3号线兴业路站步行约121米 ', '22/24', '有', '2013年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808094513.html
2:['自如友家·首地云梦台·4居室-01卧', '约15㎡', '朝南', '4室1厅', '小区距8号线塔子湖站步行约725米 ', '18/50', '有', '2020年建成', '普通门锁', '30%']
正在爬https://wh.ziroom.com/x/790162276.html
2:['自如友家·锦绣人家·4居室-01卧', '20㎡', '朝南', '4室1厅', '小区距2号线长港路站步行约604米 ', '5/12', '有', '2006年建成', '智能门锁', '43%']
爬完啦:https://wh.ziroom.com/z/p2/
get_ziru_romm_info('wuhan_ziru.csv') # 50页爬了很久
如友家·长投珑庭·3居室-01卧', '10.4㎡', '朝南', '3室1厅', '小区距4号线梅苑小区站步行约1289米 ', '15/33', '有', '2017年建成', '智能门锁', '26%']
正在爬https://wh.ziroom.com/x/784813017.html
46:['自如友家·尚隆地球村·5居室-05卧', '9.48㎡', '朝北', '5室1厅', '小区距2号线积玉桥站步行约580米 ', '11/13', '有', '2002年建成', '智能门锁', '41%']
正在爬https://wh.ziroom.com/x/795492135.html
46:['自如友家·美联联邦生活区二期城仕·4居室-02卧', '9.8㎡', '朝南', '4室1厅', '小区距8号线中一路站步行约1107米 ', '19/34', '有', '2018年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/766335487.html
46:['自如友家·磨山港湾·5居室-02卧', '8.2㎡', '朝北', '5室1厅', '小区距4号线玉龙路站步行约594米 ', '27/45', '有', '2017年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/777288824.html
46:['自如友家·金岛御璟世家跃境·4居室-03卧', '7.97㎡', '朝东', '4室1厅', '小区距3号线罗家庄站步行约466米 ', '27/34', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807812469.html
46:['自如友家·中建南湖壹号·4居室-03卧', '7.56㎡', '朝北', '4室1厅', '小区距8号线文治街站步行约904米 ', '4/46', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/752284358.html
46:['自如友家·中建御景星城·4居室-02卧', '8.33㎡', '朝西', '4室1厅', '小区距1号线太平洋站步行约458米 ', '8/47', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/760107990.html
46:['自如友家·朗诗里程·4居室-05卧', '9.9㎡', '朝南', '4室1厅', '小区距11号线光谷六路站步行约1224米 ', '3/26', '有', '2014年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/770124501.html
46:['自如友家·钰龙湾景园·4居室-03卧', '7.5㎡', '朝西', '4室1厅', '小区距4号线七里庙站步行约372米 ', '34/45', '有', '2017年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/795697969.html
46:['自如友家·汉阳人信汇四期天誉·4居室-03卧', '7.7㎡', '朝北', '4室1厅', '小区距3号线龙阳村站步行约349米 ', '10/45', '有', '2018年建成', '智能门锁', '35%']
正在爬取第47页
正在爬https://wh.ziroom.com/x/795697969.html
47:['自如友家·汉阳人信汇四期天誉·4居室-03卧', '7.7㎡', '朝北', '4室1厅', '小区距3号线龙阳村站步行约349米 ', '10/45', '有', '2018年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/784320354.html
47:['自如友家·万科金域时代·4居室-03卧', '6.13㎡', '朝东', '4室1厅', '小区距3号线菱角湖站步行约310米 ', '35/43', '有', '2019年建成', '智能门锁', '28%']
正在爬https://wh.ziroom.com/x/794584700.html
47:['自如友家·万科锦程·4居室-05卧', '11.4㎡', '朝北', '4室1厅', '小区距2号线珞雄路站步行约1240米 ', '20/33', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807263536.html
47:['自如友家·城市之光·3居室-02卧', '11.45㎡', '朝北', '3室1厅', '小区距2号线黄龙山路站步行约1130米 ', '8/11', '有', '2014年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/807501354.html
47:['自如友家·旭辉御府·4居室-01卧', '15.1㎡', '朝南', '4室1厅', '小区距2号线佛祖岭站步行约2387米 ', '10/35', '有', '2019年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/747247148.html
47:['自如友家·三金鑫城国际润雅苑·3居室-02卧', '9.6㎡', '朝南', '3室1厅', '小区距6号线唐家墩站步行约1050米 ', '6/31', '有', '2012年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/756533055.html
47:['自如友家·二七新江岸生活广场·4居室-02卧', '10.71㎡', '朝北', '4室1厅', '小区距3号线兴业路站步行约954米 ', '20/30', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807503118.html
47:['自如友家·水晶郦都·3居室-02卧', '10.63㎡', '朝南', '3室1厅', '小区距2号线佛祖岭站步行约1320米 ', '18/28', '有', '2015年建成', '智能门锁', '43%']
正在爬https://wh.ziroom.com/x/807165417.html
47:['自如友家·时代新世界·4居室-02卧', '7㎡', '朝南', '4室1厅', '小区距3号线双墩站步行约549米 ', '19/46', '有', '2018年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/761386935.html
47:['自如友家·金地格林东郡·4居室-05卧', '16.8㎡', '朝南', '4室1厅', '小区距2号线珞雄路站步行约2520米 ', '22/34', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/751312806.html
47:['自如友家·江南明珠园·7居室-06卧', '11.7㎡', '朝北', '7室1厅', '小区距2号线积玉桥站步行约924米 ', '11/11', '有', '2004年建成', '智能门锁', '49%']
正在爬https://wh.ziroom.com/x/758535426.html
47:['自如友家·保利城·4居室-03卧', '11.24㎡', '朝西', '4室1厅', '小区距4号线铁机路站步行约1117米 ', '7/39', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807198737.html
47:['自如友家·福星惠誉红桥城·5居室-05卧', '8.1㎡', '朝北', '5室1厅', '小区距1号线堤角站步行约487米 ', '9/42', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807082873.html
47:['自如友家·万豪水岸枫林·4居室-05卧', '17.1㎡', '朝西', '4室1厅', '小区距2号线藏龙东街站步行约2656米 ', '15/20', '有', '2008年建成', '智能门锁', '42%']
正在爬https://wh.ziroom.com/x/746434482.html
47:['自如友家·万科魅力之城南区·4居室-03卧', '11.38㎡', '朝北', '4室1厅', '小区距2号线佛祖岭站步行约1012米 ', '21/24', '有', '2012年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/790588688.html
47:['自如友家·长投海德公园·4居室-02卧', '8.4㎡', '朝北', '4室1厅', '小区距8号线塔子湖站步行约577米 ', '3/33', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/763341970.html
47:['自如友家·世茂锦绣长江五期·4居室-03卧', '7.4㎡', '朝南', '4室1厅', '小区距6号线马鹦路站步行约606米 ', '45/57', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/752060191.html
47:['自如友家·长投珑庭·4居室-05卧', '11.06㎡', '朝北', '4室1厅', '小区距4号线梅苑小区站步行约1289米 ', '8/18', '有', '2017年建成', '智能门锁', '26%']
正在爬https://wh.ziroom.com/x/743277229.html
47:['自如友家·联想江城雅居·4居室-01卧', '13㎡', '朝南', '4室1厅', '小区距2号线黄龙山路站步行约1991米 ', '3/29', '有', '2020年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808019879.html
47:['自如友家·福星华府誉境·4居室-03卧', '7.2㎡', '朝北', '4室1厅', '小区距6号线杨汊湖站步行约844米 ', '53/55', '有', '2020年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/771994855.html
47:['自如友家·中建御景星城·4居室-03卧', '7.8㎡', '朝西', '4室1厅', '小区距1号线太平洋站步行约458米 ', '39/47', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/772091758.html
47:['自如友家·中建御景星城·4居室-03卧', '7.8㎡', '朝东', '4室1厅', '小区距1号线太平洋站步行约458米 ', '30/47', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/794551429.html
47:['自如友家·钰龙湾景园·4居室-03卧', '7㎡', '朝北', '4室1厅', '小区距4号线七里庙站步行约372米 ', '24/45', '有', '2017年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/767070650.html
47:['自如友家·当代卡梅尔小镇·3居室-01卧', '12.09㎡', '朝南', '3室1厅', '小区距2号线佛祖岭站步行约1681米 ', '11/24', '有', '2013年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/777688658.html
47:['自如友家·阳光城十里新城·4居室-03卧', '8.1㎡', '朝北', '4室1厅', '小区距3号线王家湾站步行约493米 ', '12/32', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/762120546.html
47:['自如友家·新世界常青花园雁溪山·5居室-02卧', '10.7㎡', '朝北', '5室1厅', '小区距2号线金银潭站步行约844米 ', '15/32', '有', '2014年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/767765752.html
47:['自如友家·金色华府·4居室-02卧', '8.08㎡', '朝北', '4室1厅', '小区距3号线香港路站步行约265米 ', '5/31', '有', '2007年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/787602834.html
47:['自如友家·招商雍华府·4居室-02卧', '10.8㎡', '朝南', '4室1厅', '小区距8号线文昌路站步行约1248米 ', '13/18', '有', '2012年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807806106.html
47:['自如友家·板桥新村·4居室-02卧', '9.19㎡', '朝北', '4室1厅', '小区距7号线板桥站步行约804米 ', '29/33', '有', '1990年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/772093795.html
47:['自如友家·中建御景星城·4居室-03卧', '7.7㎡', '朝北', '4室1厅', '小区距1号线太平洋站步行约458米 ', '36/47', '有', '2017年建成', '智能门锁', '35%']
正在爬取第48页
正在爬https://wh.ziroom.com/x/808091664.html
48:['自如友家·融玺公馆·3居室-02卧', '7㎡', '朝东', '3室1厅', '小区距3号线惠济二路站步行约336米 ', '26/30', '有', '2009年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/758998795.html
48:['自如友家·金地圣爱米伦·5居室-03卧', '10.7㎡', '朝北', '5室1厅', '小区距7号线湖工大站步行约860米 ', '5/6', '有', '2014年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/747426307.html
48:['自如友家·千禧城·4居室-03卧', '6.7㎡', '朝东', '4室1厅', '小区距1号线古田三路站步行约280米 ', '33/47', '有', '2019年建成', '智能门锁', '55%']
正在爬https://wh.ziroom.com/x/784229368.html
48:['自如友家·塔子湖锦绣家园幽兰苑·4居室-02卧', '10㎡', '朝北', '4室1厅', '小区距8号线中一路站步行约721米 ', '23/33', '有', '2005年建成', '智能门锁', '20%']
正在爬https://wh.ziroom.com/x/745320922.html
48:['自如友家·江山如画五期·4居室-02卧', '8.3㎡', '朝东', '4室1厅', '小区距6号线武胜路站步行约495米 ', '22/31', '有', '2016年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/744555010.html
48:['自如友家·电建地产盛世江城·4居室-03卧', '6.9㎡', '朝东', '4室1厅', '小区距2号线长港路站步行约231米 ', '40/42', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808094037.html
48:['自如友家·万科城花璟苑·4居室-01卧', '11.69㎡', '朝南', '4室1厅', '小区距2号线金融港北站步行约1792米 ', '25/34', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/795332570.html
48:['自如友家·汉阳人信汇二期天悦·4居室-02卧', '7.5㎡', '朝西', '4室1厅', '小区距3号线龙阳村站步行约457米 ', '16/34', '有', '2014年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/751542114.html
48:['自如友家·中侨观邸·3居室-01卧', '9.6㎡', '朝南', '3室1厅', '小区距7号线取水楼站步行约1017米 ', '6/31', '有', '2007年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/775684541.html
48:['自如友家·日月华庭·3居室-02卧', '8.88㎡', '朝南', '3室1厅', '小区距2号线范湖站步行约957米 ', '25/31', '有', '2007年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807321643.html
48:['自如友家·保利花园·5居室-02卧', '11.56㎡', '朝北', '5室1厅', '小区距2号线华中科技大学站步行约1028米 ', '13/18', '有', '2004年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807223867.html
48:['自如友家·顺民宜盛花园·4居室-02卧', '9.86㎡', '朝东', '4室1厅', '小区距2号线黄龙山路站步行约1187米 ', '13/28', '有', '2015年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/749277649.html
48:['自如友家·福星惠誉榜YOUNG·4居室-03卧', '8.37㎡', '朝北', '4室1厅', '小区距21号线(阳逻线)新荣客运站站步行约538米 ', '4/38', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/750275779.html
48:['自如友家·王家湾中央生活区·4居室-02卧', '8.9㎡', '朝北', '4室2厅', '小区距3号线王家湾站步行约632米 ', '11/33', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/749688832.html
48:['自如友家·红旗欣居A区·3居室-03卧', '9㎡', '朝南', '3室1厅', '小区距7号线瑞安街站步行约1266米 ', '15/32', '有', '2013年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/754112032.html
48:['自如友家·顶琇晶城·4居室-03卧', '7.61㎡', '朝北', '4室1厅', '小区距6号线唐家墩站步行约325米 ', '18/32', '有', '2009年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/807380114.html
48:['自如友家·新城丽景B区·4居室-01卧', '11.3㎡', '朝南', '4室1厅', '小区距6号线建港站步行约1803米 ', '22/28', '有', '2017年建成', '智能门锁', '20%']
正在爬https://wh.ziroom.com/x/765112511.html
48:['自如友家·绿地国际金融城一期·3居室-02卧', '10.5㎡', '朝东', '3室1厅', '小区距7号线湖北大学站步行约1152米 ', '22/48', '有', '2013年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/765476746.html
48:['自如友家·金岛御璟世家跃境·4居室-03卧', '7.97㎡', '朝东', '4室1厅', '小区距3号线罗家庄站步行约466米 ', '30/34', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/808098279.html
48:['自如友家·东原乐见城二期·4居室-03卧', '8.44㎡', '朝北', '4室1厅', '小区距7号线板桥站步行约703米 ', '28/46', '有', '2020年建成', '智能门锁', '暂无数据']
正在爬https://wh.ziroom.com/x/793696083.html
48:['自如友家·盛景天地盛景国际·4居室-05卧', '8.5㎡', '朝北', '4室1厅', '小区距8号线竹叶山站步行约681米 ', '33/40', '有', '2018年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/768309437.html
48:['自如友家·027社区·3居室-02卧', '9.15㎡', '朝南', '3室1厅', '小区距7号线瑞安街站步行约1085米 ', '6/18', '有', '2010年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/792354185.html
48:['自如友家·万科金域时代·4居室-03卧', '6㎡', '朝西', '4室1厅', '小区距3号线菱角湖站步行约310米 ', '29/43', '有', '2019年建成', '智能门锁', '28%']
正在爬https://wh.ziroom.com/x/783464620.html
48:['自如友家·福星城市花园·4居室-03卧', '9.1㎡', '朝南', '4室1厅', '小区距7号线取水楼站步行约1101米 ', '6/23', '有', '2016年建成', '智能门锁', '34%']
正在爬https://wh.ziroom.com/x/774575055.html
48:['自如友家·世茂锦绣长江五期·4居室-03卧', '8.3㎡', '朝北', '4室1厅', '小区距6号线马鹦路站步行约606米 ', '22/57', '有', '2016年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/783279835.html
48:['自如友家·十大家世纪城·3居室-02卧', '8.53㎡', '朝南', '3室1厅', '小区距21号线(阳逻线)百步亭花园路站步行约990米 ', '29/33', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808078308.html
48:['自如友家·时代新世界·5居室-03卧', '6.6㎡', '朝北', '5室1厅', '小区距3号线双墩站步行约549米 ', '6/46', '有', '2018年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/786414390.html
48:['自如友家·绿汀雅境·4居室-02卧', '10.1㎡', '朝南', '4室1厅', '小区距2号线虎泉站步行约1362米 ', '11/12', '有', '2005年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/808078315.html
48:['自如友家·时代新世界·5居室-05卧', '6.37㎡', '朝北', '5室1厅', '小区距3号线双墩站步行约549米 ', '6/46', '有', '2018年建成', '智能门锁', '33%']
正在爬https://wh.ziroom.com/x/752380388.html
48:['自如友家·阳光城十里新城·4居室-02卧', '7.8㎡', '朝北', '4室1厅', '小区距3号线王家湾站步行约493米 ', '22/32', '有', '2015年建成', '智能门锁', '35%']
正在爬取第49页
正在爬https://wh.ziroom.com/x/752380388.html
49:['自如友家·阳光城十里新城·4居室-02卧', '7.8㎡', '朝北', '4室1厅', '小区距3号线王家湾站步行约493米 ', '22/32', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/745171930.html
49:['自如友家·当代国际花园一期·4居室-03卧', '8.69㎡', '朝北', '4室1厅', '小区距2号线金融港北站步行约596米 ', '4/6', '无', '2006年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807868189.html
49:['自如友家·华南国际广场·4居室-03卧', '9.2㎡', '朝北', '4室1厅', '小区距6号线唐家墩站步行约810米 ', '16/33', '有', '2012年建成', '智能门锁', '31%']
正在爬https://wh.ziroom.com/x/761619541.html
49:['自如友家·红光颐景苑·5居室-03卧', '8.5㎡', '朝东', '5室1厅', '小区距4号线五里墩站步行约557米 ', '26/31', '有', '2015年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/796897374.html
49:['自如友家·海尔国际广场·4居室-03卧', '7㎡', '朝北', '4室1厅', '小区距1号线古田二路站步行约446米 ', '11/46', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807907900.html
49:['自如友家·金桥港湾花园·4居室-03卧', '7.6㎡', '朝东', '4室1厅', '小区距6号线建港站步行约474米 ', '8/18', '有', '2007年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/807024227.html
49:['自如友家·万科主场·4居室-02卧', '8.3㎡', '朝北', '4室1厅', '小区距8号线马房山站步行约976米 ', '8/30', '有', '2019年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/748542583.html
49:['自如友家·福星城南区·4居室-03卧', '7.6㎡', '朝南', '4室1厅', '小区距2号线长港路站步行约761米 ', '14/51', '有', '2013年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/753030385.html
49:['自如友家·越秀国际金融汇·4居室-01卧', '10.1㎡', '朝东', '4室1厅', '小区距2号线中山公园站步行约994米 ', '4/32', '有', '2016年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/747790251.html
49:['自如友家·中建御景星城·4居室-03卧', '7.8㎡', '朝北', '4室1厅', '小区距1号线太平洋站步行约458米 ', '10/33', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/795960063.html
49:['自如友家·福星华府誉境·4居室-03卧', '8.63㎡', '朝北', '4室1厅', '小区距6号线杨汊湖站步行约844米 ', '40/43', '有', '2020年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/793639144.html
49:['自如友家·宝安花园·4居室-02卧', '9.1㎡', '朝北', '4室1厅', '小区距7号线建安街站步行约471米 ', '3/6', '无', '2003年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/807252497.html
49:['自如友家·佛奥俊贤雅居·4居室-05卧', '11.1㎡', '朝南', '4室1厅', '小区距2号线秀湖站步行约1582米 ', '12/17', '有', '2014年建成', '智能门锁', '39%']
正在爬https://wh.ziroom.com/x/780725340.html
49:['自如友家·统建锦绣江南·5居室-03卧', '10.3㎡', '朝北', '5室1厅', '小区距8号线中南医院站步行约1006米 ', '17/18', '有', '2010年建成', '智能门锁', '36%']
正在爬https://wh.ziroom.com/x/763683701.html
49:['自如友家·东湖景园C区·4居室-03卧', '9.12㎡', '朝北', '4室1厅', '小区距4号线铁机路站步行约608米 ', '24/34', '有', '2010年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/746070441.html
49:['自如友家·二七新江岸生活广场·4居室-03卧', '9.4㎡', '朝北', '4室1厅', '小区距3号线兴业路站步行约954米 ', '12/31', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/782079460.html
49:['自如友家·当代国际城·4居室-03卧', '7.06㎡', '朝北', '4室1厅', '小区距2号线藏龙东街站步行约477米 ', '5/11', '有', '2017年建成', '智能门锁', '45%']
正在爬https://wh.ziroom.com/x/807115346.html
49:['自如友家·保利中央公馆·5居室-02卧', '9.81㎡', '朝北', '5室1厅', '小区距8号线文昌路站步行约868米 ', '17/34', '有', '2012年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/775603352.html
49:['自如友家·石桥花园H1·4居室-03卧', '5.7㎡', '朝东', '4室1厅', '小区距6号线石桥站步行约245米 ', '21/32', '有', '2009年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/796598420.html
49:['自如友家·石桥花园H1·4居室-03卧', '5.8㎡', '朝西', '4室1厅', '小区距6号线石桥站步行约245米 ', '27/32', '有', '2009年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/777640061.html
49:['自如友家·星悦城华廷·4居室-02卧', '9.9㎡', '朝南', '4室1厅', '小区距6号线杨汊湖站步行约1303米 ', '17/34', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/750513429.html
49:['自如友家·福星惠誉榜YOUNG·4居室-02卧', '8.1㎡', '朝北', '4室1厅', '小区距21号线(阳逻线)新荣客运站站步行约538米 ', '15/39', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/777314723.html
49:['自如友家·远洋心里·4居室-02卧', '7.3㎡', '朝北', '4室1厅', '小区距6号线石桥站步行约543米 ', '40/46', '有', '2017年建成', '智能门锁', '20%']
正在爬https://wh.ziroom.com/x/792288322.html
49:['自如友家·凯旋名邸·3居室-03卧', '12㎡', '朝北', '3室1厅', '小区距4号线梅苑小区站步行约1295米 ', '17/18', '有', '2010年建成', '智能门锁', '36%']
正在爬https://wh.ziroom.com/x/756163485.html
49:['自如友家·万科城花璟苑·4居室-01卧', '11.8㎡', '朝南', '4室1厅', '小区距2号线金融港北站步行约1792米 ', '17/34', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/807182945.html
49:['自如友家·万科汉口传奇悦庭·4居室-01卧', '11.1㎡', '朝东', '4室1厅', '小区距2号线汉口火车站站步行约1258米 ', '15/34', '有', '2018年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/776346469.html
49:['自如友家·保利华都·4居室-03卧', '7.67㎡', '朝西', '4室1厅', '小区距2号线杨家湾站步行约449米 ', '6/32', '有', '2012年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/748039832.html
49:['自如友家·远洋心汉口二期·4居室-03卧', '9㎡', '朝南', '4室1厅', '小区距2号线汉口火车站站步行约1081米 ', '21/47', '有', '2018年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/741713589.html
49:['自如友家·石桥花园·4居室-02卧', '8.4㎡', '朝西', '4室1厅', '小区距6号线石桥站步行约462米 ', '21/33', '有', '2009年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/787604871.html
49:['自如友家·尚都一品·5居室-05卧', '8.5㎡', '朝北', '5室1厅', '小区距8号线中一路站步行约523米 ', '12/32', '有', '2011年建成', '智能门锁', '36%']
正在爬取第50页
正在爬https://wh.ziroom.com/x/746415664.html
50:['自如友家·武汉天街·5居室-03卧', '8.2㎡', '朝北', '5室1厅', '小区距2号线汉口火车站站步行约556米 ', '26/39', '有', '2016年建成', '智能门锁', '26%']
正在爬https://wh.ziroom.com/x/748452276.html
50:['自如友家·阳光城十里新城·4居室-03卧', '7.97㎡', '朝北', '4室1厅', '小区距3号线王家湾站步行约493米 ', '21/32', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/751542987.html
50:['自如友家·中侨观邸·3居室-02卧', '9.2㎡', '朝南', '3室1厅', '小区距7号线取水楼站步行约1017米 ', '6/31', '有', '2007年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/788619491.html
50:['自如友家·复地翠微新城·4居室-03卧', '10㎡', '朝北', '4室1厅', '小区距4号线汉阳火车站站步行约775米 ', '10/11', '有', '2003年建成', '智能门锁', '38%']
正在爬https://wh.ziroom.com/x/796469410.html
50:['自如友家·银河湾·7居室-02卧', '18.84㎡', '朝南', '7室1厅', '小区距2号线藏龙东街站步行约2851米 ', '6/6', '无', '2018年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/753885925.html
50:['自如友家·名流世家·3居室-02卧', '8.36㎡', '朝南', '3室1厅', '小区距1号线丹水池站步行约1029米 ', '31/34', '有', '2017年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/759158166.html
50:['自如友家·泰合花园·4居室-03卧', '9.6㎡', '朝北', '4室1厅', '小区距2号线王家墩东站步行约640米 ', '3/11', '有', '2000年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/782046189.html
50:['自如友家·当代国际城·4居室-03卧', '8.1㎡', '朝北', '4室1厅', '小区距2号线藏龙东街站步行约477米 ', '11/11', '有', '2017年建成', '智能门锁', '45%']
正在爬https://wh.ziroom.com/x/757219718.html
50:['自如友家·保利心语八期·4居室-02卧', '8㎡', '朝北', '4室1厅', '小区距8号线省农科院站步行约588米 ', '5/24', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807279244.html
50:['自如友家·福星华府誉境·4居室-02卧', '9.2㎡', '朝北', '4室1厅', '小区距6号线杨汊湖站步行约844米 ', '26/44', '有', '2020年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/792635873.html
50:['自如友家·葛洲坝城市花园·4居室-03卧', '5.4㎡', '朝东', '4室1厅', '小区距1号线硚口路站步行约463米 ', '16/33', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/756515401.html
50:['自如友家·葛洲坝城市花园·4居室-03卧', '6.7㎡', '朝东', '4室1厅', '小区距1号线硚口路站步行约463米 ', '24/33', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/807154721.html
50:['自如友家·新世界恒大华府·4居室-05卧', '9.41㎡', '朝北', '4室1厅', '小区距2号线佳园路站步行约1287米 ', '2/7', '有', '2012年建成', '智能门锁', '36%']
正在爬https://wh.ziroom.com/x/754829541.html
50:['自如友家·石桥花园·3居室-02卧', '7.9㎡', '朝西', '3室1厅', '小区距6号线石桥站步行约462米 ', '24/29', '有', '2009年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/778468344.html
50:['自如友家·葛洲坝城市花园·5居室-05卧', '7.4㎡', '朝北', '5室1厅', '小区距1号线硚口路站步行约463米 ', '22/29', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/749860619.html
50:['自如友家·福星惠誉红桥城·4居室-02卧', '6.31㎡', '朝西北', '4室1厅', '小区距1号线堤角站步行约487米 ', '3/42', '有', '2016年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/759436944.html
50:['自如友家·金地雄楚一号·4居室-02卧', '11.8㎡', '朝北', '4室1厅', '小区距2号线杨家湾站步行约1275米 ', '15/33', '有', '2014年建成', '智能门锁', '34%']
正在爬https://wh.ziroom.com/x/780810118.html
50:['自如友家·红光颐景苑·5居室-05卧', '5.8㎡', '朝西', '5室1厅', '小区距4号线五里墩站步行约557米 ', '27/31', '有', '2015年建成', '智能门锁', '25%']
正在爬https://wh.ziroom.com/x/784211423.html
50:['自如友家·金地中心城·3居室-01卧', '10.6㎡', '朝南', '3室1厅', '小区距2号线杨家湾站步行约1545米 ', '4/32', '有', '2010年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/744011325.html
50:['自如友家·汉阳人信汇二期天悦·4居室-03卧', '6.9㎡', '朝北', '4室1厅', '小区距3号线龙阳村站步行约457米 ', '11/34', '有', '2014年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/770220531.html
50:['自如友家·中民仁寿里·4居室-03卧', '7.6㎡', '朝西', '4室1厅', '小区距3号线双墩站步行约462米 ', '25/33', '有', '2016年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/743778622.html
50:['自如友家·建荣嘉园·4居室-02卧', '11㎡', '朝北', '4室1厅', '小区距1号线古田四路站步行约1336米 ', '16/28', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/766666354.html
50:['自如友家·凤凰花园二期·3居室-03卧', '10.15㎡', '朝北', '3室1厅', '小区距2号线藏龙东街站步行约1034米 ', '3/7', '无', '2005年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/765482760.html
50:['自如友家·融侨城·4居室-01卧', '13.87㎡', '朝南', '4室1厅', '小区距8号线徐家棚站步行约2445米 ', '8/47', '有', '2018年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/741978108.html
50:['自如友家·光谷智慧城·5居室-03卧', '11.1㎡', '朝南', '5室1厅', '小区距2号线珞雄路站步行约1362米 ', '26/28', '有', '2003年建成', '智能门锁', '40%']
正在爬https://wh.ziroom.com/x/755157207.html
50:['自如友家·海尔国际广场·4居室-03卧', '7㎡', '朝北', '4室1厅', '小区距1号线古田二路站步行约446米 ', '43/46', '有', '2017年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/779318355.html
50:['自如友家·美联奥林匹克花园五期·4居室-02卧', '10.5㎡', '朝北', '4室1厅', '小区距2号线金银潭站步行约1220米 ', '4/33', '有', '2020年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/746186453.html
50:['自如友家·石桥花园三期·4居室-02卧', '8.4㎡', '朝北', '4室1厅', '小区距6号线石桥站步行约688米 ', '8/33', '有', '2019年建成', '智能门锁', '30%']
正在爬https://wh.ziroom.com/x/755632410.html
50:['自如友家·阳光城十里新城·4居室-02卧', '7.8㎡', '朝北', '4室1厅', '小区距3号线王家湾站步行约493米 ', '20/32', '有', '2015年建成', '智能门锁', '35%']
正在爬https://wh.ziroom.com/x/757221464.html
50:['自如友家·华腾园·3居室-02卧', '9.74㎡', '朝北', '3室1厅', '小区距4号线铁机路站步行约918米 ', '17/28', '有', '2012年建成', '智能门锁', '26%']
爬完啦:https://wh.ziroom.com/z/p50/
案例2:36kr信息抓取与邮件发送
分析:
36kr官网:36kr.com/newsflashes
具体文章链接:36kr.com + href
url = 'https://36kr.com/newsflashes'
headers = {'User-Agent': random.choice(user_agent)}
response = requests.get(url, headers=headers).content.decode('utf-8', 'ignore')
soup = BeautifulSoup(response, 'lxml')
news = soup.find_all('a', class_='item-title')
print(news)
[<a class="item-title" href="/newsflashes/1276630117042176" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">PC端微信更新搜一搜功能</a>, <a class="item-title" href="/newsflashes/1276625609852937" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">TCL科技宣布将以集中竞价交易方式回购公司股份,回购总金额预计6-7亿元</a>, <a class="item-title" href="/newsflashes/1276497272440577" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">世卫首席科学家:现在启动疫苗加强针注射还为时尚早</a>, <a class="item-title" href="/newsflashes/1276495881914371" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">日本首次在外国奥运代表团中发现新冠阳性人员</a>, <a class="item-title" href="/newsflashes/1276491301193730" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">格力电器:拟推第一期员工持股计划,董明珠拟认购股数上限为3000万股</a>, <a class="item-title" href="/newsflashes/1276484942661385" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">宁德时代:没有强制员工购买特斯拉,只是以优惠价格鼓励员工购买电动车</a>, <a class="item-title" href="/newsflashes/1276479067211527" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">中信证券:博弈交易退潮,强化盈利驱动</a>, <a class="item-title" href="/newsflashes/1276451413231619" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">东京奥运村公开亮相,最多可容纳1.8万人居住</a>, <a class="item-title" href="/newsflashes/1276449829193479" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">顺丰控股:618期间公司整体业务量同比增长超过40%</a>, <a class="item-title" href="/newsflashes/1276448701187843" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">华森制药:拟参股尚医科技,并获得特医食品大中华区相关授权</a>, <a class="item-title" href="/newsflashes/1276429023823618" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">中信证券:股价已基本反映负面因素,商行业有望在下半年重新迎来布局机会</a>, <a class="item-title" href="/newsflashes/1276428049450755" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">众兴菌业:拟收购圣窖酒业100%股权</a>, <a class="item-title" href="/newsflashes/1276417685440264" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">特锐德:子公司特来电拟引进战略投资者</a>, <a class="item-title" href="/newsflashes/1276416218613512" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">拼多多:上半年拼单量增幅前三名的快消品类为自热米饭、营养代餐与健康冲饮</a>, <a class="item-title" href="/newsflashes/1276409541920773" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">中石油探明国内首个超10亿吨级大油田</a>, <a class="item-title" href="/newsflashes/1276409197742082" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">亿纬锂能:参与特来电增资扩股事项,增资认购总价款为2000.20万元</a>, <a class="item-title" href="/newsflashes/1276392399570945" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">合肥先进计算中心正式运行</a>, <a class="item-title" href="/newsflashes/1276354429634312" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">《海南自由贸易港建设白皮书(2021)》发布</a>, <a class="item-title" href="/newsflashes/1276353701496579" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">三星或为芯片架构项目聘请苹果和AMD的前工程师</a>, <a class="item-title" href="/newsflashes/1276348744107777" rel="noopener noreferrer" sensors_operation_list="page_flow" target="_blank">长城基金尤国梁:业绩持续增长叠加风格切换带来半导体行情</a>]
def get_36kr_article():
url = 'https://36kr.com/newsflashes'
headers = {'User-Agent': random.choice(user_agent)}
response = requests.get(url, headers=headers).content.decode('utf-8', 'ignore')
soup = BeautifulSoup(response, 'lxml')
news = soup.find_all('a', class_='item-title')
#print(news)
news_list = []
for i in news:
title = i.get_text()
href = 'https://36kr.com' + i['href']
news_list.append(title + '\n' + href) # 发送纯文本格式,因此还是使用\n换行
info = '\n'.join(news_list) # 这里要多加一个换行符,不然会除了第一个标题,都会带上链接
print(news_list)
return info
get_36kr_article()
['PC端微信更新搜一搜功能\nhttps://36kr.com/newsflashes/1276630117042176', 'TCL科技宣布将以集中竞价交易方式回购公司股份,回购总金额预计6-7亿元\nhttps://36kr.com/newsflashes/1276625609852937', '世卫首席科学家:现在启动疫苗加强针注射还为时尚早\nhttps://36kr.com/newsflashes/1276497272440577', '日本首次在外国奥运代表团中发现新冠阳性人员\nhttps://36kr.com/newsflashes/1276495881914371', '格力电器:拟推第一期员工持股计划,董明珠拟认购股数上限为3000万股\nhttps://36kr.com/newsflashes/1276491301193730', '宁德时代:没有强制员工购买特斯拉,只是以优惠价格鼓励员工购买电动车\nhttps://36kr.com/newsflashes/1276484942661385', '中信证券:博弈交易退潮,强化盈利驱动\nhttps://36kr.com/newsflashes/1276479067211527', '东京奥运村公开亮相,最多可容纳1.8万人居住\nhttps://36kr.com/newsflashes/1276451413231619', '顺丰控股:618期间公司整体业务量同比增长超过40%\nhttps://36kr.com/newsflashes/1276449829193479', '华森制药:拟参股尚医科技,并获得特医食品大中华区相关授权\nhttps://36kr.com/newsflashes/1276448701187843', '中信证券:股价已基本反映负面因素,商行业有望在下半年重新迎来布局机会\nhttps://36kr.com/newsflashes/1276429023823618', '众兴菌业:拟收购圣窖酒业100%股权\nhttps://36kr.com/newsflashes/1276428049450755', '特锐德:子公司特来电拟引进战略投资者\nhttps://36kr.com/newsflashes/1276417685440264', '拼多多:上半年拼单量增幅前三名的快消品类为自热米饭、营养代餐与健康冲饮\nhttps://36kr.com/newsflashes/1276416218613512', '中石油探明国内首个超10亿吨级大油田\nhttps://36kr.com/newsflashes/1276409541920773', '亿纬锂能:参与特来电增资扩股事项,增资认购总价款为2000.20万元\nhttps://36kr.com/newsflashes/1276409197742082', '合肥先进计算中心正式运行\nhttps://36kr.com/newsflashes/1276392399570945', '《海南自由贸易港建设白皮书(2021)》发布\nhttps://36kr.com/newsflashes/1276354429634312', '三星或为芯片架构项目聘请苹果和AMD的前工程师\nhttps://36kr.com/newsflashes/1276353701496579', '长城基金尤国梁:业绩持续增长叠加风格切换带来半导体行情\nhttps://36kr.com/newsflashes/1276348744107777']
'PC端微信更新搜一搜功能\nhttps://36kr.com/newsflashes/1276630117042176\nTCL科技宣布将以集中竞价交易方式回购公司股份,回购总金额预计6-7亿元\nhttps://36kr.com/newsflashes/1276625609852937\n世卫首席科学家:现在启动疫苗加强针注射还为时尚早\nhttps://36kr.com/newsflashes/1276497272440577\n日本首次在外国奥运代表团中发现新冠阳性人员\nhttps://36kr.com/newsflashes/1276495881914371\n格力电器:拟推第一期员工持股计划,董明珠拟认购股数上限为3000万股\nhttps://36kr.com/newsflashes/1276491301193730\n宁德时代:没有强制员工购买特斯拉,只是以优惠价格鼓励员工购买电动车\nhttps://36kr.com/newsflashes/1276484942661385\n中信证券:博弈交易退潮,强化盈利驱动\nhttps://36kr.com/newsflashes/1276479067211527\n东京奥运村公开亮相,最多可容纳1.8万人居住\nhttps://36kr.com/newsflashes/1276451413231619\n顺丰控股:618期间公司整体业务量同比增长超过40%\nhttps://36kr.com/newsflashes/1276449829193479\n华森制药:拟参股尚医科技,并获得特医食品大中华区相关授权\nhttps://36kr.com/newsflashes/1276448701187843\n中信证券:股价已基本反映负面因素,商行业有望在下半年重新迎来布局机会\nhttps://36kr.com/newsflashes/1276429023823618\n众兴菌业:拟收购圣窖酒业100%股权\nhttps://36kr.com/newsflashes/1276428049450755\n特锐德:子公司特来电拟引进战略投资者\nhttps://36kr.com/newsflashes/1276417685440264\n拼多多:上半年拼单量增幅前三名的快消品类为自热米饭、营养代餐与健康冲饮\nhttps://36kr.com/newsflashes/1276416218613512\n中石油探明国内首个超10亿吨级大油田\nhttps://36kr.com/newsflashes/1276409541920773\n亿纬锂能:参与特来电增资扩股事项,增资认购总价款为2000.20万元\nhttps://36kr.com/newsflashes/1276409197742082\n合肥先进计算中心正式运行\nhttps://36kr.com/newsflashes/1276392399570945\n《海南自由贸易港建设白皮书(2021)》发布\nhttps://36kr.com/newsflashes/1276354429634312\n三星或为芯片架构项目聘请苹果和AMD的前工程师\nhttps://36kr.com/newsflashes/1276353701496579\n长城基金尤国梁:业绩持续增长叠加风格切换带来半导体行情\nhttps://36kr.com/newsflashes/1276348744107777'
import smtplib
from smtplib import SMTP_SSL # 加密邮件内容,防止中途被截获
from email.mime.text import MIMEText # 构造邮件正文
from email.mime.image import MIMEImage # 构造邮件图片
from email.mime.multipart import MIMEMultipart # 邮件主体
from email.header import Header # 邮件文件头,标题,收件人
# 这里采用task1里的方式,有加密
def send_email(content):
host_server = 'smtp.126.com'
sender_126 = 'zymb_1704@126.com' # 发送人邮箱
pwd = 'PGJDEVEPSXWYQOQL' # 邮箱授权码
receiver = 'zuoyi1268@126.com' # 收件人
msg = MIMEMultipart()
mail_title = '36kr快讯' # 应有具体日期
msg['Subject'] = Header(mail_title, 'utf-8')
msg['From'] = sender_126
msg['To'] = Header(receiver, 'utf-8')
message_text = MIMEText(content, 'plain', 'utf-8')
msg.attach(message_text) # 添加文本到邮件
smtp = SMTP_SSL(host_server)
smtp.login(sender_126, pwd)
smtp.sendmail(sender_126, receiver, msg.as_string())
smtp.quit()
send_email(get_36kr_article())
['PC端微信更新搜一搜功能\nhttps://36kr.com/newsflashes/1276630117042176', 'TCL科技宣布将以集中竞价交易方式回购公司股份,回购总金额预计6-7亿元\nhttps://36kr.com/newsflashes/1276625609852937', '世卫首席科学家:现在启动疫苗加强针注射还为时尚早\nhttps://36kr.com/newsflashes/1276497272440577', '日本首次在外国奥运代表团中发现新冠阳性人员\nhttps://36kr.com/newsflashes/1276495881914371', '格力电器:拟推第一期员工持股计划,董明珠拟认购股数上限为3000万股\nhttps://36kr.com/newsflashes/1276491301193730', '宁德时代:没有强制员工购买特斯拉,只是以优惠价格鼓励员工购买电动车\nhttps://36kr.com/newsflashes/1276484942661385', '中信证券:博弈交易退潮,强化盈利驱动\nhttps://36kr.com/newsflashes/1276479067211527', '东京奥运村公开亮相,最多可容纳1.8万人居住\nhttps://36kr.com/newsflashes/1276451413231619', '顺丰控股:618期间公司整体业务量同比增长超过40%\nhttps://36kr.com/newsflashes/1276449829193479', '华森制药:拟参股尚医科技,并获得特医食品大中华区相关授权\nhttps://36kr.com/newsflashes/1276448701187843', '中信证券:股价已基本反映负面因素,商行业有望在下半年重新迎来布局机会\nhttps://36kr.com/newsflashes/1276429023823618', '众兴菌业:拟收购圣窖酒业100%股权\nhttps://36kr.com/newsflashes/1276428049450755', '特锐德:子公司特来电拟引进战略投资者\nhttps://36kr.com/newsflashes/1276417685440264', '拼多多:上半年拼单量增幅前三名的快消品类为自热米饭、营养代餐与健康冲饮\nhttps://36kr.com/newsflashes/1276416218613512', '中石油探明国内首个超10亿吨级大油田\nhttps://36kr.com/newsflashes/1276409541920773', '亿纬锂能:参与特来电增资扩股事项,增资认购总价款为2000.20万元\nhttps://36kr.com/newsflashes/1276409197742082', '合肥先进计算中心正式运行\nhttps://36kr.com/newsflashes/1276392399570945', '《海南自由贸易港建设白皮书(2021)》发布\nhttps://36kr.com/newsflashes/1276354429634312', '三星或为芯片架构项目聘请苹果和AMD的前工程师\nhttps://36kr.com/newsflashes/1276353701496579', '长城基金尤国梁:业绩持续增长叠加风格切换带来半导体行情\nhttps://36kr.com/newsflashes/1276348744107777']
改进:36kr为通过下拉刷新,默认只显示20个卡片
下拉发现增加了返回报文:
报文结构:
发送post请求:gateway.36kr.com/api/mis/nav…
构造报文: {"partner_id":"web","timestamp":1624201221642,"param":{"pageSize":20,"pageEvent":1,"pageCallback":"eyJmaXJzdElkIjoxMjc2NjMwMTE3MDQyMTc2LCJsYXN0SWQiOjEyNzYzNDg3NDQxMDc3NzcsImZpcnN0Q3JlYXRlVGltZSI6MTYyNDE5MTMxODY2NywibGFzdENyZWF0ZVRpbWUiOjE2MjQxNzQxNDUwMjZ9","siteId":1,"platformId":2}}
解析返回报文:{
code:0,
data:{
hasNextPage:1
itemList:[
itemId: 1275967372003076
itemType:20
route:"detail_newsflash?itemId=1275967372003076"
templateMaterial:{
itemId: 1275967372003076
publishTime: 1624150867920 sourceUrlRoute: "webview?url=http%3A%2F%2Fwww.cs.com.cn%2Fsylm%2Fjsbd%2F202106%2Ft20210620_6176912.html" templateType: 0 widgetContent: "从华为供应链公司获悉,目前该公司已经收到华为Mate50手机设计方案。华为供应链公司人士表示:“华为也没说要取消发布,只不过什么时间量产供货还没定。”(中证网)" widgetTitle: "华为供应链公司:已收到华为Mate50手机设计方案,供货时间待定" }
],
"pageCallback":"eyJmaXJzdElkIjoxMjc2NjMwMTE3MDQyMTc2LCJsYXN0SWQiOjEyNzYzNDg3NDQxMDc3NzcsImZpcnN0Q3JlYXRlVGltZSI6MTYyNDE5MTMxODY2NywibGFzdENyZWF0ZVRpbWUiOjE2MjQxNzQxNDUwMjZ9"
}
}
通过查看返回报文的publishTime来停止,因为hasNextPage不知道会有多少页。