pyhton获取指定网页的指定属性标签

302 阅读1分钟

pyhton获取指定网页的指定属性标签

1. 获取指定网页的指定属性标签

目标:获取指定网页(url:dblp.uni-trier.de/db/journals…)的指定属性的标签(< span class="title" itemprop="name">.....< /span>),并翻译成中文。

代码如下:

import requests
from bs4 import BeautifulSoup
from googletrans import Translator

# 1. 获取网页
r=requests.get('https://dblp.uni-trier.de/db/journals/tifs/tifs16.html')
# 2. 转换网页形式
soup = BeautifulSoup(r.text,'html.parser')
# 3. 获取指定属性的标签
titles = soup.find_all(name='span',attrs={"class":"title","itemprop":"name"})
# 4. 调用谷歌翻译api (报错 httpcore._exceptions.ConnectError: EOF occurred in violation of protocol (_ssl.c:777) 暂无法解决,遂放弃,translater库有使用限制,遂此路不通)
translator = Translator(service_urls=[
      'translate.google.cn',])# 如果可以上外网,还可添加 'translate.google.com' 等
# 4. 获取文本
for title in titles:
    print(title.get_text())

2. 碰到的问题

谷歌翻译API无法使用,报错

httpcore._exceptions.ConnectError: EOF occurred in violation of protocol (_ssl.c:777)