从零到一学Ptyhon:使用爬虫写个体测接口

162 阅读1分钟

每日一kun:成功就像鬼一样,只有别人遇到过。

使用ptyhon写个关于学院体测成绩的数据爬虫,并完成数据接口,爬虫模块主要是requests,数据分析使用lxml模块对xpath进行数据清洗提取拿到有用的数据,使用flask完成最后的数据接口返回。

GitHub完整代码:github.com/countf/Pyth… 里面的网站写上本校的体测网址就行,本校可以按照上面代码参考修改。

user_agent 伪造浏览器访问,防止网站的反爬策略过滤我们的爬虫请求,结果返回空。

url ='本校体育测试网址'
user_agent={
    "user-agent": 'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

默认访问接口文档,网站后面带/top后面<password>/<username>/<int:year>为体测网站的密码,用户名,学年,学年可以为空,为空返回所有学年的体测成绩,使用falsk模块完成。

@sanxia_tiche.route('/')
def hello():
    return jsonify(home)

@sanxia_tiche.route('/top/<password>/<username>/<int:year>',methods=['GET'])
def top(password,username,year):
    top01(password,username,year)
    return jsonify(page02_list)

接口文档

image.png

因为浏览器需要用到学号密码,返回的结果也会带上身份证姓名等隐私所以就不放这些截图了