“五一”出游你回来的机票还有吗?

99 阅读2分钟

今年”五一“已经是可以预见的火爆了,特别是关了三年的大学生们成为了穿梭城市的“特种兵”。短视频平台上的都是各种极限24小时打卡旅游地,景区充斥着各种中老年团,各个地区旅游局的局长为了宣传各种卷。 但是,火爆的旅游不仅让跟旅游相关的各行各业蒸蒸日上,也让黄牛们赚到“盆满钵满”。高铁票且不说,机票的抢票难度已经高到天际。很多热门地点早已售罄。这里我们可以通过python爬虫去查看下能否有捡漏的机会。 像航空网这样的数据,网站的反爬都是很严的,常见的爬虫手段分为2类。 一种是通过验证码进行限制:当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。 一种是通过IP地址进行限制:当同一IP、同一电脑在一定时间内访问网站的次数,系统自动限制其访问浏览等。这种情况我们就可以通过频繁变更代理IP等方法绕过封禁的规则。比如这里我们可以通过python多线程采集网站,通过随机数控制保持多个页面使用相同代理IP。

#! -*- encoding:utf-8 -*-
import requests
import random
import requests.adapters
import threading # 导入threading模块

# 要访问的目标页面
targetUrlList = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
]

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}

class HTTPAdapter(requests.adapters.HTTPAdapter):
    def proxy_headers(self, proxy):
        headers = super(HTTPAdapter, self).proxy_headers(proxy)
        if hasattr(self, 'tunnel'):
            headers['Proxy-Tunnel'] = self.tunnel
        return headers

# 定义一个函数,用于访问一个目标网址
def visit_url(url, i, j):
    with requests.session() as s: # 使用with语句管理会话
        a = HTTPAdapter()
        # 设置IP切换头
        a.tunnel = tunnel
        s.mount('https://', a)
        r = s.get(url, proxies=proxies)
        print(f"第{i+1}次访问,第{j+1}个网址,结果如下:") # 使用f-string格式化输出
        print(r.text)

# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
    # 创建一个空的线程列表
    threads = []
    for j, url in enumerate(targetUrlList): # 使用enumerate函数遍历列表
        # 创建一个线程,传入目标网址,当前次数和索引
        t = threading.Thread(target=visit_url, args=(url, i, j))
        # 将线程添加到线程列表
        threads.append(t)
        # 启动线程
        t.start()
    # 等待所有线程结束
    for t in threads:
        t.join()