爬虫程序爬取rpm

import requests
from bs4 import BeautifulSoup
import os
url = 'https://vault.centos.org/5.5/os/x86_64/CentOS/'  # 待下载页面的URL
dir_path = 'D://packages'  # 存储rpm包的目录路径
# 创建目录用于存储rpm包
if not os.path.exists(dir_path):
    os.makedirs(dir_path)
# 请求页面
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取所有a标签的链接地址，即rpm包文件的下载链接
links = soup.find_all('a')
for link in links:
    href = link.get('href')
    if href.endswith('.rpm'):
        print(f'Downloading {href} ...')
        # 根据链接地址下载rpm包并存储到指定目录
        response = requests.get(f'{url}/{href}')
        with open(os.path.join(dir_path, href), 'wb') as f:
            f.write(response.content)
print('All done.')

爬虫程序爬取respondata 主要建立cache 使用

修改爬虫程序中16行的字符串将rpm 修改为xml与bz2 修改url为vault.centos.org/5.5/os/x86_…

配置本地源

sudo vi /etc/yum.repos.d/myyum.repo
写入

[myyum]
name=my yum repository
baseurl=file:///path/to/local/repo
enabled=1
gpgcheck=0

sudo yum clean all
yum list
yum makecache
详细结构信息如下，

爬虫爬取rpm 总包 为 centos 5.5 搭建本地yum 源

爬虫程序爬取rpm

爬虫程序爬取respondata 主要建立cache 使用

配置本地源

爬虫爬取rpm 总包为 centos 5.5 搭建本地yum 源