使用指南

本代码用于爬取 RTHK新闻 新闻网站首页的新闻文章（包括新闻标题，新闻链接，和发布日期三个数据）
在 Python3 环境下运行本代码，同时保证运行环境中安装有 requests，pandas 库。
运行结果保存为 "RTHK新闻.csv" 文件，路径位于脚本同路径下（如有需要可以修改代码中 filename 的值，设置文件名和存储路径）
使用此爬虫前，请确保您的网络可以正常访问 RTHK新闻网站，否则爬虫运行会报错失败。
本爬虫仅供学习交流使用，请勿用于商业用途。

源码

import requests
import json
from bs4 import BeautifulSoup
import pandas as pd
import time

def fetchUrl(url):

    header = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
    }

    r = requests.get(url, headers = header)
    r.encoding = r.apparent_encoding
    return r.text

def parseHtml(html):

    bsObj = BeautifulSoup(html, "lxml")
    newsList = bsObj.find_all("div", attrs={"class": "ns2-inner"})

    retData = []

    for item in newsList:

        link = item.h4.a['href']
        title = item.h4.a.text
        date = item.find("div",attrs={"class":"ns2-tools"}).text.replace("\n","")

        print([date, title, link])
        retData.append([date, title, link])

    return retData

def saveData(data, filename):

    dataframe = pd.DataFrame(data)
    dataframe.to_csv(filename, mode='a', index=False, sep=',', header=False)

if __name__ == "__main__":

    # RTHK新闻
    filename = "RTHK新闻.csv"

    url = "https://news.rthk.hk/rthk/ch/latest-news.htm"
    html = fetchUrl(url)
    data = parseHtml(html)
    saveData(data, filename)
    print("爬取完成")

python爬虫实战：爬取RTHK新闻网站首页新闻

使用指南

源码