使用指南

本代码用于爬取 印度时报 新闻网站首页的新闻文章（包括新闻标题，新闻链接，和发布日期三个数据）
在 Python3 环境下运行本代码，同时保证运行环境中安装有 requests，pandas 库。
运行结果保存为 "印度时报.csv" 文件，路径位于脚本同路径下（如有需要可以修改代码中 filename 的值，设置文件名和存储路径）
使用此爬虫前，请确保您的网络可以正常访问印度时报网站，否则爬虫运行会报错失败。
本爬虫仅供学习交流使用，请勿用于商业用途。

源码

import requests
import json
from bs4 import BeautifulSoup
import pandas as pd
import time

def fetchUrl(url):

    header = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
     }

    r = requests.get(url, headers = header)
    r.encoding = r.apparent_encoding
    return r.text

def parseHtml(html):

    bsObj = BeautifulSoup(html, "lxml")
    newsList = bsObj.find("div", attrs={"id": "ulItemContainer"}).ul.find_all("li")

    print(len(newsList))
    retData = []

    for item in newsList:
        a = item.find("span", attrs={"class":"w_tle"}).a
        link = "https://timesofindia.indiatimes.com" + a['href']
        title = a.text

        print([title, link])
        retData.append([title, link])

    return retData

def saveData(data, filename):

    dataframe = pd.DataFrame(data)
    dataframe.to_csv(filename, mode='a', index=False, sep=',', header=False)

if __name__ == "__main__":

    # 印度时报
    filename = "印度时报.csv"
    totalPage = 3
    for page in range(1, totalPage + 1):
        url = "https://timesofindia.indiatimes.com/news/%s" % ("" if page == 1 else str(page))
        html = fetchUrl(url)
        data = parseHtml(html)
        saveData(data, filename)
    print("爬取完成")

python爬虫实战：爬取印度时报网站首页新闻

使用指南

源码