解构requests爬取视频,并且下载视频的流程

203 阅读1分钟

最近有款爬虫仓库很火,叫做MediaCrawler,可以爬取快手,B站,抖音,小红书上面的视频。

其实,爬虫原理无非就是模拟登录,获取页面的dom信息,获取video标签里面的src属性,利用requests库获取视频内容,将视频内容下载到本地就可以啦

下面是一个我用python写的爬取视频的例子,看完即理解原理。

import requests
from bs4 import BeautifulSoup

res = requests.get("http://localhost:3000")

soup = BeautifulSoup(res.content, 'html.parser')

video_links = []
for video in soup.find_all('video'):
    video_links.append(video['src'])

def get_mp4(url1):
    mp4 = requests.get(url1)
    return mp4.content

with open('download.mp4', 'wb') as f:
    mp4 = get_mp4(video_links[0])
    f.write(mp4)