最近有款爬虫仓库很火,叫做MediaCrawler,可以爬取快手,B站,抖音,小红书上面的视频。
其实,爬虫原理无非就是模拟登录,获取页面的dom信息,获取video标签里面的src属性,利用requests库获取视频内容,将视频内容下载到本地就可以啦
下面是一个我用python写的爬取视频的例子,看完即理解原理。
import requests
from bs4 import BeautifulSoup
res = requests.get("http://localhost:3000")
soup = BeautifulSoup(res.content, 'html.parser')
video_links = []
for video in soup.find_all('video'):
video_links.append(video['src'])
def get_mp4(url1):
mp4 = requests.get(url1)
return mp4.content
with open('download.mp4', 'wb') as f:
mp4 = get_mp4(video_links[0])
f.write(mp4)