渲染页面抓取器

24 阅读1分钟

渲染页面抓取器,可获取 JS 渲染后的完整网页数据

基于 Selenium 驱动的浏览器自动化框架,该技术能够高效、完整地获取由 JavaScript (JS) 动态渲染生成的网页数据。

解决直接发起 HTTP 请求无法加载前端渲染内容的问题。

开源地址:github.com/CarpCap/ren…

🍕 在线体验

海外服务器,延迟比较高

rc.carpcap.com

🌭 功能说明

比如:通过http直接请求baidu 返回结果大概是这样的,本身因为没有任何请求头以及js执行,本质只是一次get请求

<html>
<head><title>301 Moved Permanently</title></head>
<body>
<center><h1>301 Moved Permanently</h1></center>
<hr/>Powered by Tengine<hr><center>tengine</center>
</body>
</html>

但如果通过 Render Crawler

image.png