AI导航站建站1-自动爬虫框架搭建AI导航站建站1-自动爬虫框架搭建 https://github.com/6677-a

AI导航站建站1-自动爬虫框架搭建

这里我们部署tap4-ai-crawler，实现为AI导航站自动爬取最新的AI产品信息功能。

主要功能： 1、LLM 总结的网站信息 2、网页截图

一部署

1、图片服务器部署

图片服务器使用Cloudflare的R2，Cloudflare R2 提供了对象存储服务。提供每月10GB的免费存储空间，1000万次的免费请求次数。 Cloudflare R2 是与 CDN二合一的。在传统的云数据库服务中，还需要操心额外的CDN配置，抗DDoS等等问题。但 Cloudflare完全不需要，只要勾选配置启用，你的 R2 数据可以直接被全世界读取。

创建bucket input-bucket-name-like-tap4-oss 配置cors 策略：

  {
    "AllowedOrigins": [
      "*"
    ],
    "AllowedMethods": [
      "GET",
      "POST",
      "PUT",
      "DELETE",
      "HEAD"
    ],
    "AllowedHeaders": [
      "*"
    ]
  }
]

默认创建的R2 是不能公共访问的，需要放开：

为 R2 API 创建 R2 API Token，并选择具有对象读写权限的权限。保存您的参数：ENDPOINT_URL、BUCKET_NAME、ACCESS_KEY_ID、SECRET_ACCESS_KEY、CUSTOM_DOMAIN。这些参数将在.tap4-ai-crawler 的.env 文件中配置。

这里需要重新点击R2的概述，选择管理API令牌

记录下面页面的所有参数：

2 在本地部署测试

本地环境 python 3+ 首先clone github.com/6677-ai/tap… 到本地 pycharm 打开项目这里需要注意，如果你是科学上网，需要在llm_util.py 增加科学上网的代理设置：

from groq import Groq
import logging
from transformers import LlamaTokenizer
from util.common_util import CommonUtil

# 设置代理
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7897'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7897'

win10下调用链接注意要转义： curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer 4487f197tap4ai8Zh42Ufi6mAHWGdy" -d "{\"url\": \"https://tap4.ai\", \"tags\": [\"ai-detector\", \"chatbot\", \"text-writing\", \"image\", \"code-it\"]}" http://127.0.0.1:8040/site/crawl

这里遇到问题他模拟浏览器下载用的是pyppeteer，但是__chromium_revision__ = '1181205' 无法安装这里需要修改：

通过网站 https://chromium.woolyss.com/download/ 获取chromium版本，
通过修改文件 [python path]/Lib/site-packages/pyppeteer/__init__.py中变量__chromium_revision__的值例如 __chromium_revision__ = '1265049'。
保存后重新运行pyppeteer相关脚本即可自动下载安装chromium。

正常返回内容了：

AI导航站建站1-自动爬虫框架搭建