AI导航站建站1-自动爬虫框架搭建
这里我们部署tap4-ai-crawler,实现为AI导航站自动爬取最新的AI产品信息功能。
主要功能: 1、LLM 总结的网站信息 2、网页截图
一 部署
1、图片服务器部署
图片服务器使用Cloudflare的R2,Cloudflare R2 提供了对象存储服务。 提供每月10GB的免费存储空间,1000万次的免费请求次数。 Cloudflare R2 是与 CDN二合一的。 在传统的云数据库服务中,还需要操心额外的CDN配置,抗DDoS等等问题。 但 Cloudflare完全不需要,只要勾选配置启用,你的 R2 数据可以直接被全世界读取。
创建bucket input-bucket-name-like-tap4-oss 配置cors 策略:
{
"AllowedOrigins": [
"*"
],
"AllowedMethods": [
"GET",
"POST",
"PUT",
"DELETE",
"HEAD"
],
"AllowedHeaders": [
"*"
]
}
]
默认创建的R2 是不能公共访问的,需要放开:
为 R2 API 创建 R2 API Token,并选择具有对象读写权限的权限。保存您的参数:ENDPOINT_URL、BUCKET_NAME、ACCESS_KEY_ID、SECRET_ACCESS_KEY、CUSTOM_DOMAIN。这些参数将在.tap4-ai-crawler 的.env 文件中配置。
这里需要重新点击R2的概述,选择管理API令牌
记录下面页面的所有参数:
2 在 本地部署测试
本地环境 python 3+ 首先clone github.com/6677-ai/tap… 到本地 pycharm 打开 项目 这里需要注意,如果你是科学上网,需要在llm_util.py 增加科学上网的代理设置:
from groq import Groq
import logging
from transformers import LlamaTokenizer
from util.common_util import CommonUtil
# 设置代理
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7897'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7897'
win10下调用链接注意要转义:
curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer 4487f197tap4ai8Zh42Ufi6mAHWGdy" -d "{\"url\": \"https://tap4.ai\", \"tags\": [\"ai-detector\", \"chatbot\", \"text-writing\", \"image\", \"code-it\"]}" http://127.0.0.1:8040/site/crawl
这里遇到问题 他模拟浏览器下载用的是pyppeteer, 但是__chromium_revision__ = '1181205' 无法安装 这里需要修改:
- 通过 网站
https://chromium.woolyss.com/download/获取chromium版本, - 通过 修改文件
[python path]/Lib/site-packages/pyppeteer/__init__.py中变量__chromium_revision__的值 例如__chromium_revision__ = '1265049'。 - 保存后重新运行
pyppeteer相关脚本即可自动下载安装chromium。
正常返回内容了: