AI导航站建站1-自动爬虫框架搭建

180 阅读2分钟

AI导航站建站1-自动爬虫框架搭建

github.com/6677-ai/tap…

这里我们部署tap4-ai-crawler,实现为AI导航站自动爬取最新的AI产品信息功能。

主要功能: 1、LLM 总结的网站信息 2、网页截图

一 部署

1、图片服务器部署

图片服务器使用Cloudflare的R2,Cloudflare R2 提供了对象存储服务。 提供每月10GB的免费存储空间,1000万次的免费请求次数。 Cloudflare R2 是与 CDN二合一的。 在传统的云数据库服务中,还需要操心额外的CDN配置,抗DDoS等等问题。 但 Cloudflare完全不需要,只要勾选配置启用,你的 R2 数据可以直接被全世界读取。

image.png

创建bucket input-bucket-name-like-tap4-oss 配置cors 策略:

  {
    "AllowedOrigins": [
      "*"
    ],
    "AllowedMethods": [
      "GET",
      "POST",
      "PUT",
      "DELETE",
      "HEAD"
    ],
    "AllowedHeaders": [
      "*"
    ]
  }
]

image.png

默认创建的R2 是不能公共访问的,需要放开:

image.png

为 R2 API 创建 R2 API Token,并选择具有对象读写权限的权限。保存您的参数:ENDPOINT_URL、BUCKET_NAME、ACCESS_KEY_ID、SECRET_ACCESS_KEY、CUSTOM_DOMAIN。这些参数将在.tap4-ai-crawler 的.env 文件中配置。

这里需要重新点击R2的概述,选择管理API令牌

image.png

image.png

记录下面页面的所有参数:

image.png

2 在 本地部署测试

本地环境 python 3+ 首先clone github.com/6677-ai/tap… 到本地 pycharm 打开 项目 这里需要注意,如果你是科学上网,需要在llm_util.py 增加科学上网的代理设置:

from groq import Groq
import logging
from transformers import LlamaTokenizer
from util.common_util import CommonUtil

# 设置代理
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7897'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7897'

win10下调用链接注意要转义: curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer 4487f197tap4ai8Zh42Ufi6mAHWGdy" -d "{\"url\": \"https://tap4.ai\", \"tags\": [\"ai-detector\", \"chatbot\", \"text-writing\", \"image\", \"code-it\"]}" http://127.0.0.1:8040/site/crawl

这里遇到问题 他模拟浏览器下载用的是pyppeteer, 但是__chromium_revision__ = '1181205' 无法安装 这里需要修改:

  1. 通过 网站 https://chromium.woolyss.com/download/ 获取chromium版本,
  2. 通过 修改文件 [python path]/Lib/site-packages/pyppeteer/__init__.py中变量__chromium_revision__的值 例如 __chromium_revision__ = '1265049'
  3. 保存后重新运行pyppeteer相关脚本即可自动下载安装chromium。

image.png

正常返回内容了:

image.png