一、前言
最近我在尝试做一个“用 AI 自动获取和分析新闻”的项目,在实践过程中,摸索出几种常见的实现方式。今天就来整理分享一下这些方式,从最基础的“爬虫抓取”到“调用大模型”,希望能帮大家快速入门。
二、获取新闻的几种主流方式
2.1 使用 Python 写爬虫抓取网页新闻(传统方式)
在没有 AI 之前,最常见的方式是写爬虫程序,自动访问新闻网站,然后提取里面的新闻内容。
简单理解爬虫:
- 就像你打开浏览器访问网站,然后手动复制新闻标题和链接;
- 但爬虫是程序自动去访问网页,然后提取信息的;
- 爬虫可以跑在服务器上,定时自动抓新闻;
常用工具:
requests:用于向网页发送请求;beautifulsoup4:用于解析网页结构,找到新闻内容;fake_useragent(可选):伪装成浏览器,避免被封;
示例代码(抓取新浪财经新闻):
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
def fetch_news():
url = "https://xxx.xxx.xxx.cn/stock/" # 示例URL
headers = {
"User-Agent": UserAgent().random
}
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.content, "html.parser")
# 继续查找具体新闻内容…
阶段总结:
- ✅ 优点:控制力强、适配灵活;
- ❌ 缺点:开发麻烦、网页结构一改就挂、可能存在法律风险;
- 🔧 适合:熟悉 Python 的开发者、对目标站点结构非常了解;
2.2 使用聚合平台的接口(推荐方式)
聚合平台就是把很多新闻网站的数据统一整理好,你只要调用它们的接口就能拿到数据,不用自己爬。
推荐平台示例:
- 博查AI、聚合数据、阿里云、百度API市场等;
- 有的还提供关键词搜索、智能摘要、分类标签等功能;
核心优点:
- 快速、稳定、不容易被封;
- 多数平台数据合法合规;
- 很多还支持 AI 搜索能力,适合做 Agent 接入;
示例代码(调用博查 API):
class WebSearchClient:
def __init__(self, api_key):
self.api_key = api_key
self.base_url = "https://api.bochaai.com/v1/web-search"
def search(self, query):
headers = {"Authorization": f"Bearer {self.api_key}"}
payload = {"query": query, "count": 10}
response = requests.post(self.base_url, headers=headers, json=payload)
return response.json()
阶段总结:
- ✅ 优点:开发简单、数据质量好;
- 💰 成本:一般按照调用次数计费,几分钱一次;
- 🧠 用途:适合快速搭建 AI 新闻系统、MCP 支持系统;
2.3 直接使用 AI 模型厂商的 WebSearch 功能
现在很多大模型(如 Moonshot、Kimi、DeepSeek 等)都内置了网页搜索能力,你可以直接通过它们的接口来查找新闻。
特点:
- 你只需要告诉它要查什么,它会自动搜索并总结;
- AI 模型会“理解”你的查询,而不只是关键词匹配;
- 甚至你可以让它整理成结构化数据、生成摘要等;
示例代码(调用 Moonshot API):
from openai import OpenAI
client = OpenAI(api_key="sk-xxx", base_url="https://api.moonshot.cn/v1")
messages = [
{"role": "system", "content": "你是金融新闻助手"},
{"role": "user", "content": "请告诉我今天的财经热点"}
]
result = client.chat.completions.create(model="moonshot-v1-128k", messages=messages)
print(result.choices[0].message.content)
阶段总结:
- ✅ 优点:最省事,直接出结果;
- ❌ 缺点:灵活性低、结果依赖模型本身;
- 💰 费用:按模型调用计费,一般比 API 调用贵;
- 🎯 适合:快速原型、嵌入智能Agent;
2.4 使用 AI 综合平台(高级集成玩法)
如果你要构建一个“大脑”式的 AI 组件,可以使用类似“阿里云百炼”、“百度千帆”这类 AI 平台。
特点:
- 支持自定义流程(Prompt Flow)、模型编排;
- 一键集成搜索、内容生成、摘要、翻译等功能;
- 可以对接企业自己的数据或中台系统;
示例(阿里云 DashScope):
from dashscope import Application
response = Application.call(
api_key="sk-xxxx",
app_id="你的应用ID",
prompt="告诉我今天有哪些新闻热点"
)
print(response.output.text)
阶段总结:
- ✅ 灵活性强,适合企业场景;
- 💰 费用因平台而异,但可以免费试用;
- 🧠 可用于打造企业内部 Agent 系统或MCP中控系统;
三、总结对比表格
| 方式 | 难度 | 成本 | 风险 | 适合人群 |
|---|---|---|---|---|
| 写爬虫 | 高 | 低 | 有违法风险 | 技术开发者 |
| 聚合平台API | 中 | 中(几分钱/次) | 基本无 | 初级开发者 |
| 大模型WebSearch | 低 | 中偏高 | 无 | 产品验证/AI爱好者 |
| 综合AI平台 | 中高 | 中 | 无 | 企业级应用开发者 |
四、结语
现在用 AI 来自动化获取新闻已经非常方便了。无论你是写脚本的小团队,还是搭 Agent 的大公司,总能找到适合你的方案。未来如果模型更便宜、API 更开放,这类应用会变得像“开水龙头一样容易”。
如果你也在做类似项目,欢迎一起交流!