\n\nSerpApi 通过单一 API 调用替代了繁琐的网页爬虫。它解决了验证码、IP 封禁等维护难题,为 AI 团队提供实时结构化数据,有效减少模型幻觉,使开发者能专注于核心产品开发。
译自:AI teams are spending months on web scrapers that SerpApi replaces with one API call
作者:Carly Page
如果你想在 AI 系统中获取新鲜数据,通常最终会通过一些混乱的手段来达成。
多年来,这意味着抓取搜索引擎。这并非因为开发者喜欢这样做,而是因为替代方案一直有限、不一致或被封锁。随着 AI 工具越来越依赖实时信息,这种变通方法开始显得力不从心。
SerpApi 的主张非常直接:别费劲去爬取了,直接调用 API 即可。
SerpApi 是一款网页搜索 API,它从 Google 和 Amazon 等搜索引擎中提取结果,并以结构化 JSON 的形式返回,同时在后台悄无声息地处理那些令人头疼的常见问题。没有验证码(CAPTCHA),无需操心代理切换,也不会在醒来时发现页面布局改变导致一切崩溃。它只提供你可以直接插入应用程序的结果。
这听起来可能并不高大上。但它解决了一个一旦团队跨越原型阶段就往往会令其精疲力竭的问题。
“当团队开始大规模抓取时,他们会不断地与 IP 封锁和验证码作斗争,并且每当搜索引擎平台更改布局时,都必须修复损坏的解析器。” — Noraina Nordin, SerpApi
“当团队开始大规模抓取时,他们会不断地与 IP 封锁和验证码作斗争,并且每当搜索引擎平台更改布局时,都必须修复损坏的解析器,”SerpApi 的技术内容开发人员 Noraina Nordin 说道。“他们最终会将大部分时间花在维护爬虫上,而不是专注于自己的产品。”
“爬虫税”
在早期,大多数团队可以通过简单的设置应付过去。一些脚本、几个端点,如果情况变得麻烦,也许再加上代理。这种方式在一段时间内是有效的。
但随着规模扩大,情况就不同了。随着使用量的增长,请求失败的频率开始增加,搜索引擎开始反击,甚至微小的布局变化也会导致系统崩溃。团队最终陷入了轮换代理、处理验证码、重写解析器,以及查明为什么数据会在一夜之间突然中断的循环中。起初这并不总是显而易见,但重点发生了转移。你花在构建功能上的时间变少了,而花在防止爬虫崩溃上的时间变多了。
这种开销不仅是技术上的,也是方向性的。花在维持爬虫生存上的时间,就是没有花在改进它们原本要支持的产品上的时间。
通过 SerpApi,开发者调用 API,平台处理剩余工作,响应以结构化数据的形式返回,可以直接放入应用程序、流水线或模型上下文中。
https://serpapi.com/search.json?engine=google&q=Coffee&location=Austin,+Texas,+United+States&google_domain=google.com&hl=en&gl=us
在这背后,该公司正在做大多数团队宁愿避开的枯燥工作。
“我们持续监控变化,”Nordin 说。“对于使用我们 API 的团队来说,这不再是他们的问题。这正是核心所在。他们调用 API,我们在后端处理一切。”
通往 Web 的五个入口
SerpApi 平台的核心是几个连接到开发者最依赖的搜索产品的 API。
Google 搜索 API 仍然是支柱,为应用程序和 AI 智能体(agents)提供网页结果的实时检索。它是目前最接近互联网实时动态的通用数据源。
还有 Google AI 概览(AI Overview)API,它提取现在位于许多搜索结果页面顶部的总结性回答。对于构建 AI 产品的团队来说,这些摘要正变得与下方的链接同样重要。
如果你在处理地理位置,这通常意味着 Google 地图 API。它提取地点、评论和所有常见的背景信息,因此常被用于推荐功能、旅游应用等。
电子商务则是完全不同的用例。Google 购物 API 和 Amazon 搜索 API 提取产品列表、价格和库存情况,这就是为什么它们常出现在价格追踪器、比较工具和其他市场监控工具中。
“排名前三的是 Google 搜索 API、Google 购物 API 和 Google 地图 API,”Nordin 说。“Google 搜索被那些需要可靠、实时网页搜索结果作为智能体内工具调用的开发者使用。Google 购物用于电子商务,主要由构建价格情报工具或产品比较功能的团队使用。Google 地图则用于本地搜索和推荐用例。”
除此之外,SerpApi 支持 100 多个搜索引擎。这个数字很重要,但更多的是作为一个信号,表明它旨在支持所有底层需求,而不仅仅是处理一次性的集成。
为什么 AI 总是让搜索重新回到视野
对搜索数据的重新关注并非孤立发生的。AI 正在推动这一趋势。
大语言模型擅长生成答案,但它们仍然受限于训练数据。当某些事情发生变化时,它们会靠猜,有时甚至非常自信地瞎猜。
“当 LLM 对训练截止日期之后发生的变化进行猜测时,最容易产生幻觉。” — Noraina Nordin, SerpApi
这就是实时搜索重新发挥作用的地方。
当被问及实时数据能减少多少幻觉时,Nordin 说:“非常多,尤其是对于任何有时效性的内容。当 LLM 对训练截止日期之后发生的变化进行猜测时,最容易产生幻觉。”
即使模型开始附带内置的网页搜索功能,这些工具也并不总是适合生产系统。
“问题在于,用户无法控制它何时运行搜索、从哪个来源提取数据,或者数据的实时性如何,”她说。“对于 AI 智能体和 RAG 流水线,他们需要用户可以检查和信任的结构化搜索数据。直接调用我们的搜索 API 让用户可以控制查询、时机以及进入模型上下文的内容。”
这种控制权才是关键所在。
开发者可以自主选择提取什么内容、何时提取以及如何将其喂给系统,而不是交由模型去抓取它认为相关的任何内容。这对于任何需要可预测性或易于审计的系统都至关重要。
从爬虫转向构建
实时搜索数据的用例非常直接,但它们无处不在。
SEO 团队追踪排名和竞争对手,电商平台监控跨市场的定价和库存,研究人员将数据整合到自己的分析中。对于 AI 团队来说,这是让模型更贴近现实世界信息的一种方式。
AI 智能体是该列表中的新成员,但它们正迅速成为需求最苛刻的成员之一。
一个能够规划和执行任务的智能体需要访问最新信息,并且需要以开发者可以可靠解析并传递给模型的格式获取。原始 HTML 并不理想,而干净的 JSON 响应才是。
这就是 SerpApi 的定位。它不试图成为模型、编排层或应用程序本身。它位于底层,提供一种获取外部世界的连贯方式。
从多方面来看,这正是决定系统其余部分能否运作的那个“不起眼”的层。
尽管 AI 取得了长足进步,但问题并没有真正消失。模型仍然需要数据,而获取任何新鲜数据仍然很麻烦。当没有更好的选择时,团队会退回到爬虫手段。
SerpApi 的赌注是开发者已经准备好放弃这种退路。不是因为爬虫不可能实现,而是因为它是一种干扰。
如果 API 尽职尽责,团队就可以减少与验证码和损坏的选择器作斗争的时间,而将更多时间用于构建他们最初想要构建的东西。对于他们中的大多数人来说,那个目标从来都不是爬虫。
想在实践中看看吗?SerpApi 的 Playground 提供了一种快速测试实时搜索查询并检查输出的方法。端 工智能