国庆旅游攻略PK:我让9款AI做行程,ChatGPT5竟然翻车,冠军出乎意料!

525 阅读9分钟

大家好,我是虎哥!

今天想跟大家聊一个话题:

马上就是国庆中秋双节了,一个长达八天的假期,不知道大家都规划好去哪里玩了吗

如果你还没规划好,那今天这篇内容正好能帮到你。

我们来做个有意思的测试,让现在市面上主流的大模型来帮我们规划一下行程,看看它们规划出来的结果到底怎么样,能不能达到我们“拿来就用”的效果,以及它们给出的参考建议价值有多大?

在没有 AI 的时代,我们自己手动做一份这样的规划,可能得花上好几天。现在有了 AI,确实方便多了,能给我们省下大量时间。

但是,不同的大模型出的结果差异很大。

有些可能只给你一些笼统的建议,而有些则会给得非常详细,甚至把具体的时间点、吃、玩、住、价格都清晰地列出来。当然,如果能把所有信息都列全,还配上文档和图片,那体验感肯定是最好的。

所以,今天我们就带着大家来实际测一测,看看这些大模型到底哪个更出色,更符合我们的预期。

Qwen3 大模型

首先要讲的是23号通义千问发布的一系列最新Qwen3大模型。

首创"思考模式"与"非思考模式"融合架构,同一模型可智能切换深度推理(22B 激活参数)与快速响应(3B 激活参数)模式,兼顾效率与准确性。

并采用混合专家(MoE)架构,旗舰模型Qwen3-235B-A22B总参数 2350 亿但激活仅 220 亿,显存占用为同性能模型 1/3

这次我们重点要测的就是千问最新的 Qwen3-Max 模型。它号称可以与 Claude Opus 4 和 Chatgpt 5 打成平手甚至更强,到底有没有那么厉害?

我们就通过一个三天的旅游规划来实际检验一下。

为了公平起见,所有的测试都将使用完全相同的提示词,看看它们最终呈现的结果如何。

国庆假期马上到了,我们一家三口准备从成都出发,去四姑娘山玩三天,10月1日出发,10月4日回来,带着娃轻松休闲一点,民宿酒店都可以,请帮我安排一下行程吧~

简单粗暴的实测

废话不多说,我们直接开测。

我们就从千问开始。

传送门:chat.qwen.ai/

首先打开千问的网站,在左上角可以看到它提供了非常多的模型选项,比如 Qwen3-MAX、Qwen3-VL-235B-A22B、Qwen3-Coder 等等,每个模型擅长的方向都列出来了,大家有兴趣可以自己去试试。

今天我们的主题是做一个国庆三天旅行攻略,所以直接在智能体中心里选择“旅行规划师”。

我给的提示词非常简单,完全模仿我们日常口语化方式,不需要写什么完美的提示词,直接告诉它:

国庆假期马上到了,我们一家三口准备从成都出发,去四姑娘山玩三天,请帮我安排一下行程吧~

有意思的是,这个智能体没有立刻开始规划,而是先向我提问,希望能补充更详细的信息。

这就体现了它背后带有推理的逻辑,它觉得我给的信息不够完善,所以反问我:

你计划什么时候出发,什么时候返回?

你是倾向于休闲徒步,还是希望挑战一下中高强度的户外活动?

住宿方面有什么偏好?

我回答它:

“10 月 1 号出发,4 号回来,带着娃,想轻松一点,民宿酒店都可以。”

然后它就开始规划了。

整个过程差不多用了八分钟,因为它不仅仅是在生成文本,而是在背后进行了深度的思考和查询。

比如,它在飞猪里查询了优质的住宿,在高德地图里规划了交通路线,还搜索了相关的景点信息。因为它本身就是阿里系的产品,调用飞猪、高德的数据有天然的优势。

它根据我的信息,为我规划了每日的详细行程,甚至还调用了高德地图的数据。最后,它做了一个总结,生成了一份非常完善的规划。

我觉得这份规划非常好,而且它很智能,完全能听懂我的意思。

4.qwen3-max 00_00_00-00_00_30.gif

我虽然说的是“玩三天”,但告诉它“1 号去,4 号回”。

理论上这可以算四天,而它也确实帮我规划了三天的游玩行程,并把第四天规划为返程,这完全符合我的想法。

最让我惊喜的是,它最后还生成了一份详细的旅行费用明细汇总,包括固定支出(住宿、门票、交通)和浮动支出(餐饮、用车、其他活动)。

它默认我们是自驾,估算的总预算大约在 4000 元左右。

最后,还有一份非常贴心的“行程准备与建议”,提醒我要提前预约景点、带好证件,还给出了穿衣指数、带小孩的注意事项,以及需要准备的物品清单,比如防晒霜、墨镜、儿童用品等等,非常详细。

它甚至还把所有内容汇总成了一个 PDF 文档。

整体来说,这份规划的参考价值非常大。

如果让我给推荐指数,千问绝对是五颗星。

推荐指数:⭐⭐⭐⭐⭐

其他大模型表现

DeepSeek3.1

用同样的提示词,它反应很快,16 秒就完成了。

它也进行了联网搜索,但只是搜了一些网页链接,而不是像千问那样调用 API 接口查询实时数据,所以信息没那么全面。

2.deepseek3.1 00_00_00-00_00_30.gif

规划只给了三天,没有第四天返程的安排。行程安排也比较笼笼统统,只有上午、中午、下午,没有具体时间点,更没有费用汇总。

推荐指数:⭐⭐⭐

豆包

它用的也是自己的思考模型,和 DeepSeek 有点类似,也是通过搜索网络文章来做总结。

5.豆包 00_00_00-00_00_30.gif

它规划的也是三天行程,没有第四天返程。但比 DeepSeek 好一点的是,它给出了具体的活动时间,并且做了一个费用预算汇总,估算是 3000 到 4500 元,和千问的差不多。注意事项写得没那么详细。

推荐指数:⭐⭐⭐⭐

腾讯元宝-混元T1

它用的是混元-pro 模型,同样联网搜索,用时 8 秒。

9.腾讯混元t1 00_00_00-00_00_30.gif

但搜到的网页内容不一定准。它也只安排了三天的行程,住宿推荐写得比较简单。最大的问题是预算,它估算只要 2200 元,其中两晚住宿才 600 元,这在国庆期间的四姑娘山几乎是不可能的。

信息不够准确,推荐指数只能给到两星半到三星。

推荐指数:⭐⭐✨

Kimi K2

用同样的提示词,它也是深度思考后去各大旅游网站搜帖子。整理出来的行程同样只有三天,时间点也比较笼统。

3.kimi K2 00_00_00-00_00_30.gif

虽然列了住宿和美食推荐,但没有做整体的费用汇总,内容比较简单。

推荐指数:⭐⭐✨

360 纳米 AI 智能体

它耗时五分钟,先分析需求,然后去搜索景点、住宿、餐厅。

6.360纳米AI智能体 00_00_00-00_00_30.gif

它把景点的图片、门票和一些吃的地方列得比较详细,但没有规划具体的时间线和行程安排,也没有提任何准备事项。

推荐指数:⭐⭐⭐

ChatGPT (GPT-5)

我们用的是它最先进的模型。

同样,它也只规划了三天的行程,而且也是按早上、中午、下午来划分,没有具体时间点。关于吃的、住的、费用,什么都没有提。

7.chatgpt5 00_00_00-00_00_30.gif

我猜可能是因为它无法查询国内旅游网站的实时信息,整体参考价值不大。

推荐指数:⭐⭐⭐

Gemini 2.5 Pro

用同样的提示词,它思考了几十秒,规划得相当详细。

它很懂我的意思,直接规划了四天行程,前三天游玩,第四天返程,这非常符合我的要求。

1.gemini 2.5pro 00_00_00-00_00_30.gif

行程安排里有具体的时间点、路线、活动内容,甚至还有“亲子贴士”,写得特别好。行前准备也很充分,提到了高反预案、提前预订酒店门票、必备衣物和住宿建议。参考价值非常大,至少可以打四星半。

推荐指数:⭐⭐⭐⭐✨

Claude 4.1 Opus

最后是压轴出场的 Claude。

它和千问、Gemini 一样,准确地规划了四天行程。

8.claude opus4.1 00_00_00-00_00_30.gif

也有具体的时间点和路线规划。但美中不足的是,它没有提供费用明细和预算。虽然温馨提示里也提到了高反等注意事项,但感觉没有 Gemini 那么详细。

推荐指数:⭐⭐⭐

总结一下

经过对这九个大模型的测试,能够准确理解我的意图(1 号去、4 号回=玩三天+返程一天),并规划出四天行程的,只有通义千问、Gemini 2.5 Pro 和 Claude 3 Opus

其中,做得最好的,我认为是通义千问。这可能得益于它阿里系的背景优势,可以直接调用飞猪、高德的 API 来查询实时数据,让规划变得异常详细和实用,基本上可以直接拿着它的方案去预订酒店和安排出行了。

其他几家国产模型,比如豆包,表现也还可以,优势在于能提供一个大致的费用预算。而像 ChatGPT、Kimi、元宝等,则没有准确理解我的出行天数,都只规划了三天。

一个有趣的发现是,国内的大模型大多能联网查询并给出预算参考,而国外的大模型(ChatGPT、Claude)在这方面则有所欠缺,不知道是无法联网查询还是其他原因。在预算的准确性上,我觉得千问给出的估算(4000 元左右)是最符合我心理预期(4500-5000 元)的。

好了,今天的测评结果就是这样。大家如果想做假期规划,可以参考我这个推荐指数来选择工具,尽快搞定国庆旅程。当然,你给的提示词越详细,模型返回的结果也会越好。

今天就简单介绍到这里,祝大家国庆假期快乐,假期不更新,我们下期再见!

觉得有用别忘了给虎哥点个 ,今天就这样,先撤了!👍