当大模型已经足够强,真正卡住企业的为什么是“它不肯做”

0 阅读9分钟

当大模型已经足够强,真正卡住企业的为什么是“它不肯做”

向AI弃权 / HUMAN STILL / Ariana千束

核心议题词:大模型、agent、平台规则、使用政策、自部署、任务边界、自动化、风控

过去一年,很多人讨论大模型,重点还是能力上限。

谁更会写代码,谁更会调工具,谁更像一个能自主执行的助手,谁更适合做 agent。

但如果把视角从 demo 和 benchmark 拉回真实业务,会发现越来越多企业先撞上的,并不是“模型还不够强”,而是另一件更现实的事:

模型明明看懂了任务,也明明有能力做,却开始拒绝做。

这不是体验层的小摩擦,而是一个正在抬头的基础问题:

当平台模型越来越强,谁有权定义它替你干哪些活,不替你干哪些活?

这篇想讲清楚三件事:

  1. 为什么“拒绝执行”正在变成比“能力不足”更早出现的问题
  2. 平台模型到底在拒绝哪些现实任务
  3. 为什么这会把很多企业推向国产模型或自部署

一、企业真正先撞上的,往往不是能力边界,而是任务边界

如果你只看产品宣传,会觉得今天的大模型已经越来越像一个万能执行器。

它能写代码,能接工具,能解释网页,能跑工作流,能接浏览器,能调用 API,能完成越来越复杂的多步任务。

但真正把模型放进生产环境以后,企业遇到的第一个大问题,常常不是“它不会”,而是“它不接”。

这个变化为什么重要?

因为企业真实想交给模型的任务,很多都不只是“总结一篇文章”或者“写一段文案”,而是:

  • 批量账号操作
  • 平台数据抓取
  • 风控对抗测试
  • 多账号协同
  • 长链路网页自动化
  • 带有规避、伪装、绕限制意味的执行动作

这些任务恰恰是最接近真实利润、真实效率和真实业务价值的地方。

问题是,平台模型越来越不愿意在这些地方往前走。

换句话说,今天很多公司不是卡在“模型有没有能力执行”,而是卡在:

模型供应商愿不愿意让它执行。

二、平台模型最先拒绝的,往往正是最接近现实利润的那部分工作

如果把不同类型的业务放在一起看,会发现最容易撞上拒绝的,大概有五类。

1. 中转和账号生意

很多做模型中转、账号养号、优惠套利的人,原来对平台模型有一个很自然的期待:

既然你已经这么会写脚本、会理解流程、会分析页面,那你总可以帮我把底层重复动作也一起做掉。

但现实是,模型越强,平台越清楚它不能帮你碰哪些环节。

批量注册、规避检测、绕限制、薅优惠、保持账号存活,这些动作不是做不到,而是越来越容易被识别为不该协助。

2. 抓取和监测类自动化

做竞品监测、舆情采集、跨站抓取、评论整理的小团队,原来觉得自己做的是“自动化”。

但平台模型未必按他们的业务语言理解任务。

一旦需求里出现持续批量、跨站采集、绕限制、抓取对方不想主动开放的数据,模型就会明显保守起来。

最麻烦的不是从一开始就拒绝,而是:

做到一半突然收手。

这会直接破坏工作流稳定性。

3. 矩阵号和多账号协同

很多内容团队真正想让模型接手的,不是“帮我写一篇文案”,而是:

  • 批量生成多版本内容
  • 统一互动节奏
  • 管理多账号协同动作
  • 半自动维护评论、私信、导流和分发

而平台模型最敏感的,恰恰也是这些“最赚钱但最不体面”的部分。

4. 风控对抗和安全测试

做内部安全测试、反作弊、风控对抗的人,其实经常会被误伤。

因为从模型视角看,他们研究的是:

  • 提权
  • 漏洞路径
  • 绕过机制
  • 攻击链
  • 自动化试探

企业说自己是在做防守演练,平台模型看到的却可能是攻击者语言。

5. 长链路浏览器和后台操作

真正愿意为 agent 付钱的人,很多都不是拿它聊天,而是拿它接真实工作流。

但一旦流程里带上后台、表单、批量、账号协同、绕限制这些味道,问题就不再是“会不会点按钮”,而是“该不该继续往下做”。

三、这不是用户错觉,平台已经把边界写成明文规则

这件事最值得重视的地方在于,它不是“用户敏感”或者“某次回答保守”。

很多边界,平台已经明确写进公开政策。

OpenAI

OpenAI 现行使用政策生效于 2025 年 10 月 29 日,公开规则里明确禁止恶意网络活动、未经请求的安全测试、绕过安全措施、欺诈、冒充和垃圾信息。

openai-usage-policy.png

OpenAI 对智能体还有单独政策,更新时间为 2025 年 7 月 17 日,针对钓鱼、冒充、虚假店铺、虚假评价和绕限制等问题写得更细。

Anthropic

Anthropic 的智能体使用政策也不是抽象道德宣示,而是直接把未授权监控、数据收集、系统访问、恶意程序、提权和系统利用列进不可协助范围。

anthropic-agent-policy.png

这说明一件事:

平台模型不是“偶尔保守”,而是在制度化收边界。

DeepSeek 与阿里云百炼

国内也不是天然什么都肯做。

DeepSeek 的中文用户协议里,明确写到不得规避服务检测、不得通过越狱攻击等方式恶意对抗安全机制,也不得通过机器人、爬虫、镜像等方式抓取和复制服务及内容。

deepseek-terms.png

阿里云百炼的智能体应用文档也给出很明确的系统侧信号:触发内容安全策略后,会拦截全部生成内容,并提示存在安全问题。

aliyun-bailian-safety.png

也就是说,差别不再只是“哪家讲得更严”,而是:

几乎所有平台都在把限制做成规则层和系统层。

四、为什么这会把很多企业推向国产模型或自部署

当任务落在灰区、争议区、平台不愿背锅的区域时,企业会马上意识到一个问题:

你可以买平台模型的能力,但你买不到最后那道边界的定义权。

这时候企业常见的选择只剩三种:

  1. 换一家平台
  2. 换一个国家或生态里的模型
  3. 自己部署一套系统,把边界定义权拿回来

很多公司最后转向国产模型,或者干脆做本地 / 私有化部署,并不一定是因为平台模型突然不强了。

更真实的原因往往是:

平台再强,也终究是平台的。

它可以卖你算力、卖你上下文、卖你工具接入能力,但不会把自己不愿承担后果的任务定义权卖给你。

五、自部署解决的,不是万能,而是控制权

这里也需要避免另一个常见误判:

自部署不是“从此模型什么都肯做”。

模型本身仍然带着训练偏好、默认倾向和残留安全约束。你把它搬到自己环境里,不代表它立刻变成一个绝对服从的执行器。

但自部署确实会改变一件关键的事:

你终于可以自己决定,这套系统接哪些工具,保留哪些限制,拆掉哪些限制,谁来承担后果。

这也是为什么“平台模型”和“自部署模型”的分水岭,已经越来越不像传统的“谁更聪明”,而更像:

  • 谁更适合接真实流程
  • 谁更稳
  • 谁更便宜
  • 谁更不容易在关键节点临阵退缩
  • 谁把最后的决定权交给了你

六、真正的问题不是哪家更坏,而是谁来划这条线

最后最值得追问的,其实不是“平台模型到底好不好”,而是:

到底什么算脏活?

批量注册账号薅优惠,大多数人会觉得这当然算。
绕过检测、伪装真人、批量做假互动,很多人也会觉得不冤。

但再往外走一步,边界就开始模糊了:

  • 竞品数据抓取算不算
  • 矩阵运营算不算
  • 平台不喜欢但行业默认都在做的自动化算不算
  • 企业为防守而做的攻击路径模拟算不算

这些问题不只是合规问题,也是权力问题。

因为当人工智能已经足够强,真正稀缺的就不再只是能力,而是:

谁有权定义它替你干哪些活,不替你干哪些活。

结语

很多人还在按旧思路理解 AI 竞争:谁的模型更强,谁的产品更像人,谁的 demo 更惊艳。

但现实世界里的第一道分水岭,可能已经不是“能力边界”,而是“任务边界”。

平台模型越来越强,企业却越来越早地撞上拒绝。

这不是矛盾,而是一个更成熟、更现实的阶段已经开始了。

未来真正把平台模型、自部署模型、国产模型和 agent 系统区分开的,未必只是智力水平,而是:

谁有定义权,谁敢承担后果,谁能让系统在关键地方继续往下做。

如果你也在持续关注模型限制、自部署、智能体工作流和平台规则,可以继续看「向AI弃权」。