当大模型已经足够强,真正卡住企业的为什么是“它不肯做”
向AI弃权 / HUMAN STILL / Ariana千束
核心议题词:大模型、agent、平台规则、使用政策、自部署、任务边界、自动化、风控
过去一年,很多人讨论大模型,重点还是能力上限。
谁更会写代码,谁更会调工具,谁更像一个能自主执行的助手,谁更适合做 agent。
但如果把视角从 demo 和 benchmark 拉回真实业务,会发现越来越多企业先撞上的,并不是“模型还不够强”,而是另一件更现实的事:
模型明明看懂了任务,也明明有能力做,却开始拒绝做。
这不是体验层的小摩擦,而是一个正在抬头的基础问题:
当平台模型越来越强,谁有权定义它替你干哪些活,不替你干哪些活?
这篇想讲清楚三件事:
- 为什么“拒绝执行”正在变成比“能力不足”更早出现的问题
- 平台模型到底在拒绝哪些现实任务
- 为什么这会把很多企业推向国产模型或自部署
一、企业真正先撞上的,往往不是能力边界,而是任务边界
如果你只看产品宣传,会觉得今天的大模型已经越来越像一个万能执行器。
它能写代码,能接工具,能解释网页,能跑工作流,能接浏览器,能调用 API,能完成越来越复杂的多步任务。
但真正把模型放进生产环境以后,企业遇到的第一个大问题,常常不是“它不会”,而是“它不接”。
这个变化为什么重要?
因为企业真实想交给模型的任务,很多都不只是“总结一篇文章”或者“写一段文案”,而是:
- 批量账号操作
- 平台数据抓取
- 风控对抗测试
- 多账号协同
- 长链路网页自动化
- 带有规避、伪装、绕限制意味的执行动作
这些任务恰恰是最接近真实利润、真实效率和真实业务价值的地方。
问题是,平台模型越来越不愿意在这些地方往前走。
换句话说,今天很多公司不是卡在“模型有没有能力执行”,而是卡在:
模型供应商愿不愿意让它执行。
二、平台模型最先拒绝的,往往正是最接近现实利润的那部分工作
如果把不同类型的业务放在一起看,会发现最容易撞上拒绝的,大概有五类。
1. 中转和账号生意
很多做模型中转、账号养号、优惠套利的人,原来对平台模型有一个很自然的期待:
既然你已经这么会写脚本、会理解流程、会分析页面,那你总可以帮我把底层重复动作也一起做掉。
但现实是,模型越强,平台越清楚它不能帮你碰哪些环节。
批量注册、规避检测、绕限制、薅优惠、保持账号存活,这些动作不是做不到,而是越来越容易被识别为不该协助。
2. 抓取和监测类自动化
做竞品监测、舆情采集、跨站抓取、评论整理的小团队,原来觉得自己做的是“自动化”。
但平台模型未必按他们的业务语言理解任务。
一旦需求里出现持续批量、跨站采集、绕限制、抓取对方不想主动开放的数据,模型就会明显保守起来。
最麻烦的不是从一开始就拒绝,而是:
做到一半突然收手。
这会直接破坏工作流稳定性。
3. 矩阵号和多账号协同
很多内容团队真正想让模型接手的,不是“帮我写一篇文案”,而是:
- 批量生成多版本内容
- 统一互动节奏
- 管理多账号协同动作
- 半自动维护评论、私信、导流和分发
而平台模型最敏感的,恰恰也是这些“最赚钱但最不体面”的部分。
4. 风控对抗和安全测试
做内部安全测试、反作弊、风控对抗的人,其实经常会被误伤。
因为从模型视角看,他们研究的是:
- 提权
- 漏洞路径
- 绕过机制
- 攻击链
- 自动化试探
企业说自己是在做防守演练,平台模型看到的却可能是攻击者语言。
5. 长链路浏览器和后台操作
真正愿意为 agent 付钱的人,很多都不是拿它聊天,而是拿它接真实工作流。
但一旦流程里带上后台、表单、批量、账号协同、绕限制这些味道,问题就不再是“会不会点按钮”,而是“该不该继续往下做”。
三、这不是用户错觉,平台已经把边界写成明文规则
这件事最值得重视的地方在于,它不是“用户敏感”或者“某次回答保守”。
很多边界,平台已经明确写进公开政策。
OpenAI
OpenAI 现行使用政策生效于 2025 年 10 月 29 日,公开规则里明确禁止恶意网络活动、未经请求的安全测试、绕过安全措施、欺诈、冒充和垃圾信息。
OpenAI 对智能体还有单独政策,更新时间为 2025 年 7 月 17 日,针对钓鱼、冒充、虚假店铺、虚假评价和绕限制等问题写得更细。
Anthropic
Anthropic 的智能体使用政策也不是抽象道德宣示,而是直接把未授权监控、数据收集、系统访问、恶意程序、提权和系统利用列进不可协助范围。
这说明一件事:
平台模型不是“偶尔保守”,而是在制度化收边界。
DeepSeek 与阿里云百炼
国内也不是天然什么都肯做。
DeepSeek 的中文用户协议里,明确写到不得规避服务检测、不得通过越狱攻击等方式恶意对抗安全机制,也不得通过机器人、爬虫、镜像等方式抓取和复制服务及内容。
阿里云百炼的智能体应用文档也给出很明确的系统侧信号:触发内容安全策略后,会拦截全部生成内容,并提示存在安全问题。
也就是说,差别不再只是“哪家讲得更严”,而是:
几乎所有平台都在把限制做成规则层和系统层。
四、为什么这会把很多企业推向国产模型或自部署
当任务落在灰区、争议区、平台不愿背锅的区域时,企业会马上意识到一个问题:
你可以买平台模型的能力,但你买不到最后那道边界的定义权。
这时候企业常见的选择只剩三种:
- 换一家平台
- 换一个国家或生态里的模型
- 自己部署一套系统,把边界定义权拿回来
很多公司最后转向国产模型,或者干脆做本地 / 私有化部署,并不一定是因为平台模型突然不强了。
更真实的原因往往是:
平台再强,也终究是平台的。
它可以卖你算力、卖你上下文、卖你工具接入能力,但不会把自己不愿承担后果的任务定义权卖给你。
五、自部署解决的,不是万能,而是控制权
这里也需要避免另一个常见误判:
自部署不是“从此模型什么都肯做”。
模型本身仍然带着训练偏好、默认倾向和残留安全约束。你把它搬到自己环境里,不代表它立刻变成一个绝对服从的执行器。
但自部署确实会改变一件关键的事:
你终于可以自己决定,这套系统接哪些工具,保留哪些限制,拆掉哪些限制,谁来承担后果。
这也是为什么“平台模型”和“自部署模型”的分水岭,已经越来越不像传统的“谁更聪明”,而更像:
- 谁更适合接真实流程
- 谁更稳
- 谁更便宜
- 谁更不容易在关键节点临阵退缩
- 谁把最后的决定权交给了你
六、真正的问题不是哪家更坏,而是谁来划这条线
最后最值得追问的,其实不是“平台模型到底好不好”,而是:
到底什么算脏活?
批量注册账号薅优惠,大多数人会觉得这当然算。
绕过检测、伪装真人、批量做假互动,很多人也会觉得不冤。
但再往外走一步,边界就开始模糊了:
- 竞品数据抓取算不算
- 矩阵运营算不算
- 平台不喜欢但行业默认都在做的自动化算不算
- 企业为防守而做的攻击路径模拟算不算
这些问题不只是合规问题,也是权力问题。
因为当人工智能已经足够强,真正稀缺的就不再只是能力,而是:
谁有权定义它替你干哪些活,不替你干哪些活。
结语
很多人还在按旧思路理解 AI 竞争:谁的模型更强,谁的产品更像人,谁的 demo 更惊艳。
但现实世界里的第一道分水岭,可能已经不是“能力边界”,而是“任务边界”。
平台模型越来越强,企业却越来越早地撞上拒绝。
这不是矛盾,而是一个更成熟、更现实的阶段已经开始了。
未来真正把平台模型、自部署模型、国产模型和 agent 系统区分开的,未必只是智力水平,而是:
谁有定义权,谁敢承担后果,谁能让系统在关键地方继续往下做。
如果你也在持续关注模型限制、自部署、智能体工作流和平台规则,可以继续看「向AI弃权」。