AI也许不是资本的解药,也灭绝不了人类

17 阅读8分钟

25年底以来,我一直在被AI焦虑状。open claw爆火,直到glm5的发布,这种情绪达到顶峰。 媒体们每天都在向我传递焦虑信息,谁又革了谁的命,而哪个行业的人又将被替代。如今我甚致对这样的新闻已经无感甚致有点厌恶。

image.png

我时常都在思考,这场风暴会带着我们去何方,会不会失业,经济能不能起来,是不是又错过了一次康波。一边是资本的无限投入,无数人前铺后继,创新创业渗透各行各业,不时又有新的项目获得新的成功。 而另一边, 企业内部对开发效率期望的无限拔高,对AI应用产生的前景无比憧憬,似乎由想法到 app的过程已经可以忽略不计,同时AI已然可以让企业得到完美的蜕变,盈利问题的解决就在眼前。

一帮人在狂欢,似乎命运的未来已尽在我手;一帮人在沉重,似乎末日已近在眼前,无数人在失业边缘徘徊。

智谱发布了glm5,coding plan限流了;而open ai又搞了个 spark; 阿里又称革了gemini的命。你争我夺,好不热闹。

anthropic发布了末日宣言,终结者已经被造出来了,穿越解救人类已迫不及待。 saas软件股全爆跌,adobe已成明日黄花。

老板们发现了新大陆,好像只要有一个想法,APP就能立马出现,3天没上线简直不可理喻。

传统行业内的大拿们,财务的、教育的,也都在紧追着这场变革,既是自救,也是想要踏上新世界在大船。 花着成千上万的钱跨界学习如何搭建Agent,创新创业就在眼前,融资上市不是梦想。

当我某天从地铁出来,看着路上的行人,仍旧是一如既往的生活,仍旧是面朝人海,春暖花开。我忽然感受到,所谓的AI,也许是一个完全可有可无的焦虑,其实与大多数人都没有那么太大的关系。你天气正好,我也只想悠闲的看一会儿闲书,喝喝茶听听曲,突然觉得,AI什么的,最好从我生命里出去。

前几日, 新智公众号发了一篇文章,介绍anthroipic公司当前已经对AI产生的安全问题有了重大的担心,尤其是其安全主管辞职去写诗了。这篇文章以及anthropic的潜台词大概率是在说:安全主管觉得搞不定了, 人类注定毁灭,抓紧最后的时光,赶紧享受生活去吧。

我在这篇文章的下面回复了:连代码都写不明白,还想毁灭世界? 不过我觉得更精彩的回复应该是,连车子都洗不明白,还想来抢我们的工作?

前段时间爆火的洗车问题,我也去测试了,国内的AI全翻车,而国外的AI一大半翻了车,包括当前最强大的Opus。我还改了一个有陷阱的版本,AI几乎全部翻车。

image.png

只有群友的回复让我眼前一亮—看看这脑洞,AI根本代替不了你们这帮逗B。

image.png

很好,seedance再牛b,a股也要锤死你;你anthroic再能写代码,车子也不会洗; 千问再牛b,也就能给我买杯奶茶而已。 你烧的那些子token, 到底能解决我什么问题?

一个做AI培训的大佬发了张图片,附言:我这一套发出去,单子刷刷的又来了。

image.png

我毫不怀疑他这话的正确性,毕竟该大佬在这行业已深耕多年,我只恨自己没那三把刷子,挣不到这个卖铲子的钱。

但是我在想,这张图表达的到底是什么呢?为什么 企业老板们,看到这个就坐不住了?就因为AI帮你改了合同里了一点信息,帮你审查了合同?所以,整个流程都能自动化了?企业效率都能大幅提升了?但是你们可曾知道,即便是顶级的AI,也只能保证8-90的准确率?大几千万的合同你们都不审一下,就敢给AI来弄?即便AI可以成批量的去做这件事?但是, 这么多涉及钱的问题你们敢不给人审一下就交付?

还有,你们有算过顶级模型处理这一下,要花多少钱吗?opus跑这一下,可是几个甚致十几个美金都没了呀。

我曾经为公司实现了一个很简单的AI应用:代替人去做一个营销的结果审核工作。场景异常简单,仅仅是上传图片、对比图片中是否存在某些元素、审核截图中出现的社交元素是否符合规定。

这应用场景,无比的适合AI去执行:上下文有限,目标清晰, 流程相对固定但其中又有一些主观且变化的因素。即便是这样的场景,其准备确率也仅能保证90%左右。

效率提升了吗?提升了。原来需要花一个人4个小时的时间去做的工作,现在可以完全自动化运行了。

而我不是说AI无用,只是觉得,它被夸大的太厉害了。 以前或许搞这么个东西需要好几个周甚至几个月,但现在几天就能完成了。

最近在写代码的时候,遇到了一很有意思的问题。在一段react代码中,需要从子组件向父组件回写一个回调函数。 sonnet使用set state来完成了这个操作。但我实际测试时,这个赋值完全无效。

在不下于5轮交互后,至少5刀(以原价计)的token消耗后, sonnet甚致开始怀疑react的底层机制有问题。

而opus确实强,仅一次就看出问题所在:函数不能直接写在state里面。

sonne像一个初级的程序员;而opus则表现的像一个经验老道的工程师—-他能敏锐的感觉问题在哪里,像那个睡在车间里一天一夜画了一条线获得1万美元的老专家那样。

但是,获得opus的代价又是什么呢?opus这样的能力,能不能复制到其他地方?能不能期待一个在所有领域都有这样能力的模型出现?

如果不能,那岂不所有问题的解决,仍然依赖上下文的精准构建?那所谓的open claw式通用助手,岂不是仍然只是妄想?

毕竟,opus连车都洗不好。

我严重怀疑,当前大伙对agent热潮的期待,相当一部分都是由opus的能力的超人意料所造成的,尤其是在编程领域。但我有一个疑问:为什么opus能明确感知到藏在表面现象的深层次问题,并准确的知道该如何解决它?sonnet也明确的知道这个知识点,当我问他的时候,他能明确的给出答案。

显然opus不仅知道是什么,而且知道该怎么做。这其中的区别,好像是刚培训出来的新手与实际经过项目历练的经验的差别。这是陈述性知识与操作性知识之间的巨大差别。

这依赖什么?预训练的语料差别还是模型的架构设计的不同?我不得而知。但很明显,opus更具有生产可用性。如果模型能在我们需要的领域里面,都能像opus这样的表现,那很显然agi确实已近在眼前。

但问题是,我们获得这样的opus的代价有多大?能不能再找到一个领域,像编程这样无比适用大模型, 并获得如此高的roi?而使用上下文去对齐,对程序性知识的感知和应用能力又能有多强?又在多大程度上依赖人的提前规划与设定?

skills似乎在尝试解决这个问题:注入程序性能力。当模型感知到自己正处在某种特定的任务中时,会去触发能力加载与偏好。这似乎是一剂良方,但这仍然 存在 一些问题。首先是skills的对于特定场景的感知能力,而其二加载特定skills的延迟。以及skills本身的限制。skills本身针对特定领域,但这依赖于使用者 对其进行规划与抽象。

在这种情况下, agent仍然像是某种执行器, 而不是具有操作性能力的智能体。

模型,究竟是否有智能?或者,在多大程度上有智能? 还是说只是特定语言模式下的复读机?这个问题甚致可以变演变为一个深刻的哲学问题。

但是有没有可能,我们烧掉无数电力与算力,只是训练出无数个仅仅具有初等智能而毫无主体意识与通用的程序化能力的蠕虫在互联网上爬行?