关于我给大模型"辅导"的惨状

342 阅读4分钟

src=http___c-ssl.duitang.com_uploads_item_201912_22_20191222131055_acshM.thumb.1000_0.gif&refer=http___c-ssl.duitang.gif

不怕大模型抢活,就怕大模型瞎活

从 ChatGPT 爆火到现在,每次出现和 ai 有关的新闻都赚足了人们的眼球。资本市场拿出包装好的概念炒作;投资机构马不停蹄的寻找改变世界的 ai 初创企业;各路媒体争先恐后的饮 “头啖汤”;有经商头脑的人早早拿出文案传播焦虑,还准备一系列从入门到精通的一条龙服务。作为普罗大众的我们,被震惊的同时也在思考,留给我们的时间还有多久 ?

ai + 游戏、ai + 传媒、ai + 医疗 。。。这种加法很多,列不完,根本列不完,而程序员要无了、设计要无了、文案要无了之类的论调甚嚣尘上。我用大模型的时间不少,无聊时刁难它,遇到问题时解解惑。整体使用的体感还行,有时确实让我觉得是个不错的 copilot。那我作为程序员焦虑吗 ?嗯,但这次给大模型 “辅导” 后,焦虑暂时得到了转移。

p451926968.webp

谁能想到种草 ai

给大模型“辅导”的科目是 python,教学代码如下:

x = np.array([3, 1, 2, 5, 6, 10])
print(x[:2:-1])
print(x[:1:-2])

代码非常短,而我的问题也仅仅是上面两行打印结果是啥 ?正确答案:

QQ截图20240703204804.png

不难。估计是笔试中高频考点

这篇文章就不解释为什么是上面的输出,重点是大模型给出的答案。本人测试了国内排名较前的两款大模型,分别是月之暗面出品的 kimi 和科大讯飞出品的讯飞星火,都是在电脑上做的测试。两款都是国内大模型的门面了。首先是 kimi:

kimi-1.png

嗯 ?会不会是我输错问题了,再对照一遍,没错啊

kimi-2.png

哈 ?这不是它在网络上表现的水准啊

kimi-3.png

此刻的我像是一位正在阅卷的数学老师,感慨虽然写了一堆但不得分啊

继续,不信了。

kimi-4.png

难道平时训练偷懒了 ?问问它

kimi-5.png

看来平时喂的不是啥细糠啊

行吧,刚才的第一题就当训练集了,接下来的可就作为测试集了。为了确认它已经明白,我还特意问了它。

kimi-6.png

看来它要认真了

kimi-7.png

你不说理解了吗 ?说好的支持长文本呢

kimi-8.png

以为憋了个大的

kimi-9.png

各位 python 开发还焦虑吗

kimi-10.png

要态度有态度,要答案有态度

至此,kimi 的篇幅结束了,水平怎样,各位自己在心里打分。kimi 给人的感觉就像是它的名字一样,有一定的亲和力。虽正确率不高,但谦虚,和你是一种互相学习的关系。像以前班里的一些同学即使不保证对,但卷面工整,好学,未来可期。

接下来是讯飞星火的表演时间。

xinghuo-1.png

你可是讯飞系的啊,怎么也这样

xinghuo-2.png

可以的,开始质疑题目出的有问题了

xinghuo-3.png

认错了,但还敢

测试到这里,讯飞建议我使用他们的编程助手智能体,听劝,然后换了个新题看它几斤几两。

xinghuo-4.png

准备好进入它的世界

xinghuo-5.png

开始 loop

xinghuo-6.png

无法自拔

算了,像 kimi 那样告诉它吧,结果。。。

xinghuo-7.png

犟啊

不死心,于是问了编程智能体步长到底能不能是负数。

xinghuo-8.png

这是智能体的回答

新开了个对话,这次问的不再是智能体。

xinghuo-9.png

星火本应燎原,却火候欠佳熄火

整个过程持续了快一个下午。当然,本人不保证其他人测试也会这样。至于为啥是这种出乎意料的结果,笔者猜测和前段时间xx停止服务无关,可能是我问的方式不对。本来没打算写成文章发出来,但越想越有意思便发出来供大家娱乐和探讨。如果这篇文章真的被两款大模型的开发者看到了,也希望在评论区科普下大模型的原理和提示词艺术。最后,也希望国内能出现更多边界清晰,能提供客观准确建议的大模型。

ai 的讨论不会停止,如果停止了,那是人类的意思还是。。。