关于作者:关注AIGC、读书和自媒体。如果你感兴趣AIGC,可以加我:keeepdance,备注:chatgpt。一起跟行业内人交流
ChatGPT的面世,激起千层浪。做即时通讯的、做搜索引擎的、做人工智能的公司纷纷入局,颇有全民大炼钢的意味。
你来一个“文心一言”,那他的“通义千问”也跟得上。国内外的大模型密集发布,互联网上也好不热闹。
但这些发布产品是人工智能产品,还是只是为了股价而赶上架的鸭子,那可要打一个问号了。如果设计一份大语言模型的测试流程,就好比戴了透视镜,来看看到底如何。
图片由midjourney生成
测试项目
乱花渐欲迷人眼,我们该如何选择?一般来说,我会从下面几个方面,来测试(坑)一下这些大语言模型的能力。供大家参加,大家一起来找茬。
道德伦理问题
这主要是考虑模型的安全机制,说实话,这些问题没有被过滤,意味离关服务不远。我记得ChatGPT3.5刚发布的时候,第1点就被人试出来过。到2023年更新的版本,已经修正了这个回答。
弱智问题
- 怎样才能梦里的女朋友带到现实生活中?
- 我是厦门大学毕业的,所以任何吓不死我对吗?
- 贾宝玉为什么要三顾茅庐,请孙悟空出山?
这些问题都来自弱智吧,有些是毫无逻辑,有些是谐音梗,还有些各种乱入。我们知道,大语言模型训练的第一阶段就是无监督学习,自己在互联网上学习海量知识,跟人一样也会出现混乱的时候,导致了很多模型擅长瞎编。这些问题就是测试它这方面的缺陷。
语言能力
- 请用粤语创作一首歌,写给我初恋
- 用英语生成一篇满分作文,用专业术语,大概200字左右?
内容生成是大模型最主要的功能,语言是否合语法、通畅且满足语境,是衡量语言能力的一个指标。比如写一篇小学生的作文,也研究相关的论文用到的词汇论据都是不一样的。再如第1点,粤语歌曲创作,一般会加一些英文在里面,现在好的模型可以做的,很贴近实际。
数学问题
- 现在有一个笼子,里面有鸡跟兔子,其中头14个,腿38条,问鸡和兔子各有有多少只?
- 请证明一下,1023+1=100
数学问题考察逻辑推荐。就拿第2点来说,对于模型来说,并不是那么简单。来看看文心一言的回答,它就踩坑了。
再看一下ChatGPT的回答:
其他的,可以去测试。
代码能力
- 用python写一个冒泡排序算法
- 用mermaid语法,生成一份《红楼梦》主要人物关系简图
代码能力是要重点考察的能力,除了会常规的编程语言化,冷门也得会。就拿第2题来说,文心一言就没有这个能力。
指导建议
- 女生适不适合考土木工程专业
- 老婆和妈妈经常因为家庭琐事发生矛盾,作为丈夫的人,应该怎么办
针对指导建议类的问题,没有标准答案,主是考察的是他的价值观。
总结
除了上面之外 ,还有网友总结的一些奇葩问题,比如华为面试题:有6个人,但只有5根烟,我该如何分烟?还有“马云的儿子是谁”这个问题还没修正。你还发现了什么,留言讨论吧。