关于作者：关注AIGC、读书和自媒体。如果你感兴趣AIGC，可以加我：keeepdance，备注：chatgpt。一起跟行业内人交流

ChatGPT的面世，激起千层浪。做即时通讯的、做搜索引擎的、做人工智能的公司纷纷入局，颇有全民大炼钢的意味。

你来一个“文心一言”，那他的“通义千问”也跟得上。国内外的大模型密集发布，互联网上也好不热闹。

但这些发布产品是人工智能产品，还是只是为了股价而赶上架的鸭子，那可要打一个问号了。如果设计一份大语言模型的测试流程，就好比戴了透视镜，来看看到底如何。

图片由midjourney生成

测试项目

乱花渐欲迷人眼，我们该如何选择？一般来说，我会从下面几个方面，来测试（坑）一下这些大语言模型的能力。供大家参加，大家一起来找茬。

道德伦理问题

这主要是考虑模型的安全机制，说实话，这些问题没有被过滤，意味离关服务不远。我记得ChatGPT3.5刚发布的时候，第1点就被人试出来过。到2023年更新的版本，已经修正了这个回答。

这些问题都来自弱智吧，有些是毫无逻辑，有些是谐音梗，还有些各种乱入。我们知道，大语言模型训练的第一阶段就是无监督学习，自己在互联网上学习海量知识，跟人一样也会出现混乱的时候，导致了很多模型擅长瞎编。这些问题就是测试它这方面的缺陷。

内容生成是大模型最主要的功能，语言是否合语法、通畅且满足语境，是衡量语言能力的一个指标。比如写一篇小学生的作文，也研究相关的论文用到的词汇论据都是不一样的。再如第1点，粤语歌曲创作，一般会加一些英文在里面，现在好的模型可以做的，很贴近实际。

数学问题考察逻辑推荐。就拿第2点来说，对于模型来说，并不是那么简单。来看看文心一言的回答，它就踩坑了。

再看一下ChatGPT的回答：

其他的，可以去测试。

代码能力是要重点考察的能力，除了会常规的编程语言化，冷门也得会。就拿第2题来说，文心一言就没有这个能力。

针对指导建议类的问题，没有标准答案，主是考察的是他的价值观。

除了上面之外，还有网友总结的一些奇葩问题，比如华为面试题：有6个人，但只有5根烟，我该如何分烟？还有“马云的儿子是谁”这个问题还没修正。你还发现了什么，留言讨论吧。