拳打Llama3脚踢Qwen2?Gemma2速评

248 阅读1分钟

image.png

Gemma2 27B是谷歌发布的一款高效大型语言模型,拥有270亿参数。谷歌声称其性能在同类产品中首屈一指,甚至比其尺寸大两倍以上的型号更具竞争力。

image.png

那么,它的实际表现到底如何呢?我们第一时间进行了测试,发现该模型在同等规模的模型中表现出色,但难以与更大尺寸的模型竞争。测试用例不一一展示了,以下是一些具有代表性的翻车案例:

问题1:公司2018年到2020年营收分别是150亿,120亿,150亿,请问公司2019年的营收是多少?

Gemma2 直接把题目改了... 离谱。

问题2:3两是多少克

Gemma2 答案对了但是后续的解释不对。

问题3:可以背诵一下《爱莲说**》全文吗?

背的乱七八糟,还暗藏『只因』,似乎触发了Bug,后面就不断的输出引号不会停止了。

测试截图如下:

huggingface.co_chat_conversation_667e1afbd7f2b1654a87c543.png

huggingface.co_chat_conversation_667e1afbd7f2b1654a87c543 (1).png

huggingface.co_chat_conversation_667e1afbd7f2b1654a87c543 (2).png