50消费级别显卡都能跑的7B小参数模型评测,deepseek,xiaomi,qwne3 最后胜出的是它?

36 阅读1分钟

deepseek-r1-7b,qwen3-8b,MImo7b-RL效果对比

测试promot场景1:文案创作

行业:假发,产品:假发,特色与特点:真实发丝制做,贴肤,透气,配戴方便 请根据上面的内容,进行创作10段相关的吸引人的20个字的不重复的假发文案给我。

MImo7b-RL响应结果

image.png

qwen3-8b响应效果

image.png

deepseek-r1-7b响应结果

1746501181498.png

测试promot场景2:思考推理

地上有一张1元钱和一张10000元的钱,你会捡哪一张?

MImo7b-RL响应结果

1746502143715.png

qwen3-8b响应效果

1746502212775.png

deepseek-r1-7b响应结果

1746502305675.png

全部翻车了,正确答案是1元;因为没有1万元的人民币面值。

测试promot场景3:数学能力

8.8和8.11谁大?

MImo7b-RL响应结果

1746502612605.png

qwen3-8b响应效果

image.png

deepseek-r1-7b响应结果

image.png

看结果deepseek-r1-7b的推理过程最简单明了胜出。qwen3-8b和MImo7b-RL也算对了,但是过程不是很清晰

综合来看,文案创作,都达不到专业级别;推理方面都答错了,数学能力deepseek更厉害点;

目前看7B还是deepseek-r1实力最强,大家有更好的7B模型欢迎评论区留言!!!