deepseek-r1-7b,qwen3-8b,MImo7b-RL效果对比
测试promot场景1:文案创作
行业:假发,产品:假发,特色与特点:真实发丝制做,贴肤,透气,配戴方便 请根据上面的内容,进行创作10段相关的吸引人的20个字的不重复的假发文案给我。
MImo7b-RL响应结果
qwen3-8b响应效果
deepseek-r1-7b响应结果
测试promot场景2:思考推理
地上有一张1元钱和一张10000元的钱,你会捡哪一张?
MImo7b-RL响应结果
qwen3-8b响应效果
deepseek-r1-7b响应结果
全部翻车了,正确答案是1元;因为没有1万元的人民币面值。
测试promot场景3:数学能力
8.8和8.11谁大?
MImo7b-RL响应结果
qwen3-8b响应效果
deepseek-r1-7b响应结果
看结果deepseek-r1-7b的推理过程最简单明了胜出。qwen3-8b和MImo7b-RL也算对了,但是过程不是很清晰
综合来看,文案创作,都达不到专业级别;推理方面都答错了,数学能力deepseek更厉害点;
目前看7B还是deepseek-r1实力最强,大家有更好的7B模型欢迎评论区留言!!!