DeepSeek隐秘的角落,99%的人都不知道

220 阅读4分钟

大家好,我是吾鳴。

最近DeepSeek爆火,一个妥妥的国产之光的大模型,关键还是免费提供给国人使用,相比海外的大模型动则花几百美元的大模型来说,真的是不要太香了。

因为其极低的成本和极致的性能,也顿时让黄教主身价顿时蒸发千亿,也让漂亮国IT名都硅谷各大公司慌得一匹,纷纷各种科技泡沫都被这一家土生土长在中国的公司给捅得底裤都不剩。

于是乎开始玩起了各种手段,先是明地里控诉DeepSeek抄袭,数据蒸馏这算抄袭(猪都笑了)?然后又背地里搞小动作,搞僵尸流量洪水攻击,使得正常用户无法正常使用,希望以此来给自己获得喘息的时间。

好在国内各大厂商,像华为、阿里、360等,甚至连红客联盟(这个联盟可厉害了,想当年可是在美国白宫官网挂过五星红旗的)都出场一起抵御了这一波攻击,被堪称是一场无硝烟的战争。看看今天的DeepSeek越来越快,相比这场战争的结果如何也不用我多说了。

以上分享的都是些家喻户晓的事情了,这些事迹就连我们村里的平常不用手机的老人都知道了,博主今天要分享的不是这些,只是聊到了,就唠嗑一下。

关于DeepSeek,你可能还不知道以下这几点:

DeepSeek是什么?

DeepSeek是一家创新型科技公司,成立于2023年7月17日,全称杭州深度求索人工智能基础技术研究有限公司。被誉为是杭州“六小龙”之一。

DeepSeek-R1大模型,这是一个推理大模型,当我们在DeepSeek网页点亮“深度思考(R1)”文本后,就是使用了这个大模型。

DeepSeek-V3大模型,这是一个通用大模型,当我们在DeepSeek网页不点亮“深度思考(R1)”文本,就是使用了这个大模型。

DeepSeek-R1和DeepSeek-V3有些什么区别?

DeepSeek-R1是一个推理大模型,它是基于链式思维,逐步推理问题的每个步骤来得到答案。这个就很像我们人类的思考过程,所以这种类型的大模型擅长于解决复杂的问题,比如数学推导、逻辑分析、代码生成、复杂问题拆解等。而它的劣势就是不太擅长于发散性的任务,比如诗歌创作、视频脚本创作等。

DeepSeek-V3是一个通用大模型,这种大模型是通过投喂大量的数据,以便让其可以根据历史数据的分析来预测答案。这种大模型是依赖预先设置好的算法和规则来给你提供答案,因此对于这种大模型,它给你输出的答案好不好,就非常依靠你给它的指令,也就是提示词,所以你学习到的提示词还是可以派上用场。它的竞品有文心一言、通义千问、豆包、kimi等。它擅长于文本生成、创意写作、多轮对话、开放性问答等。

如何与推理、通用大模型对话?

推理大模型,基于上面对它的介绍,想必也知道如何和它沟通,主打两个字,真诚。就是直接对它说出你的需求目标就可以,告诉它你想要神马,因为它是有自己的思想的,它会自动进行推理分析;如果你给它太多的干扰,反而会影响到它的发挥。

通用大模型,是投喂了大量的知识,它不会主动思考推理,所以这个时候你需要把你学到的提示词用上,要把它海量的知识给全部挖出来,可通过多次问答优化提示词的方式,深探它肚子里的知识,把它的知识一点一点的挖出来,直到你满意位置。

好了,今天的分享就到这里,如果觉得还不错,记得点赞收藏and转发。

福利大放送

最近交了一些学费,收集了一些关于DeepSeek的学习资料,需要的朋友们可以按照下面的方式自取。

学习资料下载链接:pan.quark.cn/s/7380eff83…