讲技术名词会让人云里雾里,这个回答我尽量用大白话来解释。
DeepSeek开放的模型有两个:V3和R1,它俩的区别我会用下面的例子来展示。
这是一个非常简单的数学题:1+1等于几?
这是V3给出的回答,简单直接。
同样的问题问R1,它会想半天,甚至会怀疑我在考验它,最终得出「一组结果」,这一组包含了四个回答。
你应该能感受到V3和R1的直观差别,那就是V3会直接给出你回答,就像一条直线。而R1不一样,它会经过反复的思考,尽可能的考虑到所有的可能性,最后面谨慎的下结论。
而造成这个差别的主要原因就是R1模型比V3模型多了一层思考的机制,这个机制就是思维链CoT(Chain of Thought)。
简单来说,V3就像一个不谙世事,一直待在家里学习的学霸,它对于所有的问题都根据自己的直觉给出回答,比如我们给它的问题1+1=?。它的直觉告诉它这就是个简单的数学题,然后它就直接做出了回答。
而R1不一样,它是走进社会,了解了社会险恶的V3。它做事不再只是根据直觉,而是考虑周到,做事圆滑,即使是一件小事,它也会尽可能的全方位考虑,尽量的不出错。
你看,它会从各种角度来考虑1+1=?这个问题,甚至会觉得这么简单的也问,是不是「用户在开它的玩笑?」,这其实是符合常理的,因为但凡有个人正经的问我这个问题,我都会在心里打个问号?,肯定有诈。
R1比V3多出来的这一套东西,其实就是思维链,也就是我们平时思考问题的方式。
这也是我为什么一直强调现在学习DeepSeek这类AI的重要性,因为你如果对它了解不深的话,AI的很多潜力很难挖掘出来,尤其是现在很多企业都在用 AI 重塑业务形态,而这一切都需要懂 AI 的人来实现,这就催生了很多高薪的AI岗位需求,比如北京的 AI 产品经理基本月薪35k以上,AI 训练师月薪也是 30k+……属实诱人。
了解DeepSeek的最好方式就是了解它的底层原理以及应用方式,不过这个有点复杂,系统了解的话建议去看一下大模型应用开发的公开课,里边有DeepSeek的技术原理讲解、落地案例分析,行业趋势揭秘等,帮助大家全面了解AI产品技能和知识,入口我放在下面了,直接听就行↓
听完你就会发现「原来那些看起来高深莫测产品是用了这个技术啊」、「原来这个技术也可以用在我的产品里啊」,直接拉进你跟最新技术的距离,非常酷~
对于DeepSeek来说,它的思考过程为拿到问题-分析问题-头脑风暴-确定最可能的解法-给出回答,正好对应了R1的思考过程。
R1在思考过程结束后,会根据可能性对它的所有想法排个序,因为对于一个问题的解法可能有无数种,但是最终的回答只能有一个。
那么它会输出概率最大的那个,对于1+1=?来说,可能性最大的就是简单的数学题。
所有DeepSeek R1最终给出了这个回答。
V3就是所谓的传统大模型,而R1是推理大模型,他们俩的应用场景不一样,推理大模型的对应的是复杂问题,需要很多个复杂步骤才能解决的问题,比如复杂数学问题,代码生成,逻辑推理等。
而简单的任务,特别是不需要多加考虑直接出结果的问题,比如写命题作文,翻译,简单数学问题。
那我们用一个稍微复杂点的数学题再问一次,这是2023年的高考数学题,因为是选做题,难度可想而知。
先用V3来做,很自信的给出了答案,但可惜的是不对。
而DeepSeek R1在思考了419秒后给出了正确答案。
这就是DeepSeek R1的正确打开方式,也就是复杂问题才值得问R1。
如果问题太简单直接,比如1+1=?这样的,反而是造成DeepSeek R1进行过度思考。
复杂问题不仅仅包括数学,我这里展示一个例子,用 DeepSeek 的R1 深度思考模式,给它提出一个比较离谱的问题:“假如一个普通人手里只有 3000 元,如何在没有其他资源的情况下,通过努力实现 100 万元的收益?”
这是一个典型的复杂问题,因为它涉及到很多方面的考量,背景分析、财务分析、数学计算等,这种只有R1才能够解答。
更重要的是DeepSeek几乎接入了绝大多数你耳熟能详的应用中,再加上第三方软件的加成,DeepSeek更是可以覆盖绝大多数的工作学习场景。
总的来说,DeepSeek是一个概率模型,它会输出它觉得最可能的那个回答,不同的是V3模型适合解决简单问题,R1模型更擅长做复杂问题,不同模型需要通过「深度思考」这个按钮进行激活。