美国的AI团队一直觉得自己是全球的“老大”,技术领先。DeepSeek的出现,却让他们“栽了大跟头”
。DeepSeek 的翻译流畅度相较于 ChatGPT 和 Gemini 进步显著,而就连马拉雅拉姆语用户都惊呆了。
既然这么火,那就肝一篇吧。接下来,这将会是人人都能看懂的DeepSeek 原理说明书!
生活中,目前包括现在的小孩子都已经有自己的手机了,甚至可以利用自己父母的手机玩DeepSeek,DeepSeek几乎可以算得上无所不知,父母用它来给小朋友讲故事,一些简单的智力题目更是不在话下
在这各种场景下,其实涉及到DeepSeek的一个最最基本也是核心的功能,就是问答,也是DeekSeek的各个模块的最直接的功能。
DeepSeek的第一个模块R1,其实非常的简单直接,特别是在数学、代码及自然语言推理领域与OpenAI o1比肩的开源大模型,以其全面、详实的回答和结构化输出著称。
你只要给他输入文字,它输出给你,
比如你输入starrBerrry,它会给出4个字母的t
有人会觉得,它开玩笑,的确,却是开玩笑了,然后我们给他说,你看错了
DeepSeek经过分析,推理和纠正,真的就给出了正确的答案
这是因为R1 创造性地基于 DeepSeek V3 基座模型,通过自己的特殊手段,增强LLM技术,得到了一个强推理模型,并且采用了采用了基于规则的方法,这是DeepSeek的第一个贡献。
从下面的图可以看到,除了DeepSeek R1模型的增强之外,还进行深度推理 SFT 数据与通用 SFT 数据的混合微调,这对于跨任务泛化更加精确和高效。
所以DeepSeek在回答的问题跟人类会有一些不同,比如我们在背诵乘法口诀的时候都是知道一一得一,一二得二,后面我们已经确定一三得三,作为人类来讲后一句肯定是对得。当然我们可以随便编一个不在乘法口诀中得,比如11x11=121,我们是回答了,但是我们知道值计算得不对,但是不属于九九乘法口诀。
但是DeepSeek在回答的学习资料来自于公开的数据,如果网上公开的所有的资料里都包含11x11,那么,DeepSeek的回答可以说是又快又准!
DeepSeek R1的规则驱动强化学习听起来高大上,但规则都是人定的,遇到新情况就可能抓瞎。还是数据为王,实战中不断优化才是正道。
这也是我为什么一直强调现在学习AI的重要性,现在的AI虽然已经很智能了, 但还在初始阶段,接下来的3年内,必将是AI重塑和训练,尤其是想百度,阿里巴巴,或者是腾,字节为主的企业巨头都在用 A1重塑业务形态,这就需要懂LLM的人来去实现它,当然也会衍生出来很多的AI岗位需求,据说大模型应用开发可以高达60K的offer,实在是让人看了眼馋.....
当然想做这方面的工作,需要了解LLM的底层和算法,看看DeepSeek R1的底层还是满复杂的,不过可以看一下AI解决方案公开课,里边有DeepSeek的底层技术原理讲解、MOE新架构特色,还有让你直接上手微调的Demo,直接可以移植到你自己的项目里面,入口我放在下面了,直接听就行:
你甭说,很多人都在学习整个课程,前几天个人还在用大模型知识创建了一个AI智能体,下一步打算进阶AI数字人,希望为时不晚。
在说说DeepSeek-V3,它是一款强大的混合专家(MoE)语言模型,总参数量达到6710亿,每个token激活370亿参数。
其中其V3的核心机制包括多头自注意力机制和前馈神经网络,这两个也是DeepSeek的核心技术。
前馈神经网络是这样的
DeepSeek-v3的内部的实现是非常的巧妙的,训练没有采用TP并行. 针对MoE的AlltoAll做了极致的优化:
其训练过程如下
采用了FP8的混合精度训练作为基层训练
设计了基于DualPipe的算法用pipeline并行的机制,利用这样的框架,其优势具有是为了使用更少的pipeline bubble才处理流信息。
网上有人穿DeepSeek 蒸馏GPT-4O模型的数据,首先我觉蒸馏在算法开发中是很正常的事,有什么不好的。并且在论文自己不是都说了是蒸馏的。机器学习,相互学习很正常,你拿到了结果,我拿结果再筛选精华的,用于自身。OPENAI的结果也是学习全世界互联网的成就。
只不过一般的蒸馏是用大的模型蒸馏小的模型,减少部署开销。而deepseek是用GPT的小模型蒸馏大模型,为了以更少的成本获取较好的数据。deepseek也开放自己的模型去给别人随便用,包括生成高质量数据。
deepseek是在自家v3基础上,做了一定激励框架的设计,弄出了一个r1-zero,然后又用r1-zero训练出来数据回去训了一把v3得到了r1
这样反复搞了几次,最牛逼的是,用r1产出高质量数据给阿里模型训了一下,效果出奇好。
而且整个过程中,在训练工程上也做了很多优化,毕竟算力没那么多,倒逼的。
所以DeepSeek我觉得是真牛,拜托了structure的拘束,开启推理方向。学的越多正确率越高。
而深度思考的DeepSeek就做的事这件事,接收各种类型的输入并且输出各种类型的输出。
事实上,硅谷的AI背后也是靠咱们华人撑起大半边天。缘由很简单,中文是世界上信息密度最高的语言,而我们中国人是被这种语言滋养长大的智能体,未来配合全体华夏智慧而成的DeepSeek,1+1 会到达更加高维的世界。
这篇问答主要的作用是通俗的解释了DeepSeek的底层运行原理,其实很多的技术细节略有设计或者是完全没有提到。如果小伙伴们对于DeepSeek的其他细节比如底层算法,MOE架构模型,以及R1的框架想了解的更多,建议大家可以去看看知学堂开设的大模型应用课程,里面还有一些深入浅出的技术细节讲解和DeepSeek的可微调测试商业化的Demo给你参考
+插卡
看明白了,不出三天,DeepSeek原理和训练你自然就懂了!