近日,DeepSeek低调发布大语言模型升级版本DeepSeek-V3-0324。该模型参数量达6850亿,采用混合专家(MoE)架构,仅激活约370亿参数,通过MIT开源协议免费开放商业使用,并支持在消费级硬件如搭载M3 Ultra芯片的Mac Studio上以每秒20个token的速度运行。现在打开 DeepSeek 官网,把深度思考模式关掉就能直接用上 V3-0324 。
此次升级虽为小版本迭代,但性能提升显著。在数学与代码领域,其评测成绩超越OpenAI的GPT-4.5和Anthropic的Claude 3.7 Sonnet,尤其在AIME数学竞赛题中的正确率较前代提升近20%。前端开发能力接近行业标杆Claude 3.7,可一次性生成近千行生产级代码,并实现交互式网页设计,例如用户通过简单提示即可生成包含动画效果的响应式登录页面。此外,模型的长上下文处理能力扩展至128K,支持分析50页PDF文档或完整代码库,多轮对话的连贯性也大幅增强。
API调用价格仅为Claude 3.7 Sonnet的1/53,同时通过FP8混合精度训练将计算效率翻倍,显著降低部署门槛。开发者实测显示,模型在物理模拟、复杂逻辑推理等场景中表现突出。
值得注意的是,R1的后续版本R2或将于近期发布,进一步挑战闭源模型的市场地位。