大模型迎来新竞争,拼的居然是搜索能力
更新于:2025-03-25 02:38:32

曾经,参数规模被视为衡量大模型能力的关键指标,然而如今,搜索能力却成为了新的竞争核心。本文将深入探讨这一现象背后的原因,分析从“拼参数”到“拼搜索”的转变如何成为AI行业发展的必然趋势,供大家参考。

当前AI大模型竞争已悄然进入新阶段——当腾讯元宝、百度等厂商宣称部署满血版DeepSeek大模型时,也许你会发现,问同一个问题,每个大模型给的结果截然不同。

是什么决定了它们能力的不同呢?

我的发现是搜索的能力,这看似是技术的倒退,实则是AI进化的必经之路。我们来一起探究一下。

从“造神”到“找书”:大模型竞争的本质迁移

三年前,科技圈为GPT-3的1750亿参数沸腾,仿佛参数规模是通往“通用智能”的圣杯。

当百度、腾讯、阿里纷纷宣称部署“DeepSeek满血版大模型”时,一个残酷真相浮现:同样的“大脑”配上不同的“图书馆”,输出的知识天差地别。

  1. 腾讯元宝的“社交化知识”:其搜索结果严重倾斜微信公众号内容。
  2. 百度的“权威数据池”:依托自有生态的百科、文库、学术资源。
  3. Monica的“全球化杂烩”:由于抓取Reddit、Twitter等开放社区。

腾讯元宝

Monica

DeepSeek

这印证了一个事实:AI的“思考”本质是对搜索数据的拼接艺术。参数堆砌如同给厨子塞更多面粉,而搜索质量才是决定菜肴水准的食材。

为什么是搜索?行业转型的三大推手

这场从“拼参数”到“拼搜索”的集体转向,背后是技术、商业与数据的三角博弈:

第一,算力红利的终结

当大模型参数突破万亿级,边际效益急剧下降。OpenAI内部实验显示,GPT-4 Turbo将参数压缩40%但优化检索策略后,法律咨询准确率反升15%。

中国企业更早感受到这一变化:百度的文心大模型通过接入国家专利数据库,在技术创新类问答中击败了参数更大的通用模型。

算力竞赛的终局,是巨头们发现优化搜索的效率远超暴力堆料。

第二,数据源的“权力游戏”

高质量训练数据濒临枯竭(5年内甚至更快),企业开始争夺“数据主权”:

  1. 腾讯投资知乎、收购阅文集团,将社交与文学内容变为AI的“特供知识库”;
  2. 百度把贴吧20年讨论数据炼成知识图谱,构建起搜索引擎之外的“第二数据护城河”;
  3. 阿里通过电商平台的商品描述与用户评论,训练出能精准推荐穿搭的AI导购。

这些动作的本质,是将搜索数据源从“公共资源”变为“私有领地”——就像中世纪领主圈占土地,数据疆界正在重塑AI势力范围。

第三,精准搜索的商业溢价

在医疗、法律等专业领域,通用大模型的“幻觉”问题尤为致命。而定向搜索高信源数据成为破局关键:

  1. 腾讯元宝接入微信公众号中三甲医院账号的内容,使糖尿病饮食建议的准确率提升34%;
  2. 百度文心调用裁判文书网公开判例,让法律咨询的条款匹配度达到91%;
  3. 甚至小众的科研AI工具,通过专攻arXiv论文库检索,在文献综述生成上超越了ChatGPT。

这让企业意识到:垂直场景的竞争力=搜索精度×领域数据浓度。

最后的话

现在的大模型比赛换玩法了:以前比谁家脑子大(参数多),现在比谁更会查资料。搜索技术就像漏斗——筛出好数据,AI才能给出靠谱答案。

腾讯元宝总爱翻微信公众号,百度只信自家百科文库,这就好比两个学生:一个写作业全靠网红笔记,另一个只啃教科书,答案当然不一样。

未来拼的不是造更大的AI,而是看谁能建更聪明的“资料库管理员”——既得知道去哪找权威信息,还要会挑重点。说到底,AI变聪明的新秘诀就一条:喂它干净的好数据,比硬塞海量垃圾信息管用十倍。

希望带给你一些启发,加油!

作者:柳星聊产品,公众号:柳星聊产品

本文由 @柳星聊产品 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议