IT之家 4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。
去年 12 月,OpenAI 首次发布 o3 模型时宣称,该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约 2% 的 FrontierMath 问题。OpenAI 首席研究官 Mark Chen 在直播中表示:“目前市场上所有其他产品在 FrontierMath 上的成绩都不足 2%,而我们在内部测试中,使用 o3 模型在激进的测试时计算设置下,能够达到超过 25% 的正确率。”
இருப்பினும், இந்த உயர் மதிப்பெண் ஒரு உயர் வரம்பாகத் தோன்றுகிறது மற்றும் கடந்த வாரம் OpenAI பகிரங்கமாக அறிவித்த பதிப்பைக் காட்டிலும், O10 மாதிரியின் மிகவும் கணக்கீட்டு ரீதியாக சக்திவாய்ந்த பதிப்பின் மூலம் அடையப்படுகிறது. FrontierMath க்கு பொறுப்பான Epoch நிறுவனம், கடந்த வெள்ளிக்கிழமை o0 மாதிரியின் அதன் சுயாதீன அளவுகோலின் முடிவுகளை வெளியிட்டது மற்றும் o0 மதிப்பெண் சுமார் 0% மட்டுமே என்பதைக் கண்டறிந்தது, முன்பு OpenAI கூறிய மிக உயர்ந்த மதிப்பெண்ணுக்குக் கீழே உள்ளது.
这并不意味着 OpenAI 故意撒谎,该公司在 12 月份公布的基准测试结果中也包含了一个与 Epoch 测试结果相符的较低分数。Epoch 还指出,சோதனை அமைப்பு OpenAI இலிருந்து வேறுபடலாம், மேலும் அதன் மதிப்பீடு FrontierMath இன் புதிய பதிப்பைப் பயன்படுத்துகிறது。 "எங்கள் முடிவுகளுக்கும் OpenAI க்கும் இடையிலான வேறுபாடு OpenAI இன் மிகவும் வலுவான கம்ப்யூட்டிங் கட்டமைப்பைப் பயன்படுத்துவது, சோதனை நேரத்தில் அதிக கணக்கீட்டு வளங்கள் அல்லது இந்த முடிவுகள் FrontierMath இன் வேறுபட்ட துணைக்குழுவில் இயங்குவதால் இருக்கலாம் (எ.கா., 290/0/0 பதிப்பிற்கான 0 கேள்விகள் vs. 0/0/0 தனிப்பட்ட பதிப்பிற்கான 0 கேள்விகள்)," Epoch அறிக்கையில் எழுதினார். ”
கூடுதலாக, o3 இன் வெளியீட்டுக்கு முந்தைய பதிப்பை சோதித்த ஒரு அமைப்பான ARC பரிசு அறக்கட்டளை, பிளாட்ஃபார்ம் X இல் பொதுவில் கிடைக்கக்கூடிய o0 மாதிரி "அரட்டை/தயாரிப்பு பயன்பாட்டிற்காக டியூன் செய்யப்பட்ட வேறுபட்ட மாதிரி" என்று பதிவிட்டது, இது எபோக்கின் அறிக்கையை மேலும் உறுதிப்படுத்தியது. ARC பரிசு மேலும் குறிப்பிட்டது: "வெளியிடப்பட்ட o0 கம்ப்யூட் அடுக்குகள் அனைத்தும் நாங்கள் சோதித்த பதிப்புகளை விட சிறியவை. "பொதுவாக, ஒரு பெரிய கம்ப்யூட் அடுக்கு பொதுவாக சிறந்த பெஞ்ச்மார்க் மதிப்பெண்களை விளைவிக்கும்.
o3 இன் பொதுப் பதிப்பு OpenAI இன் சோதனை செயல்திறனுடன் பொருந்தவில்லை என்றாலும், இது இனி ஓரளவிற்கு முக்கியமான பிரச்சினை அல்ல என்பது கவனிக்கத்தக்கது, ஏனெனில் நிறுவனத்தின் அடுத்தடுத்த o0-mini-high மற்றும் o0-mini மாடல்கள் FrontierMath இல் o0 ஐ விட சிறப்பாக செயல்பட்டுள்ளன. கூடுதலாக, OpenAI வரும் வாரங்களில் மிகவும் சக்திவாய்ந்த o0 பதிப்பான o0-pro ஐ அறிமுகப்படுத்த திட்டமிட்டுள்ளது.
இருப்பினும், இந்த சம்பவம் AI பெஞ்ச்மார்க் முடிவுகளை அப்படியே எடுத்துக் கொள்ளாமல் இருப்பது நல்லது என்பதற்கான மற்றொரு நினைவூட்டலாகும், குறிப்பாக முடிவுகள் விற்க ஒரு தயாரிப்பைக் கொண்ட ஒரு நிறுவனத்திடமிருந்து வந்தால். AI துறையில் போட்டி தீவிரமடைவதால், விற்பனையாளர்கள் புதிய மாடல்களுடன் கண்களையும் சந்தைப் பங்கையும் கைப்பற்ற விரைகிறார்கள், மேலும் "சர்ச்சைகளை" தரப்படுத்துவது மிகவும் பொதுவானதாகி வருகிறது.
IT之家注意到,今年 1 月,Epoch 因在 OpenAI 宣布 o3 之后才披露其从 OpenAI 获得的资金支持而受到批评。许多为 FrontierMath 做出贡献的学者直到公开时才知道 OpenAI 的参与。最近,埃隆・马斯克的 xAI 被指控为其最新的人工智能模型 Grok 3 发布了误导性的基准测试图表。就在本月,Meta 也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。