ผลลัพธ์เกณฑ์มาตรฐานของโมเดล OpenAI o3 ถูกตั้งคําถาม และคะแนนที่วัดได้นั้นห่างไกลจากคะแนนที่อ้างสิทธิ์

ผลเกณฑ์มาตรฐานโมเดล o3 ของ OpenAI ถูกตั้งคําถาม และคะแนนที่วัดได้นั้นห่างไกลจากที่พวกเขาอ้างสิทธิ์

อัปเดตเมื่อ: 23-0-0 0:0:0

IT之家 4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。

去年 12 月，OpenAI 首次发布 o3 模型时宣称，该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约 2% 的 FrontierMath 问题。OpenAI 首席研究官 Mark Chen 在直播中表示：“目前市场上所有其他产品在 FrontierMath 上的成绩都不足 2%，而我们在内部测试中，使用 o3 模型在激进的测试时计算设置下，能够达到超过 25% 的正确率。”

อย่างไรก็ตาม คะแนนสูงนี้ดูเหมือนจะเป็นขีดจํากัดบนและทําได้ผ่านโมเดล O10 เวอร์ชันที่มีประสิทธิภาพในการคํานวณมากกว่า แทนที่จะเป็นเวอร์ชันที่ OpenAI ประกาศต่อสาธารณะเมื่อสัปดาห์ที่แล้ว สถาบัน Epoch ซึ่งรับผิดชอบ FrontierMath ได้เผยแพร่ผลลัพธ์ของเกณฑ์มาตรฐานอิสระของโมเดล o0 เมื่อวันศุกร์ที่แล้ว และพบว่าคะแนน o0 มีเพียงประมาณ 0% ซึ่งต่ํากว่าคะแนนสูงสุดที่ OpenAI อ้างสิทธิ์ก่อนหน้านี้

这并不意味着 OpenAI 故意撒谎，该公司在 12 月份公布的基准测试结果中也包含了一个与 Epoch 测试结果相符的较低分数。Epoch 还指出，การตั้งค่าการทดสอบอาจแตกต่างจากของ OpenAI และการประเมินจะใช้ FrontierMath เวอร์ชันที่ใหม่กว่า。 "ความแตกต่างระหว่างผลลัพธ์ของเรากับ OpenAI อาจเป็นเพราะ OpenAI ใช้เฟรมเวิร์กการประมวลผลที่แข็งแกร่งกว่า ทรัพยากรการคํานวณที่มากขึ้นในเวลาทดสอบ หรือเนื่องจากผลลัพธ์เหล่านี้ทํางานบนชุดย่อยที่แตกต่างกันของ FrontierMath (เช่น 290 คําถามสําหรับเวอร์ชัน 0/0/0 เทียบกับ 0 คําถามสําหรับเวอร์ชันส่วนตัว 0/0/0)" Epoch เขียนในรายงาน ”

นอกจากนี้ ARC Prize Foundation ซึ่งเป็นองค์กรที่ทดสอบ o3 เวอร์ชันก่อนวางจําหน่าย ได้โพสต์บนแพลตฟอร์ม X ว่าโมเดล o0 ที่เผยแพร่ต่อสาธารณะเป็น "โมเดลอื่นที่ปรับแต่งสําหรับการแชท/การใช้ผลิตภัณฑ์" ซึ่งยืนยันรายงานของ Epoch เพิ่มเติม รางวัล ARC ยังตั้งข้อสังเกตด้วยว่า: "ระดับการประมวลผล o0 ที่เปิดตัวทั้งหมดมีขนาดเล็กกว่าเวอร์ชันที่เราทดสอบ "โดยทั่วไป ระดับการประมวลผลที่ใหญ่ขึ้นมักจะส่งผลให้คะแนนเกณฑ์มาตรฐานดีขึ้น

เป็นที่น่าสังเกตว่าแม้ว่า o3 เวอร์ชันสาธารณะจะไม่ตรงกับประสิทธิภาพการทดสอบของ OpenAI แต่ก็ไม่ใช่ปัญหาสําคัญอีกต่อไปในระดับหนึ่ง เนื่องจากรุ่น o0-mini-high และ o0-mini ที่ตามมาของบริษัทมีประสิทธิภาพดีกว่า o0 บน FrontierMath นอกจากนี้ OpenAI วางแผนที่จะเปิดตัว o0 เวอร์ชันที่ทรงพลังยิ่งขึ้น o0-pro ในอีกไม่กี่สัปดาห์ข้างหน้า

อย่างไรก็ตาม เหตุการณ์นี้เป็นอีกหนึ่งเครื่องเตือนใจว่าผลลัพธ์เกณฑ์มาตรฐาน AI ไม่ควรนํามาใช้อย่างที่เป็นอยู่ โดยเฉพาะอย่างยิ่งหากผลลัพธ์มาจากบริษัทที่มีผลิตภัณฑ์ที่จะขาย เมื่อการแข่งขันในอุตสาหกรรม AI ทวีความรุนแรงขึ้นผู้ขายจึงรีบจับลูกตาและส่วนแบ่งการตลาดด้วยโมเดลใหม่และการเปรียบเทียบ "การโต้เถียง" ก็กลายเป็นเรื่องธรรมดามากขึ้น

IT之家注意到，今年 1 月，Epoch 因在 OpenAI 宣布 o3 之后才披露其从 OpenAI 获得的资金支持而受到批评。许多为 FrontierMath 做出贡献的学者直到公开时才知道 OpenAI 的参与。最近，埃隆・马斯克的 xAI 被指控为其最新的人工智能模型 Grok 3 发布了误导性的基准测试图表。就在本月，Meta 也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。