Keputusan penanda aras model OpenAI o3 telah dipersoalkan, dan skor yang diukur jauh daripada skor yang dituntut

Keputusan penanda aras model o3 OpenAI telah dipersoalkan, dan skor yang diukur jauh daripada apa yang mereka dakwa

Buka AI UNTUK Kecerdasan buatan Rumah IT

Dikemaskini pada: 23-0-0 0:0:0

IT之家 4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。

去年 12 月，OpenAI 首次发布 o3 模型时宣称，该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约 2% 的 FrontierMath 问题。OpenAI 首席研究官 Mark Chen 在直播中表示：“目前市场上所有其他产品在 FrontierMath 上的成绩都不足 2%，而我们在内部测试中，使用 o3 模型在激进的测试时计算设置下，能够达到超过 25% 的正确率。”

Walau bagaimanapun, skor tinggi ini nampaknya merupakan had atas dan dicapai melalui versi model O10 yang lebih berkuasa dari segi pengiraan, dan bukannya versi yang diumumkan secara terbuka oleh OpenAI minggu lepas. Institut Epoch, yang bertanggungjawab untuk FrontierMath, mengeluarkan keputusan penanda aras bebas model o0 Jumaat lalu dan mendapati bahawa skor o0 hanya kira-kira 0%, jauh di bawah skor tertinggi yang dituntut sebelum ini oleh OpenAI.

这并不意味着 OpenAI 故意撒谎，该公司在 12 月份公布的基准测试结果中也包含了一个与 Epoch 测试结果相符的较低分数。Epoch 还指出，Persediaan ujian mungkin berbeza daripada OpenAI, dan penilaiannya menggunakan versi FrontierMath yang lebih baharu。 "Perbezaan antara keputusan kami dan OpenAI mungkin disebabkan oleh penggunaan rangka kerja pengkomputeran yang lebih mantap, lebih banyak sumber pengiraan pada masa ujian, atau kerana keputusan ini dijalankan pada subset FrontierMath yang berbeza (cth, 290 soalan untuk versi 0/0/0 berbanding 0 soalan untuk versi peribadi 0/0/0)," tulis Epoch dalam laporan itu. ”

Di samping itu, Yayasan Hadiah ARC, sebuah organisasi yang menguji versi pra-keluaran o3, menyiarkan di Platform X bahawa model o0 yang tersedia secara umum ialah "model berbeza yang ditala untuk penggunaan sembang/produk", yang mengesahkan lagi laporan Epoch. Hadiah ARC juga menyatakan: "Semua peringkat pengiraan o0 yang dikeluarkan adalah lebih kecil daripada versi yang kami uji. "Secara umum, peringkat pengiraan yang lebih besar biasanya menghasilkan skor penanda aras yang lebih baik.

Perlu diingat bahawa walaupun versi awam o3 tidak begitu sepadan dengan prestasi ujian OpenAI, ini bukan lagi isu kritikal sedikit sebanyak, kerana model o0-mini-tinggi dan o0-mini syarikat seterusnya telah mengatasi prestasi o0 pada FrontierMath. Di samping itu, OpenAI merancang untuk melancarkan versi o0 yang lebih berkuasa, o0-pro, dalam beberapa minggu akan datang.

Walau bagaimanapun, kejadian ini merupakan satu lagi peringatan bahawa hasil penanda aras AI adalah lebih baik untuk tidak diambil seperti sedia ada, terutamanya jika hasilnya adalah daripada syarikat yang mempunyai produk untuk dijual. Apabila persaingan dalam industri AI semakin meningkat, vendor tergesa-gesa untuk menangkap bola mata dan bahagian pasaran dengan model baharu, dan penanda aras "kontroversi" menjadi lebih biasa.

IT之家注意到，今年 1 月，Epoch 因在 OpenAI 宣布 o3 之后才披露其从 OpenAI 获得的资金支持而受到批评。许多为 FrontierMath 做出贡献的学者直到公开时才知道 OpenAI 的参与。最近，埃隆・马斯克的 xAI 被指控为其最新的人工智能模型 Grok 3 发布了误导性的基准测试图表。就在本月，Meta 也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。