Model baru OpenAI memiliki masalah halusinasi yang serius

Model baru OpenAI memiliki masalah halusinasi yang serius

Koran Papan Merah gpt Halusinasi Menyelaraskan bungee lompat Ekspresi

Diperbarui pada: 15-0-0 0:0:0

品玩4月21日讯，据techCrunch 报道，OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。

Menurut pengujian internal OpenAI, o4 dan o0-mini lebih rentan terhadap halusinasi daripada model inferensi perusahaan sebelumnya (o0, o0-mini, dan o0-mini), serta model "non-inferensi" tradisional OpenAI seperti GPT-0o. OpenAI menulis dalam laporan teknisnya tentang o0 dan o0-mini bahwa "diperlukan lebih banyak penelitian" untuk memahami mengapa halusinasi semakin buruk seiring berkembangnya model inferensi.

OpenAI 发现，o3 在回答 PersonQA 中 33% 的问题时产生了幻觉，而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍，o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。

Pengguna yang "bersikap sopan" terhadap ChatGPT menelan biaya puluhan juta dolar kepada OpenAI

Pengguna yang "bersikap sopan" terhadap ChatGPT menelan biaya puluhan juta dolar kepada OpenAI

2025-04-22 03:57:00

Bagaimana kamar tidur kecil berputar? Kiat dekorasi yang dipuji oleh para desainer akan dipelajari segera setelah Anda mempelajarinya!

Bagaimana kamar tidur kecil berputar? Kiat dekorasi yang dipuji oleh para desainer akan dipelajari segera setelah Anda mempelajarinya!

2025-04-04 17:02:01

Bagaimana pakar Excel memanfaatkan tombol Alt dengan cerdas? Kiat praktis terungkap!

Bagaimana pakar Excel memanfaatkan tombol Alt dengan cerdas? Kiat praktis terungkap!

2025-04-15 05:22:33

10 peretasan hidup yang konyol namun efisien, datang dan belajar!

10 peretasan hidup yang konyol namun efisien, datang dan belajar!

2025-04-18 09:26:25

Saya mengerti mengapa, tetapi saya tidak bisa melakukannya

Saya mengerti mengapa, tetapi saya tidak bisa melakukannya

2025-04-06 11:09:58

Terlalu kecil untuk gagal

Terlalu kecil untuk gagal

2025-03-24 11:40:55

Bisakah "strategi sensor" Apple menarik pengguna ke gaya hidup masa depan?

Bisakah "strategi sensor" Apple menarik pengguna ke gaya hidup masa depan?

2025-03-24 11:40:55

Mempertahankan status quo adalah strategi yang paling berbahaya

Mempertahankan status quo adalah strategi yang paling berbahaya

2025-03-24 11:40:55

Pengalaman "terhormat" di era energi baru, Geely Galaxy Wing True L380 menciptakan "kelas satu" baru

Pengalaman "terhormat" di era energi baru, Geely Galaxy Wing True L380 menciptakan "kelas satu" baru

2025-03-24 11:40:56

Mengapa saya masih merekomendasikan Anda untuk memainkan "Ride and Cut" dalam 2025 tahun

Mengapa saya masih merekomendasikan Anda untuk memainkan "Ride and Cut" dalam 2025 tahun

2025-03-24 11:40:57

Strange Tales: Berapa biaya untuk mempelajari permainan?

Strange Tales: Berapa biaya untuk mempelajari permainan?

2025-03-24 11:41:00

Pameran Miu Miu, memecahkan kode DNA feminitas "baru"

Pameran Miu Miu, memecahkan kode DNA feminitas "baru"

2025-03-24 11:41:05

Biaya pembuatan tas LV terbaru buatan sendiri kurang dari 3 yuan? Pekerja migran yang menggunakan pencetakan 0D dapat membuka "jalur perakitan mewah" di rumah

Biaya pembuatan tas LV terbaru buatan sendiri kurang dari 3 yuan? Pekerja migran yang menggunakan pencetakan 0D dapat membuka "jalur perakitan mewah" di rumah

2025-03-24 11:41:13

Di forum luar negeri ini, saya menemukan alasan popularitas Ray-Ban Meta

Di forum luar negeri ini, saya menemukan alasan popularitas Ray-Ban Meta

2025-03-24 11:41:27

Batas-batas Prediksi Struktural AI: Mengapa AlphaFold Tidak Dapat Menggantikan Biologi Struktural Eksperimental

Batas-batas Prediksi Struktural AI: Mengapa AlphaFold Tidak Dapat Menggantikan Biologi Struktural Eksperimental

2025-03-24 11:41:30

Pendorong itu sendiri adalah daun bawang

Pendorong itu sendiri adalah daun bawang

2025-03-24 11:41:31

MWC2025 Moving Image Deep Thinking Akankah Desain Modular Menjadi Outlet?

MWC2025 Moving Image Deep Thinking Akankah Desain Modular Menjadi Outlet?

2025-03-24 11:41:31

Cara tercepat untuk menghapuskan perusahaan: gesekan organisasi

Cara tercepat untuk menghapuskan perusahaan: gesekan organisasi

2025-03-24 11:41:36

Rekomendasi ponsel layar lipat! Keempatnya tidak perlu khawatir tidak mudah digunakan, penumpukannya sangat top

Rekomendasi ponsel layar lipat! Keempatnya tidak perlu khawatir tidak mudah digunakan, penumpukannya sangat top

2025-03-24 11:41:40

Xiaomi SU7 Ultra Electric Front/Trunk keduanya memiliki fungsi anti pinch, jangan khawatir

Xiaomi SU7 Ultra Electric Front/Trunk keduanya memiliki fungsi anti pinch, jangan khawatir

2025-03-24 11:41:41

Teknologi hitam seperti apa yang memungkinkan Anda membuka ratusan mod radiasi G dalam sekejap?

Teknologi hitam seperti apa yang memungkinkan Anda membuka ratusan mod radiasi G dalam sekejap?

2025-03-24 11:41:45

Chip seri M Apple ditinjau, mencakup tiga lini produk utama, dengan terobosan baru setiap tahun

Chip seri M Apple ditinjau, mencakup tiga lini produk utama, dengan terobosan baru setiap tahun

2025-03-24 11:41:45

Keep E Move Experience: Tolok ukur baru untuk keterjangkauan headphone olahraga konduksi tulang

Keep E Move Experience: Tolok ukur baru untuk keterjangkauan headphone olahraga konduksi tulang

2025-03-24 11:41:51

Mungkin tidak pernah ada RPG yang mengeksplorasi "menulis" secara ekstrem

Mungkin tidak pernah ada RPG yang mengeksplorasi "menulis" secara ekstrem

2025-03-24 11:41:53