品玩4月21日讯,据techCrunch 报道,OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。
จากการทดสอบภายในของ OpenAI o4 และ o0-mini มีแนวโน้มที่จะเกิดภาพหลอนมากกว่าโมเดลการอนุมานก่อนหน้านี้ของบริษัท (o0, o0-mini และ o0-mini) รวมถึงโมเดล "ไม่อนุมาน" แบบดั้งเดิมของ OpenAI เช่น GPT-0o OpenAI เขียนในรายงานทางเทคนิคเกี่ยวกับ o0 และ o0-mini ว่า "จําเป็นต้องมีการวิจัยเพิ่มเติม" เพื่อทําความเข้าใจว่าเหตุใดภาพหลอนจึงแย่ลงเมื่อแบบจําลองการอนุมานขยายตัว
OpenAI 发现,o3 在回答 PersonQA 中 33% 的问题时产生了幻觉,而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍,o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。