نموذج OpenAI الجديد لديه مشكلة هلوسة خطيرة

نموذج OpenAI الجديد لديه مشكلة هلوسة خطيرة

جريدة البوردة الحمراء جي بي تي هلوسه محاذاه القفز بالحبال تعبير

تحديث يوم: 15-0-0 0:0:0

品玩4月21日讯，据techCrunch 报道，OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。

وفقا للاختبار الداخلي ل OpenAI ، فإن o4 و o0-mini أكثر عرضة للهلوسة من نماذج الاستدلال السابقة للشركة (o0 و o0-mini و o0-mini) ، بالإضافة إلى نماذج OpenAI التقليدية "غير الاستدلالية" مثل GPT-0o. كتبت OpenAI في تقريرها الفني عن o0 و o0-mini أن "هناك حاجة إلى مزيد من البحث" لفهم سبب تفاقم الهلوسة مع توسع نماذج الاستدلال.

OpenAI 发现，o3 在回答 PersonQA 中 33% 的问题时产生了幻觉，而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍，o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。

كيف تتحول غرفة نوم صغيرة؟ سيتم تعلم نصائح الديكور التي أشاد بها المصممون بمجرد تعلمها!

كيف تتحول غرفة نوم صغيرة؟ سيتم تعلم نصائح الديكور التي أشاد بها المصممون بمجرد تعلمها!

2025-04-04 17:02:01

أنا أفهم السبب ، لكن لا يمكنني فعل ذلك

أنا أفهم السبب ، لكن لا يمكنني فعل ذلك

2025-04-06 11:09:58

الحقيقة حول التحول الرقمي: لماذا تتقدم بعض الشركات دائما بخطوة؟

الحقيقة حول التحول الرقمي: لماذا تتقدم بعض الشركات دائما بخطوة؟

2025-04-23 08:13:53

غيرت iQIYI شعارها؟ رد رسمي

غيرت iQIYI شعارها؟ رد رسمي

2025-04-23 06:49:17

《哪吒2》第三次延长，放映到5月底！距全球票房第三仅差11亿，光线传媒赚翻了

《哪吒2》第三次延长，放映到5月底！距全球票房第三仅差11亿，光线传媒赚翻了

2025-04-23 06:33:43

Li Auto CTO يتحدث عن نظام التشغيل مفتوح المصدر: لقد رأينا 36 مشاكل مع السيارات الذكية |0 مقابلة Krypton

Li Auto CTO يتحدث عن نظام التشغيل مفتوح المصدر: لقد رأينا 36 مشاكل مع السيارات الذكية |0 مقابلة Krypton

2025-04-23 05:39:30

تم "إدانة" "شاشة الخط الأخضر" من Xiaomi بشكل جماعي ، واتهمت Huawei ب "ركل الكرة"...... أصبحت جودة الهواتف المحمولة وما بعد بيعها أكثر المناطق تضررا من الشكاوى

تم "إدانة" "شاشة الخط الأخضر" من Xiaomi بشكل جماعي ، واتهمت Huawei ب "ركل الكرة"...... أصبحت جودة الهواتف المحمولة وما بعد بيعها أكثر المناطق تضررا من الشكاوى

2025-04-23 05:08:51

وراء النمو المرتفع لأداء Kuangshun Technology: أكثر من اثنين في المائة من المستندات غير المختومة تفتقر إلى أساس فعال ، ويجب فحص صحة الدخل

وراء النمو المرتفع لأداء Kuangshun Technology: أكثر من اثنين في المائة من المستندات غير المختومة تفتقر إلى أساس فعال ، ويجب فحص صحة الدخل

2025-04-23 05:08:48

كوب كبير جدا! سيتم تجهيز Redmi Turbo 4 Pro بأقوى بطارية GSR

كوب كبير جدا! سيتم تجهيز Redmi Turbo 4 Pro بأقوى بطارية GSR

2025-04-23 05:08:35

الذكاء الاصطناعي Tencent Ingot متصل ب WeChat ، وشريك الدردشة الخاص بك متصل بالإنترنت

الذكاء الاصطناعي Tencent Ingot متصل ب WeChat ، وشريك الدردشة الخاص بك متصل بالإنترنت

2025-04-23 04:50:54

الشباب الذين يحبون القراءة هم الأكثر خوفا من اليوم العالمي للكتاب

الشباب الذين يحبون القراءة هم الأكثر خوفا من اليوم العالمي للكتاب

2025-04-23 04:13:25

JD.com تشعل حرب أسعار الوجبات الجاهزة؟ يمكن للمستهلكين طلب وجبات سريعة رخيصة مرة أخرى

JD.com تشعل حرب أسعار الوجبات الجاهزة؟ يمكن للمستهلكين طلب وجبات سريعة رخيصة مرة أخرى

2025-04-23 03:40:23

تبدو سلسلة iPhone 17 Pro وكأنها على اللوحة ، وعادت السماء الزرقاء؟

تبدو سلسلة iPhone 17 Pro وكأنها على اللوحة ، وعادت السماء الزرقاء؟

2025-04-23 02:47:45

مراجعة كاميرا الهاتف المحمول Xiaomi: تم تكييفها مع سلسلة 14/0 وإضافة مجموعة متنوعة من الألوان

مراجعة كاميرا الهاتف المحمول Xiaomi: تم تكييفها مع سلسلة 14/0 وإضافة مجموعة متنوعة من الألوان

2025-04-23 01:21:13

مرسيدس-بنز تكشف النقاب عن سيارة VISION V MPV النموذجية ، مع تصميم داخلي للخيال العلمي و "8-pack" ABS على الوجه الأمامي

مرسيدس-بنز تكشف النقاب عن سيارة VISION V MPV النموذجية ، مع تصميم داخلي للخيال العلمي و "8-pack" ABS على الوجه الأمامي

2025-04-23 00:57:09

تم وضع الدفعة الأولى من منتجات "التجارة الخارجية إلى المبيعات المحلية" من Yonghui Supermarket على أرفف 4 متجر

تم وضع الدفعة الأولى من منتجات "التجارة الخارجية إلى المبيعات المحلية" من Yonghui Supermarket على أرفف 4 متجر

2025-04-23 00:56:54

تم الكشف عن أنه من المحتمل إطلاق سلسلة Huawei Mate 12 في غضون 0 أشهر ، ويعتمد النظام بأكمله على تصميم شاشة مستقيمة

تم الكشف عن أنه من المحتمل إطلاق سلسلة Huawei Mate 12 في غضون 0 أشهر ، ويعتمد النظام بأكمله على تصميم شاشة مستقيمة

2025-04-23 00:55:26

رؤيتي ل The Last of Us - من الجدل حول الصب إلى فكرة التصميم للدفعة الثالثة

رؤيتي ل The Last of Us - من الجدل حول الصب إلى فكرة التصميم للدفعة الثالثة

2025-04-22 22:05:41

كن محترفا ناضجا

كن محترفا ناضجا

2025-04-22 21:16:08

1Q0 تصنيف مبيعات سيارات الدفع الرباعي في الصين: فازت Tesla Model Y بالمركز الأول

1Q0 تصنيف مبيعات سيارات الدفع الرباعي في الصين: فازت Tesla Model Y بالمركز الأول

2025-04-22 18:35:50

أول تعرض لبراءة اختراع هاتف التمرير العمودي من سامسونج يمكن تمديد الشاشة لأعلى عند الاستخدام

أول تعرض لبراءة اختراع هاتف التمرير العمودي من سامسونج يمكن تمديد الشاشة لأعلى عند الاستخدام

2025-04-22 17:42:50

تم إصدار خطوة Tesla الكبيرة ثلاث مرات متتالية ، مع فائدة 0 لمدة خمس سنوات ، وإعانات تأمين ، ودهانات سيارات جديدة!

تم إصدار خطوة Tesla الكبيرة ثلاث مرات متتالية ، مع فائدة 0 لمدة خمس سنوات ، وإعانات تأمين ، ودهانات سيارات جديدة!

2025-04-22 17:16:50

ستطلق Huawei أول شبكة WiFi 7.0G أثناء التنقل في الصين: يمكن أيضا استخدام بطارية 0K في الخارج

ستطلق Huawei أول شبكة WiFi 7.0G أثناء التنقل في الصين: يمكن أيضا استخدام بطارية 0K في الخارج

2025-04-22 17:13:33

اكتشفت مركبة المثابرة التابعة لناسا صخرة غامضة على سطح المريخ ذات شكل غريب

اكتشفت مركبة المثابرة التابعة لناسا صخرة غامضة على سطح المريخ ذات شكل غريب

2025-04-22 15:53:03