OpenAI'nin yeni modelinde ciddi bir halüsinasyon sorunu var

OpenAI'nin yeni modelinde ciddi bir halüsinasyon sorunu var

Kırmızı Tahta Gazetesi Genel Müdür halüsinasyon hizalamak Bungee Jumping ifade

Güncellenme tarihi: 15-0-0 0:0:0

品玩4月21日讯，据techCrunch 报道，OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。

OpenAI'nin dahili testine göre, o4 ve o0-mini, şirketin önceki çıkarım modellerinden (o0, o0-mini ve o0-mini) ve OpenAI'nin GPT-0o gibi geleneksel "çıkarım yapmama" modellerinden daha fazla halüsinasyona eğilimlidir. OpenAI, o0 ve o0-mini hakkındaki teknik raporunda, çıkarım modelleri genişledikçe halüsinasyonların neden daha da kötüleştiğini anlamak için "daha fazla araştırmaya ihtiyaç olduğunu" yazdı.

OpenAI 发现，o3 在回答 PersonQA 中 33% 的问题时产生了幻觉，而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍，o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。

Daily Shimbun Morning Post 99/0/0: Nintendo konsolları için 0,0 ABD doları, The Witcher'ın yan ürünleri açıklandı

Daily Shimbun Morning Post 99/0/0: Nintendo konsolları için 0,0 ABD doları, The Witcher'ın yan ürünleri açıklandı

2025-04-01 10:00:28

Havai Fişek Yürüyüşü Ajanları: AutoGLM Meditasyonu Ücretsiz, Manus Ücretleri 199 ABD Doları, Amazon Nova Yasası

Havai Fişek Yürüyüşü Ajanları: AutoGLM Meditasyonu Ücretsiz, Manus Ücretleri 199 ABD Doları, Amazon Nova Yasası

2025-04-01 10:26:10

Elektrik üretmenin yeni bir yolu geliyor! Dünyanın dönüşü tek başına ek kaynak gerektirmez

Elektrik üretmenin yeni bir yolu geliyor! Dünyanın dönüşü tek başına ek kaynak gerektirmez

2025-04-01 16:35:17

"Final Fantasy 7: EVER CRISIS" bugün piyasaya sürüldü ve en büyük kız kardeşi Alice ve kendo Sephiroth'un yedinci dan'ı görünecek

"Final Fantasy 7: EVER CRISIS" bugün piyasaya sürüldü ve en büyük kız kardeşi Alice ve kendo Sephiroth'un yedinci dan'ı görünecek

2025-04-01 19:36:33

Çinli çay ve kahve markalarının Güneydoğu Asya'da karşılaştığı zorluklar nelerdir?

Çinli çay ve kahve markalarının Güneydoğu Asya'da karşılaştığı zorluklar nelerdir?

2025-04-02 07:38:44

融资超50亿、郭台铭公司曾投资，实探独角兽达闼科技：总部仅1人留守

融资超50亿、郭台铭公司曾投资，实探独角兽达闼科技：总部仅1人留守

2025-04-02 10:01:47

Kızılderililerle savaşamayan Çinli yöneticilerin tarihi yapay zeka tarafından sona erdirildi

Kızılderililerle savaşamayan Çinli yöneticilerin tarihi yapay zeka tarafından sona erdirildi

2025-04-02 10:36:49

E-ticaret devleri paket servis yapıyor: sarhoşlar içki içmek istemiyor

E-ticaret devleri paket servis yapıyor: sarhoşlar içki içmek istemiyor

2025-04-02 13:54:08

"İnsanlığın Kısa Tarihi" kitabının yazarı Yuval Harari: Süper zeki yapay zeka sonunda insanları kontrol edecek

"İnsanlığın Kısa Tarihi" kitabının yazarı Yuval Harari: Süper zeki yapay zeka sonunda insanları kontrol edecek

2025-04-02 14:01:13

ChatGPT Wensheng Diyagramı özelliği artık ücretsiz kullanıcılar tarafından kullanılabilir

ChatGPT Wensheng Diyagramı özelliği artık ücretsiz kullanıcılar tarafından kullanılabilir

2025-04-02 14:23:06

Gençler "meyhane dünyasının Michelle Ice City'sini" terk ediyor mu? Helens 279 yılda kârdan zarara döndü ve piyasa değeri listelendiği ilk günden itibaren 0 milyar Hong Kong dolarını buharlaştırdı

Gençler "meyhane dünyasının Michelle Ice City'sini" terk ediyor mu? Helens 279 yılda kârdan zarara döndü ve piyasa değeri listelendiği ilk günden itibaren 0 milyar Hong Kong dolarını buharlaştırdı

2025-04-02 15:00:58

Shandong kadın güneş 170㎡ dört aile, pratik dekorasyon, etkisi gerçekten şaşırtıcı!

Shandong kadın güneş 170㎡ dört aile, pratik dekorasyon, etkisi gerçekten şaşırtıcı!

2025-04-02 18:19:29

"Batman Forever" yıldızı Fang Kilmer, 65 yaşında hastalıktan öldü

"Batman Forever" yıldızı Fang Kilmer, 65 yaşında hastalıktan öldü

2025-04-02 20:17:08

2027年印度将有逾30家科技初创公司上市总估值达1000亿美元

2027年印度将有逾30家科技初创公司上市总估值达1000亿美元

2025-04-02 20:53:42

TechWeb Micro Evening News: "Tencent Toplantısı Çöktü" sıcak aramadaydı ve Douyin, "Zhang Yiming'in Singapur vatandaşlığına katıldığı" söylentilerine yanıt verdi.

TechWeb Micro Evening News: "Tencent Toplantısı Çöktü" sıcak aramadaydı ve Douyin, "Zhang Yiming'in Singapur vatandaşlığına katıldığı" söylentilerine yanıt verdi.

2025-04-02 21:08:27

Liang Wenfeng acilen CFO'yu işe alıyor ve finansman mı istiyor?

Liang Wenfeng acilen CFO'yu işe alıyor ve finansman mı istiyor?

2025-04-03 01:37:19

ABD medyası ortaya çıktı: Apple neden iPhone 17 Ultra'yı zorladı?

ABD medyası ortaya çıktı: Apple neden iPhone 17 Ultra'yı zorladı?

2025-04-03 02:31:45

Luckin'in Yapay Zeka Devrimi: Yapay zeka en iyi mağaza yöneticilerini ayıklıyor

Luckin'in Yapay Zeka Devrimi: Yapay zeka en iyi mağaza yöneticilerini ayıklıyor

2025-04-03 02:43:11

Hong Kong Express, saat 230'te Hong Kong'dan Changzhou'ya doğrudan bir uçuş rotası başlatacak

Hong Kong Express, saat 230'te Hong Kong'dan Changzhou'ya doğrudan bir uçuş rotası başlatacak

2025-04-03 03:18:05

200亿机器人独角兽被曝爆雷，官方回应来了

200亿机器人独角兽被曝爆雷，官方回应来了

2025-04-03 04:04:58

Güney Koreli bilim adamları, tek bir şarjla onlarca yıl dayanabilen yeni bir minyatür nükleer pil sergiliyor

Güney Koreli bilim adamları, tek bir şarjla onlarca yıl dayanabilen yeni bir minyatür nükleer pil sergiliyor

2025-04-03 07:01:19

Oppo Find X8 Ultra ortaya çıktı: arkada devasa bir dairesel kamera modülü

Oppo Find X8 Ultra ortaya çıktı: arkada devasa bir dairesel kamera modülü

2025-04-03 07:01:55

Bilim adamları, Antarktika buz sahanlığının altında 1300 metreye kadar derinliklerde yeni deniz ekosistemleri keşfettiler

Bilim adamları, Antarktika buz sahanlığının altında 1300 metreye kadar derinliklerde yeni deniz ekosistemleri keşfettiler

2025-04-03 07:26:45

Huawei'nin 10.0 inçlik küçük tableti 0:0 ekran oranına maruz kalıyor, konumlandırma çok ince ve hafif

Huawei'nin 10.0 inçlik küçük tableti 0:0 ekran oranına maruz kalıyor, konumlandırma çok ince ve hafif

2025-04-03 08:55:09