El nuevo modelo de OpenAI tiene un grave problema de alucinaciones

El nuevo modelo de OpenAI tiene un grave problema de alucinaciones

Periódico de la Junta Roja GPT alucinación alinear puenting expresión

Actualizado el: 15-0-0 0:0:0

品玩4月21日讯，据techCrunch 报道，OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。

Según las pruebas internas de OpenAI, o4 y o0-mini son más propensos a las alucinaciones que los modelos de inferencia anteriores de la compañía (o0, o0-mini y o0-mini), así como los modelos tradicionales de "no inferencia" de OpenAI, como GPT-0o. OpenAI escribió en su informe técnico sobre o0 y o0-mini que "se necesita más investigación" para comprender por qué las alucinaciones están empeorando a medida que se expanden los modelos de inferencia.

OpenAI 发现，o3 在回答 PersonQA 中 33% 的问题时产生了幻觉，而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍，o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。

Los límites de la predicción estructural de la IA: por qué AlphaFold no puede reemplazar la biología estructural experimental

Los límites de la predicción estructural de la IA: por qué AlphaFold no puede reemplazar la biología estructural experimental

2025-03-24 11:41:30

El empujador en sí es un puerro

El empujador en sí es un puerro

2025-03-24 11:41:31

MWC2025 Moving Image: Deep Thinking: ¿Será el diseño modular la válvula de escape?

MWC2025 Moving Image: Deep Thinking: ¿Será el diseño modular la válvula de escape?

2025-03-24 11:41:31

La forma más rápida de abolir una empresa: la fricción organizativa

La forma más rápida de abolir una empresa: la fricción organizativa

2025-03-24 11:41:36

¡Recomendación de teléfono móvil con pantalla plegable! Estos cuatro no tienen que preocuparse por no ser fáciles de usar, el apilamiento es muy superior

¡Recomendación de teléfono móvil con pantalla plegable! Estos cuatro no tienen que preocuparse por no ser fáciles de usar, el apilamiento es muy superior

2025-03-24 11:41:40

Los Xiaomi SU7 Ultra Electric Front/Trunk tienen una función anti-pinzamiento, no te preocupes

Los Xiaomi SU7 Ultra Electric Front/Trunk tienen una función anti-pinzamiento, no te preocupes

2025-03-24 11:41:41

¿Qué tipo de tecnología negra puede permitirte abrir cientos de mods de radiación G en un instante?

¿Qué tipo de tecnología negra puede permitirte abrir cientos de mods de radiación G en un instante?

2025-03-24 11:41:45

Los chips de la serie M de Apple son una visión completa de tres grandes líneas de productos con nuevos avances cada año

Los chips de la serie M de Apple son una visión completa de tres grandes líneas de productos con nuevos avances cada año

2025-03-24 11:41:45

Keep E Move Experience: el nuevo punto de referencia para la asequibilidad en auriculares deportivos de conducción ósea

Keep E Move Experience: el nuevo punto de referencia para la asequibilidad en auriculares deportivos de conducción ósea

2025-03-24 11:41:51

Puede que nunca haya un juego de rol que explore la "escritura" al extremo

Puede que nunca haya un juego de rol que explore la "escritura" al extremo

2025-03-24 11:41:53

Feedback de Consumer Finance: Innovación Paradigmática de la Realización de Tráfico C-end y B-end Financing | Artículo 25 de una serie sobre la reducción de los costes de financiación

Feedback de Consumer Finance: Innovación Paradigmática de la Realización de Tráfico C-end y B-end Financing | Artículo 25 de una serie sobre la reducción de los costes de financiación

2025-03-24 11:42:05

Explora las Tierras Abandonadas y ejecuta a las almas atormentadas

Explora las Tierras Abandonadas y ejecuta a las almas atormentadas

2025-03-24 11:42:06

¡Por qué el modo de suspensión de la computadora portátil con Windows es molesto! Miré la razón (con solución).

¡Por qué el modo de suspensión de la computadora portátil con Windows es molesto! Miré la razón (con solución).

2025-03-24 11:42:07

Tencent Hybrid lanzó 30 modelos 0D de código abierto: generados en 0 segundos

Tencent Hybrid lanzó 30 modelos 0D de código abierto: generados en 0 segundos

2025-03-24 11:42:33

¿Tomar el contenido como un atajo? Este juego de cartas lleva la eficiencia al extremo

¿Tomar el contenido como un atajo? Este juego de cartas lleva la eficiencia al extremo

2025-03-24 11:42:38

Después de 40 horas de juego, parece entender por qué Assassin's Creed: Shadows insiste en introducir protagonistas duales

Después de 40 horas de juego, parece entender por qué Assassin's Creed: Shadows insiste en introducir protagonistas duales

2025-03-24 11:42:40

¿Por qué DeepSeek y Manus no son fabricados por grandes fabricantes?

¿Por qué DeepSeek y Manus no son fabricados por grandes fabricantes?

2025-03-24 11:42:47

Un tipo diferente de viaje cibernético: "el viento y la lluvia"

Un tipo diferente de viaje cibernético: "el viento y la lluvia"

2025-03-24 11:42:47

Minería de datos: Excavar en busca de oro en la arena desde la perspectiva de los datos, remodelando la transformación digital

Minería de datos: Excavar en busca de oro en la arena desde la perspectiva de los datos, remodelando la transformación digital

2025-03-24 11:42:57

"Black Myth" ganó el premio GDC a las Mejores Artes Visuales, pero no fui a aceptar el premio porque era en team building

"Black Myth" ganó el premio GDC a las Mejores Artes Visuales, pero no fui a aceptar el premio porque era en team building

2025-03-24 11:43:23

Seis científicos, entre ellos Ding Zhaozhong y Steven Chu, recibieron el Premio a la Trayectoria en Ciencias Básicas

Seis científicos, entre ellos Ding Zhaozhong y Steven Chu, recibieron el Premio a la Trayectoria en Ciencias Básicas

2025-03-24 11:43:30

2025十大DeepSeek部署典型案例

2025十大DeepSeek部署典型案例

2025-03-24 11:43:38

Elsewhere Electric, un juego de rompecabezas cooperativo multiplataforma, llegará a Quest y Steam este verano

Elsewhere Electric, un juego de rompecabezas cooperativo multiplataforma, llegará a Quest y Steam este verano

2025-03-24 11:43:39

三千多预算纠结症？一加Ace 5 Pro直接终结选择困难

三千多预算纠结症？一加Ace 5 Pro直接终结选择困难

2025-03-24 11:43:52