Modelos de IA o3 y o4-mini de OpenAI presentan aumento en errores factuales
Alucinaciones en modelos centrados en razonamiento superan a versiones anteriores y afectan su utilidad práctica
OpenAIreportó un incremento significativo en las tasas de alucinaciones en sus modelos de inteligencia artificial o3 y o4-mini, diseñados específicamente para tareas de razonamiento. Las alucinaciones, entendidas como afirmaciones incorrectas o inventadas por el modelo, se registraron en mayor frecuencia comparado con versiones anteriores como o1, o1-mini y o3-mini.
En un informe técnico, la empresa reveló que el modelo o3 alcanzó un 33% de respuestas erróneas en el benchmark PersonQA, una prueba diseñada para medir conocimiento sobre personas. En contraste,o1 mostró una tasa del 16%, mientras que o3-mini reportó 14,8%. El modelo o4-mini presentó la tasa más alta con un 48%. Estos resultados también reflejan un desempeño inferior respecto a sistemas como GPT-4o, el cual, aunque no está optimizado para razonamiento, mantiene una mayor precisión.
Asimismo, el documento de OpenAI indicó: "se necesita más investigación para comprender por qué las alucinaciones empeoran a medida que amplía los modelos de razonamiento". Aunque o3 y o4-mini presentan avances en programación y matemáticas, su tendencia a ofrecer más respuestas también eleva el riesgo de errores factuales.
Las observaciones fueron respaldadas por pruebas externas de la organización Transluce. Entre los casos documentados, se citó una respuesta del modelo o3 en la que afirmó haber ejecutado código en una MacBookPro "fuera de ChatGPT"y copiado los resultados, una acción técnicamente imposible. Neil Chowdhury, investigador de Transluce, sostuvo: "Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos de series o puede amplificar problemas que normalmente se mitigan (pero no se eliminan por completo) mediante procesos de postentrenamiento estándar".
Sarah Schwettmann, cofundadora de Transluce, advirtió que la alta tasa de alucinaciones podría disminuir la utilidad de estos modelos. Asimismo, Kian Katanforoosh, profesor de Stanford y CEO de Workera, comentó que su equipo ya prueba o3 para flujos de trabajo en programación, pero notó que "tiende a generar alucinaciones con enlaces web rotos".
Las implicaciones de estas fallas son especialmente relevantes en sectores donde la precisión es crítica, como el jurídico. Según el informe, en estos contextos los errores factuales pueden comprometer seriamente la calidad del trabajo generado por IA.
Una posible solución planteada por OpenAI es dotar a estos modelos de funciones de navegación en línea. En este sentido, el modelo GPT-4o, con capacidad de búsqueda web, alcanzó una precisión del 90% en el benchmark SimpleQA.
Niko Felix, portavoz de la compañía, reafirmó el compromiso de OpenAI con la mejora continua: "Abordar las alucinaciones en todos nuestros modelos es un área de investigación continua, y trabajamos continuamente para mejorar su precisión y confiabilidad".
OpenAIInteligencia Artificial