Inteligencia artificial supera el rendimiento humano en pruebas académicas

Ciudad de México, 10-06-2025 |

Modelos como GPT-4.5 logran precisión superior al promedio humano en razonamiento, interacción y generación de contenido

Durante 2024, los sistemas de inteligencia artificial lograron rendimientos que superaron el desempeño promedio humano en diversas evaluaciones académicas y profesionales, según el informe Trends – Artificial Intelligence, publicado por Bond en mayo de 2025. Uno de los principales referentes de este avance es la prueba MMLU, diseñada por Stanford HAI, la cual mide razonamiento y conocimiento en 57 disciplinas.

En esta evaluación, los modelos líderes alcanzaron un 92,3% de aciertos, superando el umbral humano estimado en 89,8%. Las áreas evaluadas incluyeron matemáticas, historia, medicina, derecho y lógica, utilizando preguntas reales seleccionadas por la comunidad investigadora.

Las capacidades conversacionales también fueron puestas a prueba. En un experimento realizado en el primer trimestre de 2025 por la Universidad de California en San Diego, se aplicaron sesiones tipo Turing para medir la capacidad de los modelos para simular interacción humana. El modelo GPT-4.5 indujo error en el 73% de los evaluadores, quienes no pudieron distinguir entre las respuestas de una máquina y las de una persona. En una de las conversaciones citadas, el 87% identificó erróneamente al sistema como humano, pese a que las respuestas se centraban en temas cotidianos y no técnicos.

El progreso también se evidenció en formatos visuales y sonoros. El informe incluyó comparaciones entre imágenes generadas por versiones de Midjourneyde 2022 y 2025, destacando que las más recientes presentan una fidelidad visual cercana a una fotografía real. En el ámbito del audio, herramientas como ElevenLabs replicaron voces humanas en más de 29 idiomas, conservando tono, cadencia y matices.

La empresa reportó que sus usuarios produjeron contenido equivalente a mil años de audio en menos de dos años, siendo utilizada por empleados del 60% de las compañías del índice Fortune 500. Todos los datos incluidos fueron obtenidos mediante protocolos estructurados y verificados por entidades académicas reconocidas, sin incluir interpretaciones externas a los resultados experimentales.