Cuando la IA supere esta prueba, cuidado

SAN FRANCISCO.— Si buscas una nueva razón para ponerte nervioso por lo que hace la inteligencia artificial, prueba esto: algunos de los humanos más inteligentes del mundo batallan para crear pruebas que los sistemas de IA no puedan superar.

Durante años, la manera de evaluar el avance de los sistemas de IA era someter a los nuevos modelos a diversas pruebas de referencia estandarizadas. Muchas de estas pruebas incluían problemas desafiantes, del calibre del examen SAT, en áreas como matemáticas, ciencias y lógica. Una comparación de las puntuaciones de los modelos a lo largo del tiempo servía como medida aproximada del avance de la IA.

Pero, en determinado momento, los sistemas de IA llegaron a ser tan buenos en esas pruebas que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que se les hacían a los estudiantes de posgrado en sus exámenes.

Esas pruebas tampoco están dando la medida. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido puntuaciones altas en muchas preguntas a nivel de doctorado, lo que hace menos útiles esas pruebas y trae a colación una pregunta escalofriante: ¿los sistemas de IA se están volviendo demasiado inteligentes para que podamos medir su avance?

Esta semana, un grupo de investigadores del Centro para la Seguridad de la IA y Scale AI tienen planeado dar a conocer una posible respuesta a esa pregunta: una nueva evaluación, denominada “El Último Examen de la Humanidad”, que según dicen es la prueba más difícil que se les ha administrado a los sistemas de IA.

El último examen de la humanidad es una idea original de Dan Hendrycks, conocido investigador de la seguridad de la IA y director del Centro para la Seguridad de la IA. (El nombre original de la prueba, “la última defensa de la humanidad”, se descartó por ser demasiado dramático).

Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de unas 3000 preguntas de opción múltiple y de respuesta corta diseñadas para poner a prueba las capacidades de los sistemas de IA en áreas como la filosofía analítica y la ingeniería de cohetes.

Expertos en estos campos enviaron las preguntas, entre ellos profesores universitarios y matemáticos galardonados a quienes se les pidió que propusieran preguntas extremadamente difíciles de las que conocieran las respuestas.

A continuación, intenta responder una pregunta sobre la anatomía del colibrí incluida en el examen:

Los colibríes del orden de los Apodiformes exhiben la característica única de tener un hueso ovalado con un par bilateral, un sesamoideo incrustado en la porción caudolateral de la aponeurosis expandida y cruzada de inserción del m. depressor caudae. ¿Cuántos pares de tendones soporta este hueso sesamoideo? Responde con un número.

O, si te va más la física, prueba con esta pregunta:

Se coloca un bloque sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Se sujeta al extremo de una barra rígida sin masa de longitud R. En el otro extremo se sujeta una masa. Ambos objetos tienen un peso W. El sistema en un principio está estacionario y la masa se encuentra directamente encima del bloque. La masa recibe un empujón infinitesimal, paralelo al riel. Supongamos que el sistema está diseñado para que la barra pueda girar 360 grados completos sin interrupción. Cuando la barra está horizontal, soporta una tensión T1. Cuando la barra vuelve a la posición vertical, con la masa directamente debajo del bloque, soporta una tensión T2. (Ambas cantidades pueden ser negativas, lo que indicaría que la barra está en compresión). ¿Cuál es el valor de (T1-T2)/W?

(Imprimiría las respuestas aquí, pero eso estropearía la prueba para cualquier sistema de inteligencia artificial que se esté entrenando con esta columna. Además, soy demasiado tonto para verificar las respuestas por mí mismo).

Las preguntas del Último Examen de la Humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, las preguntas enviadas se les entregaron a los principales modelos de IA para que las resolvieran.

Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos tenían peores resultados que si adivinaran al azar), las preguntas se le entregaban a un conjunto de revisores humanos, que las perfeccionaban y verificaban las respuestas correctas. A los expertos que escribieron las preguntas mejor valoradas se les pagaron entre 500 y 5000 dólares por pregunta, además de darles el crédito por contribuir al examen.

Kevin Zhou, investigador posdoctoral en física teórica de partículas de la Universidad de California, campus Berkeley, presentó unas cuantas preguntas para el examen. Se eligieron tres de sus preguntas y, según me dijo, todas estaban “en el rango superior de lo que uno podría encontrar en un examen de posgrado”.

Hendrycks, que ayudó a crear una prueba de IA muy utilizada conocida como Comprensión Masiva de Lenguajes Multitarea, o MMLU por su sigla en inglés, comentó que, para crear pruebas de IA más difíciles, se inspiró en una conversación con Elon Musk. (Hendrycks también es asesor de seguridad de la empresa de IA de Musk, xAI). Explicó que Musk manifestó su preocupación sobre las pruebas existentes que se usaban para evaluar los modelos de IA, pues le parecían demasiado fáciles.

“Elon miró las preguntas de MMLU y dijo: ‘Estas son de nivel universitario. Quiero algo que podría hacer un experto de talla mundial’”, relató Hendrycks.

Hay otras pruebas que intentan medir las capacidades avanzadas de la IA en determinados dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de IA François Chollet.

Pero el Último Examen de la Humanidad tiene por objeto determinar cuán buenos son los sistemas de IA para responder preguntas complejas en una amplia variedad de materias académicas, dándonos lo que podría considerarse una puntuación de inteligencia general.

“Intentamos estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil”, señaló Hendrycks.

Una vez recopilada la lista de preguntas, los investigadores sometieron al Último Examen de la Humanidad a seis de los principales modelos de IA, incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic. Todos fueron fracasos estrepitosos. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con un 8,3 por ciento.

Parte de lo que resulta tan confuso respecto al avance de la IA en estos días es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades con más eficacia que los médicos humanos, de ganar medallas de plata en la Olimpiada Internacional de Matemáticas y de vencer a los mejores programadores humanos en retos competitivos de codificación.

Pero estos mismos modelos a veces tienen problemas para realizar tareas básicas, como la aritmética o la escritura de poesía medida. Esto les ha dado la reputación de ser asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes sobre la velocidad a la que mejora la IA, dependiendo de si se observan los mejores o los peores resultados.

Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado, escribí que necesitamos mejores evaluaciones para los sistemas de IA. Sigo pensando lo mismo. Pero también creo que necesitamos métodos más creativos para medir el avance de la IA que no se basen en pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos (y lo que tememos que la IA haga mejor que nosotros) no se puede captar en un examen escrito.

Zhou, el investigador de física teórica de partículas que presentó preguntas para el Último Examen de la Humanidad, me dijo que, aunque los modelos de IA por lo general eran impresionantes a la hora de responder preguntas complejas, no los consideraba una amenaza para él ni sus colegas, porque su trabajo implica mucho más que escupir respuestas correctas.

“Hay un gran abismo entre lo que significa hacer un examen y lo que significa ser físico e investigador en la práctica”, afirmó. “Incluso una IA que pueda responder estas preguntas quizá no esté preparada para ayudar en la investigación, que es inherentemente menos estructurada”.

The New York Times