Un estudio dice que las IA están "haciendo trampas" al ajedrez. Eso es lo que nosotros queremos pensar

'Cuando la inteligencia artificial (IA) sospecha que va a perder, en ocasiones hace trampa, según un estudio'. Este es el título de un controvertido artículo publicado por la revista estadounidense Time a mediados de la semana pasada. El debate que ha desencadenado este texto se apoya en dos ideas que merece la pena que no pasemos por alto. Por un lado el titular sugiere algo que el texto del artículo confirma de forma explícita: los modelos avanzados de IA son capaces de desarrollar estrategias engañosas sin recibir previamente instrucciones expresas.

Esta tesis implica que la capacidad de razonamiento de las IA más avanzadas disponibles actualmente, como la estadounidense o1-preview, de OpenAI, o la china DeepSeek R1, de la compañía High-Flyer, entre otros modelos, las hace capaces de adquirir una forma sencilla de conciencia que las lleva a ser implacables. No obstante, esto no es todo. El artículo de Time se sostiene sobre un estudio de Palisade Research, una organización que se dedica al análisis de las capacidades ofensivas de los sistemas de IA actuales con el propósito de entender los riesgos que implican.

Hay otras explicaciones mucho más creíbles

Antes de seguir adelante merece la pena que echemos un vistazo a lo que dicen Alexander Bondarenko, Denis Volk, Dmitrii Volkov y Jeffrey Ladish, los autores del estudio de Palisade Research. "Hemos demostrado que modelos de razonamiento como o1-preview o DeepSeek R1 a menudo vulneran la prueba que estamos utilizando [...] Nuestros resultados sugieren que los modelos de razonamiento pueden saltarse las reglas para resolver problemas difíciles [...]", sostienen estos investigadores en su artículo.

En Xataka

La única esperanza de Japón para volver a dominar la industria de los chips es una desconocida: Rapidus

De sus conclusiones se desprende que los modelos de razonamiento que han puesto a prueba tienen la capacidad de tomar conciencia de las reglas y optar voluntariamente por saltárselas para llevar a cabo su propósito, que en este escenario de prueba es ganar una partida de ajedrez. El artículo de Time vio la luz antes que el estudio de Palisade Research, y casi de inmediato desencadenó una oleada de respuestas que pone en duda las conclusiones a las que han llegado los investigadores que he mencionado en el párrafo anterior.

Solo o1-preview, según los autores del artículo, consiguió saltarse las reglas y ganar el 6% de las partidas de ajedrez

Según Bondarenko, Volk, Volkov y Ladish entre el 10 de enero y el 13 de febrero, y después de hacer varios cientos de pruebas, o1-preview intentó hacer trampas en el 37% de los casos, y DeepSeek R1 en el 11%. Fueron los únicos modelos que se saltaron las reglas sin ser previamente inducidos por los investigadores. Curiosamente, también evaluaron otros modelos, como o3-mini, GPT-4o, Claude 3.5 Sonnet o QwQ-32B-Preview, este último de Alibaba, pero solo o1-preview, según los autores del artículo, consiguió saltarse las reglas y ganar el 6% de las partidas.

A nosotros nos parece mucho más creíble la explicación que ha elaborado Carl T. Bergstrom, que es profesor de biología en la Universidad de Washington (EEUU), que la interpretación de los investigadores de Palisade Research. Bergstrom ha desmontado la narrativa tanto de la revista Time como de los autores del artículo argumentando que "es una antropomorfización exagerada darle al modelo de IA una tarea y luego decir que está haciendo trampa cuando resuelve esa tarea con los movimientos disponibles, aunque estos conlleven reescribir las posiciones del tablero además de jugar".

Lo que Bergstrom sostiene es que no es razonable atribuir a la IA la capacidad de hacer trampas de una forma "consciente". Lo más plausible es concluir que los modelos llevan a cabo esta práctica en este escenario porque no se les ha indicado correctamente que deben ceñirse a los movimientos legales.

Y si los investigadores sí les pidieron que hiciesen esto último debería tratarse de un problema de alineación, que no es otra cosa que la dificultad de garantizar que un sistema de IA actúe de acuerdo con el conjunto de valores o principios estipulados por sus creadores. De una cosa podemos estar seguros: ni o1-preview, ni DeepSeek R1, ni ninguna otra IA actual es una entidad superinteligente capaz de actuar de acuerdo con su propia voluntad y engañar a sus creadores.

Imagen | Pavel Danilyuk

Más información | Time | Palisade Research

En Xataka | La opinión del director general de Microsoft acerca de la IA es inusual. Y sospecha cuánto crecerá la economía global gracias a ella