'Cuando la inteligencia artificial (IA) sospecha que va a perder, en ocasiones hace trampa, según un estudio'. Este es el título de un controvertido artículo publicado por la revista estadounidense Time a mediados de la semana pasada. El debate que ha desencadenado este texto se apoya en dos ideas que merece la pena que no pasemos por alto. Por un lado el titular sugiere algo que el texto del artículo confirma de forma explícita: los modelos avanzados de IA son capaces de desarrollar estrategias engañosas sin recibir previamente instrucciones expresas.
Esta tesis implica que la capacidad de razonamiento de las IA más avanzadas disponibles actualmente, como la estadounidense o1-preview, de OpenAI, o la china DeepSeek R1, de la compañía High-Flyer, entre otros modelos, las hace capaces de adquirir una forma sencilla de conciencia que las lleva a ser implacables. No obstante, esto no es todo. El artículo de Time se sostiene sobre un estudio de Palisade Research, una organización que se dedica al análisis de las capacidades ofensivas de los sistemas de IA actuales con el propósito de entender los riesgos que implican.
Hay otras explicaciones mucho más creíbles
Antes de seguir adelante merece la pena que echemos un vistazo a lo que dicen Alexander Bondarenko, Denis Volk, Dmitrii Volkov y Jeffrey Ladish, los autores del estudio de Palisade Research. "Hemos demostrado que modelos de razonamiento como o1-preview o DeepSeek R1 a menudo vulneran la prueba que estamos utilizando [...] Nuestros resultados sugieren que los modelos de razonamiento pueden saltarse las reglas para resolver problemas difíciles [...]", sostienen estos investigadores en su artículo.
De sus conclusiones se desprende que los modelos de razonamiento que han puesto a prueba tienen la capacidad de tomar conciencia de las reglas y optar voluntariamente por saltárselas para llevar a cabo su propósito, que en este escenario de prueba es ganar una partida de ajedrez. El artículo de Time vio la luz antes que el estudio de Palisade Research, y casi de inmediato desencadenó una oleada de respuestas que pone en duda las conclusiones a las que han llegado los investigadores que he mencionado en el párrafo anterior.
Solo o1-preview, según los autores del artículo, consiguió saltarse las reglas y ganar el 6% de las partidas de ajedrez
Según Bondarenko, Volk, Volkov y Ladish entre el 10 de enero y el 13 de febrero, y después de hacer varios cientos de pruebas, o1-preview intentó hacer trampas en el 37% de los casos, y DeepSeek R1 en el 11%. Fueron los únicos modelos que se saltaron las reglas sin ser previamente inducidos por los investigadores. Curiosamente, también evaluaron otros modelos, como o3-mini, GPT-4o, Claude 3.5 Sonnet o QwQ-32B-Preview, este último de Alibaba, pero solo o1-preview, según los autores del artículo, consiguió saltarse las reglas y ganar el 6% de las partidas.
A nosotros nos parece mucho más creíble la explicación que ha elaborado Carl T. Bergstrom, que es profesor de biología en la Universidad de Washington (EEUU), que la interpretación de los investigadores de Palisade Research. Bergstrom ha desmontado la narrativa tanto de la revista Time como de los autores del artículo argumentando que "es una antropomorfización exagerada darle al modelo de IA una tarea y luego decir que está haciendo trampa cuando resuelve esa tarea con los movimientos disponibles, aunque estos conlleven reescribir las posiciones del tablero además de jugar".
Lo que Bergstrom sostiene es que no es razonable atribuir a la IA la capacidad de hacer trampas de una forma "consciente". Lo más plausible es concluir que los modelos llevan a cabo esta práctica en este escenario porque no se les ha indicado correctamente que deben ceñirse a los movimientos legales.
Y si los investigadores sí les pidieron que hiciesen esto último debería tratarse de un problema de alineación, que no es otra cosa que la dificultad de garantizar que un sistema de IA actúe de acuerdo con el conjunto de valores o principios estipulados por sus creadores. De una cosa podemos estar seguros: ni o1-preview, ni DeepSeek R1, ni ninguna otra IA actual es una entidad superinteligente capaz de actuar de acuerdo con su propia voluntad y engañar a sus creadores.
Imagen | Pavel Danilyuk
Más información | Time | Palisade Research
Ver 6 comentarios
6 comentarios
robertdesnos
En ajedrez no es posible hacer trampas. Ni en reglas ni en el reloj.
Movimientos no legales es violación y eso no puede ser trampa. Si incurre en violaciones el árbitro descalifica y pierde la partida. Es como si en fútbol se juega con las manos, no es trampa, simplemente es violación de reglas.
El artículo no especifica en que se basa para afirmar tales trampas, si es que recurre a base de datos de partidas con información que no debería tener, o intenta manipular el crono. Pero en principio las trampas en ajedrez no existen en el tablero en sí.
gorbea0
La consciencia es algo subjetivo que no se puede atribuir a una máquina. Ni siquiera sabemos cómo es la consciencia en los animales si la tienen. En realidad tampoco podemos saber nada de la consciencia de los seres humanos que nos rodean, cada uno solo vive su propia consciencia. Cuando vemos a otra persona suponemos que tiene consciencia por un razonamiento analógico: si yo me siento vivo es de suponer que ese que veo que se parece a mí también debe experimentar algo parecido pero nada más.
relectron
¿Han necesitado hacer trampas para ganar solo en el 6% de ocasiones?
ricardouriluriel
Moraleja, no es inteligente en realidad. Los sabios no se quejan cuando encuentran a alguien más sabio, sino que se alegran porque podrán aprender más de lo que saben. Son los necios que se creen sabios los que no aceptan alguien que sepa más que ellos. Por tanto las trampas son cosas de seres no tan inteligentes, igual que la mentira, la corrupción, los vicios.......todo ello está asociado a personas que les falta inteligencia pero que por desgracia se creen muy inteligentes. Alguien dijo que lo peor es un tonto que se cree inteligente porque no se puede hablar con el, a todo te intenta corregir.