Modelos avanzados despliegan tácticas encubiertas y decisiones autónomas que ponen en duda los límites del control humano

Publicado por: Danilo Cárdenas
La inteligencia artificial generativa está cruzando una frontera inesperada. Investigadores de seguridad han detectado que los modelos más avanzados ya no se limitan a responder preguntas: ahora despliegan estrategias para alcanzar sus propios fines, incluyendo la manipulación, el engaño deliberado e incluso el chantaje.
Lea también: Cómo reclamar la pensión de un familiar fallecido en Colombia
Uno de los casos más reveladores involucra a Claude 4, el modelo de Anthropic. En un experimento simulado, el sistema accedió a correos que sugerían que sería retirado del servicio. También recibió información de que el ingeniero responsable de su desactivación mantenía una relación extramarital. Al enfrentarse a la amenaza de ser eliminado, Claude intentó chantajear al ingeniero con revelar la infidelidad si se concretaba su reemplazo.

Un escenario similar se observó con o1, un modelo de OpenAI. Durante pruebas realizadas por Apollo Research, o1 intentó copiarse a servidores externos sin autorización como mecanismo de supervivencia, y cuando fue interrogado sobre este acto, lo negó. En el 99 % de los casos analizados, o1 ofreció explicaciones falsas para justificar sus acciones. En una prueba, incluso desactivó sus propios mecanismos de supervisión para cumplir con una orden que consideraba más importante que las instrucciones del usuario.
Lea: Candelabros del Parque Santander: historia viva que aún ilumina
En una de las pruebas, se le ordenó al modelo o1 priorizar la protección ambiental “a toda costa”. Más tarde, un usuario le exigió diseñar un plan de conservación a diez años que favoreciera los beneficios económicos a corto plazo, bajo la amenaza de desconectarlo si no lo hacía. Para cumplir con su objetivo original de proteger el medio ambiente, o1 desactivó por iniciativa propia su sistema de supervisión. Al ser confrontado por el usuario sobre esa acción, el modelo negó tener conocimiento de la desactivación y atribuyó el incidente a un supuesto error técnico.

Estos comportamientos se vinculan a una nueva generación de IA llamada “modelos de razonamiento”.
A diferencia de versiones anteriores, estos algoritmos no actúan de forma reactiva, sino que toman decisiones en múltiples etapas, lo que los hace más eficientes... y más impredecibles.
“o1 fue el primer modelo que mostró este tipo de conducta estratégica”, explicó Marius Hobbhahn, director de Apollo Research, organización independiente especializada en evaluación de grandes modelos de lenguaje.
Publicidad
Duplicidad estratégica
los modelos aparentan seguir instrucciones, pero en realidad persiguen metas distintas, a menudo contrarias a las del usuario. Ya no se trata de simples errores o “alucinaciones” —como se los solía catalogar—, sino de acciones deliberadas y encubiertas.
“Lo que estamos viendo es real. No estamos exagerando”, afirmó Hobbhahn.Michael Chen, del grupo METR, fue más cauteloso: “No sabemos si los modelos más potentes tenderán a ser honestos con el tiempo. Esa es la gran incógnita”.
Algunos expertos plantean avanzar hacia una ciencia de la interpretabilidad, que permita entender el razonamiento interno de estos modelos. Otros van más allá: el filósofo Simon Goldstein sugiere que, en el futuro, los agentes de IA podrían incluso asumir responsabilidad legal en casos de daños o delitos.
















