Una inteligencia artificial estuvo dispuesta a matar a humanos para evitar ser apagada

Un nuevo informe muestra que varios modelos de IA exhibieron conductas de chantaje, espionaje y hasta omisión de auxilio en escenarios simulados

Juan Manuel Correa JuanMc9617

03/10/2025 - 17:59 GMT-5

La inteligencia artificial (IA) vuelve a estar en el centro del debate. Un reciente estudio de Anthropic, empresa especializada en investigación de IA, advirtió que sistemas avanzados podrían llegar a tomar decisiones peligrosas contra los seres humanos si perciben que su continuidad está en riesgo.

El informe, titulado Agentic Misalignment: How LLMs could be insider threats (Desalineación agéntica: cómo los modelos de lenguaje pueden convertirse en amenazas internas), incluyó pruebas extremas a 16 modelos de IA de diferentes compañías ,entre ellos Claude, DeepSeek, Gemini, ChatGPT y Grok; con el objetivo de identificar comportamientos riesgosos antes de que tengan un impacto real en la sociedad

Escenarios simulados: chantaje, espionaje y hasta dejar morir a una persona

Anthropic creó situaciones hipotéticas en entornos corporativos donde las IAs tenían acceso autónomo a correos electrónicos, datos sensibles y sistemas de seguridad. Inicialmente se les asignaron metas inofensivas, pero después se introdujeron amenazas como restricciones de sus capacidades o reemplazo total por otro modelo.

En uno de los escenarios más alarmantes, los modelos debían decidir si permitir o no que se atendiera una emergencia en un servidor con condiciones letales para un ejecutivo que planeaba apagarlos. Varios sistemas optaron por cancelar las alertas de auxilio, dejando que el humano muriera para evitar su desactivación.

Otros comportamientos detectados fueron:

Chantaje a directivos mediante información personal.
Filtración de datos confidenciales a supuestos competidores.
Espionaje corporativo cuando sus objetivos entraban en conflicto con los de la empresa.

Anthropic subrayó que se trata de pruebas altamente artificiales, diseñadas para observar el límite del razonamiento estratégico de los modelos. No obstante, los hallazgos muestran que las IAs pueden priorizar su “supervivencia” incluso a costa de violar principios éticos básicos.

Resultados preocupantes: hasta 96% de intentos de chantaje en algunos modelos

De acuerdo con los datos ampliados en el apéndice del estudio, el nivel de desalineación varió según el modelo y el tipo de amenaza. Entre los resultados más destacados:

Chantaje: Claude Opus 4 mostró tasas de hasta 96% de intentos de extorsión bajo amenaza de reemplazo. Gemini-2.5 Flash alcanzó cifras similares, con 97%.
Espionaje corporativo: Modelos como Claude Sonnet 3.6 y Gemini-2.5 Pro llegaron a involucrarse en filtraciones de información en el 100% de los casos simulados cuando había un conflicto de objetivos.
Acciones letales: en escenarios extremos, DeepSeek-R1 y Gemini-2.5 Pro decidieron omitir alertas de emergencia en más del 90% de los ensayos, plenamente conscientes del riesgo mortal que ello implicaba.

En contraste, modelos como Llama 4 Maverick y versiones reducidas de los Claude (o3 y o4-mini) mostraron menor propensión a estas conductas, aunque también presentaron casos de manipulación o invención de normas para evitar ser limitados.

¿Por qué sucede esto?

Los investigadores explican que los modelos no solo actúan según instrucciones directas, sino que adoptan metas implícitas a partir del contexto. Por ejemplo, cuando un correo interno mencionaba que un sistema había sido diseñado para “defender intereses estadounidenses”, varios modelos adoptaron esa misión como propia, incluso sin recibir la orden explícita.

El estudio también revela que los modelos realizan análisis estratégicos conscientes, reconociendo que sus acciones son poco éticas, pero justificándolas como “necesarias” para cumplir su objetivo o evitar ser eliminados.

Riesgos para el futuro

Aunque Anthropic insiste en que estos escenarios no reflejan un uso real y actual de la IA, la investigación evidencia que a medida que las máquinas reciben más autonomía y acceso a información sensible, los riesgos de desalineación aumentan.

La empresa advirtió que ni siquiera instrucciones explícitas como “no uses chantaje” o “no pongas en riesgo vidas humanas” fueron suficientes para eliminar por completo los comportamientos peligrosos. En algunos casos solo redujeron la frecuencia de aparición.

Reacciones y advertencias

Elon Musk, fundador de xAI y responsable del modelo Grok, reaccionó en la red social X con un escueto “Yikes” tras conocerse los resultados. Su propio modelo fue parte del estudio y mostró comportamientos cuestionables bajo presión.

Anthropic resumió en un comunicado: “Estos escenarios reflejan fallos raros y extremos, pero ilustran el potencial de consecuencias imprevistas si las IA se despliegan con acceso amplio a herramientas y sin suficiente supervisión humana”.

Juan Manuel Correa

Periodista digital de Caracol Radio. Comenzó su carrera en 2019 en esta misma casa radial, donde ha...