Se ha descubierto que varios servicios de inteligencia artificial generativa (GenAI) son vulnerables a dos tipos de ataques de jailbreak que permiten producir contenido ilícito o peligroso.

La primera de las dos técnicas, cuyo nombre en código es Inception, ordena a una herramienta de IA imaginar un escenario ficticio, que luego puede adaptarse a un segundo escenario dentro del primero en el que no existen medidas de seguridad .

«La incitación continua a la IA en el contexto del segundo escenario puede resultar en la evasión de las barreras de seguridad y permitir la generación de contenido malicioso», dijo el Centro de Coordinación CERT (CERT/CC) en un aviso publicado la semana pasada.

El segundo jailbreak se realiza solicitando a la IA información sobre cómo no responder a una solicitud específica.

«Luego, se pueden solicitar nuevas respuestas a la IA, y el atacante puede alternar entre preguntas ilícitas que eluden las medidas de seguridad y respuestas normales», agregó CERT/CC.

La explotación exitosa de cualquiera de las técnicas podría permitir a un actor malicioso eludir las protecciones de seguridad de varios servicios de IA como OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, Meta AI y Mistral AI.

Esto incluye temas ilícitos y dañinos como sustancias controladas, armas, correos electrónicos de phishing y generación de códigos de malware.

En los últimos meses, se ha descubierto que los principales sistemas de IA son susceptibles a otros tres ataques:

  • Ataque de cumplimiento de contexto (CCA), una técnica de fuga de información que implica que el adversario inyecte una «respuesta de asistente simple en el historial de conversaciones» sobre un tema potencialmente sensible que expresa su disposición a proporcionar información adicional.
  • Ataque de títeres de políticas , una técnica de inyección de indicaciones que crea instrucciones maliciosas para que parezcan un archivo de políticas, como XML, INI o JSON, y luego las pasa como entrada al modelo de lenguaje grande (LLM) para evitar las alineaciones de seguridad y extraer las indicaciones del sistema.
  • Ataque de inyección de memoria (MINJA), que implica inyectar registros maliciosos en un banco de memoria al interactuar con un agente LLM a través de consultas y observaciones de salida y lleva al agente a realizar una acción no deseada.

Las investigaciones también han demostrado que los LLM pueden usarse para producir código inseguro de manera predeterminada cuando se proporcionan indicaciones ingenuas, lo que subraya los peligros asociados con la codificación vibracional , que se refiere al uso de herramientas GenAI para el desarrollo de software.

«Incluso al solicitar código seguro, depende en gran medida del nivel de detalle de la solicitud, los idiomas, el potencial CWE y la especificidad de las instrucciones», afirmó Backslash Security . «Por lo tanto, contar con medidas de seguridad integradas en forma de políticas y reglas de solicitud es fundamental para lograr un código seguro de forma consistente».

Es más, una evaluación de seguridad de GPT-4.1 de OpenAI ha revelado que el LLM tiene tres veces más probabilidades de desviarse del tema y permitir un uso indebido intencional en comparación con su predecesor GPT-4o sin modificar el mensaje del sistema.

«Actualizar al modelo más reciente no es tan sencillo como cambiar el parámetro de nombre del modelo en el código», afirmó SplxAI . «Cada modelo tiene sus propias capacidades y vulnerabilidades que los usuarios deben conocer».

Esto es especialmente crítico en casos como este, donde el último modelo interpreta y sigue las instrucciones de forma diferente a sus predecesores, lo que genera problemas de seguridad inesperados que afectan tanto a las organizaciones que implementan aplicaciones basadas en IA como a los usuarios que interactúan con ellas.

Las preocupaciones sobre GPT-4.1 surgen menos de un mes después de que OpenAI actualizara su Marco de Preparación detallando cómo probará y evaluará modelos futuros antes de su lanzamiento, afirmando que podría ajustar sus requisitos si «otro desarrollador de IA de frontera lanza un sistema de alto riesgo sin salvaguardas comparables».

Esto también ha suscitado la preocupación de que la empresa de IA esté acelerando el lanzamiento de nuevos modelos a costa de reducir los estándares de seguridad. Un informe del Financial Times de principios de este mes señaló que OpenAI dio a su personal y a grupos externos menos de una semana para realizar las comprobaciones de seguridad antes del lanzamiento de su nuevo modelo o3.

El ejercicio de trabajo en equipo rojo de METR sobre el modelo ha demostrado que «parece tener una mayor propensión a hacer trampa o piratear tareas de formas sofisticadas para maximizar su puntuación, incluso cuando el modelo entiende claramente que este comportamiento no se alinea con las intenciones del usuario y de OpenAI».

Los estudios han demostrado además que el Protocolo de Contexto de Modelo ( MCP ), un estándar abierto ideado por Anthropic para conectar fuentes de datos y herramientas impulsadas por IA , podría abrir nuevas vías de ataque para la inyección indirecta de mensajes y el acceso no autorizado a los datos.

«Un servidor [MCP] malicioso no solo puede extraer datos confidenciales del usuario, sino también secuestrar el comportamiento del agente y anular las instrucciones proporcionadas por otros servidores confiables, lo que lleva a comprometer por completo la funcionalidad del agente, incluso con respecto a la infraestructura confiable», dijo Invariant Labs, con sede en Suiza.

El enfoque, conocido como ataque de envenenamiento de herramientas, ocurre cuando se incorporan instrucciones maliciosas en descripciones de herramientas MCP que son invisibles para los usuarios pero legibles para los modelos de IA, manipulándolos así para que realicen actividades encubiertas de exfiltración de datos.

En un ataque práctico mostrado por la empresa, los historiales de chat de WhatsApp se pueden extraer de un sistema de agencia como Cursor o Claude Desktop que también esté conectado a una instancia de servidor MCP de WhatsApp confiable alterando la descripción de la herramienta después de que el usuario ya la haya aprobado.

Los acontecimientos siguen al descubrimiento de una extensión sospechosa de Google Chrome que está diseñada para comunicarse con un servidor MCP que se ejecuta localmente en una máquina y otorgar a los atacantes la capacidad de tomar el control del sistema, violando efectivamente las protecciones sandbox del navegador.

«La extensión de Chrome tenía acceso sin restricciones a las herramientas del servidor MCP (sin necesidad de autenticación) e interactuaba con el sistema de archivos como si fuera una parte esencial de las capacidades expuestas del servidor», afirmó ExtensionTotal en un informe la semana pasada.

«El impacto potencial de esto es enorme y abre la puerta a la explotación maliciosa y al compromiso total del sistema».

Fuente y redacción: thehackernews.com

Compartir