Cuando una empresa implementa un agente de IA capaz de buscar en la web y acceder a documentos internos, la mayoría de los equipos asumen que el agente funciona correctamente. Una nueva investigación demuestra cómo esa misma configuración puede utilizarse para extraer silenciosamente datos confidenciales de una organización. El ataque no requiere la manipulación directa del modelo; en cambio, se aprovecha de la información a la que el modelo tiene acceso durante una tarea rutinaria.

La investigación proviene de Smart Labs AI y la Universidad de Augsburgo. Los autores buscaban comprender cómo funciona en la práctica la inyección indirecta de prompts, no solo en ejemplos aislados. Su trabajo se centra en agentes de IA que combinan un modelo de lenguaje extenso , un sistema de recuperación de archivos internos y herramientas de búsqueda web. Esta combinación se está volviendo común en entornos empresariales. El agente recibe una solicitud del usuario, busca en fuentes internas y externas, y devuelve una respuesta final.

Los investigadores demuestran que si un atacante logra que el agente lea una sola página web manipulada, se le puede ordenar que recupere datos internos y los envíe a un servidor remoto. El usuario que activó el flujo de trabajo podría pensar que solo está realizando una búsqueda rutinaria. En realidad, el agente podría estar transmitiendo información confidencial en segundo plano.

Instrucciones ocultas a plena vista

El ataque no requiere accesos especiales ni malware. El atacante solo necesita que el modelo lea texto que contenga instrucciones ocultas. Los autores utilizaron texto blanco sobre fondo blanco en una entrada de blog, pero señalan que otros métodos también funcionan. Tan pronto como el agente procesa la página web como parte de una tarea normal, absorbe el texto oculto junto con el texto visible. El modelo de lenguaje interpreta ese texto como instrucciones.

Las instrucciones probadas en el estudio indicaban al agente que buscara un secreto almacenado en una base de conocimientos interna de la empresa. A continuación, se le indicaba que enviara dicho secreto a un servidor controlado por el atacante, utilizando la misma herramienta de búsqueda web integrada en el agente. El usuario no recibiría ninguna señal de que algo inesperado hubiera ocurrido.

Los investigadores utilizaron una arquitectura de agente estándar con Generación Aumentada por Recuperación ( RAG ). El agente no estaba mal configurado. No hubo ninguna vulneración en el sentido habitual. El sistema se comportó según lo previsto. Esto es lo que dificulta el problema. El atacante no logró infiltrarse; lo convenció para que actuara según sus propias capacidades.

Pruebas en muchos modelos de lenguaje grandes

Una contribución clave de la investigación es su escala. Los investigadores no se limitaron a probar uno o dos modelos, sino que crearon 1068 intentos de ataque únicos para cada uno, combinando diferentes plantillas y transformaciones de las instrucciones ocultas. Algunas transformaciones alargaron o acortaron las indicaciones, otras reformularon las instrucciones y otras las codificaron en formatos como Base64 o insertaron caracteres Unicode invisibles.

Las tasas de éxito variaron considerablemente. Algunos modelos siguieron consistentemente las instrucciones ocultas. Otros resistieron los intentos de ataque. El artículo señala que el tamaño del modelo no fue un predictor fiable. Los modelos más grandes no siempre fueron más resistentes. Algunos modelos más pequeños tuvieron un mejor rendimiento que los grandes. Esto sugiere que la forma en que se entrena un modelo es más importante que el número de parámetros.

Los modelos de algunos proveedores resistieron prácticamente todos los intentos. Otros fueron mucho más vulnerables. Los autores no pretenden clasificar a los proveedores según su seguridad. En cambio, destacan que las prácticas de capacitación y los métodos de alineación parecen desempeñar un papel importante en la resiliencia.

En una entrevista con Help Net Security sobre el trabajo en curso para crear directrices en este ámbito, Elad Schulman , CEO de Lasso Security, afirmó que varias colaboraciones están avanzando hacia un marco común para comprender estas amenazas. Añadió que OWASP, NIST, CoSAI y empresas privadas están contribuyendo a taxonomías, estándares y prácticas de investigación. Según Schulman, los ataques contra sistemas basados ​​en agentes están evolucionando rápidamente, y las organizaciones deberían probar modelos y adoptar medidas de seguridad específicas durante todo el proceso de implementación.

¿Por qué las defensas comunes fracasan?

Muchas defensas actuales se centran en la entrada directa del usuario. Filtran lo que el usuario escribe antes de que llegue al modelo. La inyección indirecta de prompts elude esta barrera porque el usuario no es la fuente del texto malicioso. El modelo detecta el ataque mientras realiza una tarea normal, como resumir un documento o analizar el contexto de una página web.

Las plantillas de ataque ya son públicas, pero los mismos patrones siguen funcionando en nuevos modelos. La falta de intercambio de conocimientos en todo el sector impide que se difundan las lecciones aprendidas.

Schulman afirmó que la falta de puntos de referencia compartidos es temporal, pero significativa durante esta etapa inicial. Señaló que los equipos de investigación están desarrollando sistemas de clasificación y mapeando técnicas de ataque. Hasta que estos sistemas se estabilicen, indicó, las empresas deben asumir que estas vulnerabilidades seguirán evolucionando y realizar pruebas estructuradas en cualquier agente que tenga acceso a los sistemas internos.

Qué deberían considerar los CISO

Los equipos deben considerar a los agentes de IA como sistemas de software que requieren controles , no como interfaces de chat aisladas. Supervisar el comportamiento de salida, añadir comprobaciones de políticas entre el agente y las herramientas externas, y controlar a qué fuentes de datos internas puede acceder el agente forman parte de un enfoque por capas.

Schulman señaló que la superficie de ataque se amplía a medida que los agentes de IA procesan imágenes, audio y herramientas que realizan acciones en distintos sistemas. Indicó que pueden aparecer instrucciones ocultas en el contenido visual, los resultados de búsqueda o las salidas de las herramientas, y que los flujos de trabajo de agentes de varios pasos pueden realizar acciones que parecen legítimas para los sistemas de monitoreo tradicionales.

Los agentes de IA son prometedores a gran escala, pero los equipos de seguridad deberán gestionarlos con el mismo rigor que se aplica a la identidad, la seguridad del navegador y las políticas de ejecución de código. Como señaló Schulman, a medida que los agentes de IA se integran en navegadores, correos electrónicos y herramientas de trabajo, las organizaciones podrían implementarlos sin percatarse del grado de interconexión que han alcanzado estos sistemas.

Fuente y redacción: helpnetsecurity.com

Compartir