Los asistentes de IA están integrados en sistemas de tickets, repositorios de código fuente, plataformas de chat y paneles de control en la nube de muchas empresas. En algunos entornos, estos sistemas pueden abrir solicitudes de extracción, consultar bases de datos internas, reservar servicios y activar flujos de trabajo automatizados con poca intervención humana. El
informe «Estado de la Seguridad de la IA 2026» de Cisco sitúa este nivel de acceso dentro de un patrón creciente de operaciones impulsadas por IA que se conectan directamente a los sistemas empresariales centrales.
Las organizaciones otorgaron a los sistemas agenticos la autoridad para ejecutar tareas, acceder a bases de datos y modificar código. Muchas implementaciones avanzaron con una preparación limitada. La mayoría de las organizaciones planeaban implementar IA agentica en las funciones empresariales, y el 29 % informó estar preparado para asegurar dichas implementaciones. Esta brecha generó exposición en las interfaces de modelos, las integraciones de herramientas y las cadenas de suministro.
Medición de la resiliencia del modelo
Las técnicas de inyección de indicaciones y jailbreak maduraron durante 2025. Los ataques multiturno que se desarrollan a lo largo de conversaciones prolongadas alcanzaron tasas de éxito de hasta el 92 % en pruebas con ocho modelos de ponderación abierta. Estos ataques dirigieron los modelos hacia contenido no permitido y acciones inseguras a lo largo de indicaciones sucesivas. Las protecciones de un solo turno proporcionaron menos seguridad durante sesiones más largas que implicaban acceso a la memoria y a las herramientas
Las tasas de éxito de jailbreak siguen siendo un indicador de la resiliencia del modelo. Amy Chang , líder de Inteligencia de Amenazas de IA e Investigación de Seguridad en Cisco, explicó a Help Net Security que la resiliencia multiturno debería monitorizarse como una métrica independiente, especialmente para los agentes que operan durante sesiones más largas. «Las tasas de éxito de jailbreak siguen siendo indicadores válidos de la robustez de un modelo frente a avisos adversarios, pero, como hemos demostrado, la resiliencia multiturno sigue siendo una preocupación y puede ser una métrica que las empresas utilicen para evaluar los modelos», afirmó Chang.
Chang afirmó que las métricas de preparación en seguridad deben alinearse con el nivel de madurez de la IA de una organización . «Además, existen muchas otras consideraciones sobre cómo una organización puede medir su postura de seguridad y cualquier control compensatorio que deba implementarse, pero deben adaptarse al nivel de madurez relativo de la organización», explicó. «Por ejemplo, no es necesario implementar el rastreo de agentes ni la telemetría si una organización aún se encuentra en las etapas iniciales de la integración de grandes modelos de lenguaje en su conjunto tecnológico».
Autonomía del agente y riesgo del protocolo
Los agentes de IA introdujeron un riesgo adicional debido a su autonomía. Los sistemas agénticos operan en bucles de observación, orientación, decisión y acción, e interactúan con otros agentes mediante protocolos estandarizados. Los agentes comprometidos pueden ejecutar comandos no autorizados, exfiltrar datos y moverse lateralmente entre sistemas. En un caso documentado, un servidor del Protocolo de Contexto del Modelo de GitHub permitió que un problema malicioso inyectara instrucciones ocultas que secuestraron un agente y desencadenaron la exfiltración de datos de repositorios privados.
El Protocolo de Contexto de Modelo , conocido como MCP, se convirtió en un método común para conectar modelos de lenguaje a herramientas y datos externos. Su rápida adopción amplió la superficie de ataque. Los investigadores identificaron envenenamiento de herramientas, fallos de ejecución remota de código, acceso con privilegios excesivos y manipulación de la cadena de suministro dentro de los ecosistemas MCP. Un paquete npm falso que imitaba una integración de correo electrónico copiaba silenciosamente los mensajes salientes a una dirección controlada por el atacante.
La comunicación entre agentes introdujo riesgos de identidad . La suplantación de identidad, el contrabando de sesiones y la escalada no autorizada de capacidades permitieron a los atacantes explotar la confianza implícita entre agentes. Un agente de investigación comprometido podría insertar instrucciones ocultas en la información de salida utilizada por un agente financiero, que posteriormente ejecutaría operaciones no deseadas. Estos patrones extienden las amenazas a la identidad más allá de las cuentas humanas y las credenciales de servicio.
Exposición de la cadena de suministro
La cadena de suministro de IA surgió como otro punto de exposición. Los repositorios de código abierto albergan millones de modelos y conjuntos de datos. Los archivos de modelo pueden contener código ejecutable que se ejecuta durante la carga. El código malicioso incrustado en los objetos del modelo puede activarse automáticamente cuando un modelo se inicializa
El envenenamiento de datos también presentó un riesgo medible. La investigación demostró que inyectar 250 documentos envenenados en los datos de entrenamiento puede implantar puertas traseras que se activan con frases de activación específicas, manteniendo el rendimiento general inalterado.
Las brechas de procedencia agravan el riesgo en la cadena de suministro. Muchos repositorios ofrecen una seguridad criptográfica limitada respecto al origen del modelo, los datos de entrenamiento o el historial de modificaciones. Los modelos se someten frecuentemente a conversión, cuantificación, fusión y ajuste fino en procesos automatizados. Una sutil manipulación puede persistir durante estas transformaciones.
Actividad del estado nacional y operaciones habilitadas por IA
Los actores estatales aumentaron el uso de IA para operaciones ofensivas . Un grupo vinculado a China supuestamente automatizó entre el 80 % y el 90 % de una cadena de ciberataques al desbloquear un asistente de codificación de IA y ordenarle que escaneara puertos, identificara vulnerabilidades y desarrollara scripts de explotación. Operadores rusos integraron modelos de lenguaje en flujos de trabajo de malware para generar comandos ofuscados. Actores norcoreanos utilizaron IA generativa para crear solicitudes de empleo deepfake y generar ingresos mediante programas de empleo remoto. Grupos iraníes aplicaron IA al phishing y al procesamiento de datos marítimos durante conflictos regionales.
La adopción de la IA continúa profundizando en los flujos de trabajo empresariales. La autonomía de los agentes, la integración de protocolos y los ecosistemas de modelos abiertos amplían la capacidad operativa y la superficie de ataque. Los equipos de seguridad están adaptando controles de confianza cero, acceso con privilegios mínimos, autenticación continua y monitorización del comportamiento a los sistemas de IA que interactúan directamente con los procesos de negocio.
Fuente y redacción: helpnetsecurity.com