Los sistemas de IA a veces pueden generar resultados incorrectos o engañosos, un fenómeno conocido como alucinaciones. Estos errores pueden ir desde pequeñas inexactitudes hasta tergiversaciones que pueden desorientar la toma de decisiones.
Implicaciones en el mundo real
“Si el agente de IA de una empresa utiliza datos obsoletos o inexactos, las alucinaciones de la IA podrían inventar vulnerabilidades inexistentes o malinterpretar la inteligencia de amenazas, lo que genera alertas innecesarias o riesgos que se pasan por alto. Estos errores pueden desviar recursos de las amenazas reales, creando nuevas vulnerabilidades y desperdiciando recursos ya limitados del equipo de SecOps”, declaró Harman Kaur , vicepresidente de IA de Tanium, a Help Net Security.
Una preocupación emergente es el fenómeno de las alucinaciones de paquetes , donde los modelos de IA sugieren paquetes de software inexistentes. Este problema se ha identificado como un vector potencial de ataques a la cadena de suministro, denominados «slopsquatting». Los atacantes pueden explotar estas alucinaciones creando paquetes maliciosos con los nombres sugeridos, lo que lleva a los desarrolladores a incorporar código dañino inadvertidamente en sus sistemas.
Si se utiliza sin una verificación exhaustiva y una validación manual, el código generado por IA puede presentar riesgos y complejidades considerables. Los desarrolladores júnior son particularmente susceptibles a los riesgos de código o archivos de configuración erróneos, ya que carecen de las habilidades necesarias para auditar el código correctamente. En cuanto a los desarrolladores sénior, es probable que detecten un error a tiempo; sin embargo, cada vez más confían demasiado en GenAI, confiando ciegamente en sus resultados, afirmó Ilia Kolochenko , director ejecutivo de ImmuniWeb.
Otra preocupación es la posibilidad de que la IA genere información falsa sobre amenazas . Estos informes, si se toman al pie de la letra, pueden desviar la atención de las amenazas reales, permitiendo que las vulnerabilidades reales pasen desapercibidas. El riesgo se agrava cuando los resultados de la IA no se verifican con fuentes fiables.
Estrategias para mitigar las alucinaciones de la IA
“Las alucinaciones de IA son una consecuencia esperada de los modelos probabilísticos”, explica Chetan Conikee , director de tecnología de Qwiet AI, enfatizando que el enfoque no debe ser eliminarlas por completo, sino minimizar las interrupciones operativas. “La prioridad del CISO debe ser limitar el impacto operativo mediante el diseño, la supervisión y la implementación de políticas”.
Esto comienza con una arquitectura intencional. Conikee recomienda implementar un marco de confianza estructurado en torno a los sistemas de IA, un enfoque que incluye middleware práctico para verificar las entradas y salidas mediante comprobaciones deterministas y filtros específicos del dominio. Este paso garantiza que los modelos no operen de forma aislada, sino dentro de límites claramente definidos que reflejen las necesidades y las estrategias de seguridad de la empresa.
La trazabilidad es otro pilar fundamental. «Todas las respuestas generadas por IA deben incluir metadatos, como el contexto de la fuente, la versión del modelo, la estructura de la solicitud y la marca de tiempo», señala Conikee. Estos metadatos permiten realizar auditorías más rápidas y analizar la causa raíz cuando se producen imprecisiones, una protección fundamental cuando los resultados de IA se integran en las operaciones comerciales o en las herramientas de atención al cliente.
Para las empresas que implementan LLM, Conikee recomienda evitar la generación de modelos abiertos a menos que sea necesario. En su lugar, las organizaciones deberían apoyarse en RAG, basadas en bases de conocimiento internas y seleccionadas. «Esto garantiza que el modelo se base en información verificada y mantenga la coherencia con los estándares internos», explica Conikee.
El rigor de las pruebas también es importante. «Las herramientas de detección de alucinaciones deben incorporarse durante las fases de prueba», afirma Conikee. Antes de que un modelo entre en funcionamiento en vivo, los responsables de seguridad deben definir umbrales de riesgo aceptables y modos de fallo. «El objetivo no es una precisión perfecta, sino un control medible y auditable sobre dónde y cómo se utiliza la IA generativa».
Al incorporar confianza, trazabilidad y control en la implementación de IA, los CISO pueden equilibrar la innovación con la responsabilidad, manteniendo las alucinaciones bajo control sin ralentizar el progreso:
1. Implementar la Generación Aumentada por Recuperación (RAG): La RAG combina las capacidades generativas de la IA con un sistema de recuperación que extrae información de fuentes de datos verificadas. Este enfoque basa los resultados de la IA en datos factuales, lo que reduce la probabilidad de alucinaciones.
2. Utilizar herramientas de razonamiento automatizado: Empresas como Amazon están desarrollando herramientas que utilizan pruebas matemáticas para verificar los resultados de la IA, garantizando que se ajusten a las normas y políticas establecidas. Estas herramientas pueden proporcionar un nivel de seguridad, especialmente en aplicaciones críticas.
WSJ
3. Actualice periódicamente los datos de entrenamiento: Asegurarse de que los sistemas de IA se entrenen con datos actuales y precisos puede minimizar el riesgo de alucinaciones. Los datos obsoletos o sesgados pueden provocar que la IA genere resultados incorrectos.
4. Incorporar supervisión humana: Expertos humanos deben revisar los resultados generados por IA, especialmente en escenarios de alto riesgo. Esta supervisión puede detectar errores que la IA podría pasar por alto y proporcionar contexto del que carece.
5. Educar a los usuarios sobre las limitaciones de la IA: Capacitar a los usuarios para que comprendan las capacidades y limitaciones de la IA puede fomentar un escepticismo sano respecto a sus resultados. Animar a los usuarios a verificar la información generada por la IA puede prevenir la propagación de inexactitudes.
Necesitamos medidas de seguridad prácticas. Esto significa vincular las respuestas de la IA directamente con las políticas documentadas, marcar o registrar los resultados de alto riesgo y asegurarnos de que un humano revise cualquier aspecto significativo antes de que llegue a los clientes. Traten al modelo como a un nuevo becario: puede ayudar a generar ideas y a responder preguntas rutinarias, pero no debería tomar la decisión final sobre cuestiones delicadas».
Fuente y redacción: helpnetsecurity.com