Los investigadores en ciberseguridad han descubierto que es posible utilizar modelos de lenguaje grandes (LLM) para generar nuevas variantes de código JavaScript malicioso a escala, de manera que puedan evadir mejor la detección.
«Aunque los LLM tienen dificultades para crear malware desde cero, los delincuentes pueden utilizarlos fácilmente para reescribir u ofuscar malware existente, lo que dificulta su detección», afirmaron los investigadores de la Unidad 42 de Palo Alto Networks en un nuevo análisis. «Los delincuentes pueden hacer que los LLM realicen transformaciones que tienen un aspecto mucho más natural, lo que dificulta la detección de este malware».
Con suficientes transformaciones a lo largo del tiempo, el enfoque podría tener la ventaja de degradar el rendimiento de los sistemas de clasificación de malware, engañándolos y haciéndoles creer que un fragmento de código nefasto es en realidad benigno.
Si bien los proveedores de LLM han reforzado cada vez más las medidas de seguridad para evitar salirse de sus carriles y producir resultados no deseados, los actores maliciosos han publicitado herramientas como WormGPT como una forma de automatizar el proceso de creación de correos electrónicos de phishing convincentes que estén dirigidos a objetivos potenciales e incluso crear malware novedoso.
En octubre de 2024, OpenAI reveló que había bloqueado más de 20 operaciones y redes engañosas que intentaban utilizar su plataforma para reconocimiento, investigación de vulnerabilidades, soporte de scripts y depuración.
La Unidad 42 afirmó que aprovechó el poder de los LLM para reescribir iterativamente muestras de malware existentes con el objetivo de eludir la detección por parte de modelos de aprendizaje automático (ML) como Innocent Until Proven Guilty ( IUPG ) o PhishingJS , allanando efectivamente el camino para la creación de 10,000 nuevas variantes de JavaScript sin alterar la funcionalidad.
La técnica de aprendizaje automático adversarial está diseñada para transformar el malware utilizando varios métodos (a saber, cambio de nombre de variables, división de cadenas, inserción de código basura, eliminación de espacios innecesarios y una reimplementación completa del código) cada vez que se introduce en el sistema como entrada.
«El resultado final es una nueva variante del JavaScript malicioso que mantiene el mismo comportamiento del script original, aunque casi siempre tiene una puntuación maliciosa mucho más baja», dijo la compañía, añadiendo que el algoritmo codicioso cambió el veredicto de su propio modelo de clasificación de malware de malicioso a benigno el 88% de las veces.
Para empeorar las cosas, estos artefactos de JavaScript reescritos también evaden la detección de otros analizadores de malware cuando se cargan en la plataforma VirusTotal.
Otra ventaja crucial que ofrece la ofuscación basada en LLM es que sus reescrituras parecen mucho más naturales que las logradas por bibliotecas como obfuscator.io, las últimas de las cuales son más fáciles de detectar y marcar de manera confiable debido a la forma en que introducen cambios en el código fuente.
«La escala de nuevas variantes de códigos maliciosos podría aumentar con la ayuda de la IA generativa», dijo Unit 42. «Sin embargo, podemos usar las mismas tácticas para reescribir el código malicioso y ayudar a generar datos de entrenamiento que puedan mejorar la solidez de los modelos de ML».
El ataque TPUXtract ataca las TPU de Google Edge
La revelación se produce cuando un grupo de académicos de la Universidad Estatal de Carolina del Norte diseñó un ataque de canal lateral denominado TPUXtract para realizar ataques de robo de modelos en las unidades de procesamiento tensor ( TPU ) de Google Edge con una precisión del 99,91 %. Esto podría luego explotarse para facilitar el robo de propiedad intelectual o ataques cibernéticos posteriores.
«En concreto, mostramos un ataque de robo de hiperparámetros que puede extraer todas las configuraciones de capas, incluido el tipo de capa, la cantidad de nodos, los tamaños de kernel/filtro, la cantidad de filtros, los pasos, el relleno y la función de activación», dijeron los investigadores. «Lo más notable es que nuestro ataque es el primer ataque integral que puede extraer modelos nunca antes vistos».
El ataque de caja negra, en esencia, captura las señales electromagnéticas emitidas por la TPU cuando se realizan inferencias de redes neuronales (una consecuencia de la intensidad computacional asociada con la ejecución de modelos de ML sin conexión) y las explota para inferir hiperparámetros del modelo. Sin embargo, depende de que el adversario tenga acceso físico a un dispositivo objetivo, sin mencionar la posesión de equipos costosos para sondear y obtener los rastros.
«Como robamos la arquitectura y los detalles de las capas, pudimos recrear las características de alto nivel de la IA», dijo Aydin Aysu, uno de los autores del estudio . «Luego usamos esa información para recrear el modelo funcional de la IA, o un sustituto muy cercano de ese modelo».
Se descubre que EPSS es susceptible a ataques de manipulación
La semana pasada, Morphisec también reveló que los marcos de IA como el Exploit Prediction Scoring System ( EPSS ), que es utilizado por una amplia gama de proveedores de seguridad, podrían estar sujetos a ataques adversarios, lo que afectaría la forma en que evalúa el riesgo y la probabilidad de que una vulnerabilidad de software conocida sea explotada en la naturaleza.
«El ataque apuntó a dos características clave en el conjunto de características de EPSS: menciones en redes sociales y disponibilidad de código público», dijo el investigador de seguridad Ido Ikar , y agregó que es posible influir en la salida del modelo «inflando artificialmente estos indicadores» al compartir publicaciones aleatorias en X sobre una falla de seguridad y creando un repositorio de GitHub que contiene un archivo vacío que contiene un exploit para él.
La técnica de prueba de concepto (PoC) muestra que un actor de amenazas podría aprovechar la dependencia de EPSS de señales externas para aumentar las métricas de actividad de CVE específicos, lo que podría «engañar» a las organizaciones que cuentan con los puntajes de EPSS para priorizar sus esfuerzos de gestión de vulnerabilidades.
«Tras la inyección de actividad artificial a través de publicaciones generadas en las redes sociales y la creación de un repositorio de exploits como marcador de posición, la probabilidad de explotación prevista por el modelo aumentó de 0,1 a 0,14», señaló Ikar. «Además, la clasificación percentil de la vulnerabilidad aumentó del percentil 41 al percentil 51, lo que la situó por encima del nivel medio de amenaza percibida».
Fuente y redacción: thehackernews.com