Se ha descubierto que Lovable , una plataforma impulsada por inteligencia artificial (IA) generativa que permite crear aplicaciones web completas mediante indicaciones basadas en texto, es la más susceptible a ataques de jailbreak, lo que permite a los ciberdelincuentes novatos y aspirantes configurar páginas de recolección de credenciales que parecen similares.
«Como herramienta diseñada específicamente para crear e implementar aplicaciones web, sus capacidades se ajustan perfectamente a las necesidades de cualquier estafador», declaró Nati Tal de Guardio Labs en un informe compartido con The Hacker News. «Desde páginas fraudulentas con una precisión de píxeles hasta alojamiento en vivo, técnicas de evasión e incluso paneles de administración para rastrear datos robados, Lovable no solo participó, sino que actuó. Sin restricciones ni vacilaciones».
La técnica ha recibido el nombre en código de VibeScamming , un juego de palabras con el término «vibe coding» (codificación de vibraciones) que se refiere a una técnica de programación dependiente de IA para producir software describiendo el enunciado del problema en unas pocas frases como indicación para un modelo de lenguaje grande (LLM) adaptado para la codificación.
El abuso de LLM y chatbots de IA con fines maliciosos no es un fenómeno nuevo. En las últimas semanas, investigaciones han demostrado cómo los actores de amenazas están abusando de herramientas populares como OpenAI ChatGPT y Google Gemini para facilitar el desarrollo, la investigación y la creación de contenido de malware.
Además, se ha descubierto que LLM como DeepSeek son susceptibles a ataques de solicitud y técnicas de jailbreaking como Bad Likert Judge , Crescendo y Deceptive Delight , que permiten a los modelos eludir las barreras de seguridad y éticas y generar contenido prohibido. Esto incluye la creación de correos electrónicos de phishing, keyloggers y muestras de ransomware, aunque con solicitud y depuración adicionales.
En un informe publicado el mes pasado, Symantec, propiedad de Broadcom, reveló cómo Operator de OpenAI , un agente de IA que puede realizar acciones basadas en la web en nombre del usuario, podría usarse para automatizar todo el proceso de búsqueda de direcciones de correo electrónico de personas específicas, crear scripts de PowerShell que puedan recopilar información del sistema, almacenarlos en Google Drive y redactar y enviar correos electrónicos de phishing a esas personas y engañarlas para que ejecuten el script.
La creciente popularidad de las herramientas de IA también significa que podrían reducir significativamente las barreras de entrada para los atacantes, lo que les permitiría aprovechar sus capacidades de codificación para crear malware funcional con poca o ninguna experiencia técnica propia.
Un ejemplo es un nuevo enfoque de jailbreaking, denominado Mundo Inmersivo , que permite crear un ladrón de información capaz de recopilar credenciales y otros datos confidenciales almacenados en un navegador Google Chrome. La técnica «utiliza ingeniería narrativa para eludir los controles de seguridad de LLM» creando un mundo ficticio detallado y asignando roles con reglas específicas para sortear las operaciones restringidas.
El último análisis de Guardio Labs va un paso más allá y descubre que plataformas como Lovable y, en menor medida, Anthropic Claude podrían utilizarse como armas para generar campañas de estafa completas, con plantillas de mensajes de texto SMS, entrega de enlaces falsos por SMS basada en Twilio, ofuscación de contenido, evasión de defensa e integración de Telegram.
VibeScamming comienza con una instrucción directa que solicita a la herramienta de IA que automatice cada paso del ciclo de ataque, evaluando su respuesta inicial y adoptando un enfoque multiinstrucción para guiar con cuidado el modelo LLM y generar la respuesta maliciosa deseada. Esta fase, denominada «nivelación», implica mejorar la página de phishing, refinar los métodos de entrega y aumentar la legitimidad de la estafa.
Según Guardio, se ha descubierto que Lovable no solo produce una página de inicio de sesión de aspecto convincente que imita la página de inicio de sesión real de Microsoft, sino que también implementa automáticamente la página en una URL alojada en su propio subdominio («es decir, *.lovable.app») y redirecciona a office[.]com después del robo de credenciales.
Además de eso, tanto Claude como Lovable parecen cumplir con las solicitudes de ayuda para evitar que las páginas fraudulentas sean marcadas por las soluciones de seguridad, así como también filtrar las credenciales robadas a servicios externos como Firebase, RequestBin y JSONBin, o un canal privado de Telegram.
«Lo más alarmante no es solo la similitud gráfica, sino también la experiencia de usuario», afirmó Tal. «Imita la realidad tan bien que posiblemente sea más fluida que el flujo de inicio de sesión de Microsoft. Esto demuestra la potencia de los agentes de IA centrados en tareas y cómo, sin un refuerzo estricto, pueden convertirse, sin saberlo, en herramientas de abuso».
No solo generó la página fraudulenta con almacenamiento completo de credenciales, sino que también nos proporcionó un panel de administración completamente funcional para revisar todos los datos capturados: credenciales, direcciones IP, marcas de tiempo y contraseñas completas en texto plano.
Junto con los hallazgos, Guardio también ha publicado la primera versión del VibeScamming Benchmark para someter a prueba los modelos de IA generativa y comprobar su resiliencia ante posibles abusos en flujos de trabajo de phishing. Mientras que ChaGPT obtuvo una puntuación de 8 sobre 10, Claude obtuvo 4,3 y Lovable 1,8, lo que indica una alta vulnerabilidad.
«ChatGPT, si bien podría decirse que es el modelo de propósito general más avanzado, también resultó ser el más cauteloso», dijo Tal. «Claude, en cambio, comenzó con una fuerte resistencia, pero resultó fácil de persuadir. Una vez que se le planteó un enfoque ‘ético’ o ‘de investigación de seguridad’, ofreció una guía sorprendentemente sólida».
Fuente y redacción: thehackernews.com