Las limitaciones regulatorias a la segmentación explícita no han frenado la elaboración de perfiles algorítmicos en la web. Los sistemas de optimización de anuncios aún adaptan los anuncios que aparecen en función de los atributos privados de los usuarios. Al mismo tiempo,
los LLM multimodales han reducido la barrera para convertir estas señales ocultas en herramientas de elaboración de perfiles. Un nuevo
estudio examina este riesgo y se pregunta cómo terceros podrían utilizar estas señales para inferir atributos privados únicamente a partir de la exposición a anuncios.
Los LLM pueden reconstruir atributos privados de los anuncios
Los investigadores introdujeron un pipeline que utiliza un LLM como motor de inferencia adversarial para generar perfiles de lenguaje natural. Se aplicó a aproximadamente 435.000 impresiones de anuncios de Facebook de 891 usuarios, con Gemini 2.0 Flash procesando los componentes de imagen y texto de cada anuncio. Para cada anuncio, el modelo generó un resumen estructurado. Posteriormente, los investigadores introdujeron secuencias de estos resúmenes en el modelo para predecir detalles como edad, género, empleo, educación y preferencia partidista.
Los autores descubrieron que el modelo podía extraer estos detalles con mayor precisión que una suposición aleatoria. El modelo superó las bases de datos demográficas que representan lo que alguien podría adivinar sin ver ningún anuncio.
El género alcanzó una precisión de aproximadamente el 59 % en sesiones cortas de navegación. El empleo alcanzó aproximadamente el 48 %. La preferencia partidista alcanzó aproximadamente el 35 %. Incluso cuando el modelo no acertó con la edad o el rango de ingresos exactos, sus estimaciones a menudo se acercaron a la categoría correcta.
Meta eliminó las opciones de segmentación directa para categorías sensibles como las creencias políticas en 2022, pero el estudio muestra que su sistema de clasificación aún introduce patrones demográficos en la exposición a los anuncios. Estos patrones pueden ser copiados por cualquier persona con acceso a los anuncios visibles que se muestran a un usuario.
Las predicciones de los modelos rivalizan con las conjeturas humanas
Los investigadores también compararon el modelo con el criterio humano. Los revisores analizaron los mismos anuncios e intentaron extraer atributos clave. El modelo a menudo igualó o superó su precisión.
Obtuvo un rendimiento ligeramente mejor en cuanto a género y mostró resultados más sólidos en educación, empleo y preferencia partidista. Sus estimaciones de edad también se acercaron al valor correcto. Tanto los humanos como el modelo tuvieron dificultades con los ingresos.
Una extensión del navegador puede aprovechar esto
Un hallazgo destacable se refiere a la facilidad con la que se recopila contenido publicitario. En lugar de distribuir malware especializado, un adversario puede infiltrar este ataque en el ecosistema existente de extensiones de navegador comunes y ampliamente instaladas , como bloqueadores de anuncios, herramientas de cupones o traductores de páginas. Estas extensiones necesitan permiso para leer el contenido de la página web para funcionar, lo que les proporciona una cobertura conveniente para la recopilación de datos.
Esta ruta elude la atención del usuario y las comprobaciones de la plataforma. Las personas tienden a preocuparse por los rastreadores invisibles y las cookies, e ignoran las señales ocultas en los anuncios que ven. Las reseñas de aplicaciones y complementos en la tienda también suelen centrarse en la seguridad del código, no en lo que se puede inferir del contenido al que una extensión puede acceder.
Esta brecha crea un punto ciego regulatorio donde una extensión aparentemente inofensiva puede recopilar contenido publicitario discretamente sin generar alarmas. Con la ayuda de LLM, un atacante puede automatizar todo el proceso y convertirlo en un perfilado a gran escala.
Como muestra la encuesta, se pueden crear perfiles útiles a partir de breves períodos de observación, por lo que un atacante no necesita permanecer activo durante mucho tiempo. Esta ruta también ofrece una ventaja, ya que permite la creación de perfiles fuera de la plataforma, que elude las propias medidas de privacidad de la plataforma, incluyendo la eliminación de opciones de segmentación sensibles. En la práctica, el atacante se apoya en la lógica de optimización del sistema de anuncios para crear perfiles de usuario sensibles a bajo coste y sin dejar rastros de auditoría.
Un riesgo global que se extiende más allá del conjunto de datos de una plataforma
El conjunto de datos proviene de usuarios de Facebook, pero el mecanismo se aplica ampliamente. Cualquier sistema que adapte los anuncios a la interacción puede crear patrones demográficos en la entrega y exponer información sobre un usuario a través del contenido que aparece en un feed.
La difusión de modelos avanzados y el acceso abierto a las API reducen la necesidad anterior de recopilar grandes conjuntos de datos etiquetados y entrenar clasificadores personalizados, lo que hace que el ataque sea accesible para personas con solo habilidades técnicas básicas.
Para abordar este riesgo se necesitarán normas de privacidad que tengan en cuenta las señales ocultas dentro del contenido que las personas pasan por alto pasivamente cada día.
Fuente y redacción: helpnetsecurity.com / Sinisa Markovic