Google ha revelado un nuevo vectorizador de texto multilingüe llamado RETVec (abreviatura de Resilient and Efficient Text Vectorizer) para ayudar a detectar contenido potencialmente dañino como spam y correos electrónicos maliciosos en Gmail.
«RETVec está entrenado para ser resistente a las manipulaciones a nivel de caracteres, incluida la inserción, la eliminación, los errores tipográficos, los homoglifos, la sustitución de LEET y más», según la descripción del proyecto en GitHub.
«El modelo RETVec se entrena sobre un novedoso codificador de caracteres que puede codificar todos los caracteres y palabras UTF-8 de manera eficiente».
Si bien grandes plataformas como Gmail y YouTube se basan en modelos de clasificación de texto para detectar ataques de phishing, comentarios inapropiados y estafas, se sabe que los actores de amenazas diseñan contraestrategias para eludir estas medidas de defensa.
Se ha observado que recurren a manipulaciones de texto adversariales, que van desde el uso de homoglifos hasta el relleno de palabras clave y caracteres invisibles.
RETVec, que funciona en más de 100 idiomas listos para usar, tiene como objetivo ayudar a crear clasificadores de texto más resistentes y eficientes en el lado del servidor y en el dispositivo, al mismo tiempo que son más robustos y eficientes.
La vectorización es una metodología en el procesamiento del lenguaje natural (PLN) para asignar palabras o frases del vocabulario a una representación numérica correspondiente con el fin de realizar análisis adicionales, como el análisis de sentimientos, la clasificación de texto y el reconocimiento de entidades con nombre.
«Debido a su novedosa arquitectura, RETVec funciona de forma inmediata en todos los idiomas y en todos los caracteres UTF-8 sin necesidad de preprocesamiento de texto, lo que lo convierte en el candidato ideal para implementaciones de clasificación de texto en dispositivos, web y a gran escala», señalaron Elie Bursztein y Marina Zhang de Google.
El gigante tecnológico dijo que la integración del vectorizador a Gmail mejoró la tasa de detección de spam sobre la línea de base en un 38% y redujo la tasa de falsos positivos en un 19,4%. También redujo el uso de la Unidad de Procesamiento de Tensores (TPU) del modelo en un 83%.
«Los modelos entrenados con RETVec exhiben una velocidad de inferencia más rápida debido a su representación compacta. Tener modelos más pequeños reduce los costos computacionales y disminuye la latencia, lo cual es fundamental para las aplicaciones a gran escala y los modelos en el dispositivo», agregaron Bursztein y Zhang.
Fuente y redacción: undercode.org