Un nuevo marco de ataque tiene como objetivo inferir las pulsaciones de teclas escritas por un usuario objetivo en el extremo opuesto de una llamada de videoconferencia simplemente aprovechando la transmisión de video para correlacionar los movimientos corporales observables con el texto que se está escribiendo.
La investigación fue realizada por Mohd Sabra, y Murtuza Jadliwala de la Universidad de Texas en San Antonio y Anindya Maiti de la Universidad de Oklahoma, quienes dicen que el ataque puede extenderse más allá de las transmisiones de video en vivo a aquellos transmitidos en YouTube y Twitch siempre que un El campo de visión de la cámara web captura los movimientos visibles de la parte superior del cuerpo del usuario objetivo.
«Con la reciente ubicuidad del hardware de captura de video integrado en muchos productos electrónicos de consumo, como teléfonos inteligentes, tabletas y computadoras portátiles, la amenaza de fuga de información a través de los canales visuales se ha amplificado», dijeron los investigadores . «El objetivo del adversario es utilizar los movimientos observables de la parte superior del cuerpo en todos los fotogramas grabados para inferir el texto privado escrito por el objetivo».
Para lograr esto, el video grabado se alimenta a un marco de inferencia de pulsaciones de teclas basado en video que pasa por tres etapas:
- Preprocesamiento, donde se elimina el fondo, el video se convierte a escala de grises, seguido de la segmentación de las regiones del brazo izquierdo y derecho con respecto al rostro de la persona detectado a través de un modelo denominado FaceBoxes
- Detección de pulsaciones de teclas, que recupera los fotogramas de los brazos segmentados para calcular la medida del índice de similitud estructural ( SSIM ) con el objetivo de cuantificar los movimientos corporales entre fotogramas consecutivos en cada uno de los segmentos de video del lado izquierdo y derecho e identificar los fotogramas potenciales donde ocurrieron las pulsaciones de teclas.
- Predicción de palabras, donde los segmentos del cuadro de pulsación de tecla se utilizan para detectar características de movimiento antes y después de cada pulsación de tecla detectada, utilizándolos para inferir palabras específicas mediante un algoritmo de predicción basado en diccionario.
En otras palabras, a partir del conjunto de pulsaciones de teclas detectadas, las palabras se infieren haciendo uso del número de pulsaciones detectadas para una palabra, así como la magnitud y dirección del desplazamiento del brazo que se produce entre pulsaciones consecutivas de la palabra.
Este desplazamiento se mide mediante una técnica de visión por computadora llamada Flujo óptico disperso que se usa para rastrear los movimientos del hombro y el brazo en los marcos cronológicos de pulsaciones de teclas.
Además, también se muestra una plantilla para «direcciones entre pulsaciones de teclas en el teclado QWERTY estándar» para indicar las «direcciones ideales que debe seguir la mano de un mecanografiado» utilizando una combinación de manos izquierda y derecha.
El algoritmo de predicción de palabras, entonces, busca las palabras más probables que coincidan con el orden y el número de pulsaciones de tecla izquierda y derecha y la dirección de los desplazamientos del brazo con las direcciones de pulsación de tecla de la plantilla.
Los investigadores dijeron que probaron el marco con 20 participantes (9 mujeres y 11 hombres) en un escenario controlado, empleando una combinación de métodos de mecanografía de búsqueda y picoteo y táctil, además de probar el algoritmo de inferencia con diferentes orígenes, modelos de cámaras web, ropa. (en particular el diseño de la funda), teclados e incluso varios programas de videollamadas como Zoom, Hangouts y Skype.
Los hallazgos mostraron que los usuarios de cámaras web de Logitech y aquellos que usaban ropa sin mangas eran más susceptibles a los ataques de inferencia de palabras, lo que resultó en una mejor recuperación de palabras que aquellos que usaban cámaras web externas de Anivia.
Las pruebas se repitieron nuevamente con 10 participantes más (3 mujeres y 7 hombres), esta vez en una configuración de hogar experimental, infiriendo con éxito el 91,1% del nombre de usuario, el 95,6% de las direcciones de correo electrónico y el 66,7% de los sitios web escritos por los participantes. pero solo el 18,9% de las contraseñas y el 21,1% de las palabras en inglés escritas por ellas.
«Una de las razones por las que nuestra precisión es peor que la configuración en el laboratorio es porque la clasificación por rango del diccionario de referencia se basa en la frecuencia de uso de palabras en oraciones en inglés, no en palabras aleatorias producidas por personas», Sabra, Maiti y Jadliwala Nota.
Al afirmar que el desenfoque, la pixelación y la omisión de cuadros pueden ser una estrategia de mitigación efectiva, los investigadores dijeron que los datos de video se pueden combinar con datos de audio de la llamada para mejorar aún más la detección de pulsaciones de teclas.
«Debido a los recientes acontecimientos mundiales, las videollamadas se han convertido en la nueva norma para la comunicación remota tanto personal como profesional», destacan los investigadores. «Sin embargo, si un participante en una videollamada no tiene cuidado, puede revelar su información privada a otras personas en la llamada. Nuestras precisiones de inferencia de pulsaciones de teclas relativamente altas en entornos realistas y que ocurren comúnmente resaltan la necesidad de concienciación y contramedidas contra tales ataques «.
Se espera que los hallazgos se presenten más tarde hoy en el Simposio de seguridad de redes y sistemas distribuidos (NDSS).