Ampliar / A algunas personas les molesta escuchar el sonido de los teclados de otras personas durante las videollamadas, pero ¿atacantes respaldados por IA a través de canales secundarios? Ellos dicen aumentar ese volumen. Mediante la grabación de pulsaciones de teclas y el entrenamiento de un modelo de aprendizaje profundo, tres investigadores afirman haber logrado una precisión superior al 90 por ciento en la interpretación de pulsaciones de teclas a distancia, basándose en los perfiles de sonido de cada tecla.

Woman setting up a microphone right by her MacBook

En su artículo Un Ataque de Canal Secundario Acústico Basado en Aprendizaje Profundo de la Práctica en Teclados (PDF completo), los investigadores del Reino Unido, Joshua Harrison, Ehsan Toreini y Marhyam Mehrnezhad, afirman que la combinación de aprendizaje automático ubicuo, micrófonos y videollamadas "representa una amenaza mayor para los teclados que nunca". Según el artículo, las laptops son especialmente susceptibles a que se grabe el sonido de su teclado en lugares públicos más silenciosos, como cafeterías, bibliotecas u oficinas. Además, la mayoría de las laptops tienen teclados uniformes y no modulares, con perfiles acústicos similares en todos los modelos.

Intentos anteriores de registrar pulsaciones de teclas en llamadas VoIP, sin acceso físico al sujeto, lograron una precisión del 91,7 por ciento en los primeros 5 intentos en Skype en 2017 y una precisión del 74,3 por ciento en llamadas VoIP en 2018. Al combinar la interpretación de las pulsaciones con un "modelo oculto de Markov" (HMM), que predice los resultados más probables de las letras siguientes y podría corregir "hrllo" a "hello", la precisión de un estudio previo de canal secundario aumentó del 72 al 95 por ciento, aunque eso fue un ataque a impresoras matriciales. Los investigadores de Cornell creen que su estudio es el primero en aprovechar el reciente avance en la tecnología de redes neuronales, incluidas las capas de autoatención, para propagar un ataque de canal secundario de audio.

  • Precisión de entrenamiento y validación del estudio de los investigadores, con datos grabados en teléfonos a la izquierda y en Zoom a la derecha.
  • La toalla de microfibra se utilizó para reducir la vibración de la mesa captada por el micrófono. Es un poco llamativa, pero tal vez no sea necesaria, considerando los buenos resultados obtenidos en Zoom.
  • El proceso de convertir grabaciones de audio en datos aptos para el aprendizaje automático.
  • Más detalles sobre cómo se transformaron los archivos de audio en datos listos para el análisis.

Los investigadores utilizaron una MacBook Pro 2021 para probar su concepto, una laptop que "tiene un teclado con un diseño de interruptor idéntico al de sus modelos de los últimos dos años y posiblemente los de años futuros", escribieron. Escribieron en 36 teclas 25 veces cada una para entrenar su modelo en las formas de onda asociadas con cada tecla. Utilizaron un iPhone 13 mini, a 17 cm de distancia, para grabar el audio del teclado en su primer prueba. Para la segunda prueba, grabaron las teclas de la laptop a través de Zoom, utilizando los micrófonos incorporados de la MacBook, con el supresor de ruido de Zoom ajustado al nivel más bajo. En ambas pruebas, lograron una precisión superior al 93 por ciento, siendo el audio grabado desde el teléfono más cercano al 95-96 por ciento.

Publicidad Los investigadores señalaron que la posición de una tecla parecía desempeñar un papel importante en la determinación de su perfil de audio. La mayoría de las falsificaciones, escribieron, tienden a estar solo a una o dos teclas de distancia. Debido a esto, el potencial de un segundo sistema fortalecido por máquinas para corregir las teclas falsas, dado un gran corpus lingüístico y la ubicación aproximada de una pulsación de tecla, parece sólido.

¿Qué se podría hacer para mitigar este tipo de ataques? El artículo sugiere algunas defensas:

  • Cambiar tu estilo de escritura, especialmente el mecanografiado táctil, que es reconocido con menos precisión
  • Utilizar contraseñas al azar con letras en distintos casos, ya que estos ataques tienen dificultades para reconocer el "pico de liberación" de una tecla de mayúsculas
  • Agregar pulsaciones de teclas falsas generadas al azar al audio transmitido de las videollamadas, aunque esto "puede dificultar la usabilidad del software para el receptor".
  • Uso de herramientas biométricas, como escaneo de huellas dactilares o reconocimiento facial, en lugar de contraseñas escritas

Personalmente, considero esto como una validación de mi impulso de mantener una colección de teclados mecánicos con diferentes tipos de interruptores, pero los investigadores no tenían una opinión particular sobre esa estrategia.

Los ataques de canal lateral basados en el sonido a datos sensibles de computadora a veces se observan en investigaciones, aunque rara vez en violaciones reveladas. Los científicos han utilizado sonidos de computadora para leer claves PGP, y el aprendizaje automático y los micrófonos de las cámaras web para "ver" una pantalla remota. Sin embargo, los ataques de canal lateral en sí son una amenaza real. El escándalo "Dropmire" de 2013, que vio a Estados Unidos espiando a sus aliados europeos, es muy probable que haya involucrado algún tipo de ataque de canal lateral, ya sea a través de cables, frecuencias de radio o sonido.