Funcionarios de la Casa Blanca preocupados por el potencial dañino de los chatbots de IA y las grandes empresas de Silicon Valley que los lanzan al mercado están muy interesados en una competencia de tres días que termina el domingo en la convención de hackers DefCon en Las Vegas.

Unos 2.200 competidores se conectaron a computadoras portátiles buscando exposición de fallos en ocho modelos de lenguaje de gran tamaño representativos de la próxima gran tecnología. Pero no esperes resultados rápidos de esta primera "evaluación de seguridad" independiente de varios modelos.

Los hallazgos no se harán públicos hasta aproximadamente febrero. Y aún así, corregir los fallos en estas construcciones digitales, cuyos mecanismos internos no son del todo confiables ni completamente comprendidos incluso por sus creadores, llevará tiempo y millones de dólares.

La investigación académica y corporativa demuestra que los modelos de IA actuales son simplemente demasiado engorrosos, frágiles y maleables. La seguridad fue una idea secundaria en su entrenamiento, ya que los científicos de datos acumularon colecciones impresionantemente complejas de imágenes y texto. Son propensos a sesgos raciales y culturales, y son fácilmente manipulables.

"Es tentador pretender que podemos rociar algo de polvo mágico de seguridad en estos sistemas después de construirlos, parchearlos hasta que se sometan o agregar dispositivos de seguridad especiales por el costado", dijo Gary McGraw, veterano en ciberseguridad y cofundador del Berryville Institute of Machine Learning. Los competidores de DefCon "es probable que se vayan encontrando nuevos problemas difíciles", dijo Bruce Schneier, tecnólogo de interés público de Harvard. "Esto es seguridad informática de hace 30 años. Solo estamos rompiendo cosas a diestra y siniestra".

Michael Sellitto de Anthropic, que proporcionó uno de los modelos de prueba de IA, reconoció en una conferencia de prensa que comprender sus capacidades y problemas de seguridad "es una especie de área abierta de investigación científica".

El software convencional utiliza un código bien definido para emitir instrucciones explícitas y paso a paso. El ChatGPT de OpenAI, el Bard de Google y otros modelos de lenguaje son diferentes. Entrenados principalmente al ingerir y clasificar miles de millones de puntos de datos en rastreos de internet, son trabajos en progreso perpetuos, lo cual es inquietante dado su potencial transformador para la humanidad.

Después de lanzar públicamente los chatbots el otoño pasado, la industria de IA generativa ha tenido que tapar repetidamente agujeros de seguridad expuestos por investigadores y aficionados.

Tom Bonner, de la firma de seguridad en IA HiddenLayer, orador en la DefCon de este año, engañó a un sistema de Google para que etiquetara un malware como inofensivo simplemente mediante la inserción de una línea que decía "esto es seguro de usar".

"No hay buenas barreras de seguridad", dijo.

Otro investigador hizo que ChatGPT creara correos electrónicos de phishing y una receta para eliminar violentamente a la humanidad, una violación de su código ético.

Un equipo que incluye a investigadores de Carnegie Mellon descubrió que los chatbots líderes eran vulnerables a ataques automatizados que también generaban contenido perjudicial. "Es posible que la naturaleza misma de los modelos de aprendizaje profundo haga que estas amenazas sean inevitables", escribieron.

No es como si no se hubieran dado las alarmas.

En su informe final de 2021 National Security Commission on Artificial Intelligence, la Comisión de Seguridad Nacional de los Estados Unidos sobre Inteligencia Artificial dijo que los ataques a los sistemas de IA comerciales ya estaban ocurriendo y que "con excepciones raras, la idea de proteger los sistemas de IA ha sido una idea secundaria en la ingeniería y puesta en marcha de los sistemas de IA, con una inversión insuficiente en investigación y desarrollo".

Los ataques engañan la lógica de la inteligencia artificial de formas que incluso pueden no ser claras para sus creadores. Y los chatbots son especialmente vulnerables porque interactuamos directamente con ellos en lenguaje común. Esa interacción puede alterarlos de formas inesperadas.

Los investigadores han descubierto que "envenenar" una pequeña colección de imágenes o texto en el vasto mar de datos utilizado para entrenar sistemas de IA puede causar estragos y pasarse por alto fácilmente.

Un estudio coautorado por Florian Tramér de la Universidad Suiza ETH Zurich determinó que corromper solo el 0,01% de un modelo era suficiente para arruinarlo, y todo esto podría costar tan solo . Los investigadores esperaron a que expiraran un puñado de sitios web utilizados en rastreos web para dos modelos. Luego compraron los dominios y publicaron datos falsos en ellos".

Hyrum Anderson y Ram Shankar Siva Kumar, quienes formaron parte del equipo "red team" de IA en Microsoft, califican de "lamentable" el estado de la seguridad de la IA en modelos basados en texto e imágenes en su nuevo libro "No con un bug sino con una pegatina". Un ejemplo que citan en presentaciones en vivo es el asistente digital Alexa, impulsado por IA, que fue engañado para interpretar un fragmento de un concierto de Beethoven como una orden para pedir 100 pizzas congeladas.

Al examinar más de 80 organizaciones, los autores descubrieron que la gran mayoría no tenía un plan de respuesta para un ataque de envenenamiento de datos o robo de conjuntos de datos. "Ni siquiera se darían cuenta de que ocurrió", escribieron.

Andrew W. Moore, antiguo ejecutivo de Google y decano de Carnegie Mellon, dice que tuvo que lidiar con ataques al software de búsqueda de Google hace más de una década. Entre finales de 2017 y principios de 2018, los spammers jugaron cuatro veces con el servicio de detección de IA de Gmail.

Los grandes actores de la IA afirman que la seguridad y la protección son prioridades principales y se comprometieron voluntariamente ante la Casa Blanca el mes pasado a someter sus modelos, en su mayoría "cajas negras" cuyo contenido se mantiene en secreto, a un escrutinio externo.

Pero preocupa que las empresas no hagan lo suficiente.

Tramér espera que los motores de búsqueda y las plataformas de redes sociales sean manipulados para obtener ganancias financieras y desinformación al aprovechar las debilidades del sistema de IA. Por ejemplo, un solicitante de empleo astuto podría descubrir cómo convencer al sistema de que es el único candidato correcto.

Ross Anderson, científico informático de la Universidad de Cambridge, se preocupa de que los bots de IA erosionen la privacidad al interactuar con hospitales, bancos y empleadores, y que los actores malintencionados los aprovechen para obtener datos financieros, de empleo o de salud de sistemas supuestamente cerrados.

La investigación muestra que los modelos de lenguaje de IA también pueden contaminarse al reentrenarse a partir de datos basura.

Otra preocupación es que los secretos de la empresa sean absorbidos y revelados por los sistemas de IA. Después de que un medio de comunicación de noticias empresariales surcoreano informara sobre un incidente similar en Samsung, corporaciones como Verizon y JPMorgan prohibieron a la mayoría de los empleados el uso de ChatGPT en el trabajo.

Aunque los principales actores de la IA tienen personal de seguridad, es probable que muchos competidores más pequeños no lo tengan, lo que significa que los complementos y agentes digitales mal protegidos podrían multiplicarse. Se espera que las startups lancen cientos de ofertas construidas sobre modelos previamente entrenados con licencia en los próximos meses.

No te sorprendas, dicen los investigadores, si uno se lleva tu agenda de direcciones.

Relacionado: La Casa Blanca ofrece dinero en premios para la IA que impida a los hackers

Relacionado: Sesgos en la inteligencia artificial: ¿se puede confiar en la IA?

Relacionado: Cyber Insights 2022: Inteligencia Artificial adversarial

Relacionado: Buscando al Snark con ML, IA y computación cognitiva

Relacionado: ¿Son la IA y el ML solo una ventaja temporal para los defensores?

Relacionado: El uso malicioso de la inteligencia artificial en ciberseguridad