Este año, ChatGPT y otros similares de Open AI han dominado titulares, cautivando a multimillonarios, fanáticos, reguladores y alarmistas. Pero gran parte de la cobertura reciente también ha revelado por qué el Pentágono está persiguiendo enfoques bastante diferentes para la inteligencia artificial: los líderes militares necesitan herramientas en las que puedan confiar.

Una gran razón por la que ChatGPT y otros modelos de lenguaje muy grandes son tan buenos imitando la escritura humana es la misma razón por la que se les da para el engaño: la red neuronal en el corazón de la IA está alimentada por la recolección de información de millones de sitios web. Si bien Open AI no ha revelado qué sitios web usó para entrenar sus herramientas, una reciente investigación del Washington Post analizó 15 millones de sitios web que los investigadores han utilizado para entrenar modelos similares. Como era de esperar, esta gran cantidad de datos contiene mucho que no es verdad, y los modelos de AI grandes y generativos mienten con frecuencia.

Incluso si entrenaras modelos de lenguaje grandes en un grupo cuidadosamente seleccionado de sitios web, aún podrías encontrarte con "alucinaciones artificiales": "el fenómeno de una máquina, como un chatbot, generando experiencias sensoriales aparentemente realistas que no corresponden a ninguna entrada del mundo real".

Por lo tanto, el DOD está siendo muy cuidadoso al usar dichas herramientas. "No vamos a usar ChatGPT en su presentación actual. Sin embargo, los modelos de lenguaje grandes tienen mucha utilidad", dijo Maynard Holliday, oficial técnico principal adjunto de DOD para tecnologías críticas, el jueves en la Cumbre de Tecnología de Defense One. "Usaremos estos modelos de lenguaje grandes, estos modelos de AI generativos, basados en nuestros datos. Por lo tanto, estarán adaptados con datos del Departamento de Defensa, entrenados en nuestros datos y también en nuestra potencia de cómputo, ya sea en la nube o en los locales, de modo que esté cifrado, y podamos analizar, en esencia ... su retroalimentación."

Esta semana, Holliday dijo que el Departamento de Defensa convocará una reunión "para abordar cuáles son los casos de uso; cuál es el estado del arte en la industria y la academia".

El DOD también necesita mejorar la estructuración y el intercambio de datos, incluso dos años después de una directiva fundamental sobre el asunto, dijo Mike Horowitz, quien lidera la Oficina de Política de Capacidades Emergentes de la Oficina del subsecretario de defensa para la política.

"Necesitas buenos datos, como datos que sean aplicables a las preguntas que quieres responder con AI", dijo Horowitz. "Necesitas que esos datos estén limpios, etiquetados, y ese proceso lleva tiempo. Y ese proceso ha sido, creo ... desafiante. Y ha sido desafiante porque construimos todas estas tuberías de datos que fueron diseñadas para ser independientes entre sí."

Los comandantes no van a confiar en una herramienta a menos que puedan entender cómo fue entrenada y en qué datos se basó, dijo Holliday.

"En 2015, cuando estaba en la Junta de Ciencias de Defensa haciendo un estudio sobre la autonomía, cuando presentamos nuestros informes a nuestros comandantes combatientes, dijeron: 'Esto es genial, potencialmente un cambio de juego, pero ... no lo vamos a usar a menos que podamos confiar en él", dijo.

Construyendo confianza

Cualquiera puede jugar con ChatGPT para averiguar cuánto confiar en él para un uso determinado, pero el DOD está tomando una ruta más formal.

"La confianza inicial se puede obtener a través de decisiones de diseño y desarrollo a través de puntos de contacto de los soldados y seguridad psicológica básica, y la confianza continuamente calibrada a través de evidencia de efectividad y retroalimentación proporcionada por el sistema durante la integración y operación. Y por lo tanto, existen desafíos en medir la confianza de los combatientes, que requieren investigación adicional y comprensión para definir qué influencias hay", dijo.

En la práctica, esto se parece mucho a algunos de los ejercicios que CENTCOM está realizando ahora, reuniendo a operadores de diferentes servicios y a la IA en una amplia serie de juegos y evaluaciones centrados en las tecnologías emergentes.

Ejercicios como Scarlet Dragon Oasis y Falcon Oasis tienen una estructura diferente al juego de entrenamiento militar tradicional, dijo Schuyler Moore, Oficial Principal de Tecnología del Comando Central de los Estados Unidos. Estos ejercicios centrados en la tecnología ocurren en rápida sucesión y están orientados a innovar la tecnología basada en la retroalimentación del soldado tanto como a desarrollar habilidades de operador, dijo Moore en la Cumbre Tecnológica. La colaboración entre operadores y constructores como parte de los ejercicios también es un componente clave.

Estos están "destinados a seguir en muchos aspectos las mejores prácticas de la comunidad de software y el sector privado, que es que: lo haces en sprints; lo haces de manera iterativa y repites estos ejercicios una y otra vez para mejorar con el tiempo", dijo. "Entonces, para el ejercicio que estamos haciendo ahora, hay una memoria muscular que estamos construyendo, iterando de un lado a otro con un desarrollador de software y no diciendo que cualquier capacidad de software que me hayan entregado es estática... La expectativa ahora es que puedes y debes encontrar fallas en ella, compartir tus comentarios, iterar con el equipo, continuar dando tus comentarios cada vez y eso, para ser sincero, ha sido un cambio de mentalidad cultural porque los ejercicios anteriores nunca han dado a las personas la oportunidad de experimentar con ese tipo de actividad".

Andrew Moore, asesor del CENTCOM sobre IA, robótica, computación en la nube y análisis de datos, vino al comando desde Google, donde trabajó en una variedad de proyectos relacionados con la IA, incluido Project Maven, que se ve como un modelo de cómo podría desarrollar el ejército futuros equipos humano-IA.

CENTCOM desempeñó un papel clave en el lanzamiento de Maven, ya que muchos analistas tenían la tarea de examinar horas y horas de datos de drones para comprender cómo se comportaban diferentes personas en tierra y cuáles podrían representar una amenaza.

El comando está trabajando para llevar esa investigación más lejos, para permitir que los motores de IA den sentido a los objetos recogidos por los drones, dijo Moore.

"La siguiente pregunta real es asegurarse de que pueda hacer inferencias sobre lo que realmente está sucediendo en función de encontrar relaciones entre todos estos puntos en los mapas", dijo.

Una aplicación de IA revolucionaria para CENTCOM en los años venideros probablemente se parecerá menos a un generador de texto llamativo y defectuoso y más a un grafo de conocimientos, en el que Moore trabajó en Google. Un grafo de conocimientos funciona para estructurar los datos que llegan rápidamente de acuerdo con un concepto aproximado de sus propiedades y relaciones entre los objetos. Cuando ves recomendaciones de conexiones en una red social, eso se debe en parte a un grafo de conocimientos.

"Los grafos de conocimiento... en mi opinión, son lo que está creando estas empresas multimillonarias que ves en la costa oeste de los Estados Unidos", dijo.

Pero para CENTCOM, Moore imagina construir un motor para comprender las relaciones entre objetos a un nivel mucho más profundo, permitiendo al personal de comando ver conexiones que iluminarán el campo de batalla y todos los objetos en él de una manera que los adversarios intentan mantener oculta, o quizás ni siquiera estén conscientes.

"Creo que eso va a ser uno de los temas unificadores que verás", dijo. "Es la importancia absoluta de no solo poder digerir grandes cantidades de datos, sino también ser capaz de normalizarlos de manera que podamos hacer inferencias para que, quizás, no sea solo que este barco en el océano tenga una trayectoria extraña, sino también... su financiamiento, o tal vez por su propiedad, u otra información secundaria o terciaria realmente ternaria como esa".