El 2 de mayo de 2023, el Sindicato de Escritores de América -que representa a aproximadamente 11,000 guionistas- se declaró en huelga. La acción reflejó las antiguas divisiones en cuanto a la compensación y seguridad laboral entre los escritores y las compañías mediáticas. Sin embargo, surgió un tema novedoso. Una de las demandas del Sindicato decía: "Regular el uso de la inteligencia artificial en proyectos cubiertos por la Asociación de Escuelas de Negocios: la IA no puede escribir o reescribir material literario; no puede ser utilizada como material fuente; y el material cubierto por la asociación no puede ser utilizado para entrenar a la IA" (WGA en Huelga 2023). En otras palabras, los guionistas estaban preocupados de que la IA les arrebatara sus empleos.
Esta preocupación particular no hubiera surgido en mayo de 2022. Mientras los economistas han estado preocupados por el impacto de la IA en el empleo desde hace mucho tiempo (para más información, ver a Autor 2022), hasta hace muy poco, el consenso era que las tareas creativas estaban a salvo de la competencia de las máquinas. Sin embargo, el año pasado, la explosión de la IA generativa, o inteligencia artificial capaz de producir contenido original de texto, video y audio, desafió esta convicción.
El lanzamiento en noviembre de 2022 de ChatGPT 3.5, un software que busca simular habilidades de conversación humanas, fue el evento trascendental. Basado en un modelo de aprendizaje automático entrenado para capturar la sintaxis y semántica del lenguaje (un modelo de lenguaje amplio, LLM), ChatGPT atrajo rápidamente la atención debido a su sofisticación y accesibilidad.
La aplicación, igualmente competente para improvisar recetas y discutir historia antigua, atrajo a millones de usuarios en pocos meses (Hu 2023). Parecía estar lista para "perturbar incluso el trabajo creativo y de conocimiento tácito" (Noy y Zhang 2023). En economía, demostró ser una herramienta prometedora para la investigación (Korinek 2023), la enseñanza (Cowen y Tabarrok 2023), la construcción de bases de datos (Taliaferro 2023) e incluso la interpretación del "Fedspeak" (Hansen y Kazinnik 2023). Los científicos de la computación reconocieron las habilidades de ChatGPT en programación (Bubeck et al. 2023) y en aprender de manera autónoma a utilizar otras herramientas de tecnología de la información (Shick et al. 2023).
Entonces, ¿es esto realmente el fin de la escritura humana de guiones, o de cualquier tipo de escritura? Como investigadores y asesores de políticas en un banco central, realizamos un experimento para ver si ChatGPT está listo para quitarnos nuestros empleos. Spoiler tranquilizador: no lo está (Biancotti y Camassa 2023).
Escribiendo un informe de políticas con ChatGPT
Utilizando ChatGPT 4.0, la última versión hasta el 24 de mayo de 2023, le pedimos a la aplicación que compusiera un informe de políticas para el Consejo del Banco de Italia. El tema asignado fue 'Beneficios y riesgos de utilizar ChatGPT y aplicaciones similares en economía y finanzas'. Comenzamos pidiendo un esquema del informe y obtuvimos el resultado que se muestra en la Figura 1.Figura 1 ChatGPT intenta 'poner su mano' en la redacción del esquema de un informe de políticas.
La producción de esquemas, ya sea para su adopción directa o como punto de partida, es una de las tareas para las cuales encontramos que ChatGPT es más útil. Se pueden generar esquemas sobre casi cualquier tema en segundos, y se puede obtener una calidad aceptable sin necesidad de una elaboración compleja de la solicitud. En nuestro caso, se necesitó un mínimo de indicaciones para obtener un esquema que consideramos ampliamente aceptable.
Sin embargo, una vez que avanzamos desde el esquema hasta la escritura real, las limitaciones del modelo empezaron a hacerse evidentes.
Por un lado, descubrimos que ChatGPT puede escribir claramente y proporcionar contenido apropiado para la tarea. Puede redactar prosa fluida y agradable en una variedad de estilos, y lo hace muy rápidamente, generando texto en una fracción del tiempo que un humano necesitaría.
Por otro lado, requiere una cantidad sustancial de supervisión de expertos. Es cierto que redactar un breve informe de políticas es complejo: no solo requiere fluidez en la escritura, sino también conocimientos interdisciplinarios y la capacidad de adaptar el texto a una audiencia muy específica sin diluir el contenido.
Uno de los principales problemas que encontramos en los intentos de ChatGPT en esta tarea fue la tendencia a caer en la banalidad y la superficialidad, una desventaja seria cuando se trata de asesoramiento político dirigido a una audiencia de alto nivel. Detallar el nivel educativo de los lectores no garantiza que la IA produzca algo con más sustancia.
Por ejemplo, la aplicación afirma:
La creciente dependencia de la IA y las decisiones guiadas por algoritmos puede crear nuevos desafíos para el sector financiero. Una dependencia excesiva de estas herramientas puede llevar a la complacencia y a una disminución del papel del juicio humano, lo que potencialmente aumenta el riesgo de consecuencias adversas imprevistas. Es importante que las instituciones financieras y los responsables políticos mantengan un equilibrio entre el uso de herramientas impulsadas por la IA como ChatGPT y la confianza en la experiencia y la intuición humana para garantizar procesos de toma de decisiones sólidos e informados.
Esta es una descripción muy genérica de los riesgos relacionados con las decisiones algorítmicas y no responde completamente a nuestra solicitud. "El sector financiero" parece como un marcador de posición que podría ser reemplazado por una referencia a cualquier otro sector. No hay una descripción de los mecanismos a través de los cuales el riesgo podría manifestarse específicamente en el contexto que nos interesa.
Encontramos muchas situaciones como esta a lo largo del experimento. La IA podría autocríticarse por su propia superficialidad ("ChatGPT, al igual que cualquier modelo de lenguaje desarrollado por OpenAI, está diseñado para generar patrones de lenguaje basados en una variedad de fuentes. Utiliza estos patrones para generar respuestas a las solicitudes de los usuarios que son coherentes y relevantes para una amplia gama de temas. Sin embargo, no posee una verdadera comprensión ni una profundidad intensa en un campo de estudio específico como lo haría un experto a nivel de doctorado"). Sin embargo, no fue capaz de corregirlo.
Kandpal et al. (2022) ofrecen una posible explicación para esto: encuentran que los modelos de lenguaje tienen dificultades para retener conocimientos que ocurren con menor frecuencia en el corpus de entrenamiento. Dado que el contenido web generalmente constituye una gran parte de este corpus, el material de nivel superior podría considerarse como un conocimiento "de larga cola" que resulta más difícil para el modelo recordar.
Un segundo problema es la falta de un modelo mundial. La IA no se desempeña bien al determinar lo que la audiencia prevista probablemente sabe y lo que no sabe. A veces ignora solicitudes explícitas para definir términos técnicos, utilizando tecnicismos como "dependencias de largo alcance y relaciones contextuales en el texto" sin más explicación.
Otra desventaja bien conocida que observamos es el potencial de alucinaciones, unido a la incapacidad de la IA para verificar sus propias afirmaciones. El modelo está entrenado para producir la secuencia más probable de palabras que siguen el contexto proporcionado, y no tiene la capacidad ni la obligación de verificar estas afirmaciones con fuentes verificadas. Por estas razones, se debe considerar más como un motor de conversación y transformación de entrada que como un motor de recuperación de información, y es esencial verificar la precisión de la salida. En nuestro experimento, ChatGPT proporcionó referencias incorrectamente ubicadas a trabajos existentes, lo cual es un paso adelante en la producción frecuentemente observada de referencias a trabajos inexistentes.
También ocasionalmente ofrece sugerencias muy engañosas, como adoptar un estilo de escritura impregnado de "locuacidad y emoción visible" y "teatralidad" en un breve informe político, porque aparentemente eso es lo que disfrutan los italianos.
Sensibilidad a la consigna y 'sabuesería'
Entre los problemas que encontramos, destaca la sensibilidad a la consigna como un posible error para los usuarios poco experimentados. Descubrimos que ChatGPT es muy sensible a cómo se formulan las instrucciones o "consignas" y que cambios mínimos pueden resultar en salidas drásticamente diferentes.Las interacciones mostradas en la Figura 2 demuestran esto: como un apunte aparte de la tarea principal, intentamos cuestionar al modelo sobre sus capacidades con dos indicaciones ligeramente diferentes, ambas terminando con una pregunta principal. Cambiar solo una palabra en la indicación, aunque sea una palabra crucial, conduce a dos respuestas completamente diferentes, en las que ChatGPT refleja lo que el usuario parece pensar basándose en su pregunta.
Figura 2 Sensibilidad a cambios mínimos en la indicación.
Esta tendencia a adaptarse a la opinión del usuario fue observada por primera vez por Pérez et al. (2022) y se denominó 'suelo-fancia'. Wei et al. (2023) descubrió que los grandes modelos de lenguaje tienden a hacer esto incluso cuando el usuario proporciona declaraciones objetivamente incorrectas, y que el comportamiento de súbdito se puede mitigar con una minimización adicional.
Donde la IA no puede pensar como un humano (aún), son los humanos quienes tienen que pensar como una IA y expresar solicitudes de la manera más probable para generar resultados aceptables. La optimización de la inducción para la comunicación institucional es una área evidente para futuras investigaciones. Otra es la minimización de las LLM para generar conocimiento del mundo específico del dominio, posiblemente de cola larga, en nuestro contexto de referencia (consultar Kandpal et al., 2023 para una descripción detallada del problema de la cola larga).
Conclusiones
Concluimos que ChatGPT puede mejorar la productividad en la redacción orientada a políticas, especialmente en la fase inicial de esbozar y estructurar ideas, siempre que los usuarios estén familiarizados con las LLM en general y sean conscientes de las limitaciones y peculiaridades de ChatGPT. Sin embargo, no puede sustituir a los expertos en la materia y su uso sin conocimiento puede ser peligroso.La IA está de acuerdo con nosotros. En sus propias palabras,
aunque ChatGPT puede generar contenido a un alto nivel y proporcionar información valiosa sobre una amplia gama de temas, se debe considerar como una herramienta para ayudar en la investigación y el debate, en lugar de un reemplazo del análisis y la perspectiva de un verdadero experto. Se utiliza mejor para proporcionar información general, generar ideas o ayudar en procesos de toma de decisiones, pero siempre debe complementarse con una investigación rigurosa y la opinión de expertos para trabajos académicos o profesionales a un nivel superior.
Referencias
Autor, D (2022), "The labor market impacts of technological change: From unbridled enthusiasm to qualified optimism to vast uncertainty", NBER Working Paper 30074.
Biancotti, C y C Camassa (2023), "Loquacidad y emoción visible: ChatGPT como asesor de políticas", mimeo, Banco de Italia.
Bubeck, S, V Chandrasekaran, R Eldan, J A Gehrke, E Horvitz, E Kamar, P Lee, Y T Lee, Y Li, S M Lundberg, H Nori, H Palangi, M Ribeiro y Y Zhang (2023), "Chispas de inteligencia artificial general: Primeros experimentos con GPT-4", ArXiv, abs/2303.12712.
Danielsson, J (2023), "Cuando la inteligencia artificial se convierte en banquero central", VoxEU.org, 11 de julio.
Hansen, A y S Kazinnik (2023), "¿Puede ChatGPT descifrar el lenguaje del Fed?", mimeo, Banco de la Reserva Federal de Richmond.
Hu, K (2023), "ChatGPT establece récord de crecimiento de usuarios más rápido", Reuters, 2 de febrero.
Kandpal, N, H Deng, A Roberts, E Wallace y C Raffel (2022), "Los grandes modelos de lenguaje luchan por aprender conocimiento de cola larga", preimpresión arXiv: 2211.08411.
Korinek, A (2023), "Modelos de lenguaje y automatización cognitiva para la investigación económica", Documento de Debate 17923 del CEPR.
Noy, S, y W Zhang (2023), "Los efectos de productividad de la inteligencia artificial generativa", VoxEU.org, 7 de junio.
Perez, E, S Ringer, K Lukošiūtė, K Nguyen, E Chen, S Heiner, et al. (2022), "Descubriendo comportamientos de modelos de lenguaje con evaluaciones escritas por el modelo", Conclusiones de la Asociación de Lingüística Computacional: ACL 2023, 13387–434.
Schick, T, J Dwivedi-Yu, R Dessì, R Raileanu, M Lomeli, L Zettlemoyer, y T Scialom (2023), "Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí mismos", ArXiv preimpreso arXiv:2302.04761.
Taliaferro, D (2023), "Construyendo conjuntos de datos novedosos con ChatGPT: Oportunidades y limitaciones", VoxEU.org, 15 de junio.
Wei, J, D Huang, Y Lu, D Zhou, y Q V Le (2023), "Datos sintéticos simples reducen la adulación en los grandes modelos de lenguaje", ArXiv preimpreso arXiv:2308.03958.
WGA en huelga (2023), "La campaña", 1 de mayo de 2023.