En tecnología, todos somos, en última instancia, parásitos. Como dijo el creador de Drupal, Dries Buytaert, hace años, todos somos más "tomadores" que "creadores". Buytaert se refería a la práctica común en las comunidades de código abierto: "Los tomadores no contribuyen significativamente al proyecto de código abierto del que toman", dañando los proyectos en los que dependen. Incluso el colaborador más ferviente de código abierto toma más de lo que contribuye.
Esta misma tendencia parasitaria se ha desarrollado para Google, Facebook y Twitter, cada uno dependiente del contenido de otros, y es posiblemente más cierta para la Inteligencia Artificial Generativa (IA Gen) hoy en día. El desarrollador de Sourcegraph, Steve Yegge, declara dramáticamente: "Los LLM no son solo el cambio más grande desde lo social, móvil o la nube - son la cosa más grande desde la World Wide Web", y probablemente tenga razón. Pero esos grandes modelos de lenguaje (LLMs) son esencialmente parásitos: dependen de raspar los repositorios de código de otros (GitHub), respuestas tecnológicas (Stack Overflow), literatura y mucho más.
Como ha sucedido en el código abierto, los creadores y agregadores de contenido están comenzando a restringir el acceso de LLM a su contenido. En vista de la disminución del tráfico del sitio, por ejemplo, Stack Overflow se unió a Reddit para exigir que los creadores de LLM paguen por el derecho de usar sus datos para entrenar a los LLM, como detalla Wired. Es un movimiento audaz, reminiscente de las guerras de licencias que se han librado en el código abierto y los muros de pago impuestos por editores para alejar a Google y Facebook. Pero ¿funcionará?
Sobre pastoreo en los comunes
Estoy seguro de que la historia de los parásitos tecnológicos se remonta al código abierto, pero ahí es donde comenzó mi carrera, así que comenzaré allí. Desde los primeros días de Linux o MySQL, se crearon empresas para beneficiarse de las contribuciones de otros. Más recientemente en Linux, por ejemplo, Rocky Linux y Alma Linux prometen "compatibilidad bug por bug" con Red Hat Enterprise Linux (RHEL), sin contribuir nada al éxito de Red Hat. De hecho, la conclusión natural del éxito de estos dos clones de RHEL sería eliminar a su anfitrión, lo que llevaría a su propio fracaso, por lo que una persona en el espacio de Linux los llamó los "dirtbags" del código abierto.
Quizás una frase demasiado colorida, pero se entiende su punto. Es la misma crítica que se lanzó una vez contra AWS (una crítica de "minería indiscriminada" que pierde relevancia día a día) y ha motivado una serie de permuaciones de licencias de código cerrado, contorsiones del modelo de negocio y discusiones aparentemente interminables sobre la sostenibilidad del código abierto.
El código abierto, por supuesto, nunca ha sido más fuerte. Sin embargo, los proyectos individuales de código abierto tienen diferentes grados de salud. Algunos proyectos (y mantenedores de proyectos) han descubierto cómo manejar a los "tomadores" dentro de sus comunidades; otros no lo han hecho. Como tendencia, sin embargo, el código abierto sigue creciendo en importancia y fuerza.
Secando el pozo
Esto nos lleva a los LLM. Grandes empresas como JP Morgan Chase están gastando miles de millones de dólares y contratando a más de 1,000 científicos de datos, ingenieros de aprendizaje automático y otros para impulsar el impacto multimillonario en la personalización, análisis, etc. Aunque muchas empresas han estado nerviosas de adoptar públicamente cosas como ChatGPT, la realidad es que sus desarrolladores ya están utilizando LLM para impulsar ganancias de productividad.
El costo de estos avances está empezando a ser evidente ahora. Es decir, el costo para empresas como Stack Overflow, que han sido históricamente la fuente de mejoras de productividad.
Por ejemplo, el tráfico a Stack Overflow ha disminuido en un promedio del 6% cada mes desde enero de 2022 y bajó precipitadamente un 13,9% en marzo de 2023, como detalló Similarweb. Probablemente sea una simplificación culpar a ChatGPT y otras herramientas impulsadas por GenAI por tal declive, pero sería ingenuo pensar que no están involucrados.
Solo pregúntale a Peter Nixey, fundador de Intentional.io y un usuario del top 2% en Stack Overflow, con respuestas que han llegado a más de 1,7 millones de desarrolladores. A pesar de su prominencia en Stack Overflow, Nixey dice: "Es poco probable que vuelva a escribir algo allí". ¿Por qué? Porque LLMs como ChatGPT amenazan con agotar el acervo de conocimiento en Stack Overflow.
"¿Qué sucede cuando dejamos de compartir nuestros conocimientos entre nosotros y en lugar de eso los vertimos directamente en La Máquina?" Pregunta Nixey. Con "La Máquina" se refiere a herramientas GenAI como ChatGPT. Es fantástico obtener respuestas de una herramienta de AI como GitHub's Copilot, por ejemplo, que fue entrenada en repositorios de GitHub, preguntas y respuestas de Stack Overflow, etc. Pero esas preguntas, realizadas en privado, no generan un repositorio público de información, a diferencia de Stack Overflow. "Entonces, mientras GPT4 fue entrenado en todas las preguntas formuladas antes de 2021 [en Stack Overflow], ¿en qué se entrenará GPT6?" pregunta.
Autopistas de información de un solo sentido
¿Ves el problema? No es trivial, y puede ser más grave de lo que hemos discutido en tierra de código abierto. "Si este patrón se replica en otros lugares y la dirección de nuestro conocimiento colectivo se altera de afuera hacia la humanidad hacia adentro en la máquina, entonces somos dependientes de ella de una manera que supera todas nuestras dependencias mecánicas anteriores", sugiere. Por decirlo suavemente, esto es un problema. "Como una variante de COVID-19 de rápido crecimiento, la IA se convertirá en la fuente dominante de conocimiento simplemente por virtud del crecimiento", enfatiza. "Si tomamos el ejemplo de Stack Overflow, ese acervo de conocimiento humano que solía pertenecernos podría reducirse a una mera ponderación en el transformador".Hay mucho en juego, y no solo las abundantes cantidades de dinero que siguen fluyendo hacia la IA. También necesitamos hacer un balance del valor relativo de la información generada por cosas como ChatGPT. Stack Overflow, por ejemplo, prohibió las respuestas derivadas de ChatGPT en diciembre de 2022 porque eran ricas en texto pero pobres en información: "Debido a que la tasa promedio de obtener respuestas correctas de ChatGPT es demasiado baja, la publicación de respuestas creadas por ChatGPT es sustancialmente perjudicial para el sitio y para los usuarios que buscan y hacen preguntas [énfasis en el original]". Cosas como ChatGPT no están diseñadas para producir información correcta, sino simplemente información probabilística que se ajusta a patrones en los datos. En otras palabras, el código abierto puede estar lleno de "malhechores", pero sin un flujo constante de buenos datos de entrenamiento, los LLM pueden simplemente reabastecerse con información basura, volviéndose menos útiles.
No estoy menospreciando la promesa de LLM y GenAI en general. Al igual que con el código abierto, los editoriales de noticias y más, podemos estar agradecidos con OpenAI y otras empresas que nos ayudan a utilizar información producida colectivamente, mientras seguimos animando a contribuidores como Reddit (en sí mismo un agregador de contribuciones individuales) por esperar el pago por las partes que desempeñan. El código abierto tuvo sus guerras de licencias, y parece que estamos a punto de tener algo similar en el mundo de GenAI, pero con mayores consecuencias.