La inteligencia artificial está socavando el gran acuerdo de la web, y un acuerdo de consentimiento tácito de décadas es lo único que se interpone.
Un único fragmento de código, robots.txt, fue propuesto a finales de los años 90 como una forma para que los sitios web le dijeran a los robots rastreadores que no desean que se recopilen y recojan sus datos. Fue ampliamente aceptado como una de las reglas no oficiales que apoyan la web.
En ese momento, el propósito principal de estos rastreadores era indexar información para mejorar los resultados en los motores de búsqueda. Google, Bing de Microsoft y otros motores de búsqueda tienen rastreadores. Indexan contenido para que se pueda mostrar más tarde como enlaces a miles de millones de consumidores potenciales. Este es el acuerdo esencial que creó la próspera web que conocemos hoy en día: los creadores comparten información abundante e intercambian ideas en línea libremente porque saben que los consumidores visitarán y verán un anuncio, se suscribirán o comprarán algo.
Sin embargo, ahora la inteligencia artificial generativa y los modelos de lenguaje grandes están cambiando radical y rápidamente la misión de los rastreadores web. En lugar de trabajar para apoyar a los creadores de contenido, estas herramientas se han vuelto en su contra.
Los rastreadores web ahora recopilan información en línea para alimentar conjuntos de datos gigantes que son utilizados de forma gratuita por las grandes empresas tecnológicas para desarrollar modelos de IA. CCBot alimenta Common Crawl, uno de los mayores conjuntos de datos de IA. GPTbot proporciona datos a OpenAI, la empresa detrás de ChatGPT y GPT-4, actualmente el modelo de IA más poderoso. Google simplemente llama a sus datos de entrenamiento de LLM "Infiniset", sin mencionar de dónde proviene la gran mayoría de los datos. Aunque el 12,5% proviene de C4, una versión depurada de Common Crawl.
Los modelos utilizan toda esta información gratuita para aprender cómo responder preguntas de los usuarios de forma inmediata. Eso está muy lejos de indexar un sitio web para que los usuarios puedan acceder al trabajo original.
Sin un suministro de posibles consumidores, hay poco incentivo para que los creadores de contenido permitan que los rastreadores web continúen absorbiendo datos gratuitos en línea. GPTbot ya está siendo bloqueado por Amazon, Airbnb, Quora y cientos de otros sitios web. CCBot de Common Crawl también está comenzando a ser bloqueado con más frecuencia.
'Una herramienta rudimentaria'
Lo que no ha cambiado es la forma de bloquear estos rastreadores. La implementación de robots.txt en un sitio web y la exclusión de rastreadores específicos es la única opción. Y no es muy buena.
"Es una herramienta algo rudimentaria", dijo Joost de Valk, antiguo ejecutivo de Wordpress, inversionista tecnológico y fundador de la empresa de marketing digital Yoast. "No tiene base legal y básicamente es mantenida por Google, aunque dicen que lo hacen junto con otros motores de búsqueda".
También es susceptible a manipulación, especialmente dada el hambre voraz por datos de IA de calidad. Lo único que una empresa como OpenAI tiene que cambiar es el nombre de su rastreador de bots para eludir todas las reglas de prohibición que las personas establecen utilizando robots.txt, explicó de Valk.
Debido a que robots.txt es voluntario, los rastreadores web también pueden simplemente ignorar las instrucciones de bloqueo y extraer información de un sitio de todos modos. Algunos rastreadores, como el de Brave, un motor de búsqueda más nuevo, ni siquiera se molestan en divulgar el nombre de su rastreador, lo que hace imposible bloquearlo.
"Todo en línea está siendo absorbido en un vacío para los modelos", dijo Nick Vincent, un profesor de ciencias de la computación que estudia la relación entre los datos generados por humanos y la IA. "Hay tantas cosas ocurriendo bajo el capó. En los próximos seis meses, miraremos hacia atrás y querremos evaluar estos modelos de manera diferente".
Rechazo a los bots de IA
De Valk advierte que los propietarios y creadores de contenido en línea pueden estar comenzando a entender demasiado tarde los riesgos de permitir que estos bots recojan sus datos de forma gratuita y los utilicen indiscriminadamente para desarrollar modelos de IA.
"En este momento, no hacer nada significa decir: 'Estoy de acuerdo con que mi contenido esté en todas las IA y LLM del mundo'", dijo de Valk. "Eso es simplemente incorrecto. Se podría crear una versión mejor de robots.txt, pero sería muy extraño si eso lo hicieran los motores de búsqueda y las grandes partes de IA".
Varias empresas y sitios web importantes han respondido recientemente, y algunos han comenzado a implementar robots.txt por primera vez.
A partir del 22 de agosto, 70 de los 1,000 sitios web más populares han utilizado robots.txt para bloquear GPTBot desde que OpenAI reveló al rastreador hace aproximadamente tres semanas, según Originality.ai, una empresa que verifica el contenido para ver si es generado por IA o plagiado.
La empresa también descubrió que 62 de los 1,000 sitios web más populares están bloqueando CCBot de Common Crawl, y el número de bloqueos ha aumentado este año a medida que ha crecido la conciencia sobre la recopilación de datos para la IA.
Sin embargo, no se puede hacer cumplir. Cualquier rastreador podría ignorar un archivo robots.txt y recolectar hasta el último dato que encontrara en una página web, sin que el propietario de la página tenga idea de que esto sucedió. Incluso si el archivo robots.txt tuviera alguna base legal, su propósito original tiene poco que ver con la información en internet que se utiliza para crear modelos de IA.
"Es poco probable que se vea a robots.txt como una prohibición legal sobre el uso de datos", según Jason Schultz, director de la Clínica de Derecho y Política Tecnológica de NYU. "Principalmente se creó para indicar que uno no deseaba que su sitio web fuera indexado por motores de búsqueda, no como una señal de que uno no deseaba que su contenido se utilizara para el aprendizaje automático y el entrenamiento de IA".
'Esto es un campo minado'
Esta actividad ha estado ocurriendo durante años. OpenAI reveló su primer modelo GPT en 2018, habiéndolo entrenado con BookCorpus, un conjunto de datos de miles de libros independientes o auto-publicados. Common Crawl comenzó en 2008 y su conjunto de datos se hizo públicamente disponible en 2011 a través de almacenamiento en la nube proporcionado por AWS.Aunque GPTBot ahora está más ampliamente bloqueado, Common Crawl representa una amenaza mayor para cualquier empresa que esté preocupada por que sus datos se utilicen para entrenar un modelo de IA de otra compañía. Lo que Google hizo por la búsqueda en internet, Common Crawl lo está haciendo por la IA.
"Esto es un campo minado", dijo Catherine Stihler, CEO de Creative Commons. "Actualizamos nuestra estrategia hace solo unos años, y ahora estamos en un mundo diferente".
Creative Commons comenzó en 2001 como una forma para que los creadores y propietarios licencien sus obras para su uso en internet a través de una alternativa a un marco de derechos de autor estricto, conocido como "copyleft". Los creadores y propietarios mantienen sus derechos, mientras que una licencia Commons permite a las personas acceder al contenido y crear obras derivadas. Wikipedia opera a través de una licencia Creative Commons, al igual que Flickr, Stack Overflow y ProPublica, junto con muchos otros sitios web conocidos.
En su nueva estrategia de cinco años, que señala el "uso problemático de contenido abierto" para entrenar tecnologías de IA, Creative Commons busca hacer que el compartir trabajos en línea sea más "equitativo" a través de un enfoque "multifrontal, coordinado y amplio que va más allá del derecho de autor".
El gorila de 160 mil millones de páginas
Common Crawl, a través de CCBot, posee lo que quizás sea el repositorio más grande de datos jamás recopilados de internet. Desde 2011, ha rastreado y guardado información de 160 mil millones de páginas web y sigue contando. Por lo general, rastrea y guarda alrededor de 3 mil millones de páginas web cada mes.Su declaración de misión dice que el proyecto es una "fuente de datos abiertos" destinada a permitir que cualquiera "satisfaga su curiosidad, analice el mundo y persiga ideas brillantes".
La realidad de hoy es muy diferente. La enorme cantidad de datos que posee y sigue recopilando está siendo utilizada por algunas de las corporaciones más grandes del mundo para crear principalmente modelos propietarios. Si una gran empresa tecnológica aún no está obteniendo ganancias de su producción de IA (OpenAI tiene muchos servicios pagos), hay un plan para hacerlo en el futuro.
Algunas grandes empresas tecnológicas han dejado de revelar de dónde obtienen estos datos. Sin embargo, Common Crawl ha sido y sigue siendo utilizado para desarrollar muchos modelos de IA poderosos. Ayudó a Google a crear Bard. Ayudó a Meta a entrenar Llama. Ayudó a OpenAI a construir ChatGPT.
Common Crawl también alimenta a The Pile, que alberga conjuntos de datos más seleccionados extraídos del trabajo de otros rastreadores de bots. Se ha utilizado ampliamente en proyectos de IA, incluido Llama y un LLM de Microsoft y Nvidia llamado MT-NLG.
No cómico
Una de las descargas más recientes de The Pile en junio es una gran colección de cómics, que incluye la obra completa de Archie, Batman, X-Men, Star Wars y Superman. Creados por DC Comics, ahora propiedad de Warner Brothers, y Marvel, ahora propiedad de Disney, todas las obras siguen bajo derechos de autor. The Pile también alberga un gran conjunto de libros con derechos de autor, como informó recientemente The Atlantic.
"Hay una diferencia entre la intención de los rastreadores y cómo se utilizan", dijo Schultz de NYU. "Es muy difícil controlar o insistir en que los datos se utilicen de una manera específica".
En lo que respecta a The Pile, aunque admite que sus datos están llenos de material con derechos de autor, afirmó en su documento técnico fundacional que "se reconoce muy poco el hecho de que el procesamiento y la distribución de datos propiedad de otros también puede violar las leyes de derechos de autor".
Además, el grupo, parte de EleutherAI, argumentó que su uso del material se considera "transformador" según la doctrina del uso legítimo, a pesar de que los conjuntos de datos contienen trabajos relativamente sin alterar. También admitió que necesita utilizar contenido con derechos de autor de longitud completa "para producir los mejores resultados" al entrenar LLM.
Estos argumentos de uso legítimo por parte de rastreadores y proyectos de IA ya se están poniendo a prueba. Autores, artistas visuales e incluso desarrolladores de código fuente están demandando a empresas como OpenAI, Microsoft y Meta porque se ha utilizado su trabajo original sin su consentimiento para entrenar algo de lo que no obtienen ningún beneficio.
No hay ningún universo en el que poner algo en internet conceda el uso libre, ilimitado y comercial del trabajo de alguien sin su consentimiento", escribió recientemente Steven Sinofsky, un antiguo ejecutivo de Microsoft y socio de la firma de capital de riesgo Andreessen Horowitz en X.
Sin una solución a la vista
Por el momento, no se vislumbra una solución clara."Estamos lidiando con todo esto ahora mismo", dijo Stihler, CEO de Creative Commons. "Surgen tantos problemas: compensación, consentimiento, reconocimiento. ¿Cómo es todo eso con la IA? No tengo una respuesta."
De Valk dijo que se ha sugerido que Creative Commons, con su método de facilitar licencias más amplias de derechos de autor que permiten utilizar obras propias en internet, sea un posible modelo para el consentimiento en el desarrollo de modelos de IA.
Stihler no está tan seguro. Cuando se trata de IA, quizás no haya una solución única. Las licencias y los derechos de autor, incluso un acuerdo estilo Commons más flexible, probablemente no funcionen. ¿Cómo se concede licencia a todo internet?
"Todos los abogados con los que hablo dicen que una licencia no resolverá el problema", dijo Stihler.
Ella habla de esto regularmente con las partes interesadas, desde autores hasta ejecutivos de empresas de IA. Stihler se reunió con representantes de OpenAI a principios de este año y dijo que la empresa está debatiendo cómo "recompensar a los creadores".
Aun así, "no está claro cómo se ve realmente el acceso común en la era de la IA", añadió.
"Si no tenemos cuidado, terminaremos cerrando el acceso común"
Teniendo en cuenta la cantidad de datos que los rastreadores web ya han recopilado y entregado a las grandes empresas tecnológicas, y la poca influencia que tienen los creadores de ese contenido, internet tal como lo conocemos podría cambiar drásticamente.Si publicar información en línea significa ceder datos de forma gratuita a un modelo de IA que competirá contigo por usuarios, es posible que esta actividad simplemente se detenga.
Ya hay indicios de esto: menos desarrolladores de software humanos están visitando el sitio web de preguntas y respuestas Stack Overflow para responder preguntas. ¿Por qué? Porque su trabajo anterior se utilizó para entrenar modelos de IA que ahora responden muchas de estas preguntas automáticamente.
Stihler dijo que el futuro de todo el trabajo creativo en línea podría parecerse pronto al estado actual del streaming, con contenido bloqueado detrás de feudos de suscripción "Plus" que cada vez son más costosos.
"Si no tenemos cuidado, terminaremos cerrando el acceso común", dijo Stihler. "Habrá más jardines vallados, más cosas a las que la gente no podrá acceder. Ese no es un modelo exitoso para el futuro del conocimiento y la creatividad de la humanidad".