Una declaración de la Wikimedia Foundation, la fundación que gestiona Wikipedia, alerta sobre uno de los costos ocultos de la inteligencia artificial generativa. Los grandes sistemas de formación de modelos lingüísticos necesitan alimentarse constantemente con una enorme cantidad de datos que, además de conjuntos de datos públicos y privados, también se extraen directamente de la web mediante rastreadores. Los crawlers, ratreadores, o spider bots, son programas informáticos normalmente utilizados por los motores de búsqueda, que los emplean para indexar contenidos. Estas acciones consumen recursos y, por tanto, tienen un costo para los sitios que visitan automaticamente, como Wikimedia Commons, el archivo de 144 millones de imágenes, vídeos y archivos que pueden copiarse, descargarse, distribuirse y modificarse bajo la licencia Creative Commons de la fundación.
Los proyectos Wikimedia –que van más allá de Wikipedia e incluyen también Wikilibros y Wikcionario, por citar sólo algunos– se basan de hecho en dos elementos principales: contenidos libres y accesibles para todos, y el trabajo voluntario de la comunidad que los elabora. Y es precisamente esto lo que la hace atractiva para nuevos rastreadores que, además de los ya existentes y del tráfico humano, consumen los recursos de proyectos como el de la enciclopedia más popular del mundo, cuyo contenido es gratuito para el usuario, pero cuesta dinero a la fundación.
EL AUGE DEL TRÁFICO
A medida que los LLM y los chatbots vinculados a sus modelos se han vuelto más comunes, el volumen de peticiones ha aumentado exponencialmente. Las cifras publicadas en el comunicado muestran un crecimiento del tráfico de descargas del 50% desde enero de 2024. Wikimedia denuncia que el auge de las peticiones no procede de los usuarios, sino del software que explota su catálogo para alimentar modelos generativos de IA, algo para lo que la fundación no estaba preparada. El 65% del tráfico más caro hoy procede de bots, por la sencilla razón de que la demanda de contenidos de un humano es muy pequeña comparada con la de un software.
Por ejemplo, la navegación de un usuario puede llevarle a buscar la palabra “crawler”, de ahí a hacer clic en la palabra “scraping”, y así sucesivamente. En términos de datos, estamos hablando de una velocidad y cantidad limitadas para un gran número de usuarios. En cambio, cuando se trata de bots, las cantidades son enormes y las peticiones se producen en grandes bloques. Solo el 35% de las páginas vistas son visitadas por bots, pero generan dos tercios del tráfico más caro. Esta situación se vuelve problemática cuando la plataforma enfrenta picos de tráfico donde las búsquedas humanas son altas, es decir, cuando las noticias y los eventos actuales llevan a millones de usuarios en todo el mundo a buscar las mismas entradas en la enciclopedia. En ese momento la navegación se ralentiza o no se produce como se espera.
LOS DATOS COMO MERCANCÍA
La disponibilidad de datos es uno de los activos clave del enfoque actual de las grandes empresas tecnológicas hacia los modelos lingüísticos a gran escala. Basándose en una enorme cantidad de parámetros, estas tecnologías requieren conjuntos de datos enormes y de alta calidad, es decir, creados y revisados por humanos. Basadas en un gran número de parámetros, estas tecnologías requieren infinitos conjuntos de datos de alta calidad, es decir, creados y revisados por humanos. Como es sabido, los contenidos sintéticos pueden contener imprecisiones y errores, comúnmente llamados alucinaciones. Por eso, es esencial que los datos sean lo más precisos posible, lo que es viable cuando existe un proceso de revisión y edición. Aún con todas sus limitaciones y distinciones inevitables, este procedimiento típicamente humano garantiza una cierta calidad del resultado, y se basa en la idea de la libre circulación del conocimiento. Para evitar el problema de la autofagia de la IA generativa, es decir, que los chabots devuelvan resultados de nivel progresivamente inferior debido a la cantidad de contenido sintético en los conjuntos de datos de los modelos, este tipo de datos es una condición necesaria para obtener resultados de alto nivel. El contenido humano de calidad es un bien esencial no sólo para la democracia, sino también para la industria privada de la inteligencia artificial.
Para el universo Wiki, de hecho, no se trata sólo de una cuestión de costes, sino también de capital humano, que, ante el uso masivo de los contenidos creados gratuitamente por su comunidad, ve disminuir la presencia de usuarios en su sitio. A largo plazo, estos factores pueden amenazar la existencia de la comunidad de voluntarios que se ocupa de ella.