Una reciente demanda judicial ha sacado a la luz información preocupante sobre el entrenamiento del modelo de IA de Meta, Llama. Documentos revelados muestran que la compañía utilizó la base de datos LibGen, una biblioteca digital con millones de obras protegidas por derechos de autor, para entrenar su algoritmo.
El escándalo de LibGen
LibGen, autodenominado "agregador de enlaces", ha sido demandado en repetidas ocasiones por la violación masiva de derechos de autor. La plataforma ofrece acceso a libros y artículos académicos protegidos, con multas millonarias impuestas en su contra sin que se conozca la identidad de sus responsables.
Zuckerberg y la decisión polémica
Los documentos de la demanda indican que Mark Zuckerberg, CEO de Meta, aprobó el uso de LibGen para entrenar Llama, a pesar de las advertencias internas sobre el riesgo legal y reputacional que esto implicaba. Algunos empleados expresaron su preocupación por las potenciales consecuencias de utilizar material con copyright, alertando sobre el impacto negativo en las negociaciones con los reguladores.
Más allá del entrenamiento: la distribución
La implicación de Meta no se limita al entrenamiento de Llama. La evidencia sugiere que la empresa también contribuyó a la distribución de las obras pirateadas, actuando como un nodo adicional en la red de intercambio de archivos torrent de LibGen. Esto amplía considerablemente la magnitud de la infracción de derechos de autor.
El argumento del "Uso Justo"
Meta ha intentado defenderse argumentando el "Uso Justo" de los datos, un argumento que ya fue rechazado en una demanda anterior. Sin embargo, el juez a cargo del caso actual se ha negado a ocultar información que Meta intentó mantener en secreto, sugiriendo un posible cambio de rumbo en la resolución del caso.
Un problema extendido en la industria
El caso de Meta no es aislado. Otras compañías como OpenAI, Google y Perplexity también han sido acusadas de utilizar material con derechos de autor para entrenar sus modelos de IA, generando una creciente preocupación sobre las prácticas éticas y legales en el desarrollo de esta tecnología. Si bien algunas empresas han comenzado a negociar licencias con grupos editoriales para utilizar contenido legalmente, la voracidad de datos de la IA plantea un desafío considerable para la protección de la propiedad intelectual.
Las medidas tomadas por Meta
Dentro de la demanda se detalla cómo un ingeniero de Meta desarrolló un programa para eliminar las etiquetas de derechos de autor de los libros electrónicos y artículos académicos antes de usarlos en el entrenamiento de Llama, intentando ocultar el origen ilícito del material utilizado.
El futuro de la IA y los derechos de autor
Este caso y otros similares ponen de manifiesto la necesidad de una mayor regulación en el uso de datos para entrenar modelos de IA, especialmente en lo que respecta a la protección de los derechos de autor. La creciente tensión entre el avance tecnológico y la propiedad intelectual requerirá soluciones innovadoras y un diálogo constructivo entre las empresas tecnológicas y los titulares de derechos.
Fuente: Xataka