14 mayo 2024

OpenAI eliminó pruebas que podrían demostrar el uso de libros protegidos por derechos de autor para entrenar su IA

Imagen de Andrew Neel en Pexels

Imagen de Andrew Neel en Pexels

Como ya vimos, Authors Guild demandó a OpenAI por utilizar de manera ilegal libros con derechos de autor para entrenar modelos de IA de la compañía tecnológica.

Ahora, en el siguiente episodio de esta querella, se ha descubierto, gracias a unos documentos revelados recientemente, que OpenAI eliminó dos conjuntos de datos que se habían utilizado para entrenar a ChatGPT-3.

Tales documentos, que han sido añadidos a la demanda colectiva presentada por Authors Guild contra OpenAI, muestran que la startup eliminó esos dos enormes conjuntos de datos, llamados “books1” y “books2”. Se trata de datos que habían sido utilizados para entrenar el mencionado modelo de inteligencia.

En concreto, el documento técnico –nombrado como altamente confidencial- de  OpenAI describe los conjuntos de datos “books1” y “books2” como “corpus de libros basados en Internet”. Según señala, tales conjuntos de datos constituían el 16% de los datos de entrenamiento necesarios para crear GPT-3. También dice los dos conjuntos de datos sumados contenían “67 mil millones de datos, o aproximadamente el equivalente a 50 mil millones de palabras”.

Además, según señalan en Business Insider, esos documentos también muestran que los dos investigadores que crearon los conjuntos de datos ya no trabajan en OpenAI.

Según refieren los abogados del Authors Guild, tales conjuntos de datos contenían probablemente más de 100.000 libros publicados. Algo que demostraría con mayor fuerza las acusaciones de que OpenAI utilizó materiales protegidos por derechos de autor para entrenar sus modelos de IA.

Es el tipo de información que OpenAI siempre se ha negado a declarar, alegando problemas de confidencialidad. Algo muy similar a lo que ha sucedido con los medios de comunicación, como ha sido el caso del New York Times.

En ambos casos, como también está ocurriendo con Meta en una demanda muy similar, la tecnológica se defiende de nuevo alegando que los datos de entrenamiento de alta calidad son una parte importante de los poderosos modelos de IA. Pero, como parece natural, los responsables y beneficiarios de derechos de autor que aportan tal información quieren que se les pague por “alimentar” a esas inteligencias artificiales. Mientras, las empresas tecnológicas no quieren verse obligadas a pagar.

En el caso concreto que nos ocupa hoy, según OpenAI el uso de ese conjunto de datos para la capacitación de modelos se suspendió a fines de 2021 y que los conjuntos de datos se eliminaron a mediados de 2022 por falta de uso.

Veremos cuál es el siguiente episodio de esta serie de tribunales.

Leave a Reply