A batalha legal pelo uso de dados no treinamento de modelos de inteligência artificial generativa continua sem trégua. Desta vez, a protagonista é a Anthropic, criadora do assistente Claude, que firmou um acordo de 1,5 bilhão de dólares para encerrar uma ação judicial que a acusava de treinar seu sistema com milhões de livros pirateados.
O caso, liderado pelos escritores Andrea Bartz, Charles Graeber e Kirk Wallace, alegava que a empresa havia baixado de forma ilícita mais de 7 milhões de obras. O acordo inclui também pagamentos adicionais de 3.000 dólares para cada 500.000 livros baixados, além da obrigação de eliminar todas as cópias utilizadas.
Litígios em Massa: OpenAI, Stability AI e Midjourney no Centro das Atenções
A controvérsia envolvendo a Anthropic se junta a uma longa lista de litígios que colocam as grandes empresas de IA em xeque:
- OpenAI: Processada pelo New York Times e por várias autoras, que alegam que seus artigos e livros foram usados para treinar o GPT sem autorização.
- Stability AI: Acusada de alimentar o Stable Diffusion com obras de artistas sem permissão.
- Midjourney: Apontada por utilizar material gráfico de autores profissionais e catálogos de entretenimento para treinar seus geradores de imagens.
Essas demandas buscam não apenas compensação financeira, mas também estabelecer precedentes legais sobre quais dados podem ser usados no treinamento de modelos de IA.
O Dilema Técnico-Legal: Uso Justo ou Infringimento em Massa?
O cerne da questão reside na diferença entre aprender com um conjunto de dados e copiar uma obra. As empresas defendem que o treinamento é um processo estatístico protegido pelo princípio de fair use nos EUA, enquanto os demandantes argumentam que os modelos podem reproduzir trechos idênticos de textos ou estilos artísticos, o que constituiria uma violações direta de direitos autorais.
Na Europa, a situação é ainda mais complicada: a diretiva de direitos autorais de 2019 limita de forma explícita o uso de obras protegidas, exceto para fins de pesquisa. Teoricamente, empresas como OpenAI ou Anthropic precisariam de licenças comerciais para treinar seus modelos na UE.
Impacto na Indústria: Crescimento de Custos e Atrasos
O acordo da Anthropic introduz um fator crucial: o custo real de treinar modelos com dados protegidos. Se as empresas precisarem pagar licenças ou compensações multimilionárias, o desenvolvimento de novos modelos se tornará mais caro, o que poderia:
- Frear a inovação e limitar o surgimento de novos concorrentes.
- Favorecer grandes tecnológicas com capacidade financeira, em detrimento de startups.
- Criar um novo mercado de licenças de conjuntos de dados que poderia se tornar a norma.
O Que Vem a Seguir?
O futuro da IA generativa dependerá de como essas batalhas legais se desenrolarão. Um cenário possível é um modelo híbrido: conjuntos de dados públicos e de domínio aberto combinados com catálogos licenciados de editoras, mídias e produtoras.
Enquanto isso, o caso Anthropic envia uma mensagem clara: os criadores não pretendem ficar à margem. O equilíbrio entre inovação e direitos autorais será, provavelmente, o maior desafio regulatório e técnico da IA nesta década.