Empresas como a OpenAI, responsável pelo ChatGPT, têm enfrentado acusações de utilizar conteúdo protegido por direitos autorais para treinar seus modelos de inteligência artificial. Um relatório recente da AI Disclosures Project lança luz sobre essa prática, revelando que a empresa pode estar usando obras que não são públicas e que não foram licenciadas para esse fim. Isso levanta preocupações sobre possíveis implicações legais.
Os modelos de inteligência artificial, como o ChatGPT, são treinados com vastas quantidades de dados. As respostas geradas por essas ferramentas são baseadas em obras utilizadas durante o treinamento, o que significa que o chatbot não cria conteúdo original, mas sim reutiliza informações de sua biblioteca interna. A OpenAI, por exemplo, foi acusada de usar livros da O’Reilly Media, uma empresa de mídia dos Estados Unidos, sem autorização.
Como a OpenAI está sendo investigada?
Pesquisadores desenvolveram um método chamado DE-COP para identificar conteúdo protegido por direitos autorais nos dados de treinamento de modelos de linguagem. Este método, introduzido em um estudo acadêmico em 2024, é conhecido como “ataque de inferência de associação”. Ele verifica se um modelo pode distinguir textos de autoria humana de versões parafraseadas geradas por IA. Se o modelo consegue fazer essa distinção, isso sugere que ele pode ter conhecimento prévio do texto original.
Os coautores do estudo, incluindo pesquisadores como O’Reilly e Sruly Rosenblat, investigaram o conhecimento do GPT-4o e outros modelos da OpenAI sobre livros da O’Reilly Media. Utilizando trechos de 34 livros, eles estimaram a probabilidade de que esses textos tenham sido incluídos no conjunto de dados de treinamento dos modelos. Os resultados indicaram que o GPT-4o reconheceu mais conteúdo desses livros do que modelos anteriores, como o GPT-3.5 Turbo.

Quais são as implicações legais e éticas?
O uso de obras protegidas por direitos autorais sem permissão levanta questões legais significativas. A OpenAI já enfrenta processos relacionados a essa prática, e o relatório da AI Disclosures Project pode intensificar essas ações judiciais. Além das implicações legais, há também preocupações éticas sobre a utilização de conteúdo sem o devido reconhecimento ou compensação aos autores originais.
Empresas de tecnologia que desenvolvem modelos de IA precisam equilibrar a necessidade de dados para treinamento com o respeito aos direitos autorais. A transparência sobre as fontes de dados e a obtenção de licenças adequadas são passos essenciais para evitar conflitos legais e éticos.
O futuro dos modelos de IA e direitos autorais
À medida que a inteligência artificial continua a evoluir, o debate sobre o uso de conteúdo protegido por direitos autorais se intensifica. As empresas precisam adotar práticas responsáveis para garantir que seus modelos sejam treinados de maneira ética e legal. Isso inclui a implementação de métodos de detecção de conteúdo protegido e a colaboração com autores e editoras para o uso autorizado de suas obras.
O desenvolvimento de políticas claras e a promoção de um diálogo aberto entre empresas de tecnologia, autores e reguladores são fundamentais para o avanço sustentável da inteligência artificial. Somente assim será possível equilibrar a inovação tecnológica com o respeito aos direitos de propriedade intelectual.