Recentemente, um novo relatório colocou a Apple no centro de uma polêmica envolvendo o uso não autorizado de vídeos do YouTube para treinar seus modelos de IA.
Gigantes da tecnologia como OpenAI, Meta e Google já foram criticadas por práticas similares, mas agora a Apple também está sendo acusada de violar os direitos autorais dos criadores de conteúdo ao utilizar transcrições de vídeos sem o devido consentimento.
A Wired revelou que a Apple, assim como outras grandes empresas de tecnologia, utilizou vídeos do YouTube para treinar seus modelos de linguagem natural (LLM).
Esses vídeos foram baixados como arquivos de legenda, que foram então usados para alimentar os modelos de IA dessas empresas.
Estima-se que mais de 170.000 vídeos, incluindo conteúdos de criadores renomados como MKBHD, Jimmy Kimmel, PewDiePie e MrBeast, tenham sido utilizados nesse processo.
Violação de direitos autorais por parte das empresas de IA
Esse método de treinamento de IA tem gerado muitas preocupações, principalmente porque viola as regras do YouTube sobre o uso automatizado de seus conteúdos sem permissão.
Uma investigação da Proof News aponta que várias empresas de IA de grande porte, incluindo Anthropic, NVIDIA, Apple e Salesforce, utilizaram legendas de mais de 173.000 vídeos do YouTube, extraídos de mais de 48.000 canais, sem o consentimento dos criadores.
Envolvimento da EleutherAI
O relatório da Wired assume que a Apple não realizou diretamente a transcrição dos vídeos, mas uma organização sem fins lucrativos chamada EleutherAI utilizou esses dados para fins educacionais e acadêmicos.
Contudo, a Apple acabou envolvida na controvérsia por utilizar esses conjuntos de dados para treinar seu modelo OpenELM, lançado em abril.
Implicações éticas e legais do uso da IA
A situação levanta importantes questões sobre consentimento e práticas éticas no uso de IA. O uso de conteúdo sem autorização pode ter implicações multifacetadas e potencialmente prejudiciais para os criadores de conteúdo.
Até o momento, a Apple não se pronunciou oficialmente sobre as alegações. Esse episódio reacendeu o debate sobre regulamentações mais claras e práticas, além de mais transparência no uso de dados para treinamento de IA.
Os criadores de conteúdo merecem ter seus direitos respeitados e devem ser informados sobre como seu trabalho está sendo utilizado.