Música vs. AI

O processo que pode definir as políticas de utilização de dados para treinar modelos de AI

O que aconteceu?

Mais um caso de um processo legal feito contra startups de AI, desta vez na indústria da música. A Recording Industry Association of America (RIAA), uma organização que pretende defender os direitos de autor das músicas cujos membros detém (EMI, Sony Music Entertainment, Universal Music Group, Warner Music Group, etc.), processou duas startups de geração de música utilizando as capacidades dos modelos de genAI – Suno e Udio.

Qual é o problema?

Este processo foi levantado nos Estados Unidos e o objetivo é investigar e punir uma violação da lei dos direitos de autor que protege o uso indevido de cópias (copyrights). Neste caso a alegação da RIAA é que músicas protegidas por copyrights foram indevidamente utilizadas para treinar os modelos que geram as novas canções, sem autorização e sem direitos de comercialização. Contrariamente ao que seria mais óbvio de o problema se encontrar nas músicas geradas.

O processo foi baseado na semelhança gigante que algumas músicas geradas tem com originais como Jackson’s 5 e Maroon 5.

Estas músicas que são geradas não são diretamente plágio de originais e por isso não podem ser caso de processo direto. Qualquer autor ou artista se pode basear em músicas atuais para criar obras novas.

No entanto o problema agrava-se quando se torna impossível garantir atribuição e crédito –  isto porque durante a geração não houve propriamente um processo de copia e alteração de dados e informação base, como acontece por exemplo quando se utiliza informação de uma notícia ou artigo. Neste último caso é possível dizer exatamente (ou quase) qual a fonte da informação e garantir atribuição ou um link para a fonte original.

Para além disso, existe uma vantagem comercial e um ganho financeiro pela utilização indevida destas cópias – i.e. as empresas faturam e vendem estes serviços sem garantir os royalties que deveriam pela utilização das canções.

A Suno está integrada na plataforma de AI copilot da Microsoft como um add-on para geração de música.

O que dizem as empresas?

Nada, na verdade. Os CEOs destas empresas disseram que os dados de treino destes modelos são segredos de negócio e não podem ser revelados. Todavia, um dos investidores pareceu sugerir que eles usaram mesmo dados protegidos indevidamente ao afirmar que não seria possível construir este tipo de empresa se tivessem de pagar pelos dados.

Tentaram defender-se com o mesmo artigo que plataformas como o Instagram e Facebook usam para se desculpabilizarem dos seus utilizadores fazerem upload de videos com músicas para as quais não têm os direitos – mas não resultou, a utilização indevida não é na geração, é sim no treino.

Porquê isto e porquê agora? E mais importante, por que é que parece mais óbvio quem vai ganhar que nos outros casos?

A indústria da música tem umas peculiaridades que a fazem um alvo mais complicado de lidar. É gerida por um número muito pequeno de empresas muito grandes e muito poderosas com recursos virtualmente ilimitados e que estão muito habituadas a lidar com este tipo de problemas. Na verdade, se pensarmos bem, as grandes labels são empresas que distribuem música e protegem os seus direitos – não as criam – daí o processo estar relacionado com a utilização indevida no treino e não na criação.

Adicionalmente, quando comparamos com outras indústrias, como por exemplo o jornalismo, percebemos que os artigos jornalísticos são mais fáceis de copiar para treinar modelos sem se tornar óbvio. O conteúdo dos artigos pode ser original mas é copiado e reproduzido muitas vezes (outros jornais, tweets, posts, comentários, etc) e a forma vai certamente ser diferente porque vai ser gerada naquele momento pelo modelo. No caso da música o conteúdo e a forma são ambos relevantes e muito característicos e únicos – uma melodia ou um ritmo pode ser reconhecido muito rapidamente – já todos nós percebemos que uma música é parecida a outra.

E agora?

Relativamente ao caso, teremos de esperar para ver o que vai acontecer mas muito provavelmente as empresas terão de revelar em que dados treinaram os modelos e, confirmando-se a suspeita de serem canções originais para as quais não teriam direitos, ressarcir as labels de alguma forma.

Certamente que o resultado deste processo vai definir o que será o precedente para atuar nestes casos e o Modus Operandi das startups que queiram de alguma forma usar dados protegidos para treinar modelos. Esta área ainda é muito recente e os policy makers ainda não tiveram o tempo e os casos para desenhar o enquadramento legal. As músicas não foram reproduzidas, foram usadas para treinar um modelo que foi capaz de aprender padrões – será que conta apenas como uma reprodução indevida pelo treino, ou conta como pirataria pela não aquisição do ficheiro mp3, ou será que cada vez que alguém gera uma música que tem por base um original conta uma venda indevida? Não há respostas ainda, é uma utilização totalmente nova destes dados.

Empresas como Microsoft, Amazon, Google, OpenAI e Meta estão com os olhos bem postos no desenrolar deste caso para perceber quais os limites e quais os que poderão passar.

Fica a questão: muitas disrupções tecnológicas e sociais foram feitas contra as regras e passaram depois a ser a regra. A inovação tecnológica está muito dependente deste tipo de comportamento (move fast and break things). Estes modelos nunca seriam possíveis se não fossem criados desta forma – não haveria investidores disponíveis a investir numa empresa com custos gigantes de licenciamento de música. Ou seja, estes processos estão efetivamente a bloquear a inovação tecnológica. No entanto, as empresas usaram dados protegidos sem darem nada em troca aos seus donos – artistas e labels. Eles merecem ser recompensados pelo trabalho criativo que tiveram. E existem outras indústrias em que esta inovação selvagem é muito mais controlada, como é o caso da indústria biotech, onde existem muito mais barreiras e comissões de ética e etc para evitar problemas futuros. O dilema, será que deveria haver uma condição especial para inovadores em casos como estes?

O que acho que vai acontecer (pelo menos com a Suno): A Microsoft paga a multa e fazem uma parceria para ter ainda mais e melhores dados de treino e ganham ambos 🤝

Para temas como este e mais podem ouvir o meu podcast Shutdown onde faço um update semanal sobre o que passou em tecnologia e negócios, em português


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *