Meta lança ferramentas de áudio de IA de código aberto, AudioCraft

Benj Edwards - 2 de agosto de 2023, 20h56 UTC

Na quarta-feira, a Meta anunciou que está abrindo o código do AudioCraft, um conjunto de ferramentas generativas de IA para criar música e áudio a partir de prompts de texto. Com as ferramentas, os criadores de conteúdo podem inserir descrições de texto simples para gerar paisagens de áudio complexas, compor melodias ou até mesmo simular orquestras virtuais inteiras.

AudioCraft consiste em três componentes principais: AudioGen, uma ferramenta para gerar vários efeitos de áudio e paisagens sonoras; MusicGen, que pode criar composições musicais e melodias a partir de descrições; e EnCodec, um codec de compressão de áudio baseado em rede neural.

Em particular, Meta diz que o EnCodec, que abordamos pela primeira vez em novembro, foi recentemente aprimorado e permite “geração de música de maior qualidade com menos artefatos”. Além disso, o AudioGen pode criar efeitos sonoros de áudio, como o latido de um cachorro, a buzina de um carro ou passos no chão de madeira. E o MusicGen pode criar músicas de vários gêneros do zero, com base em descrições como “Faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeitas para a praia”.

A Meta forneceu diversas amostras de áudio em seu site para avaliação. Os resultados parecem estar de acordo com sua rotulagem de última geração, mas sem dúvida não são de alta qualidade o suficiente para substituir efeitos de áudio ou música comerciais produzidos profissionalmente.

Meta observa que, embora os modelos generativos de IA centrados em texto e imagens estáticas tenham recebido muita atenção (e sejam relativamente fáceis para as pessoas experimentarem online), o desenvolvimento de ferramentas generativas de áudio ficou para trás. “Há algum trabalho por aí, mas é altamente complicado e não muito aberto, então as pessoas não conseguem brincar com ele prontamente”, escrevem eles. Mas eles esperam que o lançamento do AudioCraft sob a licença do MIT contribua para a comunidade em geral, fornecendo ferramentas acessíveis para experimentação musical e de áudio.

"Os modelos estão disponíveis para fins de pesquisa e para promover a compreensão da tecnologia pelas pessoas. Estamos entusiasmados em dar acesso a pesquisadores e profissionais para que possam treinar seus próprios modelos com seus próprios conjuntos de dados pela primeira vez e ajudar a avançar no estado da arte ", disse Meta.

A Meta não é a primeira empresa a experimentar geradores de áudio e música alimentados por IA. Entre algumas das tentativas recentes mais notáveis, a OpenAI estreou seu Jukebox em 2020, o Google estreou o MusicLM em janeiro e, em dezembro passado, uma equipe de pesquisa independente criou uma plataforma de geração de texto para música chamada Riffusion usando uma base de difusão estável.

Nenhum desses projetos de áudio generativo atraiu tanta atenção quanto os modelos de síntese de imagem, mas isso não significa que o processo de desenvolvê-los não seja menos complicado, como observa Meta em seu site:

A geração de áudio de alta fidelidade de qualquer tipo requer a modelagem de sinais e padrões complexos em escalas variadas. A música é sem dúvida o tipo de áudio mais desafiador de ser gerado porque é composta de padrões locais e de longo alcance, desde um conjunto de notas até uma estrutura musical global com múltiplos instrumentos. A geração de música coerente com IA tem sido frequentemente abordada através do uso de representações simbólicas como MIDI ou rolos de piano. No entanto, estas abordagens são incapazes de compreender plenamente as nuances expressivas e os elementos estilísticos encontrados na música. Avanços mais recentes aproveitam o aprendizado auto-supervisionado de representação de áudio e uma série de modelos hierárquicos ou em cascata para gerar música, alimentando o áudio bruto em um sistema complexo, a fim de capturar estruturas de longo alcance no sinal enquanto gera áudio de qualidade. Mas sabíamos que mais poderia ser feito neste campo.

Em meio à controvérsia sobre material de treinamento não divulgado e potencialmente antiético usado para criar modelos de síntese de imagem como Stable Diffusion, DALL-E e Midjourney, é notável que Meta diz que MusicGen foi treinado em "20.000 horas de música de propriedade da Meta ou licenciada especificamente para este propósito." À primeira vista, isso parece um movimento numa direção mais ética que pode agradar a alguns críticos da IA generativa.

Notícias

Meta lança ferramentas de áudio de IA de código aberto, AudioCraft