Transcrições
1. Introdução: Olá e bem-vindo a este curso, Music Generation with Music LM. Meu nome é David Armendariz. Sobre o que é essa aula? Há um rápido crescimento
no desenvolvimento da IA, especialmente notável
na IA generativa A geração de música faz
parte da IA generativa. Existe esse novo
modelo do Google chamado Music LM. Sua data de lançamento
foi em janeiro de 2023, e vamos nos
concentrar em explorar os recursos do
Music LM
por meio do AI Test Kitchen O que você aprenderá.
Aprenda o que é música LM. Saiba
para que serve o Music LM e teste o Music LM. Bem, meu Deus, sou
engenheiro de software e matemático. Sou estudante de ciência de dados, entusiasta da IA
e amante da música Espero que você goste desse curso.
2. O que é o MusicLM: Nesta palestra, vamos aprender o que é
a música do Google Lm. O Music LM está revolucionando a geração de
texto Foi apresentado
há muito tempo em um artigo de 2023 É muito recente. Capaz de gerar músicas de
alta fidelidade a partir de descrições de texto e
detalhes técnicos É baseado em outro
modelo chamado Audio LM. É capaz de produzir vários minutos de
música a 24 kilohertz No momento, existem outras ferramentas de
IA, como o Chat GPT, mas elas não são
capazes de gerar música a partir de dezembro de 2023 Eles também lançam esse conjunto de
dados público chamado music caps. O objetivo de lançar
esse conjunto de dados é auxiliar no desenvolvimento do modelo
e na extensão da pesquisa Assim, outras pessoas podem ajudar
o Google a aprimorar esse modelo. É criado manualmente por músicos
profissionais. Você também pode usar esse modelo
para treinar seu próprio modelo. Não vamos
aprender como fazer isso porque precisamos de muito conhecimento de
IA para fazer isso. Eles também se concentraram muito no desenvolvimento
responsável. Eles se concentraram em
evitar o uso indevido de conteúdo criativo.
O que isso significa? Eles adotaram métodos de um
artigo de um cara chamado Carlini para garantir a exclusividade música gerada
em
comparação com os dados de Isso significa que a
música gerada não será
semelhante aos dados de treinamento
que eles usaram para o Music LM Agora. O Music LM tem um site
que vamos ver agora para ver alguns exemplos
do que ele é capaz de fazer Se formos a esse site, veremos aqui o artigo que você
pode ver no arquivo. Você pode ver o conjunto
de dados sobre o
qual falo, que é a música
no site Você pode ver todos os exemplos que o Music L M é
capaz de gerar. Vamos ver se temos
geração de áudio a partir de legendas ricas. A legenda aqui é
a trilha sonora principal
de um jogo de arcade É rápido e equipado com
uma guitarra elétrica cativante A música é repetitiva
e fácil
de lembrar,
mas com sons inesperados, como símbolos ou toques de bateria.
Vamos ver, esse é o exemplo dessa trilha sonora principal
de um jogo de arcade Você pode realmente pensar
sobre isso e sentir como se estivesse jogando
um jogo dos anos 90 Há esse outro exemplo. Uma fusão de regaton e música
eletrônica de dança com um espaço som de outro mundo induz a experiência de
estar perdido no espaço E a música será
projetada para evocar uma sensação de admiração e
admiração ao mesmo tempo
em que Isso é muito interessante. Vamos ver como isso soa. Sim, isso é muito
específico e acho que fez um bom trabalho
ao tentar transmitir essa
experiência ao usuário. Vamos ver alguns outros
exemplos. Longa geração. Bem, você pode ver aqui que esses sons duraram
apenas 30 segundos, mas podem gerar
até 5 segundos. Vamos ver, por
exemplo, relaxar como ok, então são 5
minutos de jazz relaxante. Como você pode ver, eu
estava testando em momentos
diferentes se
soasse a mesma coisa, mas repita
o tempo todo e não é esse o caso Na verdade, é diferente
em momentos diferentes é capaz de gerar sons
longos, como. Então. Esse é meu recurso
favorito de todos os exemplos
que temos aqui. No modo história, a auditoria é gerada fornecendo uma
sequência de solicitações de texto Isso influencia
a forma como o modelo continua os tokens semânticos
derivados da legenda anterior Não sei por que
gosto muito disso, mas você pode realmente ter
uma música gerada pela história. Por exemplo, hora de
meditar, hora de acordar, hora de correr, hora de dar música
100% eletrônica
tocada em um videogame Música de meditação tocada
ao lado de River Fire e fogos de artifício. Na verdade, digamos que como você pode ver, a música era como um
videogame até o segundo. Aqui diz 15. Mas eu realmente olhei e tinha 19 anos,
mas tudo bem. E então, a partir daí, mudou essa tonalidade para
algo mais relaxado E, na verdade, foi como
meditar ao lado do rio. Depois disso, não
foi como fogo. Não senti que era fogo, mas mais como algumas vozes que estavam tentando ser colocadas na
música. Isso acontece muito. Eu tenho experimentado
com isso. Às vezes, ele
tenta colocar vozes. São vozes que
na verdade não dizem nada, não espere que isso
gere letras. Mas são como vozes
que tentam ser colocadas lá dentro. Acho que esse foi o caso
neste aviso de incêndio aqui. Eu não sei se você
sentiu isso também, então eu também gosto dessa
combinação aqui
porque isso me lembra Bohemian Rhapsody, a música
do então eu também gosto dessa
combinação aqui
porque isso me lembra Bohemian Rhapsody, a música
do Queen. Vamos ouvir essa também. Vamos ouvir isso, This Go to Top Extking Bem, novamente, esse é um exemplo
claro de IA tentando colocar vozes
na música. Isso vai acontecer. Não sei se isso vai acontecer
muitas vezes, mas já vi isso com
muita frequência. Essas vozes
não são inteligíveis. Eles são como Berish porque não dizem nada,
mas você pode ouvi-los. Depois, há esse condicionamento de texto
e melodia que você pode adicionar uma melodia que será corrigida
em toda a E então podemos começar a
mudar a música em si, mas mantendo essa melodia Por exemplo, vamos ver os sinos de Leo assobiando
com um solo de guitarra como constante ou solo de os sinos de Leo assobiando
com um solo de guitarra como constante ou solo
de piano. Como você pode ver, o solo de piano e o
solo de guitarra
são constantes O texto P dizia, ei, primeiro coloque o bello nos sinos
e depois um pouco Ok, é basicamente
a constante. Então temos este que é,
eu acho que este também é um condicionamento de
legenda de pintura
muito interessante Temos o
título da pintura, Autor, A Persistência da
Memória, Salvador Certo? Esta é a imagem apenas como referência
da Wikipedia. E temos a descrição da
pintura. Basicamente, isso
é algo que modelos como o chant
GPT são capazes de fazer Agora você pode fazer o upload de
uma imagem e ela
exibirá uma descrição
da pintura e, em seguida, você
poderá gerar o áudio. Vamos ver como soa o
grito. Ok. Vou ser honesto, não
esperava que essa pintura
soasse assim. Parece, sei lá, uma música do Pink Floyd. Então, temos como
geração de áudio a partir de tags, 10 segundos de instrumentos. Por exemplo, o violoncelo. Vamos ver, a flauta. Isso soou um pouco
como a música do Titanic. Temos gêneros, por exemplo, vamos ver o blues britânico, que é mais comum, eu
acho, do contrário Sim, isso soa como o nível de experiência de um
músico de blues. Não sei por que você
gostaria de colocar um
pianista iniciante em uma música, mas vamos ver como isso soa. Definitivamente soa como eu e um
pianista profissional louco e rápido. Sim, parece um
pianista e lugares rápidos e
profissionais. Esse também é um que eu gosto muito. Vou colocar o
exemplo da academia porque ela gera um exemplo
muito bom. Volte a tocar na dezena. Sim, definitivamente é uma música
melhor do que a que
eles colocam na minha academia. Eu acho que você vai usar isso
para colocar um pouco de música lá. Épocas. Você também pode usar
épocas como, por exemplo, clube nos Vamos ver como isso
parece divertido. Sim, isso definitivamente soa
como um clube nos anos 80. Bem, eu não
nasci nessa época, mas ouvi músicas
dos anos 80.
Claro, isso soa como
algo que vamos colocar
no clube nos Vamos ver também essa
característica do musical M, que é a diversidade de gerações. Isso significa que ele pode ser
gerado para o mesmo prompt. Vários exemplos, como veremos também
na cozinha de testes de IA. Para o mesmo
aviso de texto, vamos ver, temos esse aviso dizendo música
motivacional para esportes Esse é um exemplo, e
outro exemplo seria esse. Ok, sim, eles são exemplos diferentes
para a mesma frente de texto. Esses são todos os exemplos de que o Music LM é capaz Eu vou dizer que nem todos
esses recursos estão disponíveis
na cozinha do AI Test. Na verdade, só podemos, a
partir de agora, testar a
geração de áudio a partir de texto. Vamos testar isso na próxima
aula. Espero que você goste.
3. Experimentando o MusicLM: Agora vamos realmente
testar a música LM. A única maneira, partir de agora, dezembro de 2023, é testá-la por meio deste site Eu testei Kitchen.google.com Você só
pode fazer login Este site também está
disponível somente em alguns países, EUA, Quênia, Nova Zelândia
e Austrália Mas você pode
usar facilmente uma VPN como
eu para
testar este site. Se você clicar nesse
menu suspenso e acessar a música, você
terá
uma caixa de texto
para colocar o prompt aqui, você terá a soma gerada Você também tem o botão
Configurações. Ok, esse botão Configurações
tem três configurações. O primeiro é uma semente. Este é um número aleatório
que você pode colocar aqui. Depois de colocar seu prompt, você pode colocar seu número aleatório, ele é
gerado automaticamente para você. Você pode clicar neste botão
aqui para bloquear essa semente. Isso significa que, dada uma solicitação, dada essa semente, você
poderá gerar
basicamente a mesma saída. Porque lembre-se de que a
IA generativa pode ser muito aleatória. Se você quiser evitar
essa aleatoriedade, você pode colocar o
conjunto no mesmo prompt Também existem alguns parâmetros
chamados temperatura, mas não temos esse
parâmetro aqui que
tornará seu prompt
mais consistente, a saída será
mais consistente. Além disso, temos esse comprimento de faixa. Lembre-se de que poderíamos
gerar até 5 minutos, mas isso só nos permite
gerar até 70 segundos. Acho que é porque muitas pessoas podem estar usando essa ferramenta. E gerar uma música de
cinco minutos exige mais recursos computacionais. Eles estão oferecendo este
site gratuitamente. Não queremos usar todos os seus
recursos de computação gratuitamente. Também temos o loop, que é um recurso que une
o início e o fim de sua faixa para tornar
sua música infinita Lembre-se daquele exemplo em que
tínhamos aquele jogo de arcade, que precisava ser infinito Bem, isso também nos permite que, quando a música infinita terminar
, ela seja semelhante ao
início da faixa. Isso é muito útil
para coisas assim. Coisas como
sons de fundo para videogames. Essas são as configurações
que temos aqui. Temos o botão I Am
Feeling Lucky. Vamos ver o que acontece
se eu clicar aqui. Música ambiente com som suave. Eu também posso estudar. Isso vai gerar um
pouco de música quando esse for outro exemplo. Então, como você pode ver, ele gerou dois exemplos aqui. Também vimos isso no
exemplo de saída de que ele poderia gerar vários
exemplos para o mesmo prompt. Nesta caixa de texto
, temos os chips. Podemos gostar de ler esses sons e gerar coisas
diferentes Vou começar de novo
e gerar minha própria faixa. Eu gosto muito de Bachata. Eu vou dizer que
uma Bachata moderna, ela tem que ser lenta primeiro, depois rápida e depois lenta novamente Tem que ser sujo, um
pouco romântico. Ok, vamos ver o que
isso gera para mim. Novamente, é identificar quais
coisas eu posso mudar ou variar. Portanto, isso pode variar. Então, sim, eu gosto disso, mas acho que a batida
da Pachata está se sobrepondo
talvez à romântica Vamos nos livrar disso. Talvez estejamos colocando
muitas restrições nesse prompt e
vamos
gerá-lo novamente, é gerar novamente, gerá-lo novamente, é Eu gosto muito mais disso. Vamos ver o outro
exemplo que ele deu. Sim, eu gosto mais desse. Acho que posso dançar ao som disso. Bem, agora você tem uma ferramenta
para gerar suas próprias músicas. Dado um aviso, espero que
você goste deste vídeo. Nos vemos na próxima palestra.
4. Experimentando o TextFX: Somos novamente uma cozinha de teste de IA. Há outra ferramenta
aqui chamada Text X, que potencializa seu processo de
escrita com IA, ferramentas de linguagem
poderosas feitas em colaboração
com Lupe Se eu lançar essa ferramenta, teremos todas essas dez ferramentas. Isso também pode
ser feito com o GPT. Não é algo muito
inovador como o LM musical, mas ainda pode ser
útil para pessoas que também querem ideias sobre
esse eu. Por exemplo, a sigla cria uma frase usando as
letras de uma determinada palavra Por exemplo, se eu digitar
a palavra hambúrguer. Vamos ver o que isso funciona aqui. Temos um parâmetro
chamado temperatura. Acho que te contei
essa última lição. Mas se você definir a
temperatura para zero
, a saída será menos aleatória. Vai ser quase
consistente 100% do tempo. Se você colocar a temperatura
igual a um
, será algo aleatório toda vez que você executar isso. 0.7 é um padrão decente. Muitos modelos, muitos modelos de IA
usam 0,7 como padrão. Vamos preparar esse hambúrguer. São animais felizes
feitos por grandes humanos, comem hambúrgueres muito bons ou
têm uma refeição corporal muito boa,
ou fazem uma refeição, se energizam,
se livram do mau humor
e Acho que isso pode ser mais usado para algum restaurante
que vende hambúrgueres Isso pode ser o logotipo deles
ou algo parecido, é uma aliteração muito criativa Encontre palavras em uma categoria que
comecem com uma letra escolhida. Por exemplo, fast food
que começa com a idade. Acho que eles vão
encontrar o hambúrguer. Hambúrguer. Tacos de casca dura Sim,
era óbvio que ia me dar hambúrguer Construímos em cadeia
uma sequência de palavras em que cada palavra se
relaciona com a última Novamente, vamos colocar o hambúrguer, vamos ver o que acontece
com o hambúrguer Hambúrguer, pão,
sanduíche, carne, bife, grelha, fogo, calor Passou dessa palavra para o calor fazendo uma
sequência de palavras. Cada palavra estava
relacionada à última. Hambúrguer, pão, cesta, mercearia,
caixa, conta Passou de hambúrguer em conta, hambúrguer, pão,
chão de pomba, padaria, loja, loja Todas essas são palavras relacionadas. Isso é muito útil
para letras de rap, acho que no exemplo que eles
dão. Fiasco de Lupe Neste vídeo que
você pode assistir, ele é um rap, um escritor lírico Ele usa muito essa
ferramenta para gerar letras usando também a inteligência
humana,
explodir, criar frases que
soam semelhantes a determinadas palavras Mais uma vez, hambúrguer. Vamos
ver o que isso faz. Hambúrguer, um gordo
que come hambúrguer. Um sanduíche com
presunto e um hambúrguer. Hambúrguer, um tipo de sanduíche
com presunto e queijo. Ok, use encontrar semelhanças
entre coisas não relacionadas. Vamos ver o hambúrguer
e a lua. Vamos ver quais são
as semelhanças entre
esses dois conceitos Tanto o hambúrguer
quanto a lua são redondos e podem ser comidos
com uma faca de garfo. A lua pode ser comida,
tanto um hambúrguer quanto a lua são redondas e
frequentemente associadas à comida Tanto um hambúrguer
quanto a lua podem ser associados a
rodadas e plenitude Um hambúrguer com formato redondo e a lua com o rosto cheio Sim, eu acho que você pode
ser muito poético com essa ferramenta aqui, POV, vamos ver Vamos falar sobre fast food. Isso avalia o tópico por meio de
diferentes pontos de vista. O fast food é uma maneira barata e
conveniente de alimentar uma família. O fast food é uma
maneira conveniente de fazer uma refeição rápida. O fast food é uma forma deliciosa
e conveniente de comer. Agora, uma cena gera
detalhes sensoriais sobre a cena. Novamente, comendo um
hambúrguer em um hotel, não
sei o que vai
gerar um hambúrguer seco e
cozido demais Um hambúrguer tão
seco racha quando você morde um pão plástico pegajoso. É isso que a IA imagina quando você está comendo um
hambúrguer em um hotel Coisa sorridente ou um conceito. E isso vai criar uma
simulação sobre ou um conceito. Vamos ver o hambúrguer. Um hambúrguer é como um pi
que perdeu o rumo na vida. Por que hambúrguer é como
uma torta com um chapéu na foto? Bem, você pode
pensar assim. Sim, é como uma
Pixa com um chapéu. Um hambúrguer é como
um pixi com pão, carne e queijo,
e é delicioso Acho que a IA é, certo? Torne uma cena mais criativa. Imagine uma pessoa comendo
um hambúrguer em um. Vamos ver o que a IA imagina uma pessoa comendo um hambúrguer em um hotel que está flutuando
no meio de Uma pessoa comendo um hambúrguer em um buraco
localizado na lua Uma pessoa comendo um hambúrguer em um buraco
feito de pão de gengibre Essas são coisas fictícias. Desdobre de forma inesperada,
identifique palavras e frases que
contenham uma determinada palavra Hambúrguer novamente,
diz hambúrguer, dorso da mão. Taça de confusão,
tigela de jarneauess. Isso é um pouco
mais inesperado. De qualquer forma, essa ferramenta,
efeitos de texto, pode ajudá-lo, se você é um escritor
profissional, a dar ideias de letras
para a música que você acabou Mas é algo que você também
pode fazer com o Chat GPT, mas isso oferece uma boa interface de usuário
para criar todas essas coisas
5. O que é áudio estável: Temos algumas
alternativas à música. Lm, e eu vou falar
sobre um áudio estável. Em primeiro lugar,
gerar música não é uma tarefa fácil do ponto de vista
técnico. Um áudio estável foi desenvolvido
pelas mesmas pessoas que criaram
uma difusão estável, então elas têm experiência em
fazer esse tipo de coisa Ele usa o modelo de áudio estável
Spark Audioparxv 10. Eles estão trabalhando no uso de
um novo modelo, a versão 11. Acho que vai
ser mais poderoso. Na versão gratuita,
você pode gerar até 45 segundos de uma música. Vamos dar uma
olhada neste site, que é estável em
audio.com. Você pode criar uma conta gratuita e depois acessar a seção de
geração aqui Como você pode ver, temos
até 20 músicas por mês. Se você acessar os preços, verá
a versão gratuita. Monitore mensalmente
20 gerações que
você pode usar, você pode gerar
até 45 segundos e a licença é de uso
não comercial. Se você é um profissional, paga $12 por mês e
pode gerar até
500 dessas faixas Os caminhões podem
durar até 90 segundos e podem ser usados
comercialmente Se você é uma empresa
, precisa entrar em contato com essas pessoas para
que elas possam definir seu preço. Essa é a seção de preços. O guia do usuário mostra, primeiro lugar, alguns exemplos
do que isso pode fazer. Como vimos no site do Google, você pode explorar todos
esses exemplos sozinho. Use um áudio estável para
gerar áudio musical completo. Abrangendo uma variedade
de instrumentos. Inclua o
máximo de detalhes possível. Quanto mais detalhes você
colocar no prompt, melhor será
o resultado. Você pode colocar hastes individuais, efeitos
sonoros,
etc., etc Eu gosto que eles sejam mais
explícitos no guia de interface. Essa é a interface
que eles estão te dizendo. Por exemplo, etapas. Ele informa a quantidade de etapas de geração usadas para
criar sua faixa de áudio. Uma contagem maior de etapas
significa maior processamento e isso provavelmente pode aumentar a qualidade do seu
público. E eles descobriram que
50 é o ponto ideal. Número de resultados
que você pode gerar, no
máximo cinco por vez, ok? Mas se você colocar quatro, isso custará quatro
faixas ao gerar. Portanto, tenha cuidado com isso, porque se você colocar
cinco por um prompt, você só poderá
gerar quatro faixas
na versão gratuita. A semente, eu já te
disse
o que é a semente, o padrão. Essa entrada está definida como aleatória, mas você pode colocar qualquer número aqui. Ao usar o mesmo prompt
e a mesma semente, você terá saídas
consistentes A intensidade do prompt controla o
quão perto o modelo tenta guiar o
áudio até o prompt de texto. Eles têm um poste de bloqueio para o modelo que estão usando,
aquele que eu te disse, o parque de áudio X10 Se você estiver interessado nos
detalhes técnicos aqui, também
vimos o esquema de
licenciamento Como usuário gratuito, você pode usar a amostra de áudio estável
em sua própria música,
mas, como usuário ruim, pode
usá-la para uso comercial. Você não pode treinar modelos de
IA para gerar áudio porque isso vai contra seus
termos de serviço. Eles têm, eu acho, um guia de usuário melhor
sobre como usar isso. Na próxima palestra, vamos testar
um áudio estável para ver se eles
geram melhores resultados
6. Experimentando áudio estável: Ok, então vamos dar uma olhada
e testar o áudio estável. Vou colocar meu mesmo
prompt, Modern Chata. Tem que ser lento primeiro, depois rápido e lento novamente. Tem que ser ansible. Eu não copiei e colei,
então eu tenho que
escrevê-lo mais uma vez. Vamos gerar uma trilha sonora
com essa descrição. Além disso, você tem o guia aqui se quiser
usar o guia do usuário. Vamos ver, mamãe e pa chata. Acho que demora um
pouco mais, mas temos que esperar. Ok, foi gerado. Isso é o mesmo. Não, isso não soa nem
um pouco como uma Bachata Vamos ver o que acontece se eu mudar o sufocante
para Mas isso não é um Bachata que me faz
pensar que o Google LM Talvez porque eles tenham
mais dados de treinamento. Não sei, mas vamos
dar uma chance. Talvez áudio estável. Não fui treinado
com esses gêneros. Talvez eles tenham sido treinados com, eu não sei, rock pop ou
algum outro tipo de coisa. Não, isso não
parece nem um pouco um bate-papo. Vamos ver se, ao modificar
o prompt, o típico típico pacote de bate-papo, vou colocar
a força em
100%. Vamos ver se, ao modificar
o prompt dessa forma, está gerando um resultado
melhor Não, não, não, não. Vimos que o áudio estável está falhando na
geração do bate-papo da Api Mas, novamente, você pode experimentá-lo
com diferentes gêneros. Talvez isso gere
uma rocha melhor. Eu sei.
7. Conclusão: Qual é a conclusão aqui? Agora você pode escrever sua
própria música com música. Elem, desenvolvido
pelo Google Research, foi projetado para criar música
com base na entrada de texto Esse metal é
capaz de produzir longos períodos de música de alta
qualidade que seguem as instruções de texto fornecidas para experimentar música. L M possível
se inscrever cozinha de testes de IA
a
partir de dezembro de 2023; no
entanto, para aqueles interessados
apenas em resultados de amostra, visitar o site de
pesquisa do Google é uma opção alternativa Também testamos áudio estável, mas vimos que o Music LM era melhor na
geração de Pachata Estou vendendo Pata
aqui porque esse é o único gênero que geramos Você precisa experimentar
outros tipos de música porque talvez seja melhor
para gerar rock, eu não sei, mas eu
sou um amante do ba chata Adoro ouvir bachata. Fiquei decepcionado com as saídas de áudio
estáveis. O musical era muito superior
ao áudio estável. Não se esqueça de
me seguir nas redes sociais. Você pode entrar no meu canal do Discord, pode me seguir
no Scra e se inscrever no meu Jet Espero que você goste do discurso. Nos vemos no próximo curso.