Transcripciones
1. Introducción: Hola y bienvenidos a este curso, Generación de
Música con Música LM. Mi nombre es David Armendariz. ¿De qué trata esta clase? Hay un rápido crecimiento
en el desarrollo de IA, especialmente notable
en IA generativa La generación de música es
parte de la IA generativa. Ahí está este nuevo
modelo de Google llamado Music LM. Su fecha de lanzamiento
fue enero de 2023, y nos vamos a
centrar en explorar las capacidades de la
música LM
a través de AI Test Kitchen. Lo que vas a aprender.
Aprende qué es la música LM. Aprende
para qué es capaz la música LM y prueba música LM. Bueno, mi soy
ingeniero de software y matemático. Soy estudiante de ciencia de datos, entusiasta de la IA
y amante de la música Espero que disfrutes de este curso.
2. Qué es MusicLM: Esta conferencia, vamos
a aprender qué es la música de Google. Lm. Music LM está revolucionando la generación de
texto a Se presentó en hace steny en absoluto en
una ponencia de 2023 Es muy reciente. Capaz para es generar música
de alta fidelidad partir de descripciones de texto,
los detalles técnicos. Se basa en otro
modelo llamado Audio LM. Es capaz de producir varios minutos de
música a 24 kilohercios este momento hay otras herramientas de
IA como Chat GPT, pero no son
capaces de generar
música a partir de ahora diciembre de 2023 También lanzan este
conjunto de datos público llamado music caps. El propósito de liberar
este conjunto de datos es ayudar en el desarrollo de modelos
y la extensión de la investigación. Por lo que otras personas pueden ayudar a
Google a mejorar este modelo. Es creado manualmente por músicos
profesionales. También puedes usar este modelo
para entrenar a tu propio modelo. No vamos a
aprender a hacer eso porque necesitamos mucho conocimiento de
IA para hacerlo. También se enfocaron mucho en el desarrollo
responsable. Se enfocaron en
prevenir el mal uso del contenido creativo.
¿Qué significa esto? Adoptaron métodos de un
trabajo de este tipo llamado Carlini para garantizar la singularidad
en la música generada en
comparación con los datos de entrenamiento Eso significa que la
música generada no va a ser similar a los datos de entrenamiento
que utilizaron para la música LM. Ahora. Music LM tiene un sitio web
que vamos a ver ahora mismo para ver algunos ejemplos
de lo que es capaz. Si vamos a ese sitio web, vamos a ver aquí el papel que
puedes ver en archivo. Se puede ver el conjunto de datos del
que hablo, que es la música
en el sitio web. Puedes ver todos los ejemplos que Music L M es
capaz de generar. Veamos que tenemos
generación de audio a partir de ricos subtítulos. El subtítulo aquí es
la banda sonora principal de un juego arcade. Es de ritmo rápido y arriba con
una pegadiza guitarra eléctrica de la música es repetitiva
y fácil de recordar, pero con sonidos inesperados como choques de
símbolos o rollos de batería.
A ver, ese es el ejemplo para esta banda sonora principal
de un juego arcade. De hecho, puedes
pensarlo y sentirte como si estuvieras jugando
un juego de los 90 Ahí está este otro ejemplo. Una fusión de regatón y música
electrónica de baile con un espacio Otro sonido mundano induce la experiencia de
perderse en Y la música estará
diseñada para evocar una sensación de asombro y asombro a la vez que
se Eso es bastante interesante. Veamos cómo suena esto. Sí, eso es muy
específico y creo que hizo un buen trabajo
al tratar de transmitir esa
experiencia al usuario. Veamos algunos otros
ejemplos. Larga generación. Bueno, se podía ver aquí que estos sonidos
solo fueron 30 segundos, pero pueden generar
hasta 5 segundos. Veamos, por
ejemplo, relajarse como bien, entonces estos son 5
minutos de jazz relajante. Como pueden ver, yo
estaba como probando en diferentes momentos si
sonaba como lo mismo, pero solo repítelo todo el tiempo y no es ese caso En realidad es diferente
en diferentes momentos es capaz de generar sonidos
largos como. Entonces. Esta es mi característica
favorita de todos los ejemplos
que tenemos aquí. El modo historia, la auditoría se genera proporcionando una
secuencia de mensajes de texto Esto influye en cómo
el modelo continúa los tokens semánticos
derivados del título anterior No sé por qué me
gusta mucho esto, pero en realidad puedes tener
una canción generada por historia. Por ejemplo, tiempo para
meditar, tiempo para despertar, tiempo para correr tiempo para dar canción
100% electrónica
reproducida en un videojuego Canción de meditación tocada junto
a River Fire y fuegos artificiales. Yo en realidad, así que digamos como puedes ver, la canción fue como un
videojuego hasta el segundo. Aquí dice 15. Pero en realidad me veía y era como 19,
pero eso está bien. Y luego a partir de ahí, cambió esa tonalidad a
algo más relajado Y en realidad era como la
meditación al lado del río. Después de eso, entonces no
fue como fuego. No sentí que fuera fuego, sino más como algunas voces que se intentaban poner en la
canción. Eso pasa mucho. He estado experimentando
con esto. A veces trata
de poner voces. Son voces que
en realidad no dicen nada, no esperes que esto
genere letras. Pero son como voces
que tratan de ser puestas ahí. Creo que ese fue el caso
en este aviso de incendio de aquí. No sé si lo
sentiste también, entonces también me gusta esta
combinación aquí
porque esto me recuerda a Bohemian Rhapsody,
la canción
de la Escuchemos éste también. Escuchemos esto, Esto Go to Top Extking Pues de nuevo, este es un
claro ejemplo de IA tratando de poner voces en
la canción. Eso va a pasar. No sé si son muchas
veces eso va a pasar, pero lo he visto con
mucha frecuencia. Estas voces
no son inteligibles. Ellos son como Bereish porque no dicen nada
pero los puedes escuchar. Después está este texto
y condicionamiento de melodía que puedes agregar una melodía que se arreglará a
lo largo de la canción. Y entonces podemos empezar a
cambiar la canción en sí, pero manteniendo esta melodía. Por ejemplo, veamos a los cascabeles Leo silbando
con un solo de guitarra como
constante
o solo constante de piano Como se puede ver, las constantes de palabra
solo de piano y
solo de guitarra El texto P decía, oye, primero pon campanas de bello ingo
y luego algunos silbidos. Bien, básicamente es
la constante. Entonces tenemos este que es,
creo que este también es muy interesante condicionamiento de pie de
foto de pintura. Tenemos el
título de la pintura, Autor, La persistencia de la
memoria, Salvador. ¿Correcto? Esta es la imagen apenas como referencia
de Wikipedia. Y tenemos la descripción de la
pintura. Básicamente, esto
es algo que modelos como el canto
GPT son capaces de hacer Ya puedes subir
una imagen y te
arrojará una descripción de la pintura y luego
podrás generar el audio. Veamos como suena el
grito. Bien. Voy a ser honesto, no
esperaba que esta pintura
sonara así. Suena como, no sé, como una canción de Pink Floyd Entonces tenemos como
generación de audio a partir de etiquetas, 10 segundos de instrumentos. Por ejemplo, el violonchelo. A ver, la flauta. Eso sonó un poco
como la canción del Titanic. Tenemos géneros, por ejemplo, veamos el blues británico, eso es más común,
supongo, de lo contrario ese grano. Sí, eso suena como
músico de blues nivel de experiencia. No sé por qué te
gustaría poner como un
pianista principiante en una canción, pero veamos cómo suena eso. Definitivamente suena como yo Y un
pianista profesional loco rápido. Sí, eso parece un
pianista rápido, profesional y lugares. Este también es uno que me gusta mucho. Voy a poner el
ejemplo del gimnasio porque genera un
muy buen ejemplo. Volver a tocar el diez. Sí, definitivamente esa es mejor música que la
que ponen en mi gimnasio. Supongo que usarás esto
para poner algo de música ahí. Épocas. También puedes usar
épocas como por ejemplo, club en los 80 Veamos cómo eso
suena divertido. Sí, eso definitivamente suena
como un club en los 80. Bueno, yo no
nací en esa época, pero he escuchado canciones
de los 80, claro, eso suena como algo que pondremos
en el club en los Veamos también este
largometraje del musical M, que es la diversidad generacional. Esto significa que puede
generar para el mismo prompt. Múltiples ejemplos como
vamos a ver también
en cocina de prueba de IA. Para el mismo
mensaje de texto, veamos, tenemos este prompt diciendo música
motivacional para el deporte Ese es un ejemplo, y
otro ejemplo sería éste. Bien, sí, son diferentes ejemplos
para el mismo frente de texto. Estos son todos los ejemplos para los que la música LM es capaz. Voy a decir que no todas estas características están disponibles
en la cocina AI Test. De hecho, sólo podemos, a
partir de ahora, probar la
generación de audio a partir del texto. Vamos a probar eso en la próxima
conferencia. Espero que les guste.
3. Prueba MusicLM: Ahora vamos a
probar realmente la música LM La única forma, partir de ahora, diciembre de 2023, es probarla a través de esta página web. Yo pruebo Kitchen.google.com Sólo
puedes iniciar sesión Este sitio web también solo está
disponible en ciertos países, Estados Unidos, Kenia, Nueva Zelanda
y Australia. Pero puedes
usar fácilmente una VPN como
yo para
probar este sitio web. Si haces clic en este
desplegable y vas a la música, entonces tendrás
un orden de cuadro de texto para poner el prompt aquí, tendrás la suma generada También tienes el botón
Configuración. Bien, este botón de Configuración
tiene tres configuraciones. El primero es una Semilla. Este es un número aleatorio
que puedes poner aquí. Después de poner tu prompt, puedes poner tu número aleatorio, se
genera automáticamente para ti. Puedes hacer click en este botón
aquí para bloquear esa semilla. Eso significa que dado un prompt, dada esta semilla,
serás capaz de generar
básicamente la misma salida. Porque recuerden, la
IA generativa puede ser muy aleatoria. Si quieres evitar
esa aleatoriedad, entonces puedes poner el
conjunto el mismo prompt También hay algunos parámetros
llamados temperatura, pero aquí no tenemos ese
parámetro que
haga que su prompt sea
más consistente, la salida será
más consistente. Además, tenemos esta longitud de pista. Recuerda que podríamos
generar hasta 5 minutos, pero esto sólo nos permite
generar hasta 70 segundos. Supongo que eso es porque mucha gente podría estar usando esta herramienta. Y generar una canción de
cinco minutos requiere más recursos informáticos. Están ofreciendo este
sitio web de forma gratuita. No queremos usar todos sus
recursos informáticos de forma gratuita. También tenemos el looping, que es una característica que sutura el principio y el final de tu pista para hacer que
tu música sea interminable Recuerda en ese ejemplo donde
teníamos ese juego de arcade, que necesitaba ser interminable. Bueno, esto también nos permite que cuando termine la canción interminable, entonces va a ser similar al
inicio de la pista. Eso es muy útil
para cosas así. Cosas como
sonidos de fondo para videojuegos. Esos son los ajustes
que tenemos aquí. Tenemos el botón Me
siento afortunado. Veamos qué pasa
si hago clic aquí. Música ambiental con sonido suave. Yo también puedo estudiar. Esto va a generar
algo um, música cuando este es otro ejemplo. Entonces como puedes ver, generó dos ejemplos aquí. También vimos esto en la salida del
ejemplo que
podría generar múltiples
ejemplos para el mismo prompt. En este cuadro de texto
tenemos las fichas. Podemos gustar rad sobre estos sonidos y generar cosas
diferentes. Voy a empezar de nuevo
y generar mi propio track. A mí me gusta mucho la bachata. Voy a decir
una Bachata moderna, tiene
que ser lenta primero,
luego rápida, y luego lenta otra vez Tiene que ser danible,
poco romántico. Bien, veamos qué me genera
esto. Nuevamente, es identificar qué
cosas puedo cambiar o variar. Por lo que puede variar. Entonces sí, esto me gusta, pero creo que el ritmo
de la Pachata se está superponiendo con
tal vez el romántico Vamos a deshacernos de esto. A lo mejor estamos poniendo
demasiadas
restricciones a este prompt y
vamos a generar esto de nuevo, es generar. Esto me gusta mucho más. Veamos el otro
ejemplo que dio. Sí, este me gusta más. Creo que puedo bailar a esto. Bueno, ahora tienes una herramienta
para generar tus propias canciones. Ante un aviso, espero que
les guste este video. Nos vemos en la próxima conferencia.
4. Prueba TextFX: Nuevamente somos una cocina de prueba de IA. Aquí hay otra herramienta llamada Texto X, que sobrealimenta tu proceso de
escritura con IA, herramientas de lenguaje de
poder hechas en colaboración
con Lupe Si lanzo esta herramienta, tenemos todas estas diez herramientas. Esto es algo que también
se puede hacer con GPT. No es algo muy
innovador como la música LM, pero aún así puede ser
útil para las
personas que quieren ideas
de esto yo también. Por ejemplo, el acrónimo crea una frase usando las
letras de una palabra dada. Por ejemplo, si escribo
la palabra hamburguesa. Veamos qué es lo que esto corre aquí. Tenemos un parámetro
llamado temperatura. Creo que te dije
esta última lección. Pero si estableces
la temperatura a cero, entonces la salida va
a ser menos aleatoria. Va a ser casi
consistente el 100% del tiempo. Si pones temperatura
igual a uno, va a ser algo aleatorio cada vez que ejecutes esto. 0.7 es un default decente. Muchos modelos, muchos modelos de IA
usan 0.7 por defecto. Vamos a correr esta hamburguesa. Se trata de animales felices
hechos por grandes humanos, comer hamburguesas muy buenas o
tener una comida corporal muy buena, o tener una comida,
estar energizado, deshacerse de los malos estados de ánimo
y la relajación articular Creo que esto puede ser más utilizado para algún restaurante
que vende hamburguesas Este puede ser su logo
o algo así,
Es una aliteración muy creativa Encuentra palabras en una categoría que
comiencen con una letra elegida. Por ejemplo, la comida rápida
que comienza con la edad. Supongo que van a
encontrar la hamburguesa. Hamburguesa. Tacos de cáscara dura. Sí, era bastante obvio que me
iba a dar hamburguesa Hemos construido en cadena
una secuencia de palabras donde cada palabra se
relaciona con la última. Nuevamente, pongamos la hamburguesa, veamos qué pasa
con la hamburguesa Hamburguesa, pan,
sándwich, carne, bistec, parrilla, fuego, calor Pasó de esta palabra al calor haciendo una
secuencia de palabras. Cada palabra estaba
relacionada con la última. Hamburguesa, pan,
canasta, tienda de abarrotes,
cajero, factura de cliente Pasó de hamburguesa a factura, hamburguesa, pan,
piso de paloma, panadería, tienda, tienda Todas estas son palabras relacionadas. Esto es muy útil
para letras de rap, supongo que en el ejemplo que te
dan. Fiasco de Lupe En este video que
puedes ver, es un rap, un escritor lírico Utiliza
mucho esta herramienta para generar letras usando también inteligencia
humana,
explotar, crear frases que suenan similares a palabras dadas Otra vez, hamburguesa.
Veamos qué hace esto. Hamburguesa, Un gordo grande
que come hamburguesa. Un sándwich con
jamón y una hamburguesa. Hamburguesa, un tipo de sándwich
con jamón y queso. Bien, usa encontrar similitudes
entre cosas no relacionadas. Veamos la hamburguesa
y la luna. Veamos cuáles son
las similitudes entre
estos dos conceptos. Tanto una hamburguesa
como la luna son redondas y se pueden comer
con un cuchillo bifurcador La luna se puede comer,
tanto una hamburguesa como
la luna son redondas y muchas veces se asocian con la comida Tanto una hamburguesa
como la luna pueden asociarse con
rondas y plenitud Una hamburguesa con su forma redonda y la luna con su cara llena Sí, supongo que puedes
ser muy poético con esta herramienta de aquí, POV, veamos Hablemos de comida rápida. Esto evalúa el tema a través de
diferentes puntos de vista. La comida rápida es una forma barata y
conveniente de alimentar a una familia. La comida rápida es una
manera conveniente de obtener una comida rápida. La comida rápida es una forma deliciosa
y conveniente de comer. Ahora una escena genera
detalles sensoriales sobre la escena. Nuevamente, comiendo una
hamburguesa en un hotel, no
sé qué va a generar una hamburguesa seca,
sobrecocida Una hamburguesa que está tan
seca se agrieta cuando le muerdes un bollo de plástico pegajoso Eso es lo que imagina la IA cuando estás comiendo una
hamburguesa en un hotel Cosa sonriente o un concepto. Y va a crear un
simul sobre o un concepto. Veamos la hamburguesa. Una hamburguesa es como un pi
que perdió su camino en la vida. ¿Por qué la hamburguesa es como un
pi con sombrero en un pix? Bueno, puedes
pensarlo así. Sí, es como
un Pixa con sombrero puesto. Una hamburguesa es como
un pixi tiene bollo, carne y queso,
y está deliciosa. Supongo que la IA es, ¿verdad? Hacer una escena más creativa. Imagínese a
una persona comiendo una hamburguesa en un. veamos qué imagina la IA una persona comiendo una hamburguesa en un hotel que está flotando
en medio de Una persona comiendo una hamburguesa en un hoyo que se
encuentra en la luna Una persona comiendo una hamburguesa en un hoyo que está hecho de pan
de jengibre Estas son cosas ficticias. Despliegue inesperado,
identifique palabras y frases que
contengan una palabra determinada Hamburguesa otra vez,
dice hamburguesa, dorso de la mano. Tazón de confusión,
cuenco de jarneauess. Esto es un poco
más inesperado. De todos modos, esta herramienta,
efectos de texto, puede ayudarte, si eres un escritor
profesional, a darte ideas de letras
para la canción que acabas de hacer Pero es algo que también
puedes hacer con Chat GPT, pero esto te da una buena interfaz de usuario
para hacer todas estas cosas
5. Qué es el audio estable: Tenemos algunas
alternativas a la música. Lm, y voy a
hablar de un audio estable. En primer lugar,
generar música no es una tarea fácil Desde un punto de vista
técnico. Un audio estable fue desarrollado por las mismas personas que crearon
una difusión estable, por lo que tienen experiencia
haciendo cosas de este tipo. Utiliza el estable audio audio
chispa Audioparxv 10 modelo. Están trabajando en utilizar
un nuevo modelo, la versión 11. Creo que va
a ser más poderoso. En la versión gratuita,
puedes generar hasta 45 segundos de una canción. Echemos un
vistazo a este sitio web, que es estable
audio.com Puedes crear una cuenta gratuita y luego puedes ir a la sección de
generar aquí Como puedes ver, tenemos
hasta 20 canciones al mes. Si vas a los precios, vas a ver
la versión gratuita. Seguimiento mensual de generaciones
20 que puedes usar, puedes generar
hasta 45 segundos y la licencia es de uso
no comercial. Si eres un profesional, pagas $12 al mes y
puedes generar hasta
500 de estas pistas Los camiones pueden
durar hasta 90 segundos y pueden ser utilizados
comercialmente. Si eres una empresa, entonces tienes que ponerte en contacto con estas personas para
que puedan establecer tu precio. Esa es la sección de precios. El guía del usuario te cuenta, primer lugar, algunos ejemplos
de lo que esto puede hacer. Como vimos en el sitio web de Google, puedes explorar todos
estos ejemplos por ti mismo. Usa un audio estable para
generar audio musical completo. Abarcando una gama
de instrumentos. Incluye tantos detalles como
puedas como puedas decir. Cuantos más detalles
pongas en el prompt, mejor será
el resultado. Se pueden poner tallos individuales, efectos de
sonido,
etcétera, etcétera. Me gusta que sean más
explícitos bajo guía de interfaz. Esta es la interfaz
que te están diciendo. Por ejemplo, pasos. Te indica la cantidad de pasos de generación utilizados para
crear tu pista de audio. Un mayor conteo de pasos
significa un mayor procesamiento y esto puede aumentar la calidad de su
audiencia probablemente. Y han encontrado
50 es el punto dulce. Número de resultados
que puedes generar, máximo cinco a la vez, ¿de acuerdo? Pero si pones cuatro, esto te costará cuatro
pistas a la hora de generar. Así que ten cuidado con eso, porque si pones
cinco por un prompt, entonces solo podrás en la versión gratuita
generar cuatro pistas. La semilla, ya te
dije cuál es
la semilla, la predeterminada. Esta entrada se establece en random, pero puedes poner cualquier número aquí. Al usar el mismo prompt
y la misma semilla, vas a tener salidas
consistentes. La fuerza rápida controla
qué tan cerca
intenta guiar el modelo el
audio a su mensaje de texto. Tienen un poste de bloque para el modelo que están usando,
el que te dije, el parque de audio X10, si te interesan
los detalles técnicos aquí, también
vimos el esquema de
licencias aquí Como usuario gratuito, puedes usar la muestra de audio estable de audio
en tu propia música, pero como mal usuario puedes
usarla para uso comercial. No se pueden entrenar modelos de IA en la generación de audio porque eso va en contra de sus
términos de servicio. Tienen, supongo, una mejor guía de usuario
sobre cómo usar esto. En la siguiente conferencia, vamos a probar un audio estable para ver si
generan mejores resultados.
6. Prueba de audio estable: Bien, entonces echemos un vistazo
y probemos el audio estable. Voy a poner mi mismo
prompt, Chata moderna. Tiene que ser lento primero, luego rápido y lento otra vez. Tiene que ser ansible. No lo copié y lo pegué, así que tengo que
escribirlo una vez más. Generemos banda sonora
con esta descripción. Además, tienes la guía aquí si quieres
usar la guía del usuario. A ver, mamá y pa chata. Se necesita un
poco más, supongo, pero tenemos que esperar. Bien, se generó. Eso es lo mismo. No, esto no suena como
una Bachata en absoluto Veamos qué pasa si cambio el asfixiante
a sensual. Pero esto no es una Bachata que me haga
pensar que Google LM es mejor A lo mejor porque tienen
más datos de entrenamiento. No lo sé, pero vamos
a darle una oportunidad. Tal vez audio estable. No se entrenó
con estos géneros. A lo mejor fueron entrenados con, no
sé, Rock pop o
algún otro tipo de cosas. No, esto no suena
como una charla en absoluto. ver yo modificando
el prompt, el típico, típico bungle de chat, voy
a poner la fuerza para ser 100% Veamos si modificando
el prompt así, está generando un mejor resultado No, no, no, no. Hemos visto que el audio estable está fallando en
generar el chat Api. Pero nuevamente, puedes probarlo
con diferentes géneros. A lo
mejor genera mejor roca. Lo sé.
7. CONCLUSIÓN: ¿Cuál es la conclusión aquí? Ahora puedes escribir tu
propia música con música. Elem, que fue desarrollado
por Google Research, está diseñado para crear música
basada en entrada textual Este metal es
capaz de producir periodos
prolongados de música de alta
calidad que se adhieren a las instrucciones de texto proporcionadas para experimentar con la música L M uno puede registrarse para la cocina de prueba de IA a
partir de diciembre de 2023, sin embargo, para aquellos interesados
únicamente en salidas de muestra, visitar el sitio web de
investigación de Google es una opción alternativa. Probamos también un audio estable, pero vimos que la música LM era mejor para
generar Pachata Estoy vendiendo Pata
aquí porque ese es el único género que generamos. Necesitas probar
otro tipo de música porque
a lo mejor es generar rock, lo sé, pero
soy un amante del ba chata Me encanta escuchar bachata. Me decepcionó unas salidas de audio
estables. El musical era muy superior
que el audio estable. No olvides
seguirme en redes sociales. Puedes unirte a mi canal de Discord, puedes seguirme
en Scra y
puedes suscribirte a mi Canal Jet Espero que disfrutes del discurso. Nos vemos en el próximo curso.