Transkripte
1. Einführung: Hallo und willkommen zu diesem Kurs, Music Generation with Music LM. Mein Name ist David Armendariz. Worum geht es in diesem Kurs? Die KI-Entwicklung nimmt
rasant zu, insbesondere
im Bereich der generativen KI. Die Musikgenerierung ist
Teil der generativen KI. Es gibt dieses neue
Google-Modell namens Music LM. Der Starttermin
war Januar 2023, und wir werden uns darauf
konzentrieren, die Funktionen von
Music LM
über AI Test Kitchen zu erkunden . Was du lernen wirst.
Lerne, was Musik ist LM. Erfahren Sie, wofür Music LM fähig
ist, und testen Sie Music LM. Nun ja, ich bin
Softwareingenieur und Mathematiker. Ich bin ein Student der Datenwissenschaft, ein KI-Enthusiast
und ein Musikliebhaber Ich hoffe, Ihnen gefällt dieser Kurs.
2. Was ist MusicLM: In diesem Vortrag werden wir lernen, was Googles Musik ist Lm. Music LM revolutioniert die Generierung von
Text zu Musik Es wurde in
ago steny überhaupt in
einem Artikel aus dem Jahr 2023 vorgestellt ago steny überhaupt in
einem Artikel aus dem Es ist sehr neu. der Lage ist es,
aus Textbeschreibungen und technischen Details
High-Fidelity-Musik zu generieren . Es basiert auf einem anderen
Modell namens Audio LM. Es ist in der Lage,
mehrere Minuten
Musik mit 24 Kilohertz zu produzieren mehrere Minuten
Musik mit 24 Kilohertz zu Derzeit gibt es andere
KI-Tools wie Chat GPT, aber sie
können ab Dezember 2023 keine
Musik generieren Musik Sie veröffentlichen auch diesen öffentlichen
Datensatz namens Music Caps. Der Zweck der Veröffentlichung
dieses Datensatzes besteht darin, die Modellentwicklung
und die Erweiterung der Forschung zu unterstützen. So können andere Personen
Google helfen, dieses Modell zu verbessern. Es wurde manuell von
professionellen Musikern erstellt. Sie können dieses Modell auch verwenden
, um Ihr eigenes Modell zu trainieren. Wir werden nicht
lernen, wie das geht, weil wir dafür viel
KI-Wissen benötigen. Sie haben sich auch stark auf
verantwortungsvolle Entwicklung konzentriert. Sie konzentrierten sich darauf, den Missbrauch
kreativer Inhalte zu
verhindern .
Was bedeutet das? Sie haben Methoden aus einem
Artikel von diesem Typen namens
Carlini übernommen , um sicherzustellen, dass generierte Musik
im
Vergleich zu Trainingsdaten einzigartig generierte Musik
im
Vergleich zu Das bedeutet, dass die generierte
Musik den Trainingsdaten, die
sie für Musik-LM verwendet haben, nicht
ähnlich sein wird Trainingsdaten, die
sie für Musik-LM verwendet haben, nicht
ähnlich Jetzt. Music LM hat eine Website
, die wir uns jetzt ansehen werden, um einige Beispiele dafür zu sehen, wozu es in
der Lage ist. Wenn wir auf diese Website gehen, werden
wir hier
die Zeitung sehen , die Sie im Archiv sehen
können. Sie können den Datensatz sehen
, über den ich spreche
, nämlich die Musik
auf der Website. Sie können alle Beispiele sehen , die Music L M generieren
kann. Sehen wir uns an, wir haben eine
Audiogenerierung aus umfangreichen Untertiteln. Die Bildunterschrift hier ist
der Haupt-Soundtrack eines Arcade-Spiels Es ist schnelllebig und mit
einer eingängigen E-Gitarre Die Musik wiederholt sich
und ist leicht zu merken, aber mit unerwarteten Geräuschen wie Symbolabstürzen oder Trommelwirbeln.
Mal sehen, das ist das Beispiel für diesen Haupt-Soundtrack
eines Du kannst tatsächlich
darüber nachdenken und das
Gefühl haben ,
ein Spiel aus den 90ern zu spielen Es gibt dieses andere Beispiel. Eine Verschmelzung von Regaton und elektronischer
Tanzmusik mit einem Raum Geräusche aus anderen Welten erzeugen
die Erfahrung, sich im Weltraum
zu verirren Und die Musik wird
so gestaltet sein, dass sie ein Gefühl von
Staunen und Ehrfurcht hervorruft und gleichzeitig Das ist ziemlich interessant. Mal sehen, wie sich das anhört. Ja, das ist sehr
spezifisch und ich denke, es hat gute Arbeit geleistet, indem es
versucht hat, diese
Erfahrung an den Benutzer weiterzugeben. Sehen wir uns einige andere
Beispiele an. Lange Generation. Nun, man konnte hier sehen, dass diese Geräusche
nur 30 Sekunden lang waren, aber sie können
bis zu 5 Sekunden erzeugen. Sehen wir uns zum
Beispiel an, dass Relaxen okay ist, also das sind 5
Minuten entspannenden Jazz. Wie Sie sehen können,
habe ich zu
verschiedenen Zeiten getestet , ob es
sich wie das Gleiche anhört, aber wiederholen Sie es einfach
die ganze Zeit und das ist nicht der Fall Es ist tatsächlich
zu verschiedenen Zeiten anders , es kann
lange Geräusche erzeugen wie Dann. Dies ist mein
Lieblingsfeature unter all den Beispielen
, die wir hier haben. Im Story-Modus wird das Audit durch die Bereitstellung einer
Abfolge von Textanfragen
generiert. Dies beeinflusst, wie
das Modell die
aus der vorherigen
Bildunterschrift abgeleiteten semantischen Tokens weiterführt aus der vorherigen
Bildunterschrift abgeleiteten semantischen Tokens Ich weiß nicht, warum ich das
so mag, aber man kann tatsächlich einen Song aus
einer Geschichte generieren lassen Zum Beispiel Zeit zum
Meditieren, Zeit zum Aufwachen,
Zeit bis zur Laufzeit, um einen zu
100% elektronischen Song in einem Videospiel
abzuspielen Ein Meditationslied wurde
neben River Fire und Feuerwerk gespielt. Ich selbst, also sagen wir mal wie du siehst,
war der Song bis zur Sekunde wie ein
Videospiel Hier steht 15. Aber ich habe tatsächlich geschaut und es waren ungefähr 19,
aber das ist okay. Und von da an änderte sich die Tonalität zu
etwas Entspannterem Und es war tatsächlich wie
Meditation am Fluss. Danach
war es nicht mehr wie Feuer. Ich hatte nicht das Gefühl, dass es Feuer war, sondern eher wie einige Stimmen, die versucht
wurden, in den
Song zu integrieren. Das passiert oft. Ich habe damit
experimentiert. Manchmal versucht es, Stimmen
zu vermitteln. Es sind Stimmen, die
eigentlich nichts sagen. Erwarte
nicht, dass daraus Texte entstehen. Aber sie sind wie Stimmen
, die versuchen, da reingebracht zu werden. Ich glaube, das war
bei dieser Feuermeldung hier der Fall. Ich weiß nicht, ob du es auch
gespürt hast, dann gefällt mir diese
Kombination hier auch weil sie mich an Bohemian Rhapsody erinnert,
den Song
von den Lass uns das auch hören. Hören wir uns das an, This Go to Top Extking Nochmals, das ist ein
klares Beispiel dafür, wie KI versucht, Stimmen in
den Song zu integrieren. Das wird passieren. Ich weiß nicht, ob das oft passieren wird, aber ich habe es
sehr häufig gesehen. Diese Stimmen sind
nicht verständlich. Sie sind genau wie Berish , weil sie nichts sagen,
aber man kann Dann gibt es noch diese Text
- und Melodiekonditionierung , mit der Sie eine Melodie hinzufügen können , die
während des gesamten Songs unverändert bleibt Und dann können wir anfangen, das Lied selbst zu
ändern, aber indem wir diese Melodie beibehalten Sehen wir uns zum Beispiel den Leo Jingle Bells Flying
mit einem Gitarrensolo als Konstanz
- oder
Klaviersolo Konstanz
- oder
Klaviersolo - oder Wie Sie sehen können, sind das
Klaviersolo und das
Gitarrensolo die Wortkonstanten In dem Text P stand, hey, erst mal Bello auf Glocken setzen
und dann etwas pfeifen Okay, es ist im Grunde
die Konstante. Dann haben wir diesen, der,
ich finde, auch
sehr interessant ist ,
Bildunterschriften zu konditionieren. Wir haben den
Titel des Gemäldes, Autor, The Persistence of
Memory, Salvador Stimmt? Dies ist das Bild nur als Referenz
aus Wikipedia. Und wir haben die Beschreibung des
Gemäldes. Im
Grunde sind
Modelle wie Chant
GPT dazu in der Lage Sie können jetzt
ein Bild hochladen und es wird Ihnen
eine Beschreibung des
Gemäldes angezeigt, und dann
können Sie das Audio generieren Mal sehen, wie der
Schrei klingt. Okay. Ich will ehrlich sein, ich habe nicht erwartet, dass dieses Bild
so klingt. Es klingt wie, ich weiß nicht, wie ein Song von Pink Floyd Dann haben wir quasi
Audiogenerierung aus Tags, 10 Sekunden Instrumente Zum Beispiel das Cello. Mal sehen, die Flöte. Das klang ein bisschen
wie der Titanic-Song. Wir haben Genres, schauen wir
uns zum Beispiel den britischen Blues an
, der ist
wohl üblicher, sonst das Getreide Ja, das klingt nach Erfahrungsniveau von
Bluesmusikern. Ich weiß nicht,
warum du so etwas wie einen anfänglichen
Klavierspieler in einen Song einbauen möchtest, aber lass uns sehen, wie das klingt. Klingt definitiv nach mir und einem verrückten, schnellen professionellen
Klavierspieler. Ja, das sieht aus wie ein schneller, professioneller
Klavierspieler und so. Das ist auch eine, die ich sehr mag. Ich werde das
Beispiel des Fitnessstudios , weil es ein
wirklich gutes Beispiel ist. Zurück, um die Zehn zu berühren. Ja, das ist definitiv bessere Musik als das, was
sie in meinem Fitnessstudio spielen. Ich schätze, du wirst das benutzen
, um etwas Musik dort unterzubringen. Epochen. Sie können auch
Epochen wie zum Beispiel
Club in den 80ern verwenden Club in den Mal sehen, wie sich das
nach Spaß anhört. Ja, das
klingt definitiv nach einem Club in den 80ern. Nun, ich wurde nicht in dieser Zeit
geboren,
aber ich habe Songs
aus den 80ern gehört. Das klingt
natürlich nach
etwas, das wir in den 80ern
in den Club aufnehmen Sehen wir uns auch dieses
Merkmal von Musical M an,
nämlich Generationenvielfalt nämlich Das bedeutet, dass es für dieselbe Aufforderung
generiert werden kann. Mehrere Beispiele, wie
wir auch
in der KI-Testküche sehen werden. Sehen wir uns für dieselbe
Textaufforderung diese Aufforderung an,
in der es um
Motivationsmusik für Sport geht Textaufforderung diese Aufforderung an,
in der es um
Motivationsmusik für Sport Das ist ein Beispiel, und
ein anderes Beispiel wäre dieses. Okay, ja, es
sind verschiedene Beispiele
für dieselbe Textfront. Dies sind all die Beispiele , zu denen Music LM fähig ist. Ich werde sagen, dass nicht alle diese Funktionen
in AI Test Kitchen verfügbar sind. Tatsächlich können wir derzeit nur die
Audiogenerierung aus Text testen. Lassen Sie uns das in der nächsten
Vorlesung testen. Ich hoffe es gefällt dir.
3. MusicLM ausprobieren: Jetzt werden wir Music LM tatsächlich
testen. Die einzige Möglichkeit, ab Dezember 2023,
besteht darin, es über diese Website zu testen Ich teste Kitchen.Google.com Du
kannst dich nur mit Google anmelden Diese Website ist auch nur in bestimmten Ländern, den
USA, Kenia, Neuseeland und Australien,
verfügbar USA, Kenia, Neuseeland und Australien, Sie können jedoch ganz einfach ein VPN wie
ich
verwenden , um diese Website zu
testen. Wenn Sie auf dieses
Drop-down-Menü klicken und zur Musik gehen, erscheint
ein Textfeld mit der Reihenfolge
, in der Sie die Aufforderung hier platzieren Sie erhalten die generierte Summe Sie haben auch die Schaltfläche
Einstellungen. Okay, diese Einstellungsschaltfläche
hat drei Einstellungen. Der erste ist ein Seed. Das ist eine Zufallszahl
, die Sie hier eingeben können. Nachdem Sie Ihre Eingabeaufforderung
eingegeben haben, können Sie Ihre Zufallszahl eingeben wird automatisch für Sie
generiert. Sie können
hier auf diese Schaltfläche klicken, um den Samen zu sperren. Das bedeutet, dass Sie bei
gegebener Aufforderung und bei
gegebenem Seed im Grunde dieselbe Ausgabe generieren können. Denn denken Sie daran, dass generative
KI sehr zufällig sein kann. Wenn Sie
diese Zufälligkeit vermeiden
möchten, können Sie dem
Set dieselbe Aufforderung geben Es gibt auch einige Parameter, die
als Temperatur bezeichnet werden, aber wir haben hier nicht diesen
Parameter, Ihre Eingabeaufforderung
konsistenter
macht, die Ausgabe wird
konsistenter sein Außerdem haben wir diese Streckenlänge. Denken Sie daran, dass wir bis zu 5 Minuten
generieren könnten, aber damit können wir nur bis zu 70 Sekunden
generieren. Ich denke, das liegt daran, dass viele Leute dieses Tool verwenden könnten. Und das Generieren eines
fünfminütigen Songs benötigt mehr Rechenressourcen. Sie bieten diese
Website kostenlos an. Wir möchten nicht alle ihre
Computerressourcen kostenlos nutzen. Wir haben auch das Looping, eine Funktion, die
den Anfang und das Ende den Anfang und das Ende Ihres Tracks zusammenfügt, sodass
Ihre Musik Erinnern Sie sich an das Beispiel, in dem
wir dieses Arcade-Spiel hatten, das endlos sein musste Nun, das ermöglicht uns auch , dass, wenn der Endlos-Song endet, er dem
Anfang des Tracks
ähnlich sein wird . Das ist
für solche Dinge sehr nützlich. Dinge wie
Hintergrundgeräusche für Videospiele. Das sind die Einstellungen
, die wir hier haben. Wir haben die Schaltfläche Ich
fühle mich glücklich. Mal sehen, was passiert,
wenn ich hier klicke. Sanft klingende Umgebungsmusik. Ich kann auch lernen. Das wird
etwas, ähm, Musik erzeugen, obwohl das ein anderes Beispiel ist. Wie Sie sehen können
, wurden hier zwei Beispiele generiert. Wir haben auch in der
Beispielausgabe gesehen, dass mehrere
Beispiele für dieselbe Aufforderung generiert werden
können. In diesem Textfeld haben
wir die Chips. Wir können diese Sounds lieben und
verschiedene Dinge erzeugen. Ich fange von vorne an
und generiere meinen eigenen Track. Ich mag Bachata sehr. Ich würde sagen,
eine moderne Bachata, sie muss zuerst langsam sein, dann schnell und dann wieder langsam Es muss unglaublich sein,
ein bisschen romantisch. Okay, mal sehen, was
das für mich generiert. Auch hier geht es darum, herauszufinden, welche
Dinge ich ändern oder variieren kann. Es kann also variieren. Also ja, ich mag das, aber ich denke, der Beat
aus der Pachata überschneidet
sich
vielleicht mit dem romantischen Lass uns das loswerden. Vielleicht schränken wir diese Aufforderung
zu stark ein und
lassen Sie uns
das erneut generieren , es heißt generieren. Das gefällt mir viel besser. Sehen wir uns das andere
Beispiel an, das es gegeben hat. Ja, der gefällt mir besser. Ich glaube, ich kann dazu tanzen. Nun, du hast jetzt ein Tool
, um deine eigenen Songs zu generieren. Wenn Sie dazu aufgefordert werden, hoffe ich, dass
Ihnen dieses Video gefällt. Wir sehen uns in der nächsten Vorlesung.
4. TextFX ausprobieren: Wir sind wieder eine KI-Testküche. Hier gibt es noch ein anderes Tool namens Text X, das Ihren
Schreibprozess mit KI beschleunigt,
leistungsstarken Sprachtools, die
in Zusammenarbeit
mit Lupe Fiasco entwickelt wurden in Zusammenarbeit
mit Lupe Wenn ich dieses Tool starte, haben
wir all diese Dies ist
auch mit GPT möglich. Es ist nicht sehr
innovativ wie Musik-LM, aber es kann trotzdem für Leute
nützlich sein , die auch Ideen
aus diesem I herausholen wollen Akronym erzeugt beispielsweise eine Phrase, bei der die
Buchstaben eines bestimmten Wortes verwendet werden. Zum Beispiel, wenn ich
das Wort Hamburger eintippe. Mal sehen, was das hier läuft. Wir haben einen Parameter
namens Temperatur. Ich glaube, ich habe dir
diese letzte Lektion erzählt. Aber wenn Sie die
Temperatur auf Null setzen, wird
die Ausgabe weniger zufällig sein. Es wird zu 100% fast
konstant sein. Wenn Sie die Temperatur
gleich eins setzen, wird
es jedes Mal, wenn Sie das ausführen, etwas
Zufälliges sein . 0.7 ist eine ordentliche Standardeinstellung. Viele Modelle, viele KI-Modelle
verwenden 0,7 als Standard. Lass uns diesen Hamburger machen. Es sind glückliche Tiere,
geschaffen von großartigen Menschen, essen richtig gute Burger oder essen eine
Mahlzeit richtig gut
oder essen, Energie tanken, schlechte Laune
loswerden Ich denke, das kann eher
für ein Restaurant verwendet werden
, das Hamburger verkauft Das kann ihr Logo
oder so etwas sein, es ist eine sehr kreative Finde Wörter in einer Kategorie, die mit einem ausgewählten Buchstaben
beginnen. Zum Beispiel Fastfood,
das mit dem Alter beginnt. Ich denke, sie werden den Hamburger
finden. Hamburger. Tacos mit harter Schale Ja, es war ziemlich offensichtlich, dass es mir Hamburger geben würde Ja, wir haben
eine Wortfolge aneinandergereiht
, in der sich jedes Wort
auf das letzte bezieht Lassen Sie uns noch einmal den Hamburger hineinlegen, mal sehen, was
mit dem Hamburger passiert Hamburger, Brot,
Sandwich, Fleisch,
Steak, Grill, Feuer, Hitze Es ging von diesem Wort zur Hitze über, indem es eine
Abfolge von Wörtern bildete Jedes Wort war mit
dem letzten verwandt. Hamburger, Brot,
Korb, Lebensmittelgeschäft,
Kassierer, Kundenrechnung Es ging von Hamburger zu Rechnung,
Hamburger, Brot,
Taubenboden, Bäckerei, Geschäft, Geschäft Das sind alles verwandte Wörter. Das ist sehr nützlich
für Rap-Texte, denke
ich in dem Beispiel, das sie dir
geben. Lupe-Fiasko In diesem Video, das
Sie sich ansehen können, ist
er ein Rap, ein Lyriker Er verwendet dieses Tool
häufig, um
Texte zu generieren , indem er auch
menschliche Intelligenz verwendet, explodiert und Phrasen erstellt, die bestimmten Wörtern ähnlich
klingen Nochmals, Hamburger. Mal
sehen, was das bewirkt Hamburger, ein großer Typ,
der Hamburger isst. Ein Sandwich mit
Schinken und einem Burger. Hamburger, eine Art Sandwich
mit Schinken und Käse. Okay, finde Gemeinsamkeiten
zwischen Dingen, die nichts miteinander zu tun haben. Lass uns Hamburger
und den Mond sehen. Schauen wir uns an, welche Ähnlichkeiten zwischen
diesen beiden Konzepten Sowohl ein Hamburger
als auch der Mond sind rund und können
mit einem Gabelmesser gegessen werden. Der Mond kann gegessen werden,
sowohl ein Hamburger als auch
der Mond sind rund und werden
oft mit Essen in Verbindung gebracht Sowohl ein Hamburger als auch der Mond können mit
Runde
und Fülle in
Verbindung gebracht werden mit
Runde
und Fülle in
Verbindung gebracht Ein Hamburger mit seiner runden Form und der Mond mit seinem Ja, ich schätze, du kannst mit
diesem Tool hier sehr poetisch
sein , POV, mal Lass uns über Fast Food sprechen. Dabei wird das Thema aus
verschiedenen Blickwinkeln bewertet. Fast Food ist eine günstige und
bequeme Art, eine Familie zu ernähren. Fast Food ist eine bequeme
Möglichkeit, schnell eine Mahlzeit zu sich zu nehmen. Fast Food ist eine köstliche
und bequeme Art zu essen. Jetzt generiert eine Szene sensorische
Details über die Szene. Auch hier, wenn ich in einem Hotel einen
Hamburger esse, weiß
ich nicht, was ein trockenes,
verkochtes Burgerpastetchen
hervorbringen wird ein trockenes,
verkochtes Burgerpastetchen
hervorbringen Ein Hamburger, der so
trocken ist, reißt, wenn man Plastikbrötchen beißt Das stellt sich die KI vor wenn Sie in einem Hotel einen
Hamburger essen Lächelndes Ding oder ein Konzept. Und es wird eine
Simulation über oder ein Konzept entstehen. Schauen wir uns Hamburger an. Ein Hamburger ist wie ein Kuchen, der sich im
Leben verirrt hat. Warum ist ein Hamburger wie ein Kuchen
mit einem Hut auf einem Bild? Nun, so kannst du
darüber nachdenken. Ja, es ist wie eine
Pixa mit Hut. Ein Hamburger ist wie
ein Pixi mit Brötchen,
Fleisch und Käse, und er ist köstlich Ich denke, die KI ist es, oder? Mach eine Szene kreativer. Stellen Sie sich eine Person vor, die in einem Hamburger isst
. Lassen Sie uns sehen, wie sich die KI vorstellt , einen Hamburger isst dass
eine Person in einem Hotel, das inmitten
eines Sees schwimmt Eine Person isst einen Hamburger in einem Loch, das sich auf dem Mond
befindet Eine Person, die einen Hamburger in
einem Loch isst , das
aus Lebkuchen besteht Das sind fiktive Dinge. Unerwartetes geschehen,
identifiziere Wörter und Phrasen, die ein bestimmtes Wort
enthalten Schon wieder Hamburger,
sagt Hamburger mit der Westentasche. Schüssel voller Verwirrung,
Schüssel voller Geschwätz. Das ist etwas
unerwarteter. Wie dem auch sei, dieses Tool,
Texteffekte, kann Ihnen,
wenn Sie ein
professioneller Autor sind, helfen , Ihnen Ideen
für den Text des Songs
zu geben, den Sie gerade gemacht haben Aber es ist etwas, das Sie auch mit Chat GPT machen
können, aber das gibt Ihnen eine nette Benutzeroberfläche,
um all diese Dinge zu erstellen
5. Was ist stabiles Audio: Wir haben einige
Alternativen zur Musik. Lm, und ich werde
über ein stabiles Audio sprechen. Zuallererst ist das
Generieren von Musik aus
technischer Sicht keine leichte Aufgabe. Ein stabiles Audio wurde von
denselben Leuten entwickelt , die für
eine stabile Verbreitung gesorgt Sie haben
also Erfahrung mit solchen
Dingen. Es verwendet das stabile
Audio-Audio-Spark-Modell Audioparxv 10. Sie arbeiten daran,
ein neues Modell, Version 11, zu verwenden. Ich denke, es wird
mächtiger sein. In der kostenlosen Version können
Sie
bis zu 45 Sekunden eines Songs generieren . Schauen wir uns diese Website
an, die stabil ist
audio.com. Sie können ein kostenloses Konto
erstellen und dann hier zum Bereich
Generieren gehen Wie Sie sehen können, haben wir
bis zu 20 Songs pro Monat. Wenn Sie zu den Preisen gehen, werden
Sie
die kostenlose Version sehen. Monatlich können Sie die
20 Generationen abonnieren, Sie können
bis zu 45 Sekunden generieren und die Lizenz ist
nicht für kommerzielle Zwecke bestimmt. Wenn Sie ein Profi sind, zahlen
Sie 12$ pro Monat und können bis zu
500 dieser Tracks generieren Die Trucks können
bis zu 90 Sekunden lang sein und sie können
kommerziell genutzt werden Wenn Sie ein Unternehmen sind, müssen Sie sich mit diesen Personen in Verbindung setzen
, damit sie Ihren Preis festlegen können. Das ist der Preisbereich. In der Bedienungsanleitung finden Sie zunächst einige
Beispiele dafür, was dies bewirken kann. Wie wir auf der Google-Website gesehen
haben, können Sie all
diese Beispiele selbst erkunden. Verwenden Sie ein stabiles Audio, um ein vollständiges musikalisches Audio zu
erzeugen. Umfasst eine Reihe
von Instrumenten. Fügen Sie so viele Details wie möglich
hinzu, wie Sie erkennen können. Je mehr Details Sie
in die Aufforderung eingeben, desto besser ist das Ergebnis. Sie können einzelne Stems, Soundeffekte usw. hinzufügen. Mir gefällt, dass sie im Interface Guide
expliziter sind. Das ist die Schnittstelle
, die sie dir sagen. Zum Beispiel Schritte. Hier erfahren Sie, wie viele
Generierungsschritte zur
Erstellung Ihres Audiotracks verwendet wurden. Eine höhere Schrittzahl
bedeutet eine bessere Verarbeitung und dies kann wahrscheinlich
die Qualität Ihres
Publikums erhöhen . Und sie haben herausgefunden, dass
50 der ideale Punkt ist. Anzahl der Ergebnisse, die
Sie generieren können, maximal fünf gleichzeitig, okay? Wenn Sie jedoch vier angeben, kostet Sie
das beim Generieren vier
Spuren. Seien Sie also vorsichtig, denn wenn Sie
fünf für eine Eingabeaufforderung eingeben, können
Sie in
der kostenlosen Version nur vier Spuren
generieren. Der Seed, ich habe dir schon
gesagt, was der Seed ist, der Standard. Diese Eingabe ist zufällig eingestellt, aber Sie können hier eine beliebige Zahl eingeben. Wenn Sie dieselbe Eingabeaufforderung
und denselben Startwert verwenden, erhalten
Sie
konsistente Ausgaben. Die Stärke der Eingabeaufforderung bestimmt,
wie genau das Modell versucht, das
Audio an Ihre Texteingabeaufforderung zu leiten. Sie haben einen Blockpost für das Modell, das sie verwenden,
das Modell, von dem ich Ihnen erzählt habe, den Audiopark X10 Falls Sie an
den technischen Details hier interessiert sind, haben wir auch das
Lizenzschema hier gesehen Als kostenloser Benutzer können
Sie das
stabile Audiobeispiel
in Ihrer eigenen Musik verwenden , aber als schlechter Benutzer können
Sie es für kommerzielle Zwecke verwenden Sie können KI-Modelle nicht anhand
der generierten Audiodaten trainieren , da dies gegen deren
Nutzungsbedingungen verstößt. Ich glaube, sie haben eine bessere Benutzeranleitung
, wie man das benutzt. In der nächsten Vorlesung werden
wir
ein stabiles Audio testen , um zu sehen, ob es
bessere Ergebnisse liefert.
6. Stabiles Audio ausprobieren: Okay, lassen Sie uns einen Blick darauf werfen
und das stabile Audio testen. Ich werde dieselbe
Aufforderung eingeben, Modern Chata. Es muss zuerst langsam sein, dann schnell und wieder langsam. Es muss ansible sein. Ich habe es nicht kopiert und eingefügt, also muss ich
es noch einmal schreiben Lassen Sie uns einen Soundtrack
mit dieser Beschreibung generieren. Außerdem haben Sie die Anleitung hier, wenn Sie die Bedienungsanleitung
verwenden möchten. Mal sehen, Mutter und Pa Chata. Ich schätze, es dauert ein
bisschen länger, aber wir müssen warten Okay, es wurde generiert. Das ist dasselbe. Nein,
das klingt überhaupt nicht nach
einer Bachata Mal sehen, was passiert, wenn ich Ersticken auf sinnlich umstelle. Aber das ist
kein Bachata, der mich
denken lässt, dass Google Vielleicht, weil sie
mehr Trainingsdaten haben. Ich weiß nicht, aber lassen Sie uns
dem eine Chance geben. Vielleicht stabiles Audio. War in diesen Genres nicht geschult
. Vielleicht wurden sie mit,
ich weiß nicht, Rock-Pop oder
anderen Dingen trainiert . Nein, das
klingt überhaupt nicht nach einem Chat. Mal sehen, indem ich
die Eingabeaufforderung modifiziere, den typischen, typischen Chat-Bungle, werde
ich die Stärke auf 100% einstellen. Mal sehen,
ob durch eine solche Änderung
der Aufforderung ein besseres Ergebnis erzielt wird Nein, nein, nein, nein. Wir haben gesehen, dass
stabiles Audio beim
Generieren des API-Chat fehlschlägt. Aber auch hier kannst du es
mit verschiedenen Genres versuchen. Vielleicht erzeugt es
besseren Rock. Ich weiß.
7. Schlussbemerkung: Was ist die Schlussfolgerung hier? Du kannst jetzt deine
eigene Musik mit Musik schreiben. Elem, das
von Google Research entwickelt wurde, wurde entwickelt, um Musik auf der
Grundlage von Texteingaben zu erstellen Dieses Metall ist
in der Lage, über
längere Zeiträume
qualitativ hochwertige Musik zu produzieren , die den bereitgestellten Textanweisungen zum Experimentieren mit Musik entspricht. L M Man kann sich ab Dezember 2023 für
die KI-Testküche
registrieren . Für diejenigen, die
ausschließlich an Beispielausgaben interessiert sind,
ist der
Besuch der
Google-Recherche-Website
jedoch der
Besuch der
Google-Recherche-Website eine alternative Option Wir haben es auch mit stabilem Audio versucht, aber wir haben festgestellt, dass Music LM besser
darin war, Pachata zu
erzeugen Ich verkaufe
hier Pata, weil das das einzige Genre ist, das wir generiert haben Du musst
andere Arten von Musik ausprobieren weil sie vielleicht besser darin ist, Rock
zu erzeugen, ich weiß es nicht, aber ich
bin ein Fan von Ba Chata Ich liebe es Bachata zu hören. Ich war enttäuscht von
stabilen Audioausgängen. Musical war stabilem Audio weit überlegen
. Vergiss nicht,
mir in den sozialen Medien zu folgen. Du kannst meinem Discord-Kanal beitreten, du kannst mir
in Scra folgen und du kannst meinen Jet-Kanal abonnieren Ich wünsche dir viel Spaß beim Diskurs. Wir sehen uns im nächsten Kurs.