Deine eigene Musik mit künstlicher Intelligenz erstellen | David Armendariz | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Deine eigene Musik mit künstlicher Intelligenz erstellen

teacher avatar David Armendariz

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführung

      0:59

    • 2.

      Was ist MusicLM

      15:21

    • 3.

      MusicLM ausprobieren

      7:12

    • 4.

      TextFX ausprobieren

      7:05

    • 5.

      Was ist stabiles Audio

      4:31

    • 6.

      Stabiles Audio ausprobieren

      3:37

    • 7.

      Schlussbemerkung

      1:26

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

860

Teilnehmer:innen

2

Projekte

Über diesen Kurs

Willkommen bei "Crafting your own music with artificial Intelligence", einem topaktuellen Kurs, der sowohl für Musiker als auch für Tech-Enthusiasten konzipiert wurde. Die Schüler erkunden die revolutionären Funktionen von Googles MusicLM, einem hochmodernen Modell für künstliche Intelligenz, das auf die Musikgenerierung spezialisiert ist. Der Kurs bietet eine umfassende Einführung in die Grundlagen der KI in der Musik und legt den Schwerpunkt auf die praktische Erfahrung mit MusicLM.

Die wichtigsten Lerninhalte:

  • Verständnis der Rolle von KI bei der Musikerstellung.
  • Fähigkeiten, um Googles MusicLM zum Erstellen von Musik zu verwenden.

Triff deine:n Kursleiter:in

Teacher Profile Image

David Armendariz

Kursleiter:in

Hi! My name is David Armendariz. I am from Ecuador.

I studied mathematics at USFQ (Universidad San Francisco de Quito). However, I love coding and that's why I transitioned to the software industry. I love to share my knowledge here in Skillshare.

I hope you enjoy my courses as much as I enjoy doing them and remember: never stop learning!

Vollständiges Profil ansehen

Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Hallo und willkommen zu diesem Kurs, Music Generation with Music LM. Mein Name ist David Armendariz. Worum geht es in diesem Kurs? Die KI-Entwicklung nimmt rasant zu, insbesondere im Bereich der generativen KI. Die Musikgenerierung ist Teil der generativen KI. Es gibt dieses neue Google-Modell namens Music LM. Der Starttermin war Januar 2023, und wir werden uns darauf konzentrieren, die Funktionen von Music LM über AI Test Kitchen zu erkunden . Was du lernen wirst. Lerne, was Musik ist LM. Erfahren Sie, wofür Music LM fähig ist, und testen Sie Music LM. Nun ja, ich bin Softwareingenieur und Mathematiker. Ich bin ein Student der Datenwissenschaft, ein KI-Enthusiast und ein Musikliebhaber Ich hoffe, Ihnen gefällt dieser Kurs. 2. Was ist MusicLM: In diesem Vortrag werden wir lernen, was Googles Musik ist Lm. Music LM revolutioniert die Generierung von Text zu Musik Es wurde in ago steny überhaupt in einem Artikel aus dem Jahr 2023 vorgestellt ago steny überhaupt in einem Artikel aus dem Es ist sehr neu. der Lage ist es, aus Textbeschreibungen und technischen Details High-Fidelity-Musik zu generieren . Es basiert auf einem anderen Modell namens Audio LM. Es ist in der Lage, mehrere Minuten Musik mit 24 Kilohertz zu produzieren mehrere Minuten Musik mit 24 Kilohertz zu Derzeit gibt es andere KI-Tools wie Chat GPT, aber sie können ab Dezember 2023 keine Musik generieren Musik Sie veröffentlichen auch diesen öffentlichen Datensatz namens Music Caps. Der Zweck der Veröffentlichung dieses Datensatzes besteht darin, die Modellentwicklung und die Erweiterung der Forschung zu unterstützen. So können andere Personen Google helfen, dieses Modell zu verbessern. Es wurde manuell von professionellen Musikern erstellt. Sie können dieses Modell auch verwenden , um Ihr eigenes Modell zu trainieren. Wir werden nicht lernen, wie das geht, weil wir dafür viel KI-Wissen benötigen. Sie haben sich auch stark auf verantwortungsvolle Entwicklung konzentriert. Sie konzentrierten sich darauf, den Missbrauch kreativer Inhalte zu verhindern . Was bedeutet das? Sie haben Methoden aus einem Artikel von diesem Typen namens Carlini übernommen , um sicherzustellen, dass generierte Musik im Vergleich zu Trainingsdaten einzigartig generierte Musik im Vergleich zu Das bedeutet, dass die generierte Musik den Trainingsdaten, die sie für Musik-LM verwendet haben, nicht ähnlich sein wird Trainingsdaten, die sie für Musik-LM verwendet haben, nicht ähnlich Jetzt. Music LM hat eine Website , die wir uns jetzt ansehen werden, um einige Beispiele dafür zu sehen, wozu es in der Lage ist. Wenn wir auf diese Website gehen, werden wir hier die Zeitung sehen , die Sie im Archiv sehen können. Sie können den Datensatz sehen , über den ich spreche , nämlich die Musik auf der Website. Sie können alle Beispiele sehen , die Music L M generieren kann. Sehen wir uns an, wir haben eine Audiogenerierung aus umfangreichen Untertiteln. Die Bildunterschrift hier ist der Haupt-Soundtrack eines Arcade-Spiels Es ist schnelllebig und mit einer eingängigen E-Gitarre Die Musik wiederholt sich und ist leicht zu merken, aber mit unerwarteten Geräuschen wie Symbolabstürzen oder Trommelwirbeln. Mal sehen, das ist das Beispiel für diesen Haupt-Soundtrack eines Du kannst tatsächlich darüber nachdenken und das Gefühl haben , ein Spiel aus den 90ern zu spielen Es gibt dieses andere Beispiel. Eine Verschmelzung von Regaton und elektronischer Tanzmusik mit einem Raum Geräusche aus anderen Welten erzeugen die Erfahrung, sich im Weltraum zu verirren Und die Musik wird so gestaltet sein, dass sie ein Gefühl von Staunen und Ehrfurcht hervorruft und gleichzeitig Das ist ziemlich interessant. Mal sehen, wie sich das anhört. Ja, das ist sehr spezifisch und ich denke, es hat gute Arbeit geleistet, indem es versucht hat, diese Erfahrung an den Benutzer weiterzugeben. Sehen wir uns einige andere Beispiele an. Lange Generation. Nun, man konnte hier sehen, dass diese Geräusche nur 30 Sekunden lang waren, aber sie können bis zu 5 Sekunden erzeugen. Sehen wir uns zum Beispiel an, dass Relaxen okay ist, also das sind 5 Minuten entspannenden Jazz. Wie Sie sehen können, habe ich zu verschiedenen Zeiten getestet , ob es sich wie das Gleiche anhört, aber wiederholen Sie es einfach die ganze Zeit und das ist nicht der Fall Es ist tatsächlich zu verschiedenen Zeiten anders , es kann lange Geräusche erzeugen wie Dann. Dies ist mein Lieblingsfeature unter all den Beispielen , die wir hier haben. Im Story-Modus wird das Audit durch die Bereitstellung einer Abfolge von Textanfragen generiert. Dies beeinflusst, wie das Modell die aus der vorherigen Bildunterschrift abgeleiteten semantischen Tokens weiterführt aus der vorherigen Bildunterschrift abgeleiteten semantischen Tokens Ich weiß nicht, warum ich das so mag, aber man kann tatsächlich einen Song aus einer Geschichte generieren lassen Zum Beispiel Zeit zum Meditieren, Zeit zum Aufwachen, Zeit bis zur Laufzeit, um einen zu 100% elektronischen Song in einem Videospiel abzuspielen Ein Meditationslied wurde neben River Fire und Feuerwerk gespielt. Ich selbst, also sagen wir mal wie du siehst, war der Song bis zur Sekunde wie ein Videospiel Hier steht 15. Aber ich habe tatsächlich geschaut und es waren ungefähr 19, aber das ist okay. Und von da an änderte sich die Tonalität zu etwas Entspannterem Und es war tatsächlich wie Meditation am Fluss. Danach war es nicht mehr wie Feuer. Ich hatte nicht das Gefühl, dass es Feuer war, sondern eher wie einige Stimmen, die versucht wurden, in den Song zu integrieren. Das passiert oft. Ich habe damit experimentiert. Manchmal versucht es, Stimmen zu vermitteln. Es sind Stimmen, die eigentlich nichts sagen. Erwarte nicht, dass daraus Texte entstehen. Aber sie sind wie Stimmen , die versuchen, da reingebracht zu werden. Ich glaube, das war bei dieser Feuermeldung hier der Fall. Ich weiß nicht, ob du es auch gespürt hast, dann gefällt mir diese Kombination hier auch weil sie mich an Bohemian Rhapsody erinnert, den Song von den Lass uns das auch hören. Hören wir uns das an, This Go to Top Extking Nochmals, das ist ein klares Beispiel dafür, wie KI versucht, Stimmen in den Song zu integrieren. Das wird passieren. Ich weiß nicht, ob das oft passieren wird, aber ich habe es sehr häufig gesehen. Diese Stimmen sind nicht verständlich. Sie sind genau wie Berish , weil sie nichts sagen, aber man kann Dann gibt es noch diese Text - und Melodiekonditionierung , mit der Sie eine Melodie hinzufügen können , die während des gesamten Songs unverändert bleibt Und dann können wir anfangen, das Lied selbst zu ändern, aber indem wir diese Melodie beibehalten Sehen wir uns zum Beispiel den Leo Jingle Bells Flying mit einem Gitarrensolo als Konstanz - oder Klaviersolo Konstanz - oder Klaviersolo - oder Wie Sie sehen können, sind das Klaviersolo und das Gitarrensolo die Wortkonstanten In dem Text P stand, hey, erst mal Bello auf Glocken setzen und dann etwas pfeifen Okay, es ist im Grunde die Konstante. Dann haben wir diesen, der, ich finde, auch sehr interessant ist , Bildunterschriften zu konditionieren. Wir haben den Titel des Gemäldes, Autor, The Persistence of Memory, Salvador Stimmt? Dies ist das Bild nur als Referenz aus Wikipedia. Und wir haben die Beschreibung des Gemäldes. Im Grunde sind Modelle wie Chant GPT dazu in der Lage Sie können jetzt ein Bild hochladen und es wird Ihnen eine Beschreibung des Gemäldes angezeigt, und dann können Sie das Audio generieren Mal sehen, wie der Schrei klingt. Okay. Ich will ehrlich sein, ich habe nicht erwartet, dass dieses Bild so klingt. Es klingt wie, ich weiß nicht, wie ein Song von Pink Floyd Dann haben wir quasi Audiogenerierung aus Tags, 10 Sekunden Instrumente Zum Beispiel das Cello. Mal sehen, die Flöte. Das klang ein bisschen wie der Titanic-Song. Wir haben Genres, schauen wir uns zum Beispiel den britischen Blues an , der ist wohl üblicher, sonst das Getreide Ja, das klingt nach Erfahrungsniveau von Bluesmusikern. Ich weiß nicht, warum du so etwas wie einen anfänglichen Klavierspieler in einen Song einbauen möchtest, aber lass uns sehen, wie das klingt. Klingt definitiv nach mir und einem verrückten, schnellen professionellen Klavierspieler. Ja, das sieht aus wie ein schneller, professioneller Klavierspieler und so. Das ist auch eine, die ich sehr mag. Ich werde das Beispiel des Fitnessstudios , weil es ein wirklich gutes Beispiel ist. Zurück, um die Zehn zu berühren. Ja, das ist definitiv bessere Musik als das, was sie in meinem Fitnessstudio spielen. Ich schätze, du wirst das benutzen , um etwas Musik dort unterzubringen. Epochen. Sie können auch Epochen wie zum Beispiel Club in den 80ern verwenden Club in den Mal sehen, wie sich das nach Spaß anhört. Ja, das klingt definitiv nach einem Club in den 80ern. Nun, ich wurde nicht in dieser Zeit geboren, aber ich habe Songs aus den 80ern gehört. Das klingt natürlich nach etwas, das wir in den 80ern in den Club aufnehmen Sehen wir uns auch dieses Merkmal von Musical M an, nämlich Generationenvielfalt nämlich Das bedeutet, dass es für dieselbe Aufforderung generiert werden kann. Mehrere Beispiele, wie wir auch in der KI-Testküche sehen werden. Sehen wir uns für dieselbe Textaufforderung diese Aufforderung an, in der es um Motivationsmusik für Sport geht Textaufforderung diese Aufforderung an, in der es um Motivationsmusik für Sport Das ist ein Beispiel, und ein anderes Beispiel wäre dieses. Okay, ja, es sind verschiedene Beispiele für dieselbe Textfront. Dies sind all die Beispiele , zu denen Music LM fähig ist. Ich werde sagen, dass nicht alle diese Funktionen in AI Test Kitchen verfügbar sind. Tatsächlich können wir derzeit nur die Audiogenerierung aus Text testen. Lassen Sie uns das in der nächsten Vorlesung testen. Ich hoffe es gefällt dir. 3. MusicLM ausprobieren: Jetzt werden wir Music LM tatsächlich testen. Die einzige Möglichkeit, ab Dezember 2023, besteht darin, es über diese Website zu testen Ich teste Kitchen.Google.com Du kannst dich nur mit Google anmelden Diese Website ist auch nur in bestimmten Ländern, den USA, Kenia, Neuseeland und Australien, verfügbar USA, Kenia, Neuseeland und Australien, Sie können jedoch ganz einfach ein VPN wie ich verwenden , um diese Website zu testen. Wenn Sie auf dieses Drop-down-Menü klicken und zur Musik gehen, erscheint ein Textfeld mit der Reihenfolge , in der Sie die Aufforderung hier platzieren Sie erhalten die generierte Summe Sie haben auch die Schaltfläche Einstellungen. Okay, diese Einstellungsschaltfläche hat drei Einstellungen. Der erste ist ein Seed. Das ist eine Zufallszahl , die Sie hier eingeben können. Nachdem Sie Ihre Eingabeaufforderung eingegeben haben, können Sie Ihre Zufallszahl eingeben wird automatisch für Sie generiert. Sie können hier auf diese Schaltfläche klicken, um den Samen zu sperren. Das bedeutet, dass Sie bei gegebener Aufforderung und bei gegebenem Seed im Grunde dieselbe Ausgabe generieren können. Denn denken Sie daran, dass generative KI sehr zufällig sein kann. Wenn Sie diese Zufälligkeit vermeiden möchten, können Sie dem Set dieselbe Aufforderung geben Es gibt auch einige Parameter, die als Temperatur bezeichnet werden, aber wir haben hier nicht diesen Parameter, Ihre Eingabeaufforderung konsistenter macht, die Ausgabe wird konsistenter sein Außerdem haben wir diese Streckenlänge. Denken Sie daran, dass wir bis zu 5 Minuten generieren könnten, aber damit können wir nur bis zu 70 Sekunden generieren. Ich denke, das liegt daran, dass viele Leute dieses Tool verwenden könnten. Und das Generieren eines fünfminütigen Songs benötigt mehr Rechenressourcen. Sie bieten diese Website kostenlos an. Wir möchten nicht alle ihre Computerressourcen kostenlos nutzen. Wir haben auch das Looping, eine Funktion, die den Anfang und das Ende den Anfang und das Ende Ihres Tracks zusammenfügt, sodass Ihre Musik Erinnern Sie sich an das Beispiel, in dem wir dieses Arcade-Spiel hatten, das endlos sein musste Nun, das ermöglicht uns auch , dass, wenn der Endlos-Song endet, er dem Anfang des Tracks ähnlich sein wird . Das ist für solche Dinge sehr nützlich. Dinge wie Hintergrundgeräusche für Videospiele. Das sind die Einstellungen , die wir hier haben. Wir haben die Schaltfläche Ich fühle mich glücklich. Mal sehen, was passiert, wenn ich hier klicke. Sanft klingende Umgebungsmusik. Ich kann auch lernen. Das wird etwas, ähm, Musik erzeugen, obwohl das ein anderes Beispiel ist. Wie Sie sehen können , wurden hier zwei Beispiele generiert. Wir haben auch in der Beispielausgabe gesehen, dass mehrere Beispiele für dieselbe Aufforderung generiert werden können. In diesem Textfeld haben wir die Chips. Wir können diese Sounds lieben und verschiedene Dinge erzeugen. Ich fange von vorne an und generiere meinen eigenen Track. Ich mag Bachata sehr. Ich würde sagen, eine moderne Bachata, sie muss zuerst langsam sein, dann schnell und dann wieder langsam Es muss unglaublich sein, ein bisschen romantisch. Okay, mal sehen, was das für mich generiert. Auch hier geht es darum, herauszufinden, welche Dinge ich ändern oder variieren kann. Es kann also variieren. Also ja, ich mag das, aber ich denke, der Beat aus der Pachata überschneidet sich vielleicht mit dem romantischen Lass uns das loswerden. Vielleicht schränken wir diese Aufforderung zu stark ein und lassen Sie uns das erneut generieren , es heißt generieren. Das gefällt mir viel besser. Sehen wir uns das andere Beispiel an, das es gegeben hat. Ja, der gefällt mir besser. Ich glaube, ich kann dazu tanzen. Nun, du hast jetzt ein Tool , um deine eigenen Songs zu generieren. Wenn Sie dazu aufgefordert werden, hoffe ich, dass Ihnen dieses Video gefällt. Wir sehen uns in der nächsten Vorlesung. 4. TextFX ausprobieren: Wir sind wieder eine KI-Testküche. Hier gibt es noch ein anderes Tool namens Text X, das Ihren Schreibprozess mit KI beschleunigt, leistungsstarken Sprachtools, die in Zusammenarbeit mit Lupe Fiasco entwickelt wurden in Zusammenarbeit mit Lupe Wenn ich dieses Tool starte, haben wir all diese Dies ist auch mit GPT möglich. Es ist nicht sehr innovativ wie Musik-LM, aber es kann trotzdem für Leute nützlich sein , die auch Ideen aus diesem I herausholen wollen Akronym erzeugt beispielsweise eine Phrase, bei der die Buchstaben eines bestimmten Wortes verwendet werden. Zum Beispiel, wenn ich das Wort Hamburger eintippe. Mal sehen, was das hier läuft. Wir haben einen Parameter namens Temperatur. Ich glaube, ich habe dir diese letzte Lektion erzählt. Aber wenn Sie die Temperatur auf Null setzen, wird die Ausgabe weniger zufällig sein. Es wird zu 100% fast konstant sein. Wenn Sie die Temperatur gleich eins setzen, wird es jedes Mal, wenn Sie das ausführen, etwas Zufälliges sein . 0.7 ist eine ordentliche Standardeinstellung. Viele Modelle, viele KI-Modelle verwenden 0,7 als Standard. Lass uns diesen Hamburger machen. Es sind glückliche Tiere, geschaffen von großartigen Menschen, essen richtig gute Burger oder essen eine Mahlzeit richtig gut oder essen, Energie tanken, schlechte Laune loswerden Ich denke, das kann eher für ein Restaurant verwendet werden , das Hamburger verkauft Das kann ihr Logo oder so etwas sein, es ist eine sehr kreative Finde Wörter in einer Kategorie, die mit einem ausgewählten Buchstaben beginnen. Zum Beispiel Fastfood, das mit dem Alter beginnt. Ich denke, sie werden den Hamburger finden. Hamburger. Tacos mit harter Schale Ja, es war ziemlich offensichtlich, dass es mir Hamburger geben würde Ja, wir haben eine Wortfolge aneinandergereiht , in der sich jedes Wort auf das letzte bezieht Lassen Sie uns noch einmal den Hamburger hineinlegen, mal sehen, was mit dem Hamburger passiert Hamburger, Brot, Sandwich, Fleisch, Steak, Grill, Feuer, Hitze Es ging von diesem Wort zur Hitze über, indem es eine Abfolge von Wörtern bildete Jedes Wort war mit dem letzten verwandt. Hamburger, Brot, Korb, Lebensmittelgeschäft, Kassierer, Kundenrechnung Es ging von Hamburger zu Rechnung, Hamburger, Brot, Taubenboden, Bäckerei, Geschäft, Geschäft Das sind alles verwandte Wörter. Das ist sehr nützlich für Rap-Texte, denke ich in dem Beispiel, das sie dir geben. Lupe-Fiasko In diesem Video, das Sie sich ansehen können, ist er ein Rap, ein Lyriker Er verwendet dieses Tool häufig, um Texte zu generieren , indem er auch menschliche Intelligenz verwendet, explodiert und Phrasen erstellt, die bestimmten Wörtern ähnlich klingen Nochmals, Hamburger. Mal sehen, was das bewirkt Hamburger, ein großer Typ, der Hamburger isst. Ein Sandwich mit Schinken und einem Burger. Hamburger, eine Art Sandwich mit Schinken und Käse. Okay, finde Gemeinsamkeiten zwischen Dingen, die nichts miteinander zu tun haben. Lass uns Hamburger und den Mond sehen. Schauen wir uns an, welche Ähnlichkeiten zwischen diesen beiden Konzepten Sowohl ein Hamburger als auch der Mond sind rund und können mit einem Gabelmesser gegessen werden. Der Mond kann gegessen werden, sowohl ein Hamburger als auch der Mond sind rund und werden oft mit Essen in Verbindung gebracht Sowohl ein Hamburger als auch der Mond können mit Runde und Fülle in Verbindung gebracht werden mit Runde und Fülle in Verbindung gebracht Ein Hamburger mit seiner runden Form und der Mond mit seinem Ja, ich schätze, du kannst mit diesem Tool hier sehr poetisch sein , POV, mal Lass uns über Fast Food sprechen. Dabei wird das Thema aus verschiedenen Blickwinkeln bewertet. Fast Food ist eine günstige und bequeme Art, eine Familie zu ernähren. Fast Food ist eine bequeme Möglichkeit, schnell eine Mahlzeit zu sich zu nehmen. Fast Food ist eine köstliche und bequeme Art zu essen. Jetzt generiert eine Szene sensorische Details über die Szene. Auch hier, wenn ich in einem Hotel einen Hamburger esse, weiß ich nicht, was ein trockenes, verkochtes Burgerpastetchen hervorbringen wird ein trockenes, verkochtes Burgerpastetchen hervorbringen Ein Hamburger, der so trocken ist, reißt, wenn man Plastikbrötchen beißt Das stellt sich die KI vor wenn Sie in einem Hotel einen Hamburger essen Lächelndes Ding oder ein Konzept. Und es wird eine Simulation über oder ein Konzept entstehen. Schauen wir uns Hamburger an. Ein Hamburger ist wie ein Kuchen, der sich im Leben verirrt hat. Warum ist ein Hamburger wie ein Kuchen mit einem Hut auf einem Bild? Nun, so kannst du darüber nachdenken. Ja, es ist wie eine Pixa mit Hut. Ein Hamburger ist wie ein Pixi mit Brötchen, Fleisch und Käse, und er ist köstlich Ich denke, die KI ist es, oder? Mach eine Szene kreativer. Stellen Sie sich eine Person vor, die in einem Hamburger isst . Lassen Sie uns sehen, wie sich die KI vorstellt , einen Hamburger isst dass eine Person in einem Hotel, das inmitten eines Sees schwimmt Eine Person isst einen Hamburger in einem Loch, das sich auf dem Mond befindet Eine Person, die einen Hamburger in einem Loch isst , das aus Lebkuchen besteht Das sind fiktive Dinge. Unerwartetes geschehen, identifiziere Wörter und Phrasen, die ein bestimmtes Wort enthalten Schon wieder Hamburger, sagt Hamburger mit der Westentasche. Schüssel voller Verwirrung, Schüssel voller Geschwätz. Das ist etwas unerwarteter. Wie dem auch sei, dieses Tool, Texteffekte, kann Ihnen, wenn Sie ein professioneller Autor sind, helfen , Ihnen Ideen für den Text des Songs zu geben, den Sie gerade gemacht haben Aber es ist etwas, das Sie auch mit Chat GPT machen können, aber das gibt Ihnen eine nette Benutzeroberfläche, um all diese Dinge zu erstellen 5. Was ist stabiles Audio: Wir haben einige Alternativen zur Musik. Lm, und ich werde über ein stabiles Audio sprechen. Zuallererst ist das Generieren von Musik aus technischer Sicht keine leichte Aufgabe. Ein stabiles Audio wurde von denselben Leuten entwickelt , die für eine stabile Verbreitung gesorgt Sie haben also Erfahrung mit solchen Dingen. Es verwendet das stabile Audio-Audio-Spark-Modell Audioparxv 10. Sie arbeiten daran, ein neues Modell, Version 11, zu verwenden. Ich denke, es wird mächtiger sein. In der kostenlosen Version können Sie bis zu 45 Sekunden eines Songs generieren . Schauen wir uns diese Website an, die stabil ist audio.com. Sie können ein kostenloses Konto erstellen und dann hier zum Bereich Generieren gehen Wie Sie sehen können, haben wir bis zu 20 Songs pro Monat. Wenn Sie zu den Preisen gehen, werden Sie die kostenlose Version sehen. Monatlich können Sie die 20 Generationen abonnieren, Sie können bis zu 45 Sekunden generieren und die Lizenz ist nicht für kommerzielle Zwecke bestimmt. Wenn Sie ein Profi sind, zahlen Sie 12$ pro Monat und können bis zu 500 dieser Tracks generieren Die Trucks können bis zu 90 Sekunden lang sein und sie können kommerziell genutzt werden Wenn Sie ein Unternehmen sind, müssen Sie sich mit diesen Personen in Verbindung setzen , damit sie Ihren Preis festlegen können. Das ist der Preisbereich. In der Bedienungsanleitung finden Sie zunächst einige Beispiele dafür, was dies bewirken kann. Wie wir auf der Google-Website gesehen haben, können Sie all diese Beispiele selbst erkunden. Verwenden Sie ein stabiles Audio, um ein vollständiges musikalisches Audio zu erzeugen. Umfasst eine Reihe von Instrumenten. Fügen Sie so viele Details wie möglich hinzu, wie Sie erkennen können. Je mehr Details Sie in die Aufforderung eingeben, desto besser ist das Ergebnis. Sie können einzelne Stems, Soundeffekte usw. hinzufügen. Mir gefällt, dass sie im Interface Guide expliziter sind. Das ist die Schnittstelle , die sie dir sagen. Zum Beispiel Schritte. Hier erfahren Sie, wie viele Generierungsschritte zur Erstellung Ihres Audiotracks verwendet wurden. Eine höhere Schrittzahl bedeutet eine bessere Verarbeitung und dies kann wahrscheinlich die Qualität Ihres Publikums erhöhen . Und sie haben herausgefunden, dass 50 der ideale Punkt ist. Anzahl der Ergebnisse, die Sie generieren können, maximal fünf gleichzeitig, okay? Wenn Sie jedoch vier angeben, kostet Sie das beim Generieren vier Spuren. Seien Sie also vorsichtig, denn wenn Sie fünf für eine Eingabeaufforderung eingeben, können Sie in der kostenlosen Version nur vier Spuren generieren. Der Seed, ich habe dir schon gesagt, was der Seed ist, der Standard. Diese Eingabe ist zufällig eingestellt, aber Sie können hier eine beliebige Zahl eingeben. Wenn Sie dieselbe Eingabeaufforderung und denselben Startwert verwenden, erhalten Sie konsistente Ausgaben. Die Stärke der Eingabeaufforderung bestimmt, wie genau das Modell versucht, das Audio an Ihre Texteingabeaufforderung zu leiten. Sie haben einen Blockpost für das Modell, das sie verwenden, das Modell, von dem ich Ihnen erzählt habe, den Audiopark X10 Falls Sie an den technischen Details hier interessiert sind, haben wir auch das Lizenzschema hier gesehen Als kostenloser Benutzer können Sie das stabile Audiobeispiel in Ihrer eigenen Musik verwenden , aber als schlechter Benutzer können Sie es für kommerzielle Zwecke verwenden Sie können KI-Modelle nicht anhand der generierten Audiodaten trainieren , da dies gegen deren Nutzungsbedingungen verstößt. Ich glaube, sie haben eine bessere Benutzeranleitung , wie man das benutzt. In der nächsten Vorlesung werden wir ein stabiles Audio testen , um zu sehen, ob es bessere Ergebnisse liefert. 6. Stabiles Audio ausprobieren: Okay, lassen Sie uns einen Blick darauf werfen und das stabile Audio testen. Ich werde dieselbe Aufforderung eingeben, Modern Chata. Es muss zuerst langsam sein, dann schnell und wieder langsam. Es muss ansible sein. Ich habe es nicht kopiert und eingefügt, also muss ich es noch einmal schreiben Lassen Sie uns einen Soundtrack mit dieser Beschreibung generieren. Außerdem haben Sie die Anleitung hier, wenn Sie die Bedienungsanleitung verwenden möchten. Mal sehen, Mutter und Pa Chata. Ich schätze, es dauert ein bisschen länger, aber wir müssen warten Okay, es wurde generiert. Das ist dasselbe. Nein, das klingt überhaupt nicht nach einer Bachata Mal sehen, was passiert, wenn ich Ersticken auf sinnlich umstelle. Aber das ist kein Bachata, der mich denken lässt, dass Google Vielleicht, weil sie mehr Trainingsdaten haben. Ich weiß nicht, aber lassen Sie uns dem eine Chance geben. Vielleicht stabiles Audio. War in diesen Genres nicht geschult . Vielleicht wurden sie mit, ich weiß nicht, Rock-Pop oder anderen Dingen trainiert . Nein, das klingt überhaupt nicht nach einem Chat. Mal sehen, indem ich die Eingabeaufforderung modifiziere, den typischen, typischen Chat-Bungle, werde ich die Stärke auf 100% einstellen. Mal sehen, ob durch eine solche Änderung der Aufforderung ein besseres Ergebnis erzielt wird Nein, nein, nein, nein. Wir haben gesehen, dass stabiles Audio beim Generieren des API-Chat fehlschlägt. Aber auch hier kannst du es mit verschiedenen Genres versuchen. Vielleicht erzeugt es besseren Rock. Ich weiß. 7. Schlussbemerkung: Was ist die Schlussfolgerung hier? Du kannst jetzt deine eigene Musik mit Musik schreiben. Elem, das von Google Research entwickelt wurde, wurde entwickelt, um Musik auf der Grundlage von Texteingaben zu erstellen Dieses Metall ist in der Lage, über längere Zeiträume qualitativ hochwertige Musik zu produzieren , die den bereitgestellten Textanweisungen zum Experimentieren mit Musik entspricht. L M Man kann sich ab Dezember 2023 für die KI-Testküche registrieren . Für diejenigen, die ausschließlich an Beispielausgaben interessiert sind, ist der Besuch der Google-Recherche-Website jedoch der Besuch der Google-Recherche-Website eine alternative Option Wir haben es auch mit stabilem Audio versucht, aber wir haben festgestellt, dass Music LM besser darin war, Pachata zu erzeugen Ich verkaufe hier Pata, weil das das einzige Genre ist, das wir generiert haben Du musst andere Arten von Musik ausprobieren weil sie vielleicht besser darin ist, Rock zu erzeugen, ich weiß es nicht, aber ich bin ein Fan von Ba Chata Ich liebe es Bachata zu hören. Ich war enttäuscht von stabilen Audioausgängen. Musical war stabilem Audio weit überlegen . Vergiss nicht, mir in den sozialen Medien zu folgen. Du kannst meinem Discord-Kanal beitreten, du kannst mir in Scra folgen und du kannst meinen Jet-Kanal abonnieren Ich wünsche dir viel Spaß beim Diskurs. Wir sehen uns im nächsten Kurs.