Vertieftes Lernen: Die Grundlagen für absolute Anfänger:innen | Jason | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Vertieftes Lernen: Die Grundlagen für absolute Anfänger:innen

teacher avatar Jason, Developer / Researcher

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Kurs-Trailer

      1:19

    • 2.

      Einführung in Deep Learning

      4:06

    • 3.

      Was sind neuronale Netzwerke?

      0:43

    • 4.

      Lernprozess eines neuronalen Netzwerks

      5:50

    • 5.

      Aktivierungsfunktionen

      10:31

    • 6.

      Verlust-Funktionen

      1:03

    • 7.

      Optimierer

      6:25

    • 8.

      Parameter vs. Hyperparameter

      1:49

    • 9.

      Epochen, Chargen, Chargengrößen und Iterationen

      2:18

    • 10.

      Schlussbemerkung zu Terminologien

      0:52

    • 11.

      Regularisierung

      4:56

    • 12.

      Einführung in das Lernen

      0:14

    • 13.

      Überwachtes Lernen

      4:48

    • 14.

      Unbeaufsichtigtes Lernen

      3:17

    • 15.

      Verstärkungslernen

      2:47

    • 16.

      Einführung in neuronale Netzwerkarchitekturen

      0:12

    • 17.

      Vollständig verbundene Feed-Forward-Neuronale Netzwerke

      2:26

    • 18.

      Wiederkehrende neuronale Netzwerke

      10:34

    • 19.

      Faltungsneuronale Netze

      3:27

    • 20.

      Die 5 Schritte zum Aufbau eines Deep-Learning-Modells

      0:14

    • 21.

      Daten und Datensätze sammeln

      3:03

    • 22.

      Daten vorverarbeiten

      7:35

    • 23.

      Training deines Modells

      0:28

    • 24.

      Dein Modell bewerten

      0:21

    • 25.

      Die Genauigkeit deines Modells optimieren

      5:20

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

379

Teilnehmer:innen

--

Projekt

Über diesen Kurs

Neugierig auf künstliche Intelligenz, weißt aber nicht, wo du anfangen sollst? Beginne mit Deep Learning – was es ist und was nicht, und wie es heute einen Großteil unseres Lebens beeinflusst.

Du lernst die wichtigsten Trends hinter Deep Learning kennen und wie Maschinen Daten verarbeiten und sie nutzen, um nützliche Vorhersagen zu treffen, die unser Leben jeden Tag einfacher machen. 

Die Kurseinheiten sind vollgepackt mit Tools und Tipps für Anfänger:innen, Fortgeschrittene und Neugierige. Dieser Kurs behandelt:

  • Künstliche neuronale Netzwerke (und wie sie lernen)
  • In der Branche verwendete Kernterminologien
  • Voll verbundene neuronale Netze
  • Wiederkehrende neuronale Netzwerke
  • Faltungsneuronale Netze
  • Meine 5 Schritte zum Aufbau deines eigenen Deep Learning-Modells (mein persönlicher Favorit!)

… und vieles mehr! Ein paar Stunden reichen aus, um dich auf den neuesten Stand zu bringen und zu erfahren, worum es bei dem ganzen Hype geht. Wenn du Angst vor KI hast, kannst du diese Angst am besten zerstreuen, wenn du verstehst, wie sie wirklich funktioniert!

Nimm an diesem Kurs teil – ich denke, es wird dir Spaß machen!

Triff deine:n Kursleiter:in

Teacher Profile Image

Jason

Developer / Researcher

Kursleiter:in

AI Research at Harvard, Computer Vision practitioner, Part-time Compiler Warlock.

Vollständiges Profil ansehen

Level: All Levels

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Kurs-Trailer: Sie haben wahrscheinlich in den Nachrichten gelesen. Ein Deep Learning ist das Geheimrezept vieler spannender Entwicklungen und hat viele unserer Welten Träume gemacht . Und vielleicht werden auch Albträume wahr. Wer hätte gedacht, dass Deep Mines Alphago Lisa Dole in einem Bootsspiel schlagen könnte, das mehr mögliche Bewegungen bietet, als es Atome im gesamten Universum gibt? Viele Leute, auch ich, auch ich, haben es nie kommen sehen. Es ist sogar unmöglich, aber es ist jetzt hier. Deep Learning ist überall. Es schlägt Ärzte, Krebs zu diagnostizieren. Es ist verantwortlich für die Übersetzung von Webseiten und die Anzahl von Sekunden in die autonomen Fahrzeuge. Von William Only Tesla. Hallo, mein Name ist Jason und willkommen an dieser Küste und Deep Learning, wo Sie alles lernen, was Sie brauchen, um mit Deep Learning und Python zu beginnen. Wie man bemerkenswerte Algorithmen baut, die in der Lage sind, komplexe Probleme zu lösen, war vor wenigen Jahrzehnten möglich . Wir reden über das Brett. Deep Learning ist ein Unterschied zwischen künstlicher Intelligenz und maschinellem Lernen. Ich werde neue Nackenbücher vorstellen, was sie sind und wie wichtig sie für Tiefenblasen sind. Sie werden lernen, wie Deep Learning Modelle trainieren und lernen und wie der Schritt Associate ID betreutes, unbeaufsichtigtes und verstärktes Lernen zu lernen. Wir werden über Verlustfunktionen sprechen, den Bewertungsalgorithmus, die verschiedenen Arten neuer Netzwerkarchitekturen und die Schritte im Deep Learning optimieren die verschiedenen Arten neuer Netzwerkarchitekturen und die Schritte im Deep . Also, was wartest du heute auf Kontrolle und ich sehe dich an der Küste. 2. Einführung in das Deep Learning: die gesamte Küste konzentriert sich auf den Begriff des Deep Learning. Aber was ist es? Deep Learning ist eine Teilmenge Maschine Summen, die wiederum eine Teilmenge der künstlichen Intelligenz ist, die allein traditionelle Methoden beinhaltet. Repräsentationen direkt aus Daten Machine Learning beinhaltet die Lehre von Computern, Muster in Daten auf die gleiche Weise zu erkennen, wie unser Gehirn zu tun treibt Menschen. Es ist leicht für uns, zwischen einer Katze in einer Dunkelheit zu unterscheiden, aber es ist viel schwieriger, einer Maschine beizubringen, dies zu tun. Und wir werden später in den Schotten mehr darüber reden. Bevor Sie damit tun, möchte ich Ihnen ein Gefühl für die erstaunlichen Erfolge des Deep Learning in der Vergangenheit geben. 1997 Gary Kasparov, der erfolgreichste Champion in der Geschichte des Schachs, der IBM verloren hat, ist Deep Blue, eines der ersten Computer künstliche Systeme. Es war die erste Niederlage eines amtierenden Schachweltmeisters durch Computer Im Jahr 2011 trat IBM Watson in der Game-Show Jeopardy gegen seine Champions, Brad Rutter und Ken Jennings, und gewann den ersten Preis $1.000.000 in 2015 Alphago, ein Deep Learning Computer-Programm von Google Deepmind Division erstellt, besiegte Lisa Door und 18 Mal Weltmeister und gehen ein Spiel von Google mehr Male komplex und Schach. Aber Deep Learning kann mehr als nur sein. Tut es beide Spiele. Es findet überall Anwendungen, von selbstfahrenden Fahrzeugen bis hin zur Erkennung von gefälschten Nachrichten, sogar bei der Vorhersage von Erdbeben. Das waren erstaunliche Momente, nicht nur weil Maschinen die Menschen bei ihren eigenen Spielen schlagen, sondern auch wegen der unendlichen Möglichkeiten, die er eröffnete. Was auf solche Ereignisse folgte, waren die gravierenden Durchbrüche bei künstlicher Intelligenz, maschinellem Lernen und, ja, ja, Deep Learning. Um es einfach auszudrücken, ist Deep Learning eine Machine Learning-Technik, die lernt, Funktionen und Aufgaben direkt aus Daten durch Ausführen von Eingaben durch eine biologisch inspirierte Ihre Netzwerkarchitektur. Diese neuronalen Netzbücher enthalten eine Reihe von versteckten Schichten. Die reichhaltigen Daten werden verarbeitet , damit die Maschine tief in ihr Lernen geht, Verbindungen herstellen und Input für die besten Ergebnisse abwägen. Wir gehen im nächsten Video in Ihre Notizbücher über. Warum also Deep Learning? Das Problem mit traditionellen maschinellen Lernalgorithmen ist, dass, egal wie komplex sie werden, sie sind immer Maschine, wie sie eine Menge von Domain-Expertise, menschliches Eingreifen benötigen und nur dazu fähig sind, wofür das Design. Zum Beispiel, wenn ich Ihnen das Bild ihres Gesichts zeige, werden Sie automatisch sein Gesicht erkennen. Aber woher sollte ein Computer wissen, was das ist? Nun, wenn wir dem traditionellen maschinellen Lernen folgen, müssten wir manuell und mühsam auf einen Computer definieren, wenn er konfrontiert ist. Zum Beispiel hat es Augen, Jahre und Monat. Aber jetzt, wie definieren Sie ein Auge oder einen Betrag für einen Computer? Nun, wenn Sie auf ein Auge schauen, die Ecken in einem Winkel, die definitiv Nein. 90 Grad die definitiv Nein. Null Grad, dass einige Zwietteln zwischen so konnten wir damit buchen und einen Klassifikator trainieren um diese Art von Linien und bestimmte Orientierungen zu erkennen. Das ist kompliziert für mich, ich Petenten und den Rest der Welt. Das ist, wo Deep Learning ein bisschen Versprechen hält. Die Schlüsselgedanke in Deep Learning ist, dass Sie diese Funktionen nur aus den Rohdaten lernen können , damit ich eine Reihe von Bildern von Gesichtern zu meinem Deep-Learning-Algorithmus füttern kann, und es wird eine Art hierarchische Darstellung von Detektivlinien und Kanten und dann mit diesen Linien und Kanten, um Augen und einen Mund zu erkennen und es zusammen zu komponieren , um letztlich Detektiv Gesicht. Wie sich herausstellte, existieren die zugrundeliegenden Algorithmen für das Training dieser Modelle schon lange. Also, warum hat sich tiefer in der Popularität zu gewinnen? Viele Decks später? Nun, für einen Tag wurde ein viel mehr durchgängig im Zeitalter von Big Data leben, und diese Algorithmen erfordern eine massive Menge an Daten effektiv implementiert werden. Zweitens verfügen wir über Hardware in der Architektur, die in der Lage ist, die enorme Datenmenge und Rechenleistung zu verarbeiten , die für diese Algorithmen Hardware erforderlich ist, die vor einigen Jahrzehnten einfach nicht verfügbar war . Drittens, das Erstellen und Bereitstellen dieser Algorithmenmodelle, wie ich es nannte, ist extrem optimiert mit der zunehmenden Popularität von Open-Source-Software wie Tensorflow und Pytorch. 3. Was sind Neuronale Netze?: tiefen frühen Sterblichen bezogen sich auf die Ausbildung der Dinge. Cornu let box new let box bilden die Grundlage des Deep Learning, eine Teilmenge des maschinellen Lernens, wo Algorithmen von der Struktur des menschlichen Gehirns inspiriert sind , genau wie Nuance, bilden das Gehirn. Die grundlegenden Bausteine eines neuen Let Buck ist auch ein Neuron. Neue Net-Bücher nahmen Daten untereinander, um Muster in diesen Daten zu erkennen und Ausgänge für einen neuen Satz ähnlicher Daten in einem neuen Netzwerk vorherzusagen . Informationen werden über drei zentrale Komponenten verteilt, die die Grundlage für jede neue Netzwerkarchitektur bilden , den Eingabe-Layer, den Ausgabe-Layer und mehrere versteckte Layer zwischen den beiden. Im nächsten Video gehen wir über den Lernprozess eines neuen Netzwerks. 4. Lernprozess eines neuralen Netzwerks: der Lernprozess von Anu lassen, kann aber in zwei Hauptprozesse unterteilt werden. Vorwärtsausbreitung und Rückenausbreitung. Vollständige Verbreitung ist die Verbreitung von Informationen. Vom Eingabe-Layer zum Ausgabe-Layer. Wir können unsere Input definieren. Schichten Sie mehrere Neuronen, x eins zu rec Center. Diese Neuronen verbinden sich mit den Neuronen der nächsten Schicht über Kanäle, und sie sind numerische Werte, die als Gewichte bezeichnet werden, signiert. Die Eingänge werden zu den Gewichten multipliziert, und es gibt einige seiner Zentren Eingang zu den Neuronen in der versteckten Schicht, wo jedes Neuron wiederum mit einem numerischen Wert verbunden ist, der die Bias genannt wird, die dann dem Impotent hinzugefügt wird. Das hat gewartet. Einige werden dann durch eine nichtlineare Funktion geleitet, die Aktivierungsfunktion genannt wird, die im Wesentlichen die Vernunft dieses bestimmten Neurons zur nächsten Schicht beitragen kann. In der Ausgabe-Ebene. Es ist im Grunde eine Form der Wahrscheinlichkeit. Das Neuron mit dem höchsten Wert bestimmt, was der Ausgang schließlich ist. Also lasst uns ein paar Mal rüber gehen. Das Gewicht eines Neurons sagt uns, wie wichtig als dein eigenes ist. Je höher der Wert, desto wichtiger ist er in der Beziehung. Die Verzerrung ist wie die neue auf eine Meinung zu der Beziehung selbst ist es, die Aktivierungsfunktion nach rechts oder nach links zu verschieben . Wenn Sie Erfahrungen mit Highschool-Mathematik gemacht haben, sollten Sie wissen, dass das Hinzufügen der Wertskala zu einer Funktion ein Diagramm entweder nach links oder nach rechts verschiebt . Und genau das ist das, was die voreingenommene Ausbreitung der Aktivierungsfunktion nach rechts oder nach links hinten verschiebt , fast wie vier Ausbreitung, außer in umgekehrter Richtung. Informationen hier werden von der Ausgabe-Ebene an die ausgeblendeten Ebenen übergeben sind die Eingabe. Aber welche Informationen werden von der Ausgabe-Ebene weitergegeben? Soll unser Platz nicht die letzte Schicht sein, in der wir die endgültige Ausgabe bekommen? Nun, ja, aber keine Rückverbreitung ist der Grund, warum neue Net-Bücher so mächtig sind. Dies ist der Grund, wenn Ihre Netzwerke von selbst lernen können. Im letzten Schritt vor der Ausbreitung spuckt ein neues Netzwerk eine Vorhersage aus. Diese Vorhersage könnte zwei Möglichkeiten haben, entweder richtig oder falsch und zurück Ausbreitung. Das neue Netzwerk bewertet die Leistung und prüft, ob es richtig oder falsch ist. Wenn es falsch ist, verwendet das Netzwerk eine sogenannte Verlustfunktion, um die Abweichung von der erwarteten Ausgabe zu quantifizieren . Und es sind diese Informationen, die zurück an die versteckten Ebenen gesendet werden, damit das Gewicht und die Vorurteile angepasst werden, so dass die Netzgenauigkeit erhöht wird. Lassen Sie uns den Trainingsprozess mit dem Rial-Beispiel visualisieren. Nehmen wir an, wir haben einen Datensatz, diese Daten sagten, gibt uns das Gewicht des Fahrzeugs bei der Anzahl der Waren durch das Fahrzeug transportiert, und Ultra sagt uns, ob diese Fahrzeuge sind Ursache von Lastwagen. Wir wollen durch dieses Datenfach und neue Net-Bücher gehen, um vorherzusagen, dass unsere Lkw basierend auf ihrem Gewicht und geht an den Start. Lassen Sie uns das neue Net-Buch initialisieren, indem Sie ihm zufällige Gewichte und Laster geben. Das kann alles sein, was uns wirklich egal ist. Diese Werte sind so lang wie, dass es in der ersten Eingabe aus einem Datensatz, wir haben Fahrzeuggewicht gleich einem Wert, der in diesem Fall 15 und Waren wie zu. Demnach ist es ein Auto. Wir beginnen jetzt, diese Eingabedimensionen durch das neuere Netzwerk zu bewegen, also im Grunde, was wir tun wollen, ist, beide Eingaben zu nehmen, sie mit ihrem Gewicht zu multiplizieren und zu beraten, und hier passiert die Magie, wir laufen. Dies wartete einige durch eine Aktivierungsfunktion. Nehmen wir nun an, dass die Ausgabe dieser Aktivierungsfunktion 0.1 ist. Dies wird wiederum mit den Gewichten multipliziert und zu den bys und schließlich in der Ausgabe-Ebene hinzugefügt . Wir haben eine Vermutung. Nun, nach diesem neuen Net-Buch, die Art der legal mit Mai 15 und Waren hat eine größere Wahrscheinlichkeit, ein LKW. Natürlich ist es nicht wahr. Und eine neue Nettoprognose. Also benutzten wir die Vermehrung zurück. Wir werden den Unterschied zwischen dem erwarteten Ergebnis und der vorhergesagten Ausgabe quantifizieren indem wir fast Funktion in schlechter Ausbreitung verwenden, richtig? Ich gehe mit einem Justierer zurück. Anfangsgewicht berät. Denken Sie daran, dass wir während der Initialisierung des neuen Netzwerks völlig zufällig mit Ratschlägen gewählt haben, während wir Backpropagation machen. Diese Werte werden angepasst, um dem Vorhersagegesetz zugute kommen zu können. Okay, das war also ein interational durch das erste Stück des Datensatzes im zweiten Eintrag, wir haben Fahrzeuggewicht, 30 Leute und Waren 67. Wir werden den gleichen Prozess verwenden, bevor Mutter blutige Eingabe mit dem Gewicht und Alibis übergibt Ergebnis in eine Aktivierungsfunktion und wiederholt Ausgabeschicht, überprüfen Sie die Luft eine Differenz und verwenden Rückenausbreitung, um das Gewicht einzustellen. Die Verzerrung ist, dass Ihr neues Netzwerk diesen wiederholten Prozess der vier Ausbreitung fortsetzen wird , die Berechnung des Pfeils und dann die Rückausbreitung. Aber so viele Einträge gibt es auf diesem Datensatz, je mehr Daten Sie das neue Net-Buch geben, desto besser. Es wird das Recht vorhersagen. Aber es gibt einen Kompromiss, weil zu viele Daten und Sie mit einem Problem wie Überanpassung enden werden , das ich später in den Bereichen besprechen werde. Aber das ist im Wesentlichen, wie Manu Landarbeit funktioniert. Sie Feed Input, das Netzwerk initialisieren. Es war Zufallsgewicht und Laster, die jedes Mal während der Backpropagation angepasst werden, bis die Netzwerke gehen durch alle Ihre Daten und ist jetzt in der Lage, Vorhersagen zu machen. Dieser Lernalgorithmus lässt sich wie folgt zusammenfassen. Zuerst initialisieren wir die Netzwerkstimmung, Zufallswerte für die Netzwerke, Parameter oder den Weg von den Vorurteilen. Wir nehmen eine Reihe von Eingabedaten und leiten sie durch das Netzwerk. Wir vergleichen diese Prognosen erhalten mit den Werten der erwarteten Etiketten und berechnen den Verlust. Verwendung der Verlustfunktion. Wir führen die Ausbreitung zurück, um diesen Verlust auf jedes Gewicht und jede Vorspannung zu verbreiten . Wir verwenden diese verbreiteten Informationen, um die Gewichte und Laster des neuen Netzwerks mit dem großen in Abstieg Algorithmus so zu aktualisieren , dass die Gesamtverluste reduziert und im Gefechtsmorgen erhalten wird. Der letzte Schritt besteht darin, die vorherigen Schritte zu iterieren, bis wir bedenken, dass wir ein gutes Modell haben . 5. Aktivierungsfunktionen: in diesem Abschnitt werden wir darüber sprechen. Die häufigste Terminologie ist die Verwendung von Deep Learning. heute Beginnen wirheutemit der Aktivierungsfunktion. Die Aktivierungsfunktion dient dazu, eine sogenannte Nicht-Linearität in das Netzwerk einzuführen und entscheidet darüber hinaus, ob ein bestimmtes Neuron zur nächsten Schicht beitragen kann. Aber wie entscheidest du dich für das neue auf Kann feuern oder aktivieren? Nun, wir hatten ein paar Ideen, die zur Schaffung verschiedener Aktivierungsfunktionen führten. Die erste Idee, die wir hatten, ist, wie wäre es, wenn ich Ihr auf aktiviere, wenn es über einem bestimmten Wert oder Schwellenwert ist. Wenn dieser Schwellenwert kleiner ist als dieser Schwellenwert, aktivieren Sie ihn nicht. Aktivierungsfunktion A ist gleich Zehe aktiviert, wenn weise, große Beweise und Schwelle sonst ist es nicht. Dies ist im Wesentlichen eine Schrittfunktion. Seine Ausgabe ist eins oder aktiviert. Wenn der Wert größer als Null ist, wird seine Ausgabe aktiviert, wenn der Wert größer als ein Schwellenwert ist und die Ausgänge andernfalls nicht aktiviert sind. Großartig. So macht dies eine Aktivierungsfunktion für eine neue auf keine Verwirrungen. Das Leben ist perfekt, außer es gibt einige Nachteile damit. Um zu verstehen, denken Sie besser über das Vorwort nach. Denken Sie an einen Fall, wo Sie mehrere solcher Nuancen in Klassen klassifizieren möchten, die Klasse eine Klasse zu Klasse drei usw. Was passiert, wenn mehr als ein Neuron aktiviert wird? All diese Neuronen werden einen Brunnen ausgeben. Wie entscheidest du dich jetzt? Wie entscheidest du, welche Klasse von langem Rühren? Es ist kompliziert, oder? Sie möchten, dass das Net-Buch nur eine eigene aktivieren und rief, Es sollte Null sein, wenn. Dann werden Sie in der Lage sein zu sagen, dass es klassifiziert wurde. Wahrscheinlich ist es in der Praxis jedoch schwieriger, jedoch schwieriger,auf diese Weise konvergent zu trainieren. Es wäre besser. Die Aktivierung war nicht binär. Stattdessen wird ein wahrscheinlicher Wert, wie 75% aktiviert oder 16% aktiviert. Es besteht eine Chance von 75%, dass es zur Klasse gehört usw. dann Wenndannmehr als ein Neuron aktiviert wird, können Sie feststellen, welche Neuronbrände auf welcher Basis die höchste Wahrscheinlichkeit hat. Okay, vielleicht hast du dich selbst verloren. Ich möchte, dass etwas mir einen analogeren Wert gibt, anstatt nur aktiviert oder nicht aktiviert etwas anderes als in Binärdatei zu sagen . Und vielleicht wurdest du über eine lineare Funktion nachgedacht. Gerade Linienfunktion, bei der die Aktivierung proportional zur Eingabe durch einen Wertaufruf ist. Die Neigung der Linie auf diese Weise. Es gibt uns eine Reihe von Aktivierungen. Es ist also keine Reaktivierung zu kaufen, schwächen. Verbinde definitiv ein paar Neuronen miteinander. Und wenn mehr als eine feuert, könnten wir den maximalen Wert nehmen und basierend darauf zugewiesen. Also, das ist in Ordnung. Und was ist das Problem damit? Nun, wenn Sie fest in Dissens groß waren, was ich in nur ein wenig zu Ihnen kommen werde, werden Sie feststellen, dass die Ableitung einer linearen Funktion eine Konstante ist, macht Sinn, weil es langsame Bits ist und sich an jedem Punkt für eine Funktion. F X ist gleich toe MX plus. Sehen Sie, die Ableitung ist M. Dies bedeutet, dass die Einstufung überhaupt keine Beziehung zu X hat. Es gibt auch Mittel, dass während der Rückenausbreitung die Anpassungen an den Gewichten und Geräten auf abhängig von X überhaupt vorgenommen werden, und das ist keine gute Sache. hinaus darüber nach, Denken Sie darüberhinaus darüber nach,ob Sie Layer verbunden haben, unabhängig davon, wie viele Layer Sie haben. Wenn alle von ihnen linear in der Natur sind, ist die Aktivierungsfunktion der letzten Schicht nichts anderes als nur eine lineare Funktion der Eingabe des ersten Layer-Posterbettes. Und denk darüber nach. Das bedeutet, dass das gesamte neue Netbook von Dutzenden von Schichten durch eine einzige Schicht ersetzt werden kann . Denken Sie daran, dass eine Kombination linearer Funktionen in linearer Weise immer noch eine weitere lineare Funktion ist. Und das ist schrecklich, weil wir gerade die Fähigkeit verloren haben, Leahs so zu beurteilen. Egal, wie viel Sie wieder stank, das ganze Netzwerk immer noch äquivalent zu einem einzigen dort mit einer einzigen Aktivierung. Als nächstes haben wir eine Sigmoid-Funktion, und wenn Sie jemals ein Video Inaktivierungsfunktionen gesehen haben, ist dies die Art der Funktion Jahre in den Beispielen. Eine Sigmoid-Funktion ist definiert, um zu sagen, ob X gleich 1/1 plus e zum negativen X gut ist, dies sieht glatt und irgendwie wie eine Schrittfunktion aus, was seine Vorteile über sie für einen Moment denken . Während die ersten Dinge zuerst, ist es bekannt, lineare Natur. Kombinationen von Dysfunktion sind auch nichtlinear. Großartig, um jetzt Stapel seit Jahren zu schwächen. Was ist mit Norm Kauf einer Wieder Aktivierungen? Ja, das zu dieser Funktion aus setzt es auf die Log-Aktivierung wie Step-Funktion und hat auch ein kleines Radio. Vorteil dieser Aktivierungsfunktion ist, dass im Gegensatz zur linearen Funktion die Ausgabe dieser Funktion im Bereich 01 umfasst im Vergleich zur negativen Unendlichkeit bis Unendlichkeit der letzteren liegen wird. Also haben wir eine Aktivierung im Bereich gebunden und das wird die Aktivierungen nicht explodieren, und das ist großartig. Und Signalfunktionen sind heute eine der am häufigsten verwendeten Aktivierungsfunktionen. Aber das Leben ist nicht immer rosig und signalisiert, dass es dazu neigt, die Aktien Nachteile zu haben. Wenn Sie genau hinsehen zwischen X ist gleich negativ zwei und X gleich zwei. Die Y-Werte sind sehr steil. Jede kleine Änderung der Werte von X in dieser Region ruft Werte von wide auf, um sich drastisch zu ändern . Auch gegen Ende der Funktion reagieren die weißen Werte sehr weniger. Es ändert sich die nächste Note in diesen Regionen. Es wird wirklich, wirklich klein, fast Null, fast Null, und es gibt Anlass zu dem verschwindenden Grady in Problem. Wir sind genau so. Wenn der Eingang der Aktivierungsfunktion groß oder klein ist, wird das Signal das auf einen Wert zwischen Null und Eins zerquetschen, und das Grau wurde nicht ausgeschaltet. Dysfunktion wird wirklich klein, und Sie werden sehen, warum, wenn wir über stark Anstoß sprechen. Das ist ein riesiges Problem. Eine weitere Aktivierungsfunktion, die verwendet wird. Es ist eine Bräune. Jede Funktion Dies sieht der Signalisierung sehr ähnlich. In der Tat, mathematisch, ist dies eine sogenannte verschiebte Sigmoidfunktion. Okay, so wie das Sigma, hat es Eigenschaften, die wir oben besprochen haben. Es ist in der Natur bekannt, so dass wir Spieler starten können, ist es verpflichtet, von negativen wollte ein zu arrangieren. Es gibt also keine Sorge, dass die Aktivierungen explodieren. Die Ableitung der Tangentenfunktion jedoch ist jedochsteiler als die des Sigmas. Also die Entscheidung zwischen dem Sigma und der tan ege würde wirklich von Ihrer Anforderung des großen Interesses abhängen . Wie sigmoid, Tanager ist auch sehr beliebt und weit Jahre Aktivierungsfunktion. Und ja, ja, wie der sigmoide Tanager Tanz, haben ein verschwindendes Ridean-Problem. Die Rectifying LTD Einheit, oder Wert-Funktion, ist uns definiert. Wenn X gleich dem Maximum von Null investiert ist, würde dies wie eine lineare Funktion aussehen. Rechts Graph ist linear in den Teilen des Zugangs, Lassen Sie mich Ihnen sagen, eher war in der Tat, bekannte lineare Natur und Kombinationen von relativen sind auch nichtlinear. Großartig, Das bedeutet also, dass wir Spieler stehen können. jedoch Im Gegensatz zu den vorherigen beiden Funktionen wirdjedochdiskutiert wird nicht der Bereich des Ray Lewis von Null bis unendlich begrenzt . Dies bedeutet, dass es eine Chance gibt, die Aktivierung zu sprengen. Ein weiterer Punkt, der hier diskutieren möchte, ist eine Passage e aus einer Aktivierung. Stellen Sie sich ein großes neues Netzwerk mit vielen Neuronen vor. Verwendung eines Sigmas oder einer Bräunung verursacht fast alle Neuronen auf analoge Weise Feuer. Dies bedeutet, dass fast alle Aktivierungen verarbeitet werden, um die Netzwerkausgabe zu beschreiben. Mit anderen Worten, die Aktivierung wird Schulden sein, und das ist teuer. Idealerweise möchten wir, dass nur wenige Neuronen im Netzwerk aktiviert werden, und es geht darum, den Aktivierungs-Ehegatten und effizient zu machen. Hier ist, wo die Rallye kommt in, vorstellen, und Netzwerk wurde zufällig initialisiert wartet auf fast 50% des Netzwerks Sie Null Aktivierung . Aufgrund des charakteristischen Relativen es Null für negative Werte von X aus. Dies bedeutet, dass nur 50% der Neuronen spärliche Aktivierung abfeuern, wodurch das Netzwerk leichter wird. Aber wenn das Leben Ihnen einen Apfel gibt, kommt es mit ein wenig warm im Inneren. Aufgrund dieser horizontalen Linie im Wert für negative Werte von X ist das geriebene in diesem Bereich Null, was bedeutet, dass eine dauerhafte Rückausbreitung. Das Warten wird während des Abstiegs nicht angepasst. Dies bedeutet, dass jene Nuance, die in diesen Zustand gehen, nicht mehr auf Variationen in der Ära reagieren , einfach weil die Nullstufung nichts ändert. Das nennt man das sterbende wirklich Problem. Dieses Problem kann sieben Yuan verursachen, also einfach sterben und nicht reagieren. Das macht einen wesentlichen Teil des Netzwerks passiv und nicht das, was wir wollen, nachdem es Arbeitsumgehungen für diese gibt, besonders ist es, die horizontale Linie einfach in eine nicht-horizontale Komponente zu machen, indem Sie eine Neigung hinzufügen . Normalerweise ist die Steigung um 10.1 Auf dieser, diese neue Version des Ray Lewis genannt Leaky Value. Die Hauptidee ist, dass die Einstufung nie 01 Hauptvorteil des relevanten sein sollte, ist die Tatsache, dass es weniger Berechnung ist, die teure als Funktionen wie zu verwalten und sigmoid, weil es Symbol, ein mathematisches -Operationen. Dies ist ein wirklich guter Punkt, den Sie berücksichtigen sollten, wenn Sie Ihre eigenen tiefen neuronalen Netzwerke entwerfen . Großartig. Jetzt stellt sich die Frage, welche Aktivierungsfunktion wegen der Vorteile verwendet werden soll, die eher bietet? Bedeutet das, dass Sie alles, was Sie tun, verwenden sollten. Oder könntest du Sigmas und Schäden in Betracht ziehen? Nun, beides. Wenn Sie wissen, dass die Funktion, die Sie zu nähern versuchen, bestimmte Eigenschaften hat, sollten Sie eine Aktivierungsfunktion wählen, die jedoch die Funktion schneller annähert, zu schnelleren Trainingsprozessen führt. Zum Beispiel funktioniert eine Sigmoid-Funktion gut bei binären Klassifizierungsproblemen, da das Annähern eines Klassifikators Funktionen als Kombinationen des Schilds einfacher ist als vielleicht der relative. Diese Erleichterung von schnelleren Trainingsprozessen und größere Konvergenz können Sie Ihre eigenen benutzerdefinierten Funktionen verwenden . Wenn Sie die Art der Funktion, die Sie zu lernen versuchen, nicht kennen, würde ich vorschlagen, dass Sie bei Verwandten stehen und dann von dort rückwärts arbeiten, bevor wir zum nächsten Abschnitt übergehen . Ich möchte darüber sprechen, warum wir bekannte lineare Aktivierungsfunktionen im Gegensatz zu jedermanns verwenden. Wenn Sie sich in meiner Definition erinnern, off Aktivierungsfunktionen, erwähnte ich, dass die Aktivierungsfunktion dazu diente, etwas namens Naledi bereits im Net Buch für alle intensiven Zwecke zu tun. Die Einführung von Nicht-Linearität bedeutet einfach, dass Ihre Aktivierungsfunktion lang linear sein muss. Das ist keine gerade Linie. Mathematisch lineare Funktionen, entsetzt, ein normaler Grad, eine, die in der X Y-Ebene transplantiert wurden, sind gerade Linien, die zur X-Achse bei einem bestimmten Wert geneigt sind. Wir nennen dies die Steigung der Linie. Keine neuen Funktionen auf Normalen von Grad größer als eins, und wenn grob, das tun Form Straßenkredite statt mehr Code. Wenn wir lineare Aktivierungsfunktionen verwenden, um Daten zu modellieren, egal wie viele versteckte Ebenen und Netzwerk-Hände, wird es immer gleichwertig mit einem einzigen Tag im Netzwerk und im Deep Learning. Wollen Sie in der Lage sein, morgens jedes Mal Daten mit, dass eingeschränkt, wie es der Fall sein sollte, sollten Kreditfunktionen verwendet werden. 6. Loss: haben wir zuvor im Lernprozess von New Net-Bücher diskutiert, dass wir mit Zufallsgewicht und Vorurteilen begonnen haben . Das neue und ich setzen macht eine Vorhersage. Diese Vorhersage wird mit der erwarteten Leistung verglichen und das Gewicht und die Schraubstöcke entsprechend angepasst. Nun, Lois Funktionen des Grundes, dass wir in der Lage sind, diese Differenz wirklich einfach verlorene Funktion zu berechnen , ist eine Möglichkeit, die Abweichung der vorhergesagten Ausgabe durch das neue Netzwerk auf die erwartete Ausgabe zu quantifizieren , so einfach ist, dass nichts Mote, nicht weniger. Es gibt viele los Funktionen da draußen. Zum Beispiel, unter Regression, haben wir Quadrat jemals verloren, absolut jemals verloren in Kuba, Verlust und Kauf einer Reklassifizierung. Wir haben sehr enge Entropie und Scharnierverlust und Multi Classification Probleme. Wir haben die Mutterklasse Kreuzentropie auf den Callback Verleumdung oder Ablenkungsverlust, und so eine. Die Wahl der besten Funktion hängt wirklich davon ab, welche Art von Projekt der Arbeit an verschiedenen Projekten waren ganz unterschiedliche Verlustfunktionen. Jetzt will ich jetzt keine weiteren Verlustfunktionen sprechen. Wir tun dies unter dem Optimierungsabschnitt, weil das ist wirklich, wo die meisten Funktionen verwendet werden verwendet werden 7. Optimizers: lesen Sie im vorherigen Abschnitt F mit verlorenen Funktionen mit Ihren mathematischen Methoden zu messen wie falsche Vorhersagen von neuen Netzwerker gemacht Während des Trainingsprozesses, wir optimieren und ändern die Parameter der Gewichte des Modells, um zu versuchen und zu minimieren, dass Verlustfunktion und Make-up-Sucht so richtig und optimieren wie möglich. Aber wie genau machen Sie das? Wie ändern Sie die Parameter der unsterblich, wie viel und wenn wir die Zutaten haben, Wie machen wir den Kuchen? Hier kommen Optimierungen ins Spiel. Sie versuchen, die verlorene Funktion auf moralische Parameter oder die Gewichtsberater zu erhalten, indem das Netzwerk als Reaktion auf die Ausgabe der verlorenen Funktion aktualisieren. in einfacheren Städten Optimiertin einfacheren Städtendie Form und formt Ihr Modell in präzisere Modelle, indem Sie die Gewichte und Verzerrungen anpassen . Die Verlustfunktion ist ihr Leitfaden. Er teilt dem Optimierer mit, ob er sich in die richtige oder falsche Richtung bewegt. Willst du das besser schicken? Stellen Sie sich vor Hattest du gerade Grünkohl Mount Everest? Und jetzt entscheidest du dich, den Berg blind nach vorne hinabzusteigen. Es ist unmöglich zu wissen, in welche Richtung man gehen soll. Du könntest entweder nach oben gehen, was weg von vor ist oder runtergehen. Wir sind nur Worte. Du gehst, aber sie fangen an. Du würdest Schritte unternehmen. Mit deinen Füßen kannst du messen, ob du nach oben oder unten gehst. In dieser Analogie ähneln Sie dem neueren Netzwerk. Ich gehe runter. Ihr Ziel ist es, den Fehler zu minimieren. In Ihren Füßen sind Ähnlichkeit der los Funktionen, die sie messen, ob Sie auf den richtigen Weg oder auf die falsche Weise gehen. Ebenso ist es unmöglich zu wissen, was Ihre Morgengewichte von Anfang an sein sollten. Aber mit etwas Versuch und Irrtum, basierend auf der verlorenen Funktion, könnten Sie schließlich dorthin gelangen. Aber wir kommen jetzt zur Abstufung. Oft als Großvater von Optimizers bezeichnet, Grading Abstieg ist ein iterativer Algorithmus, der ein bisschen Zufallspunkt der Verlustfunktion beginnt und diese Steigung in Schritten hinunter reiste, bis er den Louis Point mit einem Minimum an Funktion erreicht es ist die beliebteste Optimierung heute wiederverwendet. Es ist schnell, robust und flexibel, und so funktioniert es. Aber wir können nicht führen, was für eine kleine Veränderung in jedem einzelnen Gewicht. Aufgrund der Verlustfunktion hatten wir nur jede einzelne Rate basierend auf seinem gierigen int, dh einen kleinen Schritt in die bestimmende Richtung machen. Der letzte Schritt besteht darin, den ersten und den zweiten Schritt zu wiederholen, bis die verlorene Funktion so niedrig wie möglich wird. Ich möchte über diesen Begriff einer großen Tante sprechen. Der Grady int einer Funktion ist der Vektor der partiellen Ableitungen in Bezug auf alle unabhängigen Variablen. Das große in zeigt immer in Richtung des steilsten Zuwachses der Funktion. Angenommen, wir haben ein Diagramm wie so, mit Verlust auf der Y-Achse auf dem Wert der Gewichtung auf der X-Achse, haben wir hier einen kleinen Datenpunkt, der dem zufällig initialisierten Warten entspricht, um eine langsame zu minimieren. Um diesen Datenpunkt des Minimums mit Funktion zu erhalten, müssen wir das negative Gitter nehmen. Und da wir die steilste Abnahme und Funktion finden wollen, geschieht dieser Prozess. Interpretive tödliche OSIs so minimiert möglich, und das ist groß und abgestiegen. Auf den Punkt gebracht. Beim Umgang mit hochdimensionalen Datensätzen steht das viel zur Verfügung. Es ist möglich, dass Sie sich in einem Bereich finden, in dem es scheint, als ob Sie vor kurzem möglichen Wert für Ihre Verlustfunktion waren , aber in Wirklichkeit ist nur ein lokales Minimum, um zu vermeiden, in einem lokalen Minimum stecken bleiben. Wir stellen sicher, dass wir eine angemessene Lernrate verwenden. Änderung erwartet zu schnell, indem zu viel hinzugefügt oder subtrahiert wird. Das heißt, Schritte, die zu groß oder zu klein sind, können Ihre Fähigkeit behindern, die Verlustfunktion zu minimieren . Wir wollen keinen Sprung so groß machen, dass wir den optimalen Wert für eine gegebene Wartezeit überspringen um sicherzustellen, dass dies nicht geschieht. Wir verwenden eine Variable namens Lernrate. Wenn dieses Ding ist in der Regel nur eine kleine Zahl wie Point the Receiver eine, die wir multiplizieren das Grün in Kauf zurück zu skalieren, dies stellt sicher, dass alle Änderungen, die wir alle machen, eine ziemlich kleine in Mathe Talk warten. Die Schritte, die zu groß sind, können bedeuten, dass der Algorithmus niemals zu einem Optimum konvergieren wird. Gleichzeitig wollen wir keine Schritte unternehmen, die zu klein sind, denn dann könnten wir nie mit den richtigen Werten enden. Für alle Raten in Mathematik können Sprechschritte, die zu klein sind, dazu führen, eine Konvergierung auf einem lokalen Minimum für die Verlustfunktion zu optimieren , aber nie das absolute Minimum für eine einfache Zusammenfassung. Denken Sie daran, dass die Lernrate dafür sorgt, dass wir unser Gewicht im richtigen Tempo ändern und keine Änderungen vornehmen, die zu groß oder zu klein sind. Anstatt die Grady INts zu berechnen, all Ihre Trainingsbeispiele auf jedem Grabdurchgang in Prozent es manchmal mehr Fischen nur eine Teilmenge der Trainingsbeispiele jedes Mal zu verwenden. Sarkastische Klasse in Dissens ist eine Implementierung, die entweder Chargen von Beispielen zu einem Zeitpunkt für zufällige Beispiele auf jedem Durchgang verwendet . Bleiben Sie Gas vereinbart. Zu diesem Zweck, Jahre des Konzepts von Momentum Impuls sammelt Grady INs der vergangenen Schritte, um zu diktieren, was in den nächsten Schritten passieren könnte. auch Da wir nicht das gesamte Trainingsset enthalten, ist S g dauchweniger rechnerisch, teuer. Es ist schwer zu übersagen, wie beliebt Abstammung wirklich ist. Zurück Propagation ist im Grunde Gitter Abstieg in einem Netzwerk implementiert. Sie sind alle Registerkarten der optimiert Verstrebungen, groß in Dissens, die heute verwendet werden, und ein Grab passt die Lernrate speziell an einzelne Funktionen an, dann bedeutet, dass ein Teil des Gewichts in Ihrem Datensatz unterschiedliche Lernergebnisse haben Preise als andere. Dies funktioniert wirklich gut für spärliche Datensätze, wo viele Eingabebeispiele fehlen. Adigrat hat ein großes Problem, obwohl die adaptive Lernrate dazu neigen, wirklich kleine Überstunden zu bekommen . RMS prop ist eine spezielle Version von Adigrat, entwickelt von Professor Geoffrey Hinton. Anstatt sich alle Grade Ians aus Schwung ansammeln zu lassen, sammelt es Grüße in einem festen Fenster an. RMS-Prop ist ähnlich wie eine Requisite hinzuzufügen, die ein weiterer Optimierer ist, der versucht, einige der Probleme zu lösen, die bei einem Grand offen lässt , Adam für adaptive Moment-Schätzung steht und eine andere Möglichkeit ist, frühere Glaubwürdigkeit zu verwenden berechnen Sie den Kohlenstoffstrahlungsstoff. Adam nutzt auch das Konzept von Momentum, was im Grunde unsere Art ist, dem neuen linken Fehler mitzuteilen, ob wir Passänderungen wollen, um die neue Änderung zu beeinflussen. Durch das Hinzufügen von Fraktionen der vorherigen großen Ins zum aktuellen, Dieser Optimierer ist ziemlich weit verbreitet geworden, und es ist praktisch für den Einsatz in der Ausbildung neuer Netzwerke akzeptiert. Es ist leicht, sich in der Komplexität einiger dieser neuen Optimierer zu verlieren. Denken Sie daran, dass sie alle das gleiche Ziel haben. Minimierung der Verlustfunktion und Versuch und Irrtum werden Sie dorthin 8. Parameter VS Hyperparameters: Sie haben mich vielleicht gehört, sich auf die Wörter Parameter ziemlich viel zu beziehen, und oft wäre dies mit den bändigen Hyper-Parametern und diesem Video verwechselt. Ich werde den grundlegenden Unterschied zwischen den beiden skizzieren. Ein moderner Parameter ist eine Variable, die intern für das neue Netzwerk ist und deren Werte aus den Daten selbst geschätzt werden können . Sie werden vom Modell benötigt, wenn Sie Vorhersagen machen. Diese Werte definieren die Fertigkeit aus dem Modell für Ihr Problem. Sie können direkt vom Hirsch geschätzt werden und werden oft nicht manuell vom Petenten festgelegt . Und oft, wenn Sie Ihr Modell speichern, sparen Sie im Wesentlichen Ihre Sterblichen. Parameter. Parameter sind der Schlüssel für maschinelles Lernen Algorithmen, und Beispiele hierfür sind das Gewicht und die Verzerrungen. Ah, hyper-Parameter ist eine Konfiguration, die außerhalb des Modells ist und deren Wert nicht aus Daten geschätzt werden kann . Es gibt keine Möglichkeit, dass wir den besten Wert für ein Modell Hyperparameter finden können. Bei einem bestimmten Problem können wir Regeln von Daumenkopie-Werten verwenden, andere Probleme verwenden oder nach dem besten Wert suchen, indem wir einen Fehler versuchen. Wenn ein Algorithmus für maschinelles Lernen auf ein bestimmtes Problem abgestimmt ist, z. B. wenn Sie eine große Suche nach zufälliger Suche verwenden, dann haben Sie tatsächlich die Hyperparameter des Modells optimiert. Um die Parameter entdeckt, die die meisten sorgfältigen Vorhersagen resultierten. Moralische Hyperparameter werden oft als Parameter bezeichnet, die Dinge verwirrend machen können. Also eine gute Faustregel, um diese Verwirrung zu überwinden, ist wie folgt. Wenn Sie einen Parameter manuell angeben müssen, dann sind es wahrscheinlich, ah, hyper Parameter. Erdlinge sind im Himmel bis zum Morgen selbst. Einige Beispiele für Hyperparameter sind die Lernrate für das Training, ein neues Netzwerk, siehe in Sigma, Hyperparameter für Sportvektormaschinen am Schlüssel und Can Uris Nachbarn. 9. Epochen, Batches, Batches und Batches: Wir brauchen Terminologien wie Epochen, schlechte Größe und Inspirationen nur, wenn die Daten zu groß sind, was ständig im maschinellen Lernen passiert und wenn wir nicht alle diese Daten auf einmal an den Computer weitergeben können . Um dieses Problem zu überwinden, müssen wir den Datensatz in kleinere Stücke teilen, geben Sie ihn einem Computer eins nach dem anderen beim Aktualisieren des Gewichts des neuen Netzwerks am Ende jedes Schritts , um es in die Daten zu passen. Angesichts einer Epoche ist, wenn eine ganze Daten, die vorwärts auf rückwärts durch das Netzwerk weitergegeben wird . Einmal in einer Mehrheit der Deep Learning Modelle verwenden wir in einer Mehrheit der Deep Learning Modellemehr als eine Epoche. Ich weiß, dass es am Anfang Sinn macht. Warum brauchen wir eine Politik? Ganze Daten sagten oft durch das gleiche in Ihrem Netzwerk, übergeben den gesamten Datensatz über das Netzwerk auf, sobald es versucht, den gesamten Text eines Songs zu lesen . Sobald er sich nicht sofort an den gesamten Song erinnern kann, muss man den Text noch ein paar Mal lesen, bevor man sagen kann, dass man den Song durch Erinnerung kennt. Dasselbe gilt für das neue Netzwerk. Wir haben die Daten mehrmals durch das neue Netzwerk übergeben, so dass es in der Lage, eine bessere Abstufung Abstieg zu verallgemeinern ist ein iterativer Prozess. Und die Aktualisierung von Parametern und Rückausbreitung in einem einzigen Durchgang oder gewann einen Polk ist nicht genug. die Anzahl der Päpste zunimmt, desto mehr werden die Parameter angepasst, was zu einem besseren Sterblichen führt. Aber für viele könnten Parks eine Katastrophe buchstabieren. In der Tat, ist etwas über Anpassung genannt, wo das Modell hat im Wesentlichen Erinnerungen an Muster in den Trainingsdaten. Auf Leistung furchtbar. UNDATED Es wurde noch nie zuvor gesehen. Also, was ist die richtige Anzahl an E-Büchern? Leider gibt es keine richtige Antwort. Die Antwort ist für verschiedene Datensätze anders. Manchmal enthalten Ihre Daten an zweiter Stelle Millionen von Beispielen, die diese gesamten Daten auf einmal bossing . Es wird extrem schwierig. Also, was wir stattdessen tun, ist, den Datensatz in eine Reihe von Chargen zu unterteilen, anstatt die gesamten Daten zu pausieren , die gesagt werden, sobald die Gesamtzahl der Trainingsbeispiele in einem einzigen Batch vorhanden ist, es wird eine Batchgröße Situationen genannt wird, ist die Anzahl der Batches benötigt, um komplettieren Sie ein e Buch , nicht die Anzahl der Chargen, ist gleich der Anzahl seiner Reationen. Für ein e Buch, sagen wir, dass wir einen Datensatz von $34 Trainingsbeispielen haben. Wenn wir die genannten Daten in zwei Chargen von 500 teilen, dann wird es 60 dauern. Gab Inspiration, um einen iPAQ zu vervollständigen. 10. Schlussfolgerungen für Terminologien: Nun, ich hoffe, das gibt Ihnen eine Art Sinn für die sehr grundlegende Terminologie ist Jahre und Deep Learning, bevor wir weitermachen. Ich möchte das erwähnen, und Sie werden das sehr sehen. Beim Deep Learning haben Sie oft eine Reihe von verschiedenen Entscheidungen zu treffen. Wie viele versteckte Ebenen sollte ich wählen oder welche Aktivierungsfunktion verwenden muss und wo. Und um ehrlich zu sein, gibt es keine klaren Richtlinien, was Sie versuchen sollte immer sein. Das ist ein lustiger Teil über Deep Learning. Es ist extrem schwierig, am Anfang zu wissen, was die richtige Kombination für Ihr Projekt ist? Welche Schachtel von mir, mein Notizbuch für Sie und ein Vorschlag von meinem Ende wäre, dass Sie zusammen mit Materialien dabble , dr verschiedene Kombinationen zeigen und sehen, was für Ihr Bestes funktioniert. Letztendlich ist das ein Lernprozess für unbeabsichtigte Fahrt an dieser Küste. Ich werde Ihnen ein wenig Intuition geben, was populär ist, damit Sie beim Aufbau eines Deep-Learning-Projekts Aufbau eines Deep-Learning-Projektsnicht verloren gehen 11. Regularisation: ein zentrales Problem in Deep Learning ist, wie man einen Algorithmus erstellt, der gut funktioniert. Nein, nur in Trainingsdaten, aber auch bei neuen Eingaben. Eine der häufigsten Herausforderungen, denen Sie beim Training von Modellen gegenüberstehen, ist ein Problem , in dem Ihr Morgen bei Trainingsdaten außergewöhnlich gut funktioniert. Die Norden-Testdaten. Sehen Sie, ich habe ein Date beiseite. Transplantation in der X-Y-Ebene wie folgt Jetzt möchte ich ein Modell konstruieren, das am besten zum Datensatz passt . Was ich tun könnte, ist eine Linie von einigen zufälligen, langsamen, gewesen Insekt zu zeichnen. Nun, offensichtlich ist dies nicht das Beste mehr und in der Tat wird dies unter Fitting genannt, weil es nicht zum Modell passt. Nun, in der Tat, es unterschätzt den Datensatz. Es hieß. Was wir tun könnten, ist eine Linie zu zeichnen, die ungefähr so aussieht. Dass das wirklich passt, trauert am besten. Aber das ist übermäßig passend. Denken Sie daran, wir während des Trainings unsere Netzwerke und Trainingsdaten zeigen, und sobald das erledigt ist, erwarteten wir, dass wir fast perfekt sein werden. Das Problem mit diesem Diagramm ist, dass, obwohl es wahrscheinlich die beste Linie der Anpassung für dieses Diagramm ist, es die beste Linie der Anpassung ist. Nur Sie haben das Gefühl, Ihre Handelsdaten zu berücksichtigen, oder? Net Book ist nach unten in diesem Diagramm gespeichert Muster zwischen den Trainingsdaten und würde keine genauen Vorhersagen an allen Daten geben. Es wurde noch nie zuvor gesehen. Und das macht Sinn, weil die Menge der Auswendiglernen Muster in der Regel gut auf sowohl Training als auch neue Testdaten durchführen . Unser Netzwerk in der Tat hat in der Tatdie Muster nur auf den Trainingsdaten gespeichert. Also offensichtlich möchten Sie gut auf neue Daten durchführen, die noch nie zuvor gesehen wurde. Dies ist ein Problem, das über die Montage abgeschaltet wird. Es passte zu viel. Und übrigens, das wäre die genauere Art der Anpassung. Es ist nicht perfekt, aber ein wenig gut in beiden Trainings, sowie neue Testdaten mit beträchtlicher Genauigkeit. Es gibt ein paar Möglichkeiten, um über die Anpassung anzugehen. Die interessanteste Art der Regularisierung ist Dropout. Es hat sehr gute Ergebnisse erzielt und ist folglich die am häufigsten verwendete Regularisierungstechnik und Feld des Deep Learning . Um es zu verstehen, fallen Sie aus. Nehmen wir an, wir haben ein neues Netzwerk mit zwei versteckten Ebenen wird fallen, aber tut, dass es bei jeder Iteration zufällig einige Notizen auswählen und sie entfernen, zusammen mit ihren eingehenden und ausgehenden Verbindungen und so Jede Iteration hat eine unterschiedlichen Satz von Notizen, und dies führt zu einem anderen Satz von Ausgaben. Warum funktionieren diese Modelle besser? Diese Modelle funktionieren in der Regel besser als ein einzelnes Modell, da es mehr Zufälligkeit erfassen und weniger der Trainingsdaten speichert und daher Kraft wird es besser verallgemeinert und bauen eine robustere, vorhergesagte mehr. Manchmal ist der beste Weg, um ein Deep-Learning-Modell zu verallgemeinern, es auf mehr Daten zu trainieren . In der Praxis ist die Menge der Daten, die wir haben, begrenzt, und eine Möglichkeit, dieses Problem zu umgehen, besteht darin, gefälschte Daten und Einstellungen zu erstellen. Das Trainingsset für einige Deep Learning Aufgaben. Es ist ziemlich einfach, neue gefälschte Hirsche zu kreieren. Dieser Ansatz ist für die Klassifizierung am einfachsten. Klassifizierte muss komplizierte, hochdimensionale Eingabe X nehmen und mit der Kategorieidentität zusammenfassen. Warum das bedeutet, dass die Hauptaufgabe ihres Klassifikators darin besteht, in einer Vielzahl von Transformationen zu sein . Recon generieren neue X y pez einfach nur durch die Anwendung von Transformationen auf dem X Y Eingang In unserem Trainingsset Datensatzvergrößerung war eine besonders effektive Technik für ein bestimmtes Klassifizierungsproblem. Objekterkennungsbilder sind hochdimensional und enthalten eine enorme Bandbreite von Variationsfaktoren , von denen viele leicht simuliert werden können, wie z. B. die Übersetzung der Trainingsbilder. Ein paar Pixel in jeder Richtung können oft die Generalisierung vieler anderer Operationen erheblich verbessern , wie zum Beispiel das Drehen des Bildes. Die Skalierung des Bildes hat sich ebenfalls als sehr effektiv erwiesen. Sie müssen vorsichtig sein, multiplizieren Transformation, die die richtige Klasse ändern würde. Beispielsweise ist die optische Zeichenerkennung talus ted erforderlich, um den Unterschied zwischen einem B und A D und den Unterschied zwischen einem sechs- und lästigen horizontalen Flips und 180 Grad Einladungen zu erkennen A D und den Unterschied zwischen einem sechs- und lästigen horizontalen Flips und 180 Grad , nicht angemessen. Strahlen der Organisation von Datensätzen für diese Haus Beim Training großer Modelle mit ausreichender Repräsentationsfähigkeit über die Aufgabe passen. Wir beobachten oft, dass der Trainingsfehler im Laufe der Zeit stetig abnimmt, aber jeder Validierungssatz beginnt wieder zu steigen. Dies bedeutet, dass wir ein Modell mit besserer Validierung erhalten können, Fehler, und damit hoffentlich besser testet diesen Pfeil, indem das Training an der Stelle gestoppt wird, wo die Luft im Validierungssatz zu erhöhen beginnt. Diese Strategie wird als frühe Stopp bekannt. Es ist wahrscheinlich die am häufigsten verwendete frühere Regularisierung in Deep Learning heute. Seine Popularität ist sowohl auf seine Wirksamkeit als auch auf seine Einfachheit zurückzuführen. 12. Einführung in das Lernen: in diesem Abschnitt werden wir über die verschiedenen Arten des Laufens sprechen, die maschinelle Lernkonzepte sind. Aber ich erweiterte, um sein Seil dieser Küste zu lernen, werden wir über überwachtes Lernen, unbeaufsichtigtes Lernen und verstärktes Lernen gehen . 13. Überwachtes Lernen: Supervised Learning ist heute das am häufigsten verwendete maschinelle Lernen der Unterzweige. In der Regel, sogar mit einem maschinellen Lernen Ihre Reise beginnt mit überwachten Lernalgorithmen. Lassen Sie uns untersuchen, was diese überwacht werden. Algorithmen für maschinelles Lernen sind so konzipiert, dass sie mit Beispielen lernen. Der Name betreutes Lernen stammt aus der Idee eines Trainings. Diese Art von Algorithmus ist fast so, als gäbe es einen Menschen, der den gesamten Prozess überwacht. Im betreuten Lernen trainieren wir Modelle auf gut markierten Daten. Jedes Beispiel ist ein Paket, das oft Eingabe-Objekt besteht, das in der Regel ein Vektor ist, und ein Design-Ausgabewert. Alt, um das Aufsichtssignal zu nennen, das Ausbildung tut, wird beaufsichtigt. Der Lernalgorithmus sucht nach Mustern in den Daten, die mit den Designausgaben korreliert . Nach dem Training werden neue unsichtbare Eingaben benötigt und bestimmt, welches Etikett die neuen Eingänge auf der Grundlage der vorherigen Trainingsdaten klassifiziert werden würden . Das Ziel, nicht betreuten Lernmodell ist es, das richtige Etikett neu präsentierten Eingabedaten vorherzusagen. In seiner grundlegendsten Form kann ein überwachter Lernalgorithmus einfach als Winde gleich fx geschrieben werden. Warum ist die vorhergesagte Ausgabe, die von der Mapping-Funktion bestimmt wird, die eine Klasse zuweist Eingabewert gewesen? X, die Funktion, die zum Verbinden von Eingabe-Features mit einer vorhergesagten Ausgabe verwendet wird, von der Maschine erstellt . Sehr Modell. Während des Handels, überwachtes Lernen kann aufgeteilt werden in einige Kategorien Klassifizierung und Regression tun Training. Ein Klassifizierungsalgorithmus wird Datenpunkt innerhalb der zugewiesenen Kategorie gegeben werden. Der Job einer Klassifikation argo sie ist dann, diesen Eingabewert zu nehmen und eine Kosten der Kategorie zugeordnet , die es passt in. Basierend auf den Schulungsdaten, ist das häufigste Beispiel für eine Klassifizierung zu bestimmen, für eine E-Mail ist Spam oder nicht mit zwei Klassen von Saft aus Spam oder nicht Spam? Dieses Problem wird als binäres Klassifizierungsproblem bezeichnet. Der Algorithmus erhält Schulungsdaten mit E-Mails, die sowohl Spam als auch Nicht-Spam sind. Auf Modell werden die Features innerhalb der Daten finden, die Corleto entweder Klasse und Mapping-Funktion erstellen . dann Wenn esdannmit einer nicht gesehenen E-Mail geliefert wird, verwendet das Modell wirklich Funktion, um zu bestimmen, ob die E-Mail gepackt wurde oder nicht. Ein Beispiel für ein Klassifizierungsproblem wäre der gemeinste handschriftliche Ziffern Datensatz in dem die Eingabebilder von handgeschriebenen Ziffern Bixel, vedo und die Ausgabe eine Klassenbezeichnung ist. Für welche Ziffer? Das Bild stellt dar, dass die Zahl Null ist heute Abend. Es gibt zahlreiche Algorithmen, um Klassifizierungsprobleme zu lösen, die von den Daten und der Situation abhängen. Hier sind ein paar beliebte Klassifizierungs-Algorithmen. Viele klassifizieren IRS Unterstützung zurück die Maschinen. Entscheidungsbäume kamen nächsten Nachbarn auf Drachenwald. Regression ist ein prädiktiver statistischer Prozess, bei dem das Modell versucht, die wichtige Beziehung zwischen abhängigen und unabhängigen Variablen zu finden . Das Ziel eines Regressionsalgorithmus ist es, eine kontinuierliche Zahl solcher Umsatzerlösindexbereiche vorherzusagen . Die Gleichung für im Grunde in der Regression kann als Falten Rex geschrieben werden. Wenn ich die Merkmale der Daten darstellt und W von I und B Parameter sind, die während des Trainings für einfache entwickelt werden , dann sind Sie Regressionsmodelle mit nur einem Feature in den Daten. Die Formel sieht so aus. Wo W eine Neigung X ist, ist das einzelne Feature, und B ist der Grund, warum Insekten vertraut Für einfache Regressionsprobleme wie diese werden die Vorhersagen des Modells durch die Linie der besten Anpassung für Modelle dargestellt, die zwei Features verwenden , eine Flugzeug ist Jahre, und für Modelle mit mehr als zwei Funktionen, Ah, hyper Ebene Probleme. Stellen Sie sich vor, wir wollten vielen Schülern Testnote sagen, basierend darauf, wie viele immer eine Studie in der Woche des Tests. Nehmen wir an, die Plus-Daten mit der Zeile „Best fit“ sehen so aus. Es gibt eine klare positive Korrelation zwischen studiert, die unabhängige Variable und die Studenten final. Tesco ist die abhängige Variable ah, Linie der besten Passform kann durch die Hirschpunkte gezogen werden, um die moralischen Vorhersagen zu zeigen, wenn neue Input gegeben, sagen wir wollten wissen, wie gut ein Student mit fünf Stunden Studium tun würde, wir können die Linie der besten Passform verwenden, um die Tesco basierend auf anderen Schülerleistungen vorherzusagen. Ein weiteres Beispiel für Regressionsproblem wäre der Boston House Preissatz mit der Eingabe von Variablen, die die Nachbarschaft beschreiben und die Ausgabe ist ein Hauspreis in Dollar. Es gibt viele verschiedene Arten von Regressionsalgorithmus drei. Am häufigsten sind die Vigna-Regression, der Verlust der Regression und die multivariante Regression. Betreutes Lernen findet Anwendungen und Klassifikations- und Regressionsprobleme wie Bioinformatik, wie Fingerabdruck von Iris und Gesichtserkennung und Smartphones, Objekterkennung, Spam-Erkennung und Sprache Anerkennung. 14. Unsupervised Lernen: Unüberwachtes Lernen ist ein Zweig des maschinellen Lernens, der sich im Gegensatz zu Mustern und Daten manifestiert und häufig in der explorativen Datenanalyse verwendet wird. Im Gegensatz zu betreuten Lernen Antwort. Während beim Lernen keine Labeldaten verwendet werden, sondern sich auf die Features der Daten konzentriert, Label-Trainingsdaten für jede Eingabe eine entsprechende Ausgabe. Das Ziel, oft unbeaufsichtigte Lernalgorithmus ist es, Daten zu analysieren und wichtige Funktionen zu finden. In diesen Daten findet das unbeaufsichtigte Lernen oft Untergruppen oder versteckte Muster innerhalb. Die Daten sagten, dass ein menschlicher Beobachter vielleicht nicht aufgreifen, und dies ist äußerst nützlich, wie bald bauen. Finden Sie heraus, dass unbeaufsichtigtes Lernen von zwei Arten sein kann. Clustering einer Assoziation. Clustering ist die einfachste und unter den gebräuchlichsten Anwendungen des unbeaufsichtigten Lernens . Es ist ein Prozess der hängenden Daten in verschiedene Cluster oder Gruppen. Klassen werden Datenpunkt konditionieren, die so ähnlich wie möglich zueinander und wie dies ähnlich wie möglich Daten zeigen. Nun hilft das Verputzen von Clustern, zugrunde liegende Muster innerhalb der Daten zu finden, die durch einen menschlichen Beobachter nicht wahrnehmbar sind. Gib mir einen in Pop zerbrochenen. Zusätzliche Clustering- und hierarchische Clustering-Partition. Alle Clustering bezieht sich auf eine Gruppe von Clustering-Algorithmen, bei denen jeder Datenpunkt in einem Datensatz nur zu einem Cluster gehören kann. Hierarchische Clustering findet Cluster nach System von Tortenrockies. Jeder Datenpunkt kann zu mehreren Klassenrührungen gehören. Einige Klassen enthalten kleinere Cluster darin. Dieses Hierarchiesystem kann als Baumdiagramm organisiert werden. Einige der am häufigsten verwendeten Clustering-Algorithmen sind k bedeutet Erwartungsmaximierung. Die hierarchische Clusteranalyse der UA Assoziation dagegen, versuchtdagegen,Beziehungen zwischen verschiedenen Entitäten zu finden. Das klassische Beispiel für Vereinsregeln ist die Markt-Korb-Analyse. Dies bedeutet, dass eine Datenbank mit Transaktionen im Supermarkt verwendet wird, um Artikel zu finden, die häufig zusammen gekauft werden . Zum Beispiel kauft eine Person und voreingenommene Kartoffeln in Burgern normalerweise Bier. Zum Beispiel, Person geraten Tomaten und Pizzakäse könnte Pizzabrot wollen. So auf beaufsichtigt, einsam findet Anwendungen fast überall. Zum Beispiel ein B und B, das hilft, Tage und Erfahrungen zu beherbergen und Menschen auf der ganzen Welt zu verbinden. Diese Anwendung verwendet unbeaufsichtigte Lernalgorithmen, bei denen potenzielle Client-Abfrage eine Anforderung ist und A B und B diese Muster lernt und empfehlen Aufenthalte und Erfahrungen, die unter der gleichen Gruppe von Cluster-Spieler Person fallen, die nach Häusern in San suchen ist vielleicht nicht daran interessiert, Häuser in Boston zu finden. Amazon nutzt auch unbeaufsichtigtes Lernen, um die Käufe von Kunden zu erfahren und Produkte zu empfehlen , die häufig zusammengeführt werden . Dies ist ein Beispiel für Assoziationsregel-Mining. Die Erkennung von Kreditkartenbetrug ist ein weiterer unüberwachter Lernalgorithmus, der die verschiedenen Muster eines Benutzers und die Verwendung von Kreditkarte lernt . Die Kartenprobleme in Teilen, die nicht mit dem Verhalten übereinstimmen, und Alarm wird generiert, die möglicherweise als Betrug markiert werden könnten. Und in einigen Fällen hat Ihr Bankgedanke Sie angerufen, um zu bestätigen, ob Sie die Karte verwenden oder nicht. 15. Verstärkungslernen: Verstärkung. Lernen ist eine Art maschinelles Lernen Technik, die es einem Agenten ermöglicht, in einer interaktiven Umgebung durch Versuch und Irrtum zu lernen , indem er Feedback aus seinen eigenen Aktionen und Erfahrungen wie überwachtes Lernen verwendet, indem er die Zuordnung zwischen den Eingaben verwendet und die Ausgabe. Aber im Gegensatz zu überwachtem Lernen, wo es Feed, das dem Agenten zur Verfügung gestellt wird, ist eine korrekte Reihe von Aktionen für die Durchführung einer Aufgabe. Verstärkung Lernen verwendet Belohnungen und Strafen als Signale für positives und negatives Verhalten, wenn Sie mit unbeaufsichtigtem Lernen Vergleich Verstärkung Lernen unterscheidet sich in Bezug auf seine Ziele, während die goldenen unbeaufsichtigten Lernen besteht darin, Gemeinsamkeiten und Unterschiede zwischen Datenpunkten in der Verstärkung zu finden. Das Erlernen des Ziels besteht darin, ein geeignetes Aktionsmodell zu finden, das die gesammelte Belohnung der Verstärkung des Agenten maximiert . Lernen bezieht sich auf zielorientierte Algorithmen, die lernen, wie man ein komplexes Ziel oder Zielerreicht , wie man ein komplexes Ziel oder Ziel oder wie man entlang einer bestimmten Dimension über viele Schritte maximiert. Zum Beispiel können sie den Punkt eines im Spiel über viele Züge maximieren. Verstärkungslernalgorithmen können von einem leeren Schiefer ausgehen und unter den richtigen Bedingungen eine übermenschliche Leistung erzielen, wie ein Haustier, das durch Schimpfen und Leckereien angeregt wird. Diese Algorithmen werden bestraft, wenn sie das falsche Entscheidungen und belohnt, wenn sie die richtigen zu machen. Dies ist eine Verstärkung der Verstärkung. Lernen ist in der Regel Modell als ein Zeichen des Entscheidungsprozesses, obwohl andere Frameworks wie Sie lernen ungenutzte einige Schlüsselbegriffe. Ich beschrieb die Elemente eines Verstärkungslernproblems außerhalb der Umwelt, die die physische Welt ist, in der der Agent arbeitet. Der Status stellt eine aktuelle Situation des Agenten dar. Belohnung ist ein Feedback, das von der Umwelt erhalten wird. Richtlinie ist manchmal die Methode, um den Agent-Status den Agents Aktionen zuzuordnen. Und schließlich ist der Wert eine zukünftige Belohnung, die ein Agent erhält, indem er eine Aktion in einem bestimmten Zustand ergreift. Ein Verstärkungsliebevolles Problem kann am besten durch Gewinne erklärt werden. Lassen Sie uns das Spiel von Patman nehmen, ob Gold des Agenten oder Pacman ist, das Essen im Gitter zu essen , während die Geister auf dem Weg zu vermeiden. Die Grid-Welt ist die interaktive Umgebung für den Agenten. Packman erhält eine Belohnung für Essen und Bestrafung. Wenn es durch den Geist getötet wird, das heißt, es verliert das Spiel. Der Zustand des Standorts vor Pac Man im Grid-Zauberstab und die gesammelte Belohnung ist Packman, das Spiel zu gewinnen. Verstärkung Gebäude findet, Anwendungen und Robotik Geschäftsstrategie Planung Verkehr wie ein gefahren Web-System, Konfiguration und Flugzeug- und Roboter-Bewegungssteuerung. 16. Einführung in neurale Netzwerkarchitekten: in diesem Abschnitt werde ich die drei häufigsten Arten von neuen Lead-Buch-Architekturen heute für wieder verbundene Gebühr vorstellen , wenn Ihre Netzwerke wiederkehrend Ihre Netzwerke und Faltung allein Ihre Netzwerke. 17. Vollständig vernetzte Vorrang neuronale Netzwerke: Die erste Art neuer Netzwerkarchitektur, die wir besprechen werden, ist eine voll vernetzte Füße nach vorne. Neues Netzwerk. Mit voll verbunden meine ich, dass jedes Neuron in der vorhergehenden Schicht mit jedem Neuron in der nachfolgenden Schicht verbunden ist , ohne Rückwärtsverbindung. Es gibt keine Zyklen oder Schleifen in den Verbindungen im Netzwerk. Wie ich bereits erwähnt habe, enthält jedes Neuron in einem neuen Netzwerk eine Aktivierungsfunktion, die den Ausgang eines Neurons ändert , wenn es seinen Eingang gegeben hat. Es gibt verschiedene Arten von Aktivierungsfunktionen. Ich kann diese Eingabe-Ausgabe-Beziehung ändern, um eine neue zu erstellen. Benehmen Sie sich in einer Vielzahl von Wellen einige der am meisten bekannten Aktivierungsfunktionen einer linearen Funktion, die eine gerade Linie ist, die die Eingabe im Wesentlichen mit einem konstanten Wert multipliziert. Die Sigmoid-Funktion, die im Bereich von 0 bis 1. Die hyperbolische Tangente oder botanische Funktion, die von negativen eine positive auf die rektifizierte schiefe Einheit oder die Rela-Funktion, die ein Stück weiß Funktion, die Ausgabe Null ist. Wenn die Eingabe kleiner als ein bestimmter Wert ist, alle Alinea mehrere, wenn die Eingabe größer als ein bestimmter Wert ist. Jede Art von Aktivierungsfunktion hat ihre Vor- und Nachteile. So verwenden wir sie in verschiedenen Schichten in der tiefen neuen Netzwerk basierend auf dem Problem jeder entwickelt, um Salz. Darüber hinaus sind die letzten Reaktivierungsfunktionen, die wir als nicht-lineare Funktionen bezeichnen, da die Ausgabe kein lineares Vielfaches der Eingabe ist wissen, dass Lenny bereits ist, was tiefe neue Netzwerke ermöglicht, komplexe Funktionen zu modellieren. Mit allem, was wir bisher gelernt haben, können wir eine Vielzahl von voll verbundenen Füßen erstellen, wenn Ihre Net-Bücher lesen Netzwerke mit verschiedenen Eingaben erstellen . Sehr kürzlich legte verschiedene versteckte Ebenen, Nuance für versteckte Ebene und eine Vielzahl von Aktivierungsfunktionen. Diese zahlreichen Kombinationen ermöglichen es uns, eine Vielzahl leistungsfähiger, tiefer neuer Netzwerke zu schaffen , die die Weinvielfalt der Probleme lösen können. Der Mond, den Sie auf jeder versteckten Ebene sein wollen, wird die Breite des Net-Buchs. Neben Mähen, versteckt legt wir und je tiefer das Netzwerk wird, aber jedes neue auf wir hinzufügen erhöht die Komplexität, und das ist eine Rechenressource notwendig, um zu trainieren. Ein neues Netzwerk nimmt zu. Diese zunehmende Komplexität ist nicht linear in der Anzahl der Neuronen begann, so dass es zu einer Explosion und Komplexität und Trainingszeit für große neue Netzwerke führt. Das ist gerade. Wenn Sie überlegen müssen, wann Sie tiefe, neuere Netzwerkeaufbauen neuere Netzwerke 18. Recurrent neuronalen Netze: alle neuen Netze. Wirklich, Scott. Bisher, Ich bekannt als Feed für ein Ihre Netzwerke die Einnahme von festen Größe Eingang und geben Sie eine Korrektur. Augen Anstrengung. Das ist alles, was wir haben. Und das ist es, was wir von neuen Netzwerken erwarten. Nehmen Sie eine Eingabe und geben Sie eine beträchtliche Appert. Aber wie sich herausstellt, diese einfachen oder Vanille-Bücher nicht in der Lage, jedes einzelne Problem mit der Reha heute zu modellieren . Um dies besser zu verstehen, verwenden Sie diese Analogie. Angenommen, ich zeige Ihnen das Bild einer Schüssel, einer runden kugelförmigen Schüssel, die sich in irgendeiner Richtung im Weltraum bewegte. Ich habe gerade ein Foto von der Schüssel oder einen Schnappschuss der Schüssel gemacht. T Jetzt möchte ich, dass Sie die nächste Position der Schüssel vorhersagen und zwei oder drei Sekunden sagen. Du wirst mir wahrscheinlich keine genaue Antwort geben. Sehen wir uns nun ein anderes Beispiel an. Angenommen, ich bin zu dir aufgewacht und sage, die Holzelente. Du wirst meine Aussage nie verstehen, weil , es keinen Sinn ergibt. Es gibt Trilling-Kombinationen ausschließlich mit dem Wort Hund und unter diesen Billionen Kombinationen erwarte ich nicht zu verwenden. Und jetzt rate mal, was ich versuche, dir zu sagen, was diese beiden Beispiele gemeinsam haben, ist, dass es keinen Sinn ergibt. Tut es nicht. Im ersten Fall erwarte ich, dass Sie die nächste Position rechtzeitig vorhersagen, und in der zweiten erwarte ich zu verstehen, was ich mit Hund meine. Diese beiden Beispiele können nicht verstanden und interpretiert werden, es sei denn, einige Informationen über die Vergangenheit wurden geliefert. Nun, im ersten Beispiel, wenn ich Ihnen die vorherigen Positionszustände des Balls gebe und Sie jetzt bitten, die zukünftige Flugbahn des Balls vorherzusagen , werden Sie in der Lage sein, dies genau zu tun. Und in den zweiten Toren geben Sie einen vollen Satz, der besagt, dass ich einen Doc habe. Das macht Sinn, weil Sie jetzt verstehen, dass aus den Billionen möglichen Kombinationen mit einem Hund meine ursprüngliche Absicht war, dass Sie verstehen, dass ich eine Ente habe. Warum habe ich dir dieses Beispiel gegeben? Wie gilt das für neue Netze? In der Einleitung, sagte ich, Vanille in Ihren Netzwerken kann Morgen jede einzelne Situation des Problems, die wir haben. Und das größte Problem, wie sich herausstellt, ist ein einfaches Vanillefutter. Wenn Ihre Netzwerke keine sequentiellen Daten modellieren können, sequentielle Daten Daten in der Sequenz. Zum Beispiel ist ein Satz eine Sequenz dessen, was ein Ball sich im Raum bewegt. Eine Abfolge von Olas Positionszuständen in dem Satz, der dir gezeigt hatte, dass du jedes Wort basierend auf deinem Verständnis aus den vorherigen Teilen verstanden hast. Dies wird als sequentielles Mitglied bezeichnet. Sie können den Datenpunkt im Sequenz-Bio-Speicher des vorherigen Datenpunkts in dieser Sequenz verstehen . Traditionelle neue Netzwerke können dies nicht tun, und es scheint ein großer Mangel zu sein. Einer der Nachteile von Morgensequenzen waren traditionelle neue Netto-Dollar ist die Tatsache , dass sie keine Parameter über die Zeit teilen. Nehmen wirzum Beispiel zum Beispiel diese beiden Sätze. Am Dienstag regnete es und es regnete am Dienstag. Diese Sätze bedeuten dasselbe, obwohl sich die Details in verschiedenen Teilen der Sequenz befinden. Eigentlich, wenn wir die Sätze in einen Feed voll in Ihrem Netzwerk für eine Vorhersageaufgabe füttern, wird das Modell verschiedene Gewichte tun am Dienstag zuweisen, und es regnete zu jedem Zeitpunkt. Dinge, die wir über die Sequenz lernen, werden nicht übertragen, wenn sie an verschiedenen Punkten in der Sequenz erscheinen . Sharing-Parameter gibt dem Net-Buch die Möglichkeit, überall in der Sequenz nach einem bestimmten Feature zu suchen , anstatt nur in einem bestimmten Bereich. Das sind die mobilen Sequenzen. Wir brauchen einen spezifischen Lernrahmen, der in der Lage ist, mit Variablen und Sequenzen umzugehen, Sequenzreihenfolge beizubehalten und langfristige Abhängigkeiten zu verfolgen, anstatt Kartoffel zu kurz zu schneiden und schließlich Parameter über die Sequenz zu teilen, um nicht Verlassen Sie sich auf Dinge. Und das ist, wo neue Let Bücher kommen in. Orrin Ends sind eine Art neuer Let Book-Architektur, die etwas verwendet, die eine Feedback-Schleife in der versteckten Ebene genannt wird . Im Gegensatz zu Feed Forward New Net Bücher die Wiederherstellung Ihres Netzwerks oder in und kann effektiv auf Sequenzen von Daten mit variabler Eingangslänge arbeiten . Dies ist, wie in unseren Kindermädchen UT repräsentiert diese kleine Schleife hier wird die Feedback-Schleife genannt . Manchmal finden Sie die RN-Enden im Laufe der Zeit wie folgt dargestellt. Der erste Teil stellt das Netzwerk in der ersten Zeit Schritt die versteckte Note. Jeder verwendet den Eingang X eins, um die Ausgabe zu erzeugen. Warum einer? Das ist genau das, was wir mit grundlegenden Angst gesehen haben, wenn Ihr Nettogeld. jedoch Beim zweiten Maljedochschritt die versteckte Note zum aktuellen Zeitpunkt. Schritt H zwei verwendet sowohl den neuen Eingang X zwei als auch den Zustand aus dem vorherigen Zeitschritt jeweils als Eingabe, um neue Vorhersagen zu machen. Dies bedeutet, dass in einem Auto in einem neuen Netzwerk, verwenden Sie das Wissen seiner früheren Zustände als Eingabe für seine aktuelle Vorhersage. Und wir können diesen Vorgang für eine beliebige Anzahl von Schritten wiederholen, so dass das Netzwerk Informationen über seinen versteckten Zustand verbreiten kann. Im Laufe der Zeit. Das ist fast so, als würde man einem neuen Netzwerk einen kurzfristigen Speicher geben. Sie haben dieses abstrakte Konzept des sequentiellen Speichers und sind dadurch in der Lage, bestimmte Bereiche von Daten sequentiellen Daten zu modellieren, die eigenständige neue Netzwerke nicht modellieren können. Aufzeichnung Ihrer Netzwerke erinnern sich an ihre Vergangenheit, und ihre Entscheidungen werden von dem beeinflusst, was sie aus der Vergangenheit gelernt hat. Grundlegende Feed-Forward-Netzwerke erinnern sich an Dinge, Dinge, aber sie erinnern sich an Dinge, die sie während des Trainings gelernt haben. beispielsweise, klassifiziert ein Bildbeispielsweise,wie eine Drei während des Trainings aussieht, und nutzt dieses Wissen dann, um Dinge in der Produktion zu klassifizieren. Also, wie trainieren wir in Auburn? N? Nun, es ist fast das gleiche wie das Training grundlegender, voll vernetzter Menschen mit Netzwerk, außer dass die Rückenausbreitung auf wuchs sie für jeden Sequenzdatenpunkt und nicht für die gesamte Sequenz gilt . Dieser Algorithmus wird manchmal als die Back-Propagation durch Zeit-Algorithmus DT-Algorithmus bezeichnet. Um wirklich zu verstehen, wie das funktioniert, stellen Sie sich vor, wo ein wiederkehrendes neues Netzwerk erstellt wird, um den nächsten Buchstaben vorherzusagen, den eine Person basierend auf den vorherigen Buchstaben eingeben wird, die sie bereits eingegeben haben. Der Brief, den er gerade eng verwendet hat, ist ziemlich wichtig, um den neuen Brief vorherzusagen. Aber auch alle vorherigen Buchstaben sind für diese Vorhersage sehr wichtig. Beim ersten Zeitschritt, sagen wir, die Jahre der Arten von Buchstaben F. Also, wenn Netzwerk könnte vorhersagen, dass die nächsten Buchstaben und E basierend auf allen der vorherigen Trainingsbeispiel, die das Wort F d im nächsten Zeitschritt enthalten der Benutzer einen Buchstaben sind so, wo Netzwerk sowohl neuen Buchstaben R als auch einen Zustand des ersten versteckten Neurons verwendet . Um die nächste Vorhersage zu berechnen. L. Das Netzwerk prognostiziert uns wegen der hohen Frequenz von Währungen im Holz F e l. In unserem Trainingsdatensatz, Hinzufügen des Buchstabens a meine vorhergesagte Leichtigkeit, Hinzufügen eines Endes würde den Buchstaben K vorhersagen, was mit dem Wort übereinstimmen würde, das ich verwenden soll, um zu tippen, was ehrlich ist. Es jedoch ein Problem mit unseren Namen bekannt, ist jedoch ein Problem mit unseren Namen bekannt,ein kurzfristiges Gedächtnis, kürzere Erinnerungen durch die berüchtigten verschwindenden und explodierenden Grading Probleme verursacht, wie sie in und verarbeitet Mo Woods. Es hat Probleme, Informationen aus vorherigen Schritten beizubehalten. So wie unser Gedächtnis. Wenn Sie eine lange Sequenz von Zahlen wie Pi erhalten und Sie versuchen, sie auszulesen werden Sie wahrscheinlich die ersten paar Ziffern vergessen. Richtig? kurzfristige Speicher und die verschwindende Einstufung sind auf die Art der Backpropagation zurückzuführen, der Algorithmus, der zum Trainieren und Optimieren neuer Netzwerke nach der Weiterverbreitung auf dem Pass verwendet wird , vergleicht das Netzwerk diese Vorhersage mit dem Grundlegende Wahrheit. Mit Gesetzen Funktion, die in einer Reihe gesetzt werden, Wert eine Schätzung, wie schlecht das Net-Buch ist Leistung. Das Netzwerk verwendet diesen Wert, um die Back-Propagierung durchzuführen, wodurch die Zutaten für jede Notiz im Netzwerk berechnet werden. Die Einstufung ist ein Wert, der verwendet wird, um die internen Wartezeiten des Netzwerks anzupassen, so dass das Netzwerk lernen kann, je größer, desto größer die Anpassungen sind und umgekehrt. Hier ist das Problem, wenn jede Note in einer Wal-berechneten Zutat in Bezug auf die Auswirkungen der Grüße in der davor liegenden Ebene wieder vermehrt wird. Wenn also die Einstellung der Ebenen, bevor sie klein ist, dann werden die Anpassungen an den Betrüger noch kleiner sein. Und dies bewirkt, dass Größe exponentiell schrumpfen wird, wie ein Rücken propagiert, dass die älteren Menschen versäumt haben, irgendein Laufen zu tun, da die inneren Gewichte kaum angepasst werden Pflicht, extrem kleine Ausstrahlung, und das ist die verschwindende große in einem Problem. Mal sehen, wie das gilt. Um neue Netzwerke wiederherzustellen, können Sie sich jeden Zeitschritt in einer Aufzeichnung Ihres Netzwerks als Layer vorstellen Aufnahme Sie Net-Buch zu trainieren. Sie verwenden eine Anwendung der Backpropagation, die als Backpropagation bezeichnet wird. Laufe der Zeit werden die Gitterwerte exponentiell auf der Rückseite schrumpfen sich jedes Mal fortpflanzen. Treten Sie noch einmal. Die Verschneidung wird verwendet, um Anpassungen in den neuen Netzwerkraten vorzunehmen. So Sie entlang lernenSie entlangkleine Körner. Mittlere kleine Anpassungen auf diese Ursache der alten früher ist nicht allein. Wegen der verschwindenden Körner lernte das R N N Dutzend lange Streckenabhängigkeiten über Zeitschritte hinweg. Das bedeutet, dass es in einer Reihenfolge am Dienstag regnete. Es besteht die Möglichkeit, dass die Worte, die es beenden Kriege werden nicht berücksichtigt, wenn versucht, Benutzer Absicht vorherzusagen . Das Netzwerk muss dann den besten Gast mit am Dienstag machen, und das ist ziemlich mehrdeutig und wäre auch für den Menschen schwierig. Also nicht in der Lage zu sein, alle Zeitschritte zu lernen, bewirkt, dass das Net Buch einen kurzfristigen Speicher hat. Wir können auf den kurzfristigen Speicher Finneran kommen, indem wir zwei Varianten von Rekord-neuen Netzwerken verwenden. Gated R N N s und Langzeitgedächtnisverordnung, auch bekannt wie eh und je. Scheint, dass beide Varianten genauso funktionieren wie unsere Netze, aber sie können langfristige Abhängigkeiten mit Mechanismen namens Gates lernen. Bei diesen Gates handelt es sich um verschiedene Zugoperationen, die Informationen lernen können, welche Informationen dem verborgenen Zustand des Feedbacks hinzugefügt oder entfernt werden sollen. Schlaufe. Der Hauptunterschied zwischen einem gated oder nn und einem LS iam liegt bei der gated. Arnett hat zwei Tore, um seinen Speicher zu steuern und zu aktualisieren Gate und Reset Gate, während in Elysium hat drei Tore und es Tor ein Ausgangs-Gate setzen, und wenn Sie Gate oder in Enden bekommen, arbeiten gut für Anwendungen, die Sequenzen von Daten beinhalten , die sich im Laufe der Zeit ändern. Diese Anwendungen umfassen die Verarbeitung natürlicher Sprachen, Sentiment-Klassifizierung, DNA-Sequenzklassifizierung, Spracherkennung und Sprachübersetzung. 19. Convolutional neuronalen Netze: eine Faltung auf Ihrem letzten Buch oder CNN,kurz gesagt, kurz gesagt, ist eine Art tiefer neuer Netzwerkarchitektur, die für bestimmte Tallis wie Bildklassifizierung entwickelt wurde . CNNs wurden von der Organisation von Neuronen im visuellen Kortex des tierischen Gehirns inspiriert . Als Ergebnis bieten sie einige sehr interessante Funktionen, die eine nützliche für die Verarbeitung bestimmter Arten von Daten wie Bilder, Audio und Video. Wie ein vollständig verbundenes New Net-Buch besteht ein CNN aus einer Eingabe- und Ausgabe-Ebene und mehreren versteckten Ebenen zwischen den beiden. CNNs leiten ihre Namen von der Art der versteckten Ebenen konsistent die versteckten Schichten von ASEAN ab und bestehen in der Regel aus Faltung, einer Schicht, die die vollständig verbundenen Ebenen des Grauers ziehen und Normalisierungsschichten. Dies bedeutet, dass anstelle der traditionellen Aktivierung, Funktionen Feed verwendet wurden, wenn Ihre Netzwerke Faltungs- und Pooling-Funktionen ein Jahr statt. Meistens ist die Eingabe des CNN typischerweise ein zweidimensionales Array von Neuronen, die den Pixeln eines Bildes entsprechen. beispielsweise Wenn Siebeispielsweiseeine Bildklassifizierung durchführen, ist der Ausgabe-Layer in der Regel eindimensional. Faltung ist eine Technik, die es uns ermöglicht, visuelle Features aus einem Zwei-D-Array in kleinen Blöcken zu extrahieren . Jedes Neuron in einer Faltungsschicht ist in der vorhergehenden Weise für einen kleinen Cluster von Neuronen verantwortlich . Der Begrenzungsrahmen, der eine Klasse von Neuronen bestimmt, wird als Filter bezeichnet. Rufen Sie auch einen Colonel an. Konzeptionell können Sie sich es als Filterfilm vorstellen und ein Bild bei der Durchführung einer mathematischen Operation und individuellen Lesungen des Bildes kreuzen . Es sendet dann dieses Ergebnis des entsprechenden, auf dem Sie sich in der Faltungsebene befinden. Mathematisch eine Faltung von zwei Funktionen, ist eine Faltung von zwei Funktionen, F N G definiert als Stürze, was in der Tat das Punktprodukt der Eingabefunktion ist und die Kernel-Funktion Pooling wechselt. Sub-Sampling Down-Sampling ist der nächste Schritt in einer Faltung in Ihrem Netzwerk. Sein Ziel ist es, die Anzahl der Neuronen, die in nachfolgenden Lagen des Netzwerks notwendig sind, weiter zu reduzieren , während immer noch die wichtigsten Informationen beibehalten werden. Es gibt zwei verschiedene Arten von Ziehen, die durchgeführt werden können Max Ziehen und Ziehen. Wie der Name schon sagt. Max Pooling basiert auf der Aufnahme des Maximalwerts aus der ausgewählten Region, und Männer ziehen basiert auf der Aufnahme des Minimalwerts aus dieser Region. Wenn wir all diese Techniken zusammensetzen, erhalten wir eine Architektur für ein Deep Newell Netzwerk, ganz anders als ein vollständig verbundenes neues Netzwerk für die Bildklassifizierung, wo CNN und stark verwendet. Wir haben zuerst Importbild genommen, das ist eine zweidimensionale Matrix von Pixeln, in der Regel mit drei Farbkanälen rot, grün und blau. anschließend Verwenden Sieanschließendeinen Faltung-Layer mit mehreren Filtern erneut, um eine zweidimensionale Feature-Matrix als Ausgabe für jeden Filter zu erstellen . Anschließend ziehen wir die Ergebnisse herunter, um die Beispiel-Feature-Matrix für jeden Filter im Faltung-Layer zu erstellen. Als Nächstes wiederholen wir in der Regel die Faltungs- und Ziehschritte mehrmals, wobei frühere Features als Eingabe verwendet werden. Dann hatten wir ein paar vollständig verbundene versteckte Ebenen, um das Bild zu klassifizieren. Und schließlich erstellen wir eine Klassifikationsvorhersage in der Ausgabeplayer-Faltung allein. Neue Netzwerke habe ich stark im Bereich der Computer Vision verwendet und funktioniert gut für eine Vielzahl von Aufgaben, einschließlich Bilderkennung, Bildverarbeitung, Bildsegmentierung, Videoanalyse und natürliche -Sprachverarbeitung. 20. Die Die 5 Schritte zum Aufbau eines Deep a: in diesem Abschnitt werde ich die fünf Schritte diskutieren, die in jedem Deep-Learning-Projekt, das Sie erstellt haben, üblich sind . Diese können erweitert werden, um sehr sah andere Aspekte, aber und es ist sehr kalt dort, sehr grundsätzlich fünf Schritte. 21. Datenund Datasets sammeln: Daten sind der Kern dessen, worum es bei Deep Learning geht. Ihr Modell ist nur so leistungsstark wie die Daten, die Sie mitbringen. Was mich zum ersten Schritt bringt, um Ihre Daten zu sammeln. Die Wahl der Daten und die Anzahl der Daten, die Sie benötigen, hängt von dem Problem ab, das Sie lösen möchten. Die Auswahl der richtigen Daten ist der Schlüssel, und ich kann nicht betonen, wie wichtig die Banddaten dieser Partei impliziert. Ein schlechtes Motiv. Eine gute Faustregel besteht darin, Annahmen zu den Daten zu machen, die Sie benötigen, und seien Sie vorsichtig, diese Annahmen aufzuzeichnen, damit Sie sie später bei Bedarf testen können. Die Daten sind in einer Vielzahl von Größen erhältlich. beispielsweise Datensatz Iris fehlerhaft enthältbeispielsweiseetwa 150 Bilder in der Gesamtmenge. Gmail Smart Reply hat rund 238 Millionen Beispiele im Schulungsset, und Google Translate hat Berichten zufolge Billionen von Datenpunkten. Wenn Sie einen Datensatz auswählen, gibt es keine Einheitsgröße für alle. Aber die allgemeine Regel von come ist, dass die Menge der Daten, die Sie für eine Weile Durchführung Modell benötigen 10 mal so viele Parameter, dass mehr. jedoch Dies kannjedochvon Zeit zu Zeit abweichen, abhängig von der Art des Morgens, den Sie erstellen, , und der Regressionsanalyse, sollten Sie etwa 10 Beispiele pro Prädiktorvariable für Bild verwenden Einstufung. Das Minimum, das Sie haben sollten, ist etwa 1000 Bilder, aber Klasse, die Sie versuchen, gut zu klassifizieren , Menge der Daten ist wichtig. Qualität ist auch wichtig . Es nützt keinen Grund, viele Daten zu haben. Wenn es sich um schlechte Daten handelt, gibt es bestimmte Qualitätsaspekte, die den guten Morgenstunden entsprechen. Ein Aspekt ist die Zuverlässigkeit. Verlässlichkeit umgekehrt. Hat der Grad, in dem Sie Ihr Datenmodell auf einem zuverlässigen Datensatz vertrauen können, ist wahrscheinlicher , nützliche Vorhersagen als Modellzug und unzuverlässige Daten liefern. Wie häufig sind beschriftete Fehler? Wenn Ihre Daten von Menschen beschriftet sind, kann es manchmal sein. Fehler sind deine Eigenschaften. Laut ist eine völlig genaue einige Geräusche. Altes Recht, du wirst es nie bereinigen können. Daten aus dem ganzen Geräusch. Es gibt viele andere Faktoren, die die Gleichheit bestimmen. Für den Zweck dieses Videos, obwohl, Ich weiß, über die restlichen sprechen, obwohl, wenn Sie interessiert sind, Ich lasse sie in der Show Notizen unten Lucky Ferraris. Sie sind wach. 20 unserer Quellen im Web, die gute Datensätze kostenlos anbieten. Sie sind ein paar Websites, wo Sie Ihr Date beginnen können. Ist das so? Die Sie sehen, Ich Maschine Learning Repository unterhält rund 500 extrem realmente und Datensätze, die Sie in Ihren Deep-Learning-Projekten verwenden können. Vieh ist ein anderes, das du liebst. Wie detailliert, dass Datensätze informiert Funktionen geben, Datentypen, Anzahl der Datensätze und so können Sie einen Oberst zwei verwenden. Und Sie müssen die Daten nicht herunterladen. Legen Sie die Daten von Google fest. Diese Suche ist noch in der Beta, aber ist einer der erstaunlichsten Sinn, wenn Sie heute beschränkt, bereit ist ein großartiger Ort, um die Daten anfordern, die Sie wollen. Aber auch hier besteht die Chance, dass es nicht richtig organisiert wird. Erstellen Sie Ihren eigenen Datensatz, der zu Ihnen gehen kann Web Scraper wie schöne Suppe verwenden, um Ihre erforderlichen Daten zu erhalten. Mit dem Datensatz 22. Pre-processing: nachdem Sie Ihr Datum ausgewählt haben, müssen Sie sich jetzt darüber nachdenken, wie Sie diese Daten verwenden werden. Es gibt einige häufige Vorverarbeitungsschritte, die Sie zuerst täuschen sollten, indem Sie den Datensatz in Teilmenge im Allgemeinen Normalerweise teilen wir einen Datensatz in drei Teile Training, Testen und Validieren von Sätzen, Umschulung Motive mit den Schulungen, die auf dem Validierungssatz ausgewertet wurden. Und schließlich, sobald es einsatzbereit ist, wurde ein letztes Mal auf dem Testdatensatz getestet. Jetzt ist es vernünftig, die folgende Frage zu stellen. Warum nicht zwei Cent Training und Testen? Auf diese Weise wird der Prozess viel einfacher sein. Trainieren Sie einfach den Moment auf den Trainingsdaten und testen Sie die Testdaten. Die Antwort darauf ist, ein Modell zu entwickeln, besteht darin, seine Konfiguration mit anderen Worten zu optimieren, bestimmte Werte für die Hyperparameter oder die Gewichtsanweisungen zu wählen. Diese Abstimmung erfolgt mit dem Feedback, das von der Validierung auf erhalten wird, ist im Wesentlichen der Form des Lernens. Beachten Sie, dass wir die Davis einfach nicht aufteilen können, wenn Sie das zufällig tun, und Sie erhalten zufällige Ergebnisse. Es muss eine Art von Logik geben, um den Datensatz im Wesentlichen zu teilen, was Sie wollen, ist für alle drei Sätze die Trainingstests auf Validierungen, die einander sehr ähnlich und Schrägen so weit wie möglich zu beseitigen. So viele abhängige zwei Dinge. Erstens die Gesamtzahl der Samples in Ihren Daten und zweitens oder je mehr Sie versuchen, Modelle mit sehr wenigen Hyperparametern zu trainieren, sehr einfach in Übereinstimmung zu validieren, so dass Sie wahrscheinlich die Größe Ihres Validierungssatzes reduzieren können. Aber wenn du sterblich bist, hat nicht viele Hyper-Parameter, würden Sie einen großen Validierungssatz sowie eine Kreuzvalidierung haben wollen. Außerdem, wenn Sie zufällig ein Modell ohne Hyperparameter haben, diejenigen, die nicht leicht abgestimmt werden können, benötigen Sie wahrscheinlich kein Validierungsset alle noch, wie viele andere Dinge im maschinellen Lernen und Deep Lernen. Der Traumtest der Validierung Spread Ratio ist auch ganz spezifisch für Ihren Anwendungsfall, und es wird einfacher, das Urteil zu treffen, wenn Sie mehr und mehr Modelle trainieren und bauen. Also hier ist eine kurze Notiz zur Kreuzvalidierung. Normalerweise werden Sie Ihren Datensatz nicht in den Zug und den Test aufteilen. Danach behalten Sie den Testsatz beiseite und wählen Sie nach dem Zufallsprinzip einen Prozentsatz von dem Trainingssatz aus, um den tatsächlichen Zug zu sein , der auf den verbleibenden als Validierungssatz gesetzt wird. Das Modell ist, dann ist es relativ trainieren und validiert auf diesen verschiedenen Sätzen. Es gibt mehrere Möglichkeiten, dies zu tun, und dies wird allgemein als Kreuzvalidierung bezeichnet. Grundsätzlich verwenden Sie Ihren Trainingssatz, um mehrere Splits des Zuges und des Validierungssatzes zu generieren. Kreuzvalidierung vermeidet Überanpassungen und wird immer beliebter mit K-Falten-Kreuzvalidierung ist die beliebteste Methode. Darüber hinaus, wenn Sie an Zeitreihendaten arbeiten, ah, häufige Technik besteht darin, die Daten nach Zeit zu teilen. Zum Beispiel, wenn Sie ein Datum ist voraus mit 40 Tagen Daten, können Sie Ihre Daten aus Tagen zu trainieren 39 Ihr Modell auf den Daten von Tag 40 bewerten. Für Systeme wie diese, der Zug teuer ist älter als die dienen Daten, so dass diese Technik und zeigt Ihre Validierung, spiegelt eine Lank zwischen Ausbildung und dienen. jedoch, Beachten Siejedoch,dass zeitbasierte Splits am besten reveille funktionieren. Sehr große Datensätze wie bei Dutzenden Millionen von Beispielen. Die zweite Methode, die wir in der Vorverarbeitung haben. Es ist Formatierung, sagten die Daten. Sie ausgewählt haben, könnte nicht im richtigen Format sein, das Sie mögen. Zum Beispiel könnten die Daten in Form einer Datenbank vorliegen, aber Sie mögen es als CS file Mice Gefäß. Natürlich gibt es ein paar Möglichkeiten, dies zu tun, und Sie können Google em, wenn Sie möchten. Der Umgang mit fehlenden Daten ist einer der schwierigsten Schritte beim Sammeln von Daten für Ihre Deep-Learning-Projekte. Wenn Sie nicht sehr glücklich sind, mit dem perfekten Datensatz zu landen , der ziemlich rot ist, würde der Umgang mit vermissten Liebe wahrscheinlich einen erheblichen Teil Ihrer Zeit in Anspruch nehmen. Es ist ziemlich Coleman und reale Probleme, einige Werte unserer Datenproben zu verpassen. Dies kann auf Fehler bei der Datenerfassung, Leerräume bei Erhebungen, nicht zutreffende Messungen usw. zurückzuführen sein. Fehlende Werte sind in der Regel mit dem beliebigen Ende oder den Nein-Indikatoren dargestellt. Das Problem dabei ist, dass die meisten Algorithmen diese Art von fehlenden Werten verarbeiten können, daher müssen wir uns um sie kümmern, bevor wir Daten in unsere Modelle einfügen. Es gibt ein paar Möglichkeiten, mit ihnen umzugehen. Eine davon besteht darin, die Stichproben der Features mit fehlenden Werten zu eliminieren. Der Nachteil, natürlich, dass Sie riskiert, relevante Informationen zu löschen. Der zweite Schritt besteht darin, den fehlenden Werten eine gemeinsame Methode zuzuschreiben, um die fehlenden Werte als Mittelwert für die restlichen Stichproben festzulegen . Aber natürlich gibt es andere Möglichkeiten, mit bestimmten Daten umzugehen. Set. Sei klug. Ist die Behandlung fehlender Daten in der falschen Weise in Rechtschreibkatastrophen, Manchmal haben Sie möglicherweise zu viele Daten, die Sie benötigen, mo Daten können zu größeren Rechen- und Speicheranforderungen führen. In solchen Fällen handelt es sich um Best Practices. Sie waren eine kleine Stichprobe des Datensatzes. Es wäre schneller und letztlich eine Erhöhung der Zeit für Sie zu erkunden und Prototypen Illusionen. In den meisten realen Daten werden Sie auf Ungleichgewichtsdaten stoßen. Das sind Klassifizierungsdaten. Das ist niedliche Klassenproportionen, die zu den Rechten einer Minderheitenklasse auf einer Mehrheitsklasse führen . Wenn wir ein Modell auf Daten wie diesen trainieren, ah, ah, wird das Modell nur Zeit damit verbringen, über die Mehrheitsklasse zu lernen und viel weniger Zeit auf die Minderheitsklasse und Hände Betrag wird letztendlich auf die Mehrheitsklasse voreingenommen und so in Fälle wie diesen verwenden wir normalerweise einen Prozess namens Down Probenahme und up Warten, was im Wesentlichen die Mehrheitskosten um einen Faktor reduziert und dem Down-Probentuch Beispielgewichte dieses Faktors hinzugefügt . Zum Beispiel jede Down-Sample die Mehrheitskosten um den Faktor 10. Dann das Beispiel. Warte, wir fügen hinzu, dass Tuch 10 sein sollte. Es mag scheinen. Oder, um Beispiel hinzuzufügen, Gewicht nach unten etwas. Was ist ihr Zweck? Nun, es gibt ein paar Gründe, zumindest eine schnellere Konvergenz. Während des Trainings sehen wir die Minderheit öfter stilvoll, was ihm allen hilft. Sie konvergieren schneller, aber Konsolidierung der Mehrheitsklasse in ein paar Beispielen mit größeren Gewichten, wir verbringen weniger diesen Platz, speichern sie warten und Schüttelfrost. Das Multi kalibriert noch. Wir addieren das Warten nach unten Stolpern, um den Datensatz in einem ähnlichen Verhältnis zu halten. Diese Prozesse helfen im Wesentlichen, einen Morgen über die Minderheitenkosten zu scheinen, anstatt nur die Mehrheitsklasse. Dies hat einen Morgen in realen Situationen besser durchgeführt. Funktion. Skalierung ist ein entscheidender Schritt in der Vorverarbeitung bei der Mehrheit der Deep-Learning-Algorithmen , bevor viel besser im Umgang mit Features, die auf dem gleichen Maßstab sind. Die gebräuchlichsten Techniken sind die Normalisierung, die die Wieder Skalierung oder Funktionen umkehrt, um zwischen Null und eins anzuordnen, was in der Tat ein Sonderfall von Min Max Scaring ist. Um diese Daten zu normalisieren, müssen wir die Min Max-Skalierung auf jede Feature-Spalte anwenden. Standardisierung besteht darin, das Feld und den Mittelwert Null mit Standardabweichung zu zentrieren, eine, sodass die Feature-Spalten dieselben Parameter haben wie eine Standardnormalverteilung , die den Mittelwert Null und die Varianz der Einheiten beträgt. Dies macht es den Lernalgorithmen viel einfacher, das Gewicht der Parameter zu erlernen . Darüber hinaus hält es jugendliche Informationen über unsere Zangen auf macht die Algorithmen weniger empfindlich auf sie. 23. Schulung dein Modell: einmal, was ich getan habe, wird vorbereitet. Wir füttern das jetzt in ein Netzwerk ein, um zu handeln. Wir haben den Lernprozess eines neuen Netzwerks im vorherigen Modul besprochen Wenn Sie sich also unsicher sind, würde ich Ihnen raten, diesen weiteren Job zuerst zu waschen. Aber im Wesentlichen, sobald ein Datum zugeführt worden ist, tritt vier Ausbreitung auf die Verluste im Vergleich zu der verlorenen Funktion auf die Parameter werden basierend auf diesem Verlust angepasst und wieder geschnitten, nichts zu anders wäre zuvor besprochen. 24. Bewertung dein Modell: Ihr Modell hat erfolgreich trainiert Herzlichen Glückwunsch. Jetzt müssen wir testen, wie gut unser Sterblicher die Validierungen im Reitz nutzt. Ich entscheide. Der Evaluierungsprozess ermöglicht es uns, ein Motil gegen Daten zu testen, die es noch nie gesehen hat . Und das soll repräsentativ dafür sein, wie gut das Modell in der realen Welt funktionieren könnte . 25. Optimieren deines Modells: nach dem Evaluierungsprozess besteht eine große Chance, dass Ihr Morgen weiter optimiert werden könnte. Denken Sie daran, wir begannen mit Laufgewichten und Laster, und diese werden finden, Tune tut Rückenausbreitung. Nun, in einigen Fällen würde schlechte Ausbreitung es beim ersten Mal nicht richtig machen. Und das ist in Ordnung. Es gibt ein paar Möglichkeiten, Ihren Morgen zu optimieren. Weitere verdammte Hyperparameter sind eine gute Möglichkeit, eine Modellleistung zu optimieren. Eine Möglichkeit, dies zu tun, besteht darin, dem Sterblichen das gesamte später gesagt mehrmals zu zeigen. Das heißt, indem die Anzahl der Epochen erhöht wird. Dies wird manchmal gezeigt, dass die Genauigkeit auf andere Weise verbessert wird. Indem wir das Ess-Schreiben angepasst haben, sprachen wir darüber, wie die Lernrate im vorherigen Modul war. Wenn Sie also nicht wissen, was die Generatoren tun, laden Sie ein, das vorherige Modul zu überprüfen. Aber im Wesentlichen definiert das Lernen neu, wie weit wir die Linie während Ihres Schritts verschieben. Basierend auf Informationen aus dem vorherigen Trainingsschritt bei der Rückenausbreitung spielen diese Werte eine Rolle darin, wie genau unsterblich werden kann und wie lange das Training für komplexe Modelle tritt. Anfangsbedingungen können eine wichtige Rolle bei der Bestimmung des Ergebnisses der Ausbildung spielen es gibt viele Überlegungen in dieser Phase des Trainings, und es ist wichtig, dass Sie definiert man eine moderne gut genug macht. Andernfalls können Sie Parameter für eine lange, lange Zeit twittern . Die Anpassung dieser Hyperparameter bleibt ein bisschen ein nicht und bewegt sich experimentellen Prozess, der stark von den Besonderheiten des Datensatzes abhängt, Morgan und Trainingsprozess. Sie werden dies entwickeln, wenn Sie mehr und mehr in Deep Learning gehen, also machen Sie sich jetzt keine Sorgen zu viel darüber. Eines der häufigsten Probleme, auf die Sie stoßen, ist, wenn Sie sterbliche Leistung gut auf Trainingsdaten sind, aber Leistung schrecklich Ihre Daten, die es noch nie zuvor gesehen. Dies ist ein Problem oder passend. Dies geschieht, wenn das Modell einen Pfad erlernt und spezifisch für den Trainingsdatensatz, der für andere nicht gesehene Daten relevant ist. Es gibt zwei Möglichkeiten, dies über die Anpassung zu vermeiden. Immer mehr Daten und Regularisierung. Abrufen von Bewegungsdaten ist in der Regel die beste Edition. Ein Modell Trainingsmodus Daten werden natürlich besser verallgemeinern. Reduzieren Sie die sterblichen Seiten durch die Verringerung der Anzahl der Lern-Parameter im Modell auf mit ihm, es ist Lernfähigkeit ist ein anderer Weg, aber durch die Verringerung der Kapazität des Netzes Sie gezwungen, es zu lernen Muster, das wichtig ist, oder dann den Verlust zu minimieren. Auf der anderen Seite wird die Verringerung der Kapazität des Netzes zu stark zu einer Anpassung führen. Der Morgen wird nicht in der Lage sein, die relevanten Muster in den Zugdaten zu lernen. Leider gibt es keine magischen Formeln, um dieses Gleichgewicht zu bestimmen. Es muss getestet und ausgewertet werden, indem eine unterschiedliche Anzahl von Parametern bei der Beobachtung seiner Leistung festgelegt wird. Die zweite Methode zur Adressierung des Formstücks besteht darin, eine Gewichtsregulierung auf das Modell anzuwenden . Eine übliche Möglichkeit, dies zu erreichen, besteht darin, die Komplexität des Netzwerks einzuschränken, indem es zwingt , nur kleine Werte zu nehmen, die die Verteilung der Gewichtswerte regulieren. Dies geschieht durch Hinzufügen zu verlorener Funktion des Netzwerks, eine Kosten, die mit größeren Raten verbunden sind. Und diese Kosten kommen in L eine Regularisierung zu den Kosten in Bezug auf den absoluten Wert von dem Gewichtskoeffizienten oder dem L zu erhöhen normal Raten aus zur Regularisierung zu den Kosten. Bessere Schutzvorrichtungen mit quadratischem Wert vom Gewichtekoeffizienten, der dem L-Normalgewicht entspricht . Eine andere Möglichkeit, das Überpassen zu reduzieren, besteht darin, alte Menting-Daten für eine eingeschränktere Form zu verwenden. Nun, eine zufriedenstellende. Wir brauchen eine Menge Daten. Wir klingen einfach nur schon. Aber in der Regel, wenn Sie mit Bildern arbeiten, gibt es immer eine Chance, dass Ihr Morgen gewarnt Form so gut, wie Sie es möchten. Egal, wie viele Daten Sie in solchen Fällen haben, wenn Sie begrenzte Datensätze, Daten, Daten, Augmentation ist eine gute Möglichkeit, einen Datumssatz zu erhöhen, ohne es wirklich zu erhöhen. Wir ordnen diese Daten oder in diesem Fall Bilder künstlich an, so dass wir zwei weitere Daten aus bereits vorhandenen Daten erhalten. Von welchen Augmentationen reden wir also? Nun, alles vom Spiegeln des Bildes der Y-Achse, dem Spiegeln der leeren X-Achse bis hin zum Zoomen im Bild. Was das macht, ist, dass es zeigt, dass du sterblich bist, mehr als das, was das Auge trifft. Es macht Ihre modellierten mehr die vorhandenen Daten, so dass es beim Testen automatisch besser funktioniert, weil sie Bilder in fast jeder einzelnen Form dargestellt gesehen haben. Schließlich ist die letzte Methode, die wir über seine Dropper sprechen werden, eine Technik, die Deep Learning verwendet , die Einheiten oder Neuronen im Netzwerk groß ausfällt. Einfach setzen Dropout Diversity ignorieren auf Neuronen während des Trends Gesicht aus einer zufällig gewählten Reihe von Neuronen. Indem ich ignoriere, meine ich, dass diese Einheiten bei einem bestimmten Vorwärts- oder Rückwärtsgang nicht berücksichtigt werden. Warum brauchen wir also überhaupt Roboter? Warum müssen wir einen Teil eines neuen Netzwerks herunterfahren? Eine vollständig vernetzte früher besetzt die meisten Parameter und damit nuancierte Entwicklerkoabhängigkeit untereinander während des Trainings, was die individuelle Kraft jedes Neurons eindämmt, auf der letztlich über die Anpassung der Trainingsdaten, so fallen Sie eine gute Möglichkeit, über Anpassung zu reduzieren.