Transkripte
1. Einführung: willkommen zum ersten Kurs unter Durchsetzung Learning. Diese Klasse ist in 10 Lektionen unterteilt, die ungefähr aus einer Überschreitung von Videoinhalten besteht. Und wir erwarten kein Wissen aus verstärktem Lernen für den Start dieses Kurses
insbesondere wirklich voll. Sie haben ein grundlegendes Verständnis dafür, wie Nuland was funktioniert. Und das ist für den Start von 10 Kursen zum Verstärkungslernen. Es hat einige Intellekt-Stream-Material, so dass Sie einige einleitende Kenntnisse der Verstärkung Lernkonzepte zu gewinnen. Sie würden sich also fragen, wer der Ausbilder ist? Mein Name ist also offensichtlich Kumar und ich arbeite als Informatiker bei Adobe. Ich habe sieben Jahre Erfahrung in der Programmierung und schlechte plus Jahre Erfahrung im maschinellen Lernen. Also, was wirst du wissen? Nachdem Sie diesen Kurs absolviert
haben, erhalten Sie ein grundlegendes Verständnis für das Verstärkungslernen, sodass Sie das Schlüsselterminal Aziz verstehen können, das beim Bewehrungslernen verwendet wird. Und nach Abschluss des Diskurses, werden
Sie bereit sein, in Fortgeschrittene Kurse unter Durchsetzungslernen zu fahren. Schauen wir uns also kurz den Kursinhalt an. So hat es über Sie, wo ich einen Überblick über die Maschine geben werde, Lernen als Ganzes und verstärktes Lernen im Besonderen. Dann werden wir in einen Agenten schauen, eine Umgebung, die kompetent sind. Also für die Durchsetzung Lernen als Geschichte und Staat als Marco beschäftigt und Prozesse Komponenten aus Verstärkung, Lern-Agent, Kategorisierung unserer Religion, Lernen und Planung, Exploration und Ausbeutung und Vorhersage und Kontrolle. Also willkommen zu den Partituren und hoffen, Sie beim nächsten Hören zu sehen.
2. Übersicht: willkommen zu den Partituren auf Verstärkung. Lernverstärkung Lernen ist ein Zweig des maschinellen Lernens. Also lassen Sie uns zuerst sehen und über die Waisen beim Lernen auf sehr Verstärkung. Lernen für sein Interesse vom Sehen des Lernens ist in drei Hauptkategorien unterteilt. Beaufsichtigtes Lernen über überwachtes Lernen und Verstärkung. Lernen. Heutzutage halb betreuten Lernbegriff ist auch beliebt, aber der Einfachheit halber wird diese drei Männer Zweige in betreuten
Lernen bleiben . Wie der Name schon sagt, gibt es einen super Grund oder eine Anleitung. Toby bieten eine abgesetzte Ebene später. Auch die Chris Morning oder setzen auf die Arbeit des Netzwerks ist es, mit diesen gut Niveau Trainingsdaten und die Hauptklassen oder betreutes Lernen oder Klassifikation und Regression . So Klassifizierung, wie der Name schon sagt und befasst sich mit der Kategorisierung der Rückkehr zum nächsten
lesen wir in der Regression. Wir bekommen einige wirklich geschätzt oder Pop, so ein Beispiel für Klassifikationen wäre, dass einige Beispiele Beispielbild es natürlich auf einem Bild es
aus Mike oder im Grunde gegeben wurden , und einige andere Fahrzeuge vielleicht war, und wir haben nivelliert Boot-Objekte in unseren Bildern, so dass wir die Position, wo diese in Grenzen befinden. So ist es wir bieten schaltet Tonnen von Details wie vielleicht 100 kr 10 Geschenke wie Ebene später zu unserem Netzwerk in diesem Fall für die Bildverarbeitung. CNN verdoppelt sich dann letztendlich. Das Netzwerk wird herausfinden, was der Unterschied zwischen der Darstellung von einem Auto zu einem Fahrrad oder Mitgliedern auf ist? Letztendlich, wenn wir Zähler füttern das seltsame neuronale Netzwerk, wird
es in der Lage sein, richtig vorherzusagen, ob das Bild gehört zu der Klasse off Karte Mike Oremus So kann Mut genannt. Schließen Sie eins und von Fall, Klasse zwei und Klassenbaum. So wird es
auchhier einige diskrete Klassen geben, auch wir lesen. Im Falle der Regression, können
Sie einige kontinuierliche Daten geben, wie einige Schlauchpreise angegeben werden, und wir haben einige
Inputfaktoren wie Anzahl der Schlafzimmer gegeben , ID eo diese Lokalität auf DSO bis B eine Reihe von bestimmten später zur Verfügung gestellt. Auch
der knackige Morgenpreis weiß, so dass dies eine echte Zahl sein wird, also trainieren Sie unser neues Netzwerk. Aber diese Art von Daten werden letztendlich möglich sein, um den Preis von einem neuen Schlauch vorherzusagen. Also, wenn wir füttern ah weg Schlafzimmer Oh, wie Syrien und die Lokalität von denen, wird
das Netzwerk in der Lage sein, vorherzusagen, was sollte der Preis der Nase sein. So wird das Glücksspiel einer strengen und wir sind es wird einige echte geschätzt oder oder in
unbeaufsichtigten Lernen vorhersagen , es gibt keine Vorgesetzten oder Führung Wer hier? Das Netzwerk versucht nur, eine bestimmte Daten basierend auf Ähnlichkeit zu gruppieren oder versucht zu verstehen dass
sie Lehrer im Wurf würden und versucht zu finden, dass Originate ähnlich sind und wir haben es
anders sind und es war letztlich Handelsgruppe ähnliche Daten zusammen. Also die Hauptklassen aus einem überwachten Lernen oder Clustering, es sei denn, eine Saison so plus jingle hauptsächlich Gruppe oder verschiedene Datenpunkte gibt es nur eine Saison waren oder versuchen,
eine Beziehung zwischen verschiedenen Umfängen zu finden , wie in der früheren enge, betreute Lernbeispiel, das wir verkauft haben. Wir hatten drei Parameter. Ausgezeichnet neben extrem Und wir waren Vorhersage Weg und wir hörten einen Rekordgewinn und oder zweiten Rekord hörte Rekordüberschuss Stringer Handel Gruppe Diese verschiedenen Daten Punkt zu bekommen. Wie diese beiden Aufzeichnungen sind ähnlich. Es gibt eine Saison wurden versucht, einige Fehlschläge Saison dort zu finden. Dieser Ex-Baum ist stark mit Exzellenz verbunden, wenn X da ist. Es ist sehr wahrscheinlich, dass extrem auch dort, Also diese sind verwandt. Dies ist also der Unterschied System Clustering und Assoziation. Und diese fallen unter den Artikel Ihre Mittel über Sehr Lernen. Schließlich verstärktes Lernen, das das Hauptthema dieses Kurses in der Verstärkung Lernen ist. Es gibt keine Anbieter, aber es hat Belohnungssignale, und die Hauptkomponenten des verstärkten Lernens sind keine Umgebung, also nimmt Agent eine Maxime basierend auf einer Politik. Also,
hier meine ich nicht einen Algorithmus und es hat eine Politik. Bitte nehmen Sie keine digitale Maxime an. Eine Umgebung wird bestimmte offensichtliche Gründe emittieren, abhängig von der Aktion des Agenten und auch einige Belohnung 3 30 Punkte auf den Agenten Akzent, zum Beispiel. Hier gibt es keine vordefinierte Menge von mehr und Unterstützung. Wir haben ihre Arbeit, und es versucht zu lernen, gehen, also ist es Belohnung bewegt sich in diese Richtung. Sie machen es verschiedene Arten aus offensichtlichen Gründen, wie einige Objekte. Vielleicht sind sie im Weg, und wenn es herunterfällt, wird
es negative Arbeit von der Umwelt erhalten, und es wird versuchen, sich zu korrigieren Wo, wenn die Welt in diese Richtung bewegt hätte, und Sie sollten all Ihre unterschiedliche Art von Erfahrung haben, und es könnte einige andere Beobachtungen haben oder bekommen. Hier hängt also die Rückkehr mit dem Agenten trainiert wird vom Akzent ab, während
wir im Falle des überwachten Lernens einen festen Abschreckungssatz zur Verfügung gestellt hätten, auf dem wir über unsere neuronalen Netzwerke trainieren werden . Es ist also anders als überwachtes Lernen. Also einige Beispiele, die das Lernen stärken, Schach zu spielen, wo Innovation ,
ähm,
aus Schritt
nimmt ähm, , und es wird jemand Ihre negative Belohnung gemacht. Und wenn es ein negatives Wort bekommt, wird
es versuchen, sich zu korrigieren. Und schließlich, mit viel Erfahrung, wird
es. Basin wird die Ordnung Versprechen lernen. In ähnlicher Weise aus. Flughubschrauber könnte ein Beispiel für die Verstärkung lernen die Kamm auf Kamm Hubschrauber. Wir können eine negative Belohnung geben, bevor wir fallen. Einige tragische Baum, wie wir wollen, würden wir einige geben war zu belohnen und ähnliche Führer. Welcher Spaziergang kommt auch unter Verstärkung, Lernen
3. Agent und Umgebung: ist nicht und Umwelt sind die beiden Hauptkomponenten des Verstärkungslernens. Also lassen Sie uns sehen, wie Agent und Umgebung indirekt bei jedem Schritt t ist nicht ausführen Zyniker in einem und wiederum erhält eine Belohnung. Chris Morgen. Zwei vorherige ausgezeichnete, und einige Ihrer Grund und welche Umgebung ist es erhält Steuer und eine Nachahmung des Terrorismus oder P plus ein auf Artikel. Isman. Also, was auch immer Akzent Asian nahm in der vorherigen Zeit Schritt die Umwelt fühlen eine Belohnung für Schmutz im nächsten Zeitschritt. Und auch, obwohl, Chris Morgen aus dem Grund, und wir erhöhen die und die Umwelt Schritt. Also haben Sie dieses Keller Feedback-Signal darauf bestellt, dass Hole Will Agent eine
Zeit tut , so dass es nützlich sein wird, zwischen Grenzen mit dem Harbin zu vergleichen oder sind zu bedienen. Wird in der Lage sein, verschiedene Auszeichnungen auf etwas Geschick, so dass wir Belohnungen vergleichen können, die
helfen werden . Die ist nicht in der Optimierung seiner Politik, so dass die Politik visuell Jahr mehr kumulative Belohnung wird eine bessere Politik sein. Das Hauptziel des Agenten ist es, die kumulative Belohnung im Laufe der Zeit zu maximieren, so dass es nicht notwendig ist, dass die sofortige Belohnung ihn remax. Deshalb ist es anders als wütend geliefert. Ähm, das Ziel ist es, die kumulierte Belohnungsüberstunden auf der Disc zu maximieren. Wir nennen diese Gemeinschaft Belohnung, wenn sie Verstärkung zurückkehren. Lernen basiert auf einer Belohnung wiederholte und meine Belohnung Anstrengung. Dies ist, wir meinen, dass jedes Ziel formalisiert werden kann, wie unser Handel die akkumulative Belohnung maximiert. Lassen Sie uns einige Beispiele für Belohnung sehen. Also, im Falle von nur, können
wir eine Hafenstadt Belohnung für den Gewinn des Spiels definieren und negativ waren für den Verlust des Spiels. So sehen Sie ihren Schwanz für einzelne Züge gab keine Belohnung. Andi Belohnung wird verzögert und wir machen es Belohnung am Ende des Spiels. Es ist also nicht notwendig, dass nach jedem X und es eine transformierende Belohnung geben wird. Zweites Beispiel könnte sein, den Roboter zu gehen, so dass die Trümmer zu lernen, zu gehen, wo wir geben geschoben die Belohnung für
Vorwärtsbewegung und Negativität. Wort für Schwellung und im Falle von Hubschraubermanövern, die wir halten können, war die Belohnung für die
Folgen des tragischen Baumes. Wenn der Hubschrauber der Hirschbahn folgt, erhält
er eine hochwertige Belohnung. Es gibt ein ***, um für Fluch oder den Hubschrauber aufzuzeichnen. Wir sahen, dass ihre verschiedenen Probleme unter der Verstärkung Lernen formuliert werden können. Also unterscheiden sich diese Trolling sehr voneinander? Oder können wir etwas Gemeinsames Polizei finden, so dass wir verwendet oder Sequenzen der Entscheidungsfindung sie unter einem gemeinsamen Ziel zu
vereinheitlichen. Das gemeinsame Ziel für alle diese Tests war es, Akzente auszuwählen, die insgesamt
zukünftige Belohnungen maximieren . Also müssen wir vielleicht planen, ausgestrahlt. Zum Beispiel, einige von manchmal die Belohnung nicht sofort offensichtlich sein. Zum Beispiel, in dem Fall, aus dem Spiel von Truhen werden wir die Belohnung nur erhalten, nachdem wir das Spiel gewonnen oder verloren haben. Daher müssen wir vielleicht im Voraus planen, damit die Ergebnisse erzielt werden können, und wir müssen möglicherweise
sofort Worte oder bessere langfristige Belohnungen opfern . So könnte ein Beispiel sein, dass einige Züge im Schach vielleicht nicht offensichtlich sein, aber es kann auf lange Sicht nützlich sein, das Spiel zu erfinden. Ebenso bei Finanzinvestitionen geben
wir
bei Finanzinvestitionenetwas Geld in der aktuellen Zeit auf, so dass wir irgendwie negative Belohnungen bekommen, in der
Hoffnung, dass wir in Zukunft noch mehr belohnen werden. Ebenso verbringen
Sie für Bildung in der Hoffnung, dass die Rendite wird viel mehr als die laufenden Ausgaben
4. Geschichte und Staat: In diesem Video werden
wir stattdessen Award Geschichte studieren, die Straße GIs Sequenz von den jüngsten Akzenten und George, dass Agent bisher gesehen hatte. Also denken Sie daran, dass wir über ist nicht und Umwelt gesprochen, und wie sie interagieren ist in nimmt ein Maximum an Schönheit und im Gegenzug erhalten einige Belohnung und Beobachtungen. Also die Straße, nur wenn die Anhäufung solcher Objektebene Variablen bis zu Zeit T, so ist es sehr wichtig. Und was als nächstes passiert, hängt von der Straße ab. Also Agent Residualalgorithmus wird es seinen Akzent basierend auf der vergangenen Erfahrung auswählen oder was auch immer er bisher gesehen hat, ist Teil der Geschichte. So wird es Akzent nehmen, abhängig von diesem Baum und auch der Umgebung. Wählen Sie offensichtliche Gründe und Belohnungen basierend auf der Geschichte aus. Was für ein Problem mit der Geschichte, dass es mit Zeiten weitergeht. Nach einiger Zeit wird es zunehmen und sich weiter anzusammeln, und es wird sehr schwierig sein, die gesamte Geschichte zu verarbeiten. Also haben wir etwas namens ST, das nur Informationen verwendet wird. Was wird als Nächstes passieren? Es ist also nur eine Funktion der Geschichte. Ein Beispiel könnte sein, dass wir nur die letzten drei der Gründe nehmen, da die kurzfristigen Moderationen wichtiger sind als die Jury, da dies in der fernen Vergangenheit auftreten. Das ist also nur ein Beispiel. Es kann eine komplexe Funktion aus der Geschichte auch sein, dann haben wir etwas namens Environment State oder Wörter, um so Umwelt. State ist der Zustand normalerweise Umgebung, um zu bestimmen, wie die nächste Änderung und
Belohnung generiert werden soll, so dass es normalerweise nicht für den Agenten zugänglich ist. Und selbst wenn es visuell
ist, ist es möglicherweise nicht sehr nützlich für den Agenten, seinen nächsten Akzent zu bestimmen. Also, wenn Beispiel ERT lesen könnte, gibt es eine. Ah, Zimmer und Wunder Arbeit läuft und momentan ist die Belohnung hier. So hat es einige Kamera getestet. So hat es einen sehr engen Blick auf die Umgebung, so dass es nur diesen Teil der
Umgebung sehen kann . Es hat keine Ahnung, ihre Worte in diesem Teil der Umwelt und in anderen Teilen der Umwelt. Es hat eine sehr begrenzte Sicht auf die Umwelt. Also unser Agent Gadgets einen Zustand, der Agenten
, interne Repräsentation und diese Information ist ein sehr gebrauchter Agent Zehe Streikposten. Nächster Hexham. So kann es jede Funktion der Geschichte für Jumper sein. Es könnte einfach verloren gehen drei Staaten, so ein Beispiel könnte sein, dass im algorithmischen Handel, die Händler sehen auf einige gleitende Durchschnitt Brutto. Das ist also, sagen
wir, fünf Tage gleitender Durchschnitt unter Ghanis 20-Tage-Umzug Enbridge. Also hier gibt es einen Triggerpunkt. Es ist an der Zeit zu verkaufen. Also diese fünf, die movinary Logistik die letzten fünf Tage Preis in Betracht gezogen. Also letzten fünf Tage Floating Preis einer Aktie und basierend auf dieser Tablette, Staybridge und ähnlich 20 Tage bewegen, reizbar berücksichtigen die letzten 20 Tage. Also ist es nicht oh, Anbetracht der gesamten Geschichte der Preise der Aktien, sondern nur einige vergangene, ah ,
Preise, denn sie leben mehr in der Bestimmung der nächsten Rennen und unserer inneren Durchsetzung Lernen. Wir haben etwas namens Marco Jimson. Also, wo wir sagen, dass der Staat von Agenten verwendet wird, ist es ausreichend, um Statistiken aus der Geschichte. Um die Zukunft vorherzusagen, benötigen
Sie also nur den aktuellen Zustand der Umgebung. Also geben Sie STD Markov an. Wenn es diese Eigenschaft erfüllt. Also der nächste Zustand, angesichts der aktuellen Zustand und Dax in ihm gleiche wie die nächste aufgeführt, angesichts der gesamten Geschichte und ausgezeichnet. Also sind diese drei Schritte nichts beitragen, so dass es diese entfernt werden. Dann kriegen wir das Gleiche. Also, wenn wir stattdessen sind, Esy und wir nehmen eine maximale Schönheit Denver Elite, die neben ST Steepness eins. Aber wir haben auch gehört, dass ein anderer Geschichtsschritt wie dieser zu Oliver Twist E Also diese Art off, wirklich, da es diese nicht gibt. Also nur der aktuelle Akzent und in den Zustand geschnitten, ist
es ausreichend, um die nächste zu bestimmen Also das ist was Datensatz? Markova Jensen. Und das ist der Status erzielt. Marco Bundesstaat. Wenn es dieser Markle-Eigenschaft folgt, ist
die Zukunft unabhängig von der Vergangenheit. Dies sind also die Vergangenheit angesichts der Gegenwart. Und das ist Steve Sprint. Also könnte ein Beispiel wieder sein Oh,
ja, ja, ich könnte den Handelsalgorithmus durch in Betracht ziehen. Nein. Und dann haben wir den gleitenden Durchschnitt. Also Ah, Wilkens, der Algorithmus berücksichtigt die letzten 20 Tage, also hier wäre ein Staat der Preis zwischen Juni 20 Tagen. Das ist nur e onda Steve minus eins. Seine Preise von 40 Tagen bis zu 20 Tagen und Ton Essen und der Hochfrequenz-Handelsalgorithmus berücksichtigt diese Zustände
nicht. Es berücksichtigt nur die letzten 20 Tage Preise. Dies wird also ein Beispiel aus sein. Marco Immobilien
5. Markov Entscheidungsprozess: In diesem Video werden
Sie von Wharton Wichtiges Konzept in Verstärkung Lernen namens Marco Decision Process oder kurz gesagt, M v P. Um MDP zu verstehen, muss
man verstehen Was sind die verschiedenen Arten von Umgebung. So eine Umgebung. Können wir zwei Typen haben, die entweder vollständig von der Regel oder dem Paket Ihrer Regeln abweichen? Also, wo bedeutet das, also in völlig abseits der ländlichen Umgebung, diese indirekt Objekte die Umweltstaaten, also gibt es nichts Verborgenes vor der Region. Der Agent kennt also die Spielregeln. Also, was auch immer der Zustand ist, den der Agent bewegt. Also hier, Hund ein Grund. Sein Ziel des Agentenstaates und das ist das gleiche wie die Umgebung Stewart. Und wenn dies die Bedingung ist, dann sagen wir, dass der Agent im Marken- oder Präzisionsprozess ist, die anderen Fälle teilweise außerhalb der Regelumgebung, in der es nicht teilweise nur
Regierungsbehörden gibt . So einige ein Durcheinander davon kann sein, dass ein Hochfrequenz-Händler betroffen ist oder nur ein begrenzter Teil von der Preis-Chart. Also, nein, wenn Sie bedenken, es ist nicht besorgt darüber, was war die Geschichte von dem Preis dieser Aktien ? Wer ist besorgt? Onley Award. Nun, es ist eine kleine Zahl und in ihrem Diagramm und seinen Algorithmen, es sind 50 Algorithmen verwenden diese nicht. So hat der Händler keinen Zugriff auf diese Daten nur teilweise Ihrer Objekte. Es ist und macht seine Entscheidung Vision auf diesem Paket Ihrer Vernunft. Ein weiterer Jumper könnte sein, dass es funktionieren wird. Oh, das lernt, durch seine zu gehen Es wird Arbeit ist hier und es hat etwas Kamerasicht. Dann nehmen Sie einen sehr kleinen Blick auf die Umwelt. Dies ist nicht die vollständige Umgebung, die es objektiert. Es trifft eine Entscheidung basierend auf diesem Kurs, den er Ihre Vernunft geliebt hat. In ähnlicher Weise ein Poker spielen eine sanfte Objekte nur die öffentlichen Autos gepflegt bald zu ihm. Also in diesem Fall, Agent State ist nicht Samos Environment Stoute und in diesem ist der Zustand Dann sagte die Agentur in Brasilia, General Marko Entscheidungsprozess oder in der Art wollen BP. Da also ah Umgebung nicht vollständig von der Regel für den Agenten ist, muss
der Agent seine eigene Repräsentation aus Zustand konstruieren. Eine Möglichkeit, den Zustand vom Agenten zu konstruieren, besteht darin, einfach den Strom aus dem
Grund zu nehmen . Aber das kann sehr klein sein. Es und es kann nicht genug sein. Auf der anderen Seite kann
der Agent die gesamte Geschichte als seinen Zustand nehmen und dies die Altar gültige Darstellung aus Zustand. Dies kann jedoch zu viele Datensätze sein, die der Verlauf weitergeht, und die Straße enthält zu viele redundante Daten. Dazwischen kann
der Agent eine inkrementelle Repräsentation aus seinen Zuständen konstruieren. Also das, ja, wir nannten manchmal Staatsgräben und Funktionsstaats-Truppen Interesse an Funktion und, ah, also, äh, nimmt in eine Ecke. Es wurde der Zustand und die aktuelle Operation übergeben. Das ist also ähnlich wie das, was wir Oregon nennen oder neuronales Netzwerk auf dem Künstler rekrutieren Validation kann eine probabilistische Sicht aus dem Umgebungszustand bauen. Also, Agent, machen Sie eine strenge Einsicht, dass Bitwahrscheinlichkeit sogar die Umgebung Agentur-Status eins mit Wahrscheinlichkeit, P zwei Umgebungsregion Status zu und mit einem Lineal. Tippi in der Umgebung ist in dem Zustand ist in. Dies ist also ein geschäftiger oder probabilistischer Ansatz auf dem Golfplatz. Diese einige von all diesen Wahrscheinlichkeiten muss eins sein. Dies ist also ein weiterer gemeinsamer Ansatz für ah, Gebäude und Age Institute. Ein weiteres Beispiel für albern der Regel der Marke oder Vision Kreuze wird sein, dass einige gut, Spiel, sagen
wir oder Tempellauf. So bist du das ist nicht läuft und es waren nur Objekte zwei sehr bald, um es in kleiner Entfernung. Also, zum Beispiel, es könnte etwas Feuer bekommen, und in diesem Fall testen
Sie, um dort rüber zu springen, und dann wird es, äh, Wasser. Und im Wasser ist es Memphis andere Hindernisse, wie Felsen. Also in diesem Fall hat
es Zehe Slade um diesen Löffel, oder es kann etwas längere Nahrung zu bekommen, und in diesem Fall muss
es unter diesem würde schiefern. Der Agent hat also kein vollständiges Bild der Umgebung. Sie nur teilweise protestieren in warm das kleine regionale, die Umgebung. Und basierend auf diesem O r große, es ist eine Straße.
6. Komponenten von RL Agent: in diesem, wirklich? Wir schauen nach innen in unserer Religion, die Sie sahen, Atwater das Vertrauen oft, Agent. Das sind also die drei Komponenten eines Agenten, und all diese können in unserer Religion vorhanden sein oder nicht. Die erste Komponente ist also eine Policy-Zweitwert-Funktion, und 30 ist unsterblich. Also Policy Trotze, die Agenten Verhalten. Jeder Agent hat eine Richtlinie, die bestimmt, welche Akzent-Agenten in einem bestimmten
Zustand einnehmen . Also denken Sie daran, der Ghul von jeder Religion ist, die erwarteten zukünftigen Renditen zu maximieren. So wären die Politiken dort so. Die Agenten xom bewegen sich in ihre Richtung. Es ist also eine Karte von Bundesstaat nach Aksam. Daher sollte die Richtlinie entscheiden, ob der Agent stattdessen ein Akzent ist, was gelesen werden soll. Und diese Politik kann entweder deterministisch oder stochastisch sein. Deterministische Politik bedeutet also, dass es genau sagen wird, welchen Akzent? Oh, die Agententaktik. Wir lesen die stochastische ah Politik wird nur einige Wahrscheinlichkeitsverteilung geben. Wie was? Wahrscheinlich, was Exxon die Agenten die nächste Firma ausgesucht haben. Haben Sie Wert auf Funktion? Also ist es im Grunde ein großer off. Wie gut oder schlecht ein Zustand ist, weil Sie in der Vorhersage der zukünftigen Belohnung erzählt. So definieren wir eine Wertefunktion unter gegebener Politik und irgendeinem Zustand, da sie einige aus erwarteten Gesamterträge in der Zukunft und sieht einige Diskontierungsfaktor hier toe oder geben Laura. Es ist zu weit voraus in der Zukunft und geben mehr Wähler sofort Belohnungen. Auf diese Bewertung. Fabriken Liste in einem, so dass dies verwendet wird, um Güte oder schlechte Zustand zu bewerten. Wenn also sehr funktionaler Status voll mehr als wirklich ist, ist die
Funktion des Zustands auch. Dann werden wir ihr Ja sehen, eine Verwendung es registriert, und der Agent wird versuchen, den Zustand zu bewegen, für den die Talfunktion bewegt wird. So ist dies hilft bei der Auswahl zwischen Jackson negativen Aktion. Man nimmt es, um einen einen Akzent zu nennen, der in Staat zwei geschrieben hat und im Valley
Functional Zustand empfangen wurde . Einer ist mehr. Wir werden Akzent bevorzugen. Selbst jetzt die dritte und letzte Zuversicht unsterblich. Einige moderne ist nur ein Blick auf die Umgebung, dass diese in Rechnungen so Modell vorhersagt, was die Umgebung als nächstes tun wird. So ist es nicht genau die mit Umwelt waren nur Sterbliche. Oh, Agenten Ihrer Umgebung. Also für die letzten beiden Konferenz versucht, mehr mgr zu senden. Es ist Morgen versucht, sterbliche Leben in der Vorhersage der nächsten Zustand stehen, während die Belohnung sterblichen Gesundheit in der Vorhersage der nächsten Arbeit, gegeben einen Zustand und wenn der Agent nimmt ein Maximum Also das ist der Trend Verwendung und modern. So sagt es, was die Wahrscheinlichkeit ist, sich vom Status zu einer Verstauchung zu bewegen,
Angesichts einiger xom es. Wo ist diese Belohnung? Sterbliche kleine. Was wird die sofortige Belohnung sein, ist der Agent in irgendeinem Status und es dauert eine Maxime ein Nein , nein. Schauen wir uns einige Beispiele dieser drei Konferenz an, um ein klares Verständnis
dafür zu erhalten . Das ist also die eigentliche Umgebung. Dies ist also ein Ausgangspunkt, und das Ziel des Agenten ist es, hier zu erreichen und ist in Tick ein Teil und es kommt auf diesem Weg und erreicht das Ziel. So erstellt der Agent eine Sicht auf die Umgebung. Bald wird
Agent lebende Mutter. Es kam von hier und erreichte dann sein Ziel. Das ist also der Blick auf die, äh in einem Moment. den Agenten betrifft, hat
es keine Ahnung, wo was in diesem Teil der Umgebung ist. Dies ist also nicht die komplette Umgebung. Was die Agenten Ihrer Umgebung. Also jetzt unsere Politik. Dies ist also eine Richtlinienzuordnung vom Agenten. Also die Policy-Karte sagt, dass, wenn die Gebissdisa Zustand wahr ist, wenn es darin bestand, es sollte nach oben gehen, wenn es in desisted, es ist irgendwie in Ordnung und ähnlich Lebensmittel hier. Dann gehen Sie rechts auf, Auf der anderen Seite, Inflation Dizzy, reizbar, rechts. Letztendlich führt
diese Politik zu nichts Gutes. Also diese Politik, wie wir gut studiert, wirklich entschlossen Agent Saxon. Nein, schauen
wir uns die Wert-Funktion an. Das ist also das gleiche gierige Beispiel, das wir hier gesehen haben. Also Wert-Funktion ist die einige off erwartete Community-Belohnung in der Zukunft von einem bestimmten Staat. Also hier sind dies die unmittelbaren Zustände, die in Kürze gehen werden. Wenn also der Agent deaktiviert ist, ist
die Funktion minus Baum. Nur dieser Wert, weil als nächstes wird es in Richtung des Ziels gehen. Wenn es nicht hier ist. Die erwartete Rendite beträgt minus zwei. Wenn es nicht gibt, ist hier zwischen minus t minus. Flavier auf minus sechs hier, ähnlich hier, minus Lee. Das tötet dich, dann gehen wir in jeden Staat. Wir haben die knackige Belohnung am Morgen ausgestrahlt. Also, wenn Agent hier ist, wird
es minus sieben haben. Denn, Agent wird, ich hörte das Wertschätzend und verschleiß. Wohin gehen? Also lesen diese 97 ähnlich minus acht hier, so ist der Wert. Eine Funktion wird aus den verschiedenen Zuständen definiert. Diese Rasterpositionen sind also die verschiedenen Zustände. Das ist also ein Lenker, Delerue, Mrs. Jo One, das ist eine, die Sie kennen. So ist der Wert vom Senat selbst gut genug Tradition. Bedenken Sie, was Akzentagenten nehmen werden. Also Agenturen sind dies beginnt zu Vernunft. So kann es entweder hier oder hier gehen, aber es wird sehen, dass der Wert von einem Joe funktioniert, das ist minus sechs ist mehr als die Wert-Funktion von Joe eins, was hier minus ist. Sie wissen also, dass der Staat ein Jude besser ist als staatsangetriebene, also werden sie nicht hierher gehen. Nun, hier muss es das und das wieder fantastisch sein. Es wird sehen, dass dies ein besserer Zustand ist. So wird es hier und hier und hier gehen und letztendlich zum Ziel führen. Diese Wert-Funktion ist also sehr wichtig. Und es erzählt bei der Bewertung der Güte oder Marinus aus wieder. Mystiker
7. Categorie von RL: In diesem Video werden
wir die verschiedenen Kategorien selbst in moralischen Agenten sehen. Also eine Kategorien, jede basierend auf den Geschenken, eine Abwesenheit von Wert und Politik auf der zweiten Kategorie ist in basiert auf der Anwesenheit oder Abwesenheit von Sterblichen. So wie für die erste Rinder größte Sünde, und unsere Religion kann entweder wertbasiert sein, voll bedient oder Schauspieler Kritiker. Ein wert-basierter Agent verwendet also Wert-Funktion und hier werden Richtlinien nicht Richtlinien an Ort und Stelle
aufgezeichnet . Ich schätze, Sie haben eine Umgebung. Also dieses Gut stellt eine Umgebung und die verschiedenen Zellen repräsentieren, und Staat Welt Agent kann so auf dieser Luft sein, die Wert-Funktionen jedes Staates bemerkt, Was ist die erwartete zukünftige Rückkehr von diesem Zustand? Also ist es, dass der Agent dabei ist. Dies ist Startzustand und es wird sehen, dass diese Zelle Ihre eigene ist. Dies ist ein Euro auf diese beginnt ein 00 So tun Sie wahrlich funktionieren aus. Geruman, was minus hier
ist, hört sehr Funktion aus, wenn Sie das minus sechs ist. Es bedeutet also, dass dieser Zustand besser ist als dein eigener. Also, wenn Sie besser sind, so kann der Patient gehen. Aber wenn Sie und wieder testen Sie zwei Wege in Richtung minus sieben minus Gesicht. Also wird es wieder hierher gehen. Also, damit wirst du funktionieren? Das ist nicht kann seine Entscheidungen und Richtlinien nicht erforderlich. Diese Art von Agenten werden also Value Grist Agenten genannt. Der zweite Typ ist Policy Vist. Also hier wüten Sie in die Läden die Politik und nicht gut, wirklich funktionieren. Wenn diese Richtlinie definiert ist,
dann, wenn der Agent in diesem Startzustand ist, wird
er hier gehen. Und wenn es in diesem Stuart ist, sagt
die Politik, dass Geh hoch und höre deinen Tisch direkt an. Gleich am Tag erreicht Agent hier. Also hier werden die Akzente durch die Politik entschieden und nicht entwickeln vierer. Diese Art von Agenten wird also Policy Vist genannt und der dritte ist Schauspieler Kritiker. Ja, der Unterschied in der Geschichte als verwandte Politikgespräche Wir nehmen das zu gehen beide Religionen. Nein. Was die zweite Kategorie angeht,
Vernunft, obwohl unsere Religion mich entweder Modell drei oder Modell basierend auf Modell drei kann, kann
unsere Religionspolitik da sein oder Wertfunktion kann da sein oder beide können
da sein . Aber es gibt nicht mehr, so dass der Agent versucht, Richtlinien- oder Wert-Funktion abhängig von der
Erfahrung zu erstellen , um die Zukunft zu maximieren. Wir arbeiten so, dass es nicht versucht, ein Modell der Umgebung zu bauen. Oder es versucht nicht, die Dynamik der Umwelt zu verstehen, halten Umwelt arbeitet, während im Fall der sterblichen Station Politik und oder wirklich funktionieren kann Video und sterblich auch vorhanden. Die erste Aufgabe außerhalb der Station besteht also darin, zu versuchen, zu lernen, wie die Umgebung funktioniert, damit sie nicht versucht, ein Modell der Umgebung zu erstellen und dann die optimale Richtlinien- oder
Wertfunktion herauszufinden .
8. Lernen und Planung: Lernen und Planen sind zu wichtige Konzepte für das verstärkte Lernen. Also mit geheimen noch Entscheidungsfindung, gibt es zwei grundlegende Arten von Problemen. Eine Art von Problem ist die Verstärkung des Lernens und die zweite Art von Problem ist die Planung. Also lass uns mal sehen. Was ist der Unterschied zwischen diesen beiden in der Verstärkung Lernproblem? Das Modell der Umwelt ist unserer Religion unbekannt. Sie sind also fleißig, keine Ahnung, wie die Umwelt unsere Religion in Spuren mit der Umwelt funktioniert und versucht zu verstehen, wie die Umwelt funktioniert. Es ist also nett aus einem Versuch und Irrtum und basiert auf ihrem Alter und versucht, seine Politik zu verbessern . Wer, dass seine zukünftigen Belohnungen in der Planung Problemmodell der Umgebung maximiert haben, ist bekannt, Agent,
so dass keine Interaktion erforderlich ist, um die Umgebung zu erkunden. Agent Pflanzen durch die Durchführung von Wettbewerben auf der Grundlage des Wissens der Umwelt auf das
Wissen über Modell der Umwelt vermisst . Also ist es denken und planen voraus im Vergleich zu Versuch und Irrtum im Falle von Verstärkung , Lernproblem und basierend auf diesem Agent versucht, seine Politik für immer mehr
Belohnung in der Zukunft zu verbessern . Nehmen wir also ein Beispiel für dieses eine Beispiel. Off Planung könnte sein, dass Sie die Zimmer aus dem Spiel gesagt werden, wie Sie spielen es nur Spiel, und Sie wissen, dass Arbeitsschritte gültig sind und was ungültig sind. Also wurde dir vorher gesagt. Und so ist es Ihre Aufgabe, das zu planen. Was ist, wenn ich hierher ziehe oder was, wenn sie sich nach zwei Schritten bewegen, was wir übrig haben? Und so ist es nett, zu denken, dass ich gehört habe oder vorausschauend geplant habe. Aber auf der anderen Seite, und Agent kann nicht gesagt werden. Halten Sie die Schachspiel-Funktionen und es wird nur versuchen, die Umgebung zu erkunden, so wird es versuchen, hier zu gehen, und es wird das Feedback erhalten, dass es eine ungültige Bewegung ist und es wird mehrere andere Züge versuchen , und es wird die Wrecking gibt zurück, was bewegt ist gültig oder ungültig. Also nach einiger Zeit, wird
es herausfinden, die Regeln aus der Umgebung halten ein Modell der Umgebung ist und dann wird es versuchen, zu maximieren, es kehrt zurück. Das sind also die beiden grundlegenden Probleme bei der Verstärkung des Lernens
9. Exploration und Ausnutzung: Erforschung und Ausbeutung sind zwei grundlegende Probleme bei der Verstärkung. Load Exploration bedeutet, mehr in Richtung Umwelt auf dieser Hauptwelt herauszufinden, sofortige Belohnung für maximale alternde zukünftige Belohnungen
aufzugeben. Um dies zu verstehen, lassen Sie uns unsere Religion sehen, Dejan einen Status und mit seiner Erfahrung in der Vergangenheit testen
Sie Lösegeld. Ausgezeichnet, auch in diesem Zustand. Bezüglich der Hochschule, sippy und es am meisten es zu einem verschiedenen Staat. Nehmen wir an, dieser Rahmen ein Praktikant geben eine Belohnung sind eins, und diese Belohnung ist positiv. Ein Weg wäre also, während des Sächsischen in abgeschalteter Mitteilung weiterzumachen. Behalten Sie die Richtlinie 60 und erhalten Sie diese oder eine Belohnung. Aber es kann einen anderen Akzent von diesem Zustand verfügbar sein. Vielleicht hast du dir drei oder viele weitere Aktionen Sorgen gemacht, die profitabler sind als eins. Also lassen Sie uns sagen, zwei Aale sind tun es. Walzen sind drei, und es ist möglich, dass es Liste gibt, in denen es noch schlimmer ist als die aktuelle Politik . Aber es kann möglich sein, dass unsere Bäume mehr als unsere. Es ist also Agent entdeckt Nerd, Spott, Akzent Vorhof, zu dem wir von diesem Anwesen nehmen können. Dann werden wir eine bessere Rendite bekommen, also würde dies bedeuten, Exploration, die mehr Auszeichnung nach innen
erforscht, aber auf der anderen Seite, erforscht ist nicht nur zu nach der profitablen Bildung, die in
Status beteiligt ist , und es hat einige ausgezeichnete gebildet, auch die es nehmen kann, was es eine Belohnung geben wird. Also wird es das weiter tun mit unserer Erkundung für Bett Robson. Das wird also bekannt und ausgebeutet werden. Also gibt es Exploration Tickler anständigen Kompromiss, denn wenn Sie explodieren, verlieren
Sie auf die bekannte Belohnung, die Sie wussten, dass Jackson gab einige Punkte zu belohnen. Also, warum Lex Lorrison? Sie können verlieren oder Belohnungen tun, aber auf der anderen Seite, Sie können auch eine bessere Option, die Sie geben oder mehr Rendite in der längeren Zukunft. Es ist also ein Gleichgewicht zwischen zusätzlicher Vernunft und Ausbeutung erforderlich. Lassen Sie uns also einige der praktischen Beispiele aus der Erkundung und Ausbeutung sehen. Ein Beispiel ist also in der Werbung, bei der Auslieferung
vermutlich eine gewinnbringende Luft herausholen würde , während Exploration dazu führen würde, einige neue Airs zu verklagen, die in
Zukunft profitabler sein könnten . Ähnlich, wenn Sie einige Lieblings-Restaurant in Ihrer Ortschaft und Ihre dachte es oder vielleicht
mehrere Restaurants stechen . Erklärung würde bedeuten, dass Sie immer auf Ihrem Lieblings-Restaurant gehen, wo Exploration würde bedeuten, ein neues Restaurant in Ihrer Nachbarschaft auszuprobieren, und es könnte gezwungen sein, das Essen zu alarmieren. Es gibt besser als Ihr Lieblings-Restaurant, aber Sie Männer sind am Ende essen einige schlechte Nahrung in den Prozess. So ist auch hier das Gleichgewicht mit dem nächsten Hören und Ausbeutung erforderlich.
10. Aktionseinheit für die Exploration: In diesem Video sehen Sie ein paar Akzente, Alex in Algorithmen, die uns bei der Entscheidung helfen, wann auszuschließen und zu nutzen. Wir haben bereits gesehen, dass wir nicht tun Entdecker und und Expletives und gleichzeitig, und wir nennen diese Erkundung explodieren. Ist Trude nicht ausgeschaltet? So werden wir die populären oder Ausmaß Auswahlalgorithmen, die sehr einfache wollten , die Epsilon Greedy X genannt wird und auswählt. Ähm, und es ist eine Art von einem Zufallsprinzip von X und wählt einen Algorithmus aus. Und dann werden wir einen anderen Algorithmus sehen, der optimistisch alle Zellwerte genannt wird. Also zuerst Cedar Playland, Greedy X und Auswahl. Hier wählen wir, um es die meiste Zeit mit einer kleinen Chance erkunden Babys. Keine Zufälligkeit. Und hier Epsilon waren gezwungen, die wahrscheinlich sein, dass wir wählen, um zu erkunden. Es muss also zwischen Ihrem Wert liegen, das Ihnen
zum Beispiel in einem angeboten wird. Wir können eine Akzentbasis wählen, nicht tagelang abrollen, also überlegen Sie eine Situation. Das sind also alle sechs Möglichkeiten und wir rollen ihre Würfel, so dass wir eine Zahl von 1
bis 6 bekommen können , damit wir dort sitzen können, wenn es ein oder zwei oder 34 kommt oder schlafen, dann werden wir erkundet. Das heißt, wir werden wählen und bekannt gierigen Algorithmus bekannt gierig Schritt in den nächsten Tag Herr So Einkommen besser Sinn. Wir haben ah di Algorithmus Paradigma, das sagt, dass Sie Ihre Wrexham basierend auf der
sofort Welt nehmen und es wird in der Art der Spot Finding Minimum Spanning Tree Finding verwendet So haben
Sie ein paar Akzente Optionen und dann wählen Sie diejenige, die Ihnen sofortige Belohnung. Also hier nehmen wir so eine gierige xom Bienen nicht über schön rollen. Also, wenn es von 1 zu 5 kommt, nicht nutzen bemerken Nehmen Sie eine gierige xom. Aber wenn wir sechs kommen, dann werden wir einige neue ausgezeichnete entdecken, für die wir nicht wissen, was die Belohnung ist. Dies kann also ein Ausweg sein oder das Explorations- und Ausbeutungsproblem lösen. Und wir sehen, dass Schweigen die Religion war, die wir erforscht haben. In diesem Fall untersuchen
wir eine Reihenfolge von sechs Mal, damit wir sagen können, dass sie absurd sind und in diesem Fall 1/6 ist. Lassen Sie uns diesen Algorithmus formalisieren. Also hier ist es entweder zuerst in dem Ausmaß ausgewählt unsere Namen zu sein, dann kann dies entweder wieder. GDX. Ähm, das bezieht sich auf ein gieriges Xom, und das werden wir mit einer Wahrscheinlichkeit von eins minus einer Hobelung nehmen. Und das ist es eine Maxime geworden. Und das werden wir die Wahrscheinlichkeit von Upsell nehmen. Und es kann ein anderes Radio geben,
äh, äh, mit dem gleichen Algorithmus. Nein, Mal sehen die 2. 1, die wir einen Mystiker nennen Alle Zellwerte und wir entsprechen behaupten es
auf diese Weise . Also hier Q Bezieht sich auf einige anfängliche oder Gäste Gäste Gäste aus Wert. Also physisch bin ich gleich zu tun Wir wissen nicht von seinem Akzent wirklich mehr Belohnung. Also haben wir diesen Akzent optimistisch die Beute zugeteilt. Also sind wir sehr optimistisch, Andrea ST Einige waren Abwerte Zehe gegenseitig tun Akzente geht. Und im nächsten Zeitschritt nein, sie werden diese Werte basierend auf der Belohnung, die wir tatsächlich so früher gelesen oder die
Gäste bekommen . Dann, wenn wir tatsächlich ihren Akzent nehmen, wir werden wissen, wie viel Sie größer sind So werden wir diese Werte aktualisieren que an
Ort und Stelle zu hören , sogar oder verweigern Oldster Zustand oder aus ihrer ausgezeichneten und kubanischen in der vorherigen Schätzung Wert oder die vorheriges Anwesen und ich werde kämpfen. Irgendeine Fabrik kann zwischen hier und eins sein. Nehmen wir also an, es ist Europa auf fünf für unser Beispiel. Und das ist die Belohnungsbetrachtung am Schritt T oder in seiner Zeit, Schritt und minus dem vorherigen Wert. Also lassen Sie uns ein Beispiel sehen, und es wäre wirklich klar. Lassen Sie uns über drei Möglichkeiten hier drei Aktionen sehen, die wir auswählen können. Also A, B und C ließen die möglichen Aktionen fallen, also seien Sie zunächst normal, was besser ist. Also werde ich dort zu Geo gerufen. Entschuldigen Sie. Wir sind hier sehr optimistisch, weil es optimistisch im Silberwert-Algorithmus ist, Andrea, gesund und gut,
gezwungen, jeden dieser Akzente zu schätzen. Also kein Wunsch gleich und wir werden zufällig eine auf diese auswählen. Lassen Sie uns die Auswahl A setzen und wir bekamen einen Wert tatsächlich oder so waren Wir waren sehr optimistisch, so dass wir einen Wert für ihn zuweisen. Aber wir kamen und wir nahmen ein, so bin ich zu cool zu einem der großen Also der große Tag. Also werden wir nicht große BNC, aber wir gehen auch nach New York. Also werden wir auf einen aktualisieren, damit Kubaner Sie in diesem halben Mal den Unterschied sein wird. Oder Sie können Ihre eigene Art und Weise unterstützen. Nun, es ist ein großer Dave Originale. Duty Free, nur Wert im aktuellen Wert. Oder bleiben wir bei diesem Ackerland. Wir werden Ihre für gleich Null Punkt Flamme verwenden, so dass Sie und Platz für Valerie hier in Plus, Wissen Sie Punkt Geschmack oder in Minus und Einhorn Geschmack Sie in. So wird das und, Sie wissen, Punkt-Geschmack. Kubanisch Weil Kubanisch minus 0,5 q und seine europäischen fünf Q und Plus Negroponte Seite Ardant oder Cuban Plus oder in Newbury Way. Wer wird das tun? F: Ein Plus eins. Also in diesem Fall Q. Schätzen
wir Kubanisch? Also werden wir tun Q Null plus Rückkehr geteilt Recht auf so Phi plus zwei geteilt durch zwei. Das ist sieben mal zwei oder 3,5. Also kam ich gleich eins. Wir haben diese Werte. Mrs. Fleet vermisst es also ungemein, weil wir diese nicht groß gemacht haben. Nein, wir schätzen den Value Cube. Also werden wir versuchen, den einen Akzent zu wählen
, der sagt, dass seine profitabelste So in diesem Fall eindeutig eine 3,5, die weniger als die BNC ist. Also werden wir eine von diesen auswählen. Nehmen wir an, wir wählen würde und es Festivaljugend ein so in der nächsten Zeit noch sichtbar bleibt er. Das wird er bleiben. Und das wird fünf plus eins werden, während das Recht bemerkt wird. Sechs warten zwei oder drei. Also nein, dies ist der Wert der Zeit gleich zu tun, so ist dies gleich eins. Nehmen Sie ein wenig, die schätzten niedlich Sei hier keine Zeit. Drei Wir werden sehen, dass diese beiden Earless und C ist die meisten Scheint die lohnendste zu sein, denn wir werden diese wählen und speichern die Gordon-Werte Ah, drei So laut aktualisiert waren Freizeit und diese werden unverändert bleiben drei und dies wird 45 plus Straße oder das Recht auf Essen Im nächsten Zeitschritt wird gegen vier wählen und wir werden sehen, welche Belohnung größer So dass jedes Mal Schritt wir versucht Zehe wählen die eine mit dem höchsten Wert und dann basierend auf der tatsächlichen Belohnung, die wir bekommen mich von toten Nachrichten Werte Also Dies ist die aus dem Mystiker jede Zelle Religion über sie. Also gibt es ein paar Einschränkungen für diesen optimistischen Anfangswerte-Algorithmus Wann ist, dass es , Dr. Exploration auf Li. In der frühen Phase, nach einiger Zeit, die kann auf einem von den Akzenten bleiben, was scheinen mag, Haben wir optimal in diesem Schmerz? Aber es ist nicht gut geeignet für bekannte stationäre Probleme. Damit meine
ich das. Oder es kann Fälle geben, in denen die Richtungen waren schlecht früher auf diesem Mystiker. Jeder Zelltal-Algorithmus, wie es richtig entdeckt gibt, basiert auf der ersten Exploration. Aber es kann möglich sein, dass einige Akzente, die früher nicht gut waren nicht
in meinen Tropfen geworden sind . Ähm, dann treffen wir uns. Also diese Woche ist alles nicht Mary Problem, denn diese Akzente sind nicht Gerechtigkeit Mary. Sie änderten sich auch basierend auf der Zeit. Also, dass Akzent, die nicht so früher sagen, nein ist eine bessere Option. Aber diese Exxon wird dieser Algorithmus in noch entdeckt, dass, weil es versuchen wird, die optimale Lexan zu jedem Mal zwei So und es gibt ein weiteres Problem, dass jeder verkaufen Gas. Also haben wir optimistisch jedem von Jackson einen Wert gegeben und diese vielleicht kein guter Gast. Dies kann ein sehr schlechter Gast sein. Dies ist also eine weitere Einschränkung, die trotz dieser Einschränkungen verhindert wurde, dass dieser Algorithmus ein effektiver Akzent
sein kann. Selektiert, ähm wichtig, weil Sie vielleicht diese Art von Szenarien sind, es ist nicht sehr häufig. Es ist also ein sehr einfacher und effektiver Algorithmus. Also hoffe ich, du hast was in Houston ausgesucht, um deine Aktionen auszuwählen. Und der Name von dieser Vorlesung war, Ihnen etwas Interessantes darüber zu geben. Sie zeichnen etwas mit diesem und vielleicht unserem Gerät Ihren eigenen Akzentauswahlalgorithmus , der noch besser als diese funktioniert.
11. Vorhersage und Kontrolle: Vorhersage. Kontrolle ist ein weiteres grundlegendes Problem und Verstärkung Lernen der Vorhersage bedeutet Wettbewerb oder Abschätzung von Folgen, oft Unfall. Die Politik hier ist auf das Ziel gegeben ist zwei Millionen Loch Willen, dass die Politik führt. Diese Richtlinienfunktion ist behoben. Also, wenn indigent Status, dann mit dieser Politikfunktion wird es genau bekommen, was Unfall angesichts dieses
Nachlasses nehmen muss . Und das Ziel wäre es, die erwartete Rendite aus diesem Nachlass anhand der
gegebenen Politik herauszufinden oder zu berechnen . Ihr Ziel ist es also, die Zukunft vorherzusagen, während
die Politik unter Kontrolle nicht festgelegt ist. Agent befindet sich in einem bestimmten Status, und er weiß nicht, welchen Akzent zu nehmen ist. Also das Ziel ist es, eine optimale Politik zu finden, die Politik, die maximiert wird. Ich erwarte, dass es geliefert wird. Hören Sie diesen Song. Sohn ist nicht bekannt, und wir müssen dieses Syrien finden. Es geht darum, die Zukunft zu optimieren. Es gibt, im Falle der Vorhersage,
es geht darum, die Zukunft vorherzusagen, weil die Politik festgelegt ist. Nehmen wir also ein Beispiel. Also, wenn dies unser ah mais Beispiel ist, also wenn wir in re sind oder der Agent ist in, das beginnt noch, dann ist es die Politik sagt, dass nach rechts gehen, Dann gehen Sie dann rechts dann nach oben und dann das Ziel erreicht. Also, wenn diese Politik in diesem Fall gegeben wird, wäre
die Rückkehr minus eins minus zwei, minus zwei minus drei. Das ist 78 Also minus acht. Was, auf der anderen Seite, Legent ist in diesem Anwesen beginnt gedünstet und die Politik noch festgelegt. Dann muss es finden, New York erhielt die beste Politik. Dann wird es herausfinden, dass es diesen Teil und Guinea-Rückkehr abnehmen kann minus eins minus zwei, minus eins minus zwei. Also minus sechs. Es scheint also, dass dies besser ist als das. So wird es herausfinden, dass dies eine optimale Politik ist. Ihr Obst und Station. Das, was du getestet hast, ist aufgewachsen Hope up und dann bewerten. So wird es die optimale Politik herausfinden. Dies ist also der Hauptunterschied zwischen Vorhersage und Kontrolle.
12. Weitere Kurse: Herzlichen Glückwunsch zum Abschluss Ihres ersten Kurses zur Einführung in das verstärkte Lernen. Sie haben den ersten Schritt in Richtung Mustering Verstärkung gemacht, lernen jetzt Ihre Familie mit der grundlegenden Drehung Rogie beginnt in der Verstärkung
Lernen verwendet und Sie sind bereit, voranzukommen. So können Sie wissen, Nehmen Sie den zweiten Kurs oder die Durchsetzung lernen dort. Wir werden tief in die Entscheidungsprozesse von Marco eintauchen. Also danke, dass du das Ende des Kurses auf Hope gemacht hast, um dich im nächsten Kurs zu sehen.