Transcription
1. Introduction: bienvenue au premier cours sur l'apprentissage de l'application de la loi. Cette classe est divisée en 10 leçons, ce qui est à peu près une sur le contenu vidéo. Et nous ne nous attendons pas à des connaissances hors renforcement apprentissage pour commencer ce cours en particulier réel plein. C' est Vous avez une compréhension de base de la façon dont Nuland ce qui fonctionne. Et c'est pour commencer 10 cours sur l'apprentissage du renforcement. Il a du matériel de flux d'intellect, sorte que vous allez acquérir une connaissance introductive des concepts d'apprentissage de renforcement. Donc vous vous demandez qui est l'instructeur ? Donc, mon nom est évidemment Kumar et je travaille comme informaticien chez Adobe. J' ai sept ans d'expérience dans la programmation et des années d'expérience médiocre et de l'apprentissage
automatique. Alors, qu'est-ce que tu sauras ? Après avoir terminé ce cours, vous aurez une compréhension de base de l'apprentissage du renforcement, sorte que vous serez en mesure de comprendre le terminal clé Aziz utilisé dans l'apprentissage du renforcement. Et après avoir terminé le discours, vous serez prêt à suivre des cours avancés dans le cadre de l'apprentissage de l'application de la loi. Examinons donc brièvement le contenu du cours. Donc, il a sur vous où je vais donner un aperçu de la machine, l'apprentissage dans son ensemble et l'apprentissage du renforcement en particulier. Ensuite, nous nous pencherons sur
un agent, un environnement qui est compétent. Donc, pour l'apprentissage de l'application de la loi que l'histoire et l'état que Marco occupé et les processus composants hors renforcement, agent
d'apprentissage, catégorisation de notre religion, l'apprentissage et la planification, l'exploration et l'exploitation et la prévision et le contrôle. Alors bienvenue sur les partitions et espérons vous voir dans la prochaine écoute.
2. Présentation générale: bienvenue aux scores sur le renfort. Renforcement de l'apprentissage L'apprentissage est une branche de l'apprentissage automatique. Alors voyons d'abord et sur les orphelins à apprendre sur le renforcement très. L' apprentissage pour son intérêt de voir l'apprentissage est divisé en trois catégories principales. Apprentissage supervisé sur l'apprentissage supervisé et le renforcement. Apprendre. De nos jours terme d'apprentissage semi-supervisé est également populaire, mais pour des raisons de simplicité va coller à ces trois branches d'hommes dans
l'apprentissage supervisé . Comme son nom l'indique, il y a une super raison ou des conseils présents. Toby fournit un niveau de consigne plus tard. Aussi le Chris Morning ou mis sur le travail du réseau est d'apprendre en utilisant ces données de
formation de niveau de puits et les classes principales ou l'apprentissage supervisé ou la classification et la régression . Donc la classification comme le nom l'indique et traite de catégoriser le retour au plus proche que nous
lisons dans la régression. Nous obtenons une valeur réelle ou pop, donc un exemple de classifications serait qui ont été donnés quelques exemples image il hors cours sur une image il hors de Mike ou fondamentalement, et certains autres véhicules peut-être était, et nous avons nivelé objets bateau dans nos images, donc nous fournissons la position où ceux-ci sont situés dans les limites. Donc, il est nous fournissons éteint des tonnes de détails comme peut-être 100 kr 10 cadeaux tel niveau plus tard à notre réseau dans ce cas pour le traitement de l'image. CNN finit par doubler. Le réseau va comprendre quelle est la différence entre la représentation d'une voiture à un vélo ou des membres sur ? En fin de compte, lorsque nous alimentons numérateur
orteil le réseau de neurones étrange, il sera en mesure de prédire correctement si l'image appartient à la classe hors carte Mike Oremus Donc peut appeler courage. Fermez un et par cas, classe deux et arbre de classe. Donc, il donnera quelques classes discrètes ici, aussi, nous lisons. Dans le cas de régression, vous pouvez donner des données continues comme certains prix de tuyau sont donnés et nous avons donné quelques facteurs
d'entrée comme le nombre de chambres, ID eo ces localités sur DSO jusqu'à ce que B a fourni un tas de certains plus tard. En outre, le prix net du matin sait donc ce sera un certain nombre réel, donc la formation de notre nouveau réseau. Mais ces types de données seront finalement en mesure de prédire le prix d'un nouveau tuyau. Donc, quand nous nourrissons ah mis des chambres Oh, comment la Syrie et la localité de ceux-ci, le réseau sera en mesure de prédire ce qui devrait être le prix du nez. Donc, ce sera le pari d'un rigoureux et nous sommes il va prédire une certaine valeur réelle ou dans apprentissage
non supervisé, il n'y a pas de superviseurs ou d'orientation Qui ici ? Le réseau essaie juste de regrouper dans une donnée donnée basée sur la similitude ou essaie de comprendre qu'ils avaient instructeur dans la litière et essaie de trouver Originate sont similaires et nous l'avons fait sont différents et il a finalement été le groupe de commerce des données similaires ensemble. Donc, les classes principales hors d'un apprentissage supervisé ou clustering à moins qu'une saison donc plus jingle principalement groupe ou différents points de données il ya juste une saison étaient ou essayer de trouver relation entre différents périmètres, comme dans le proche, l' exemple d'apprentissage
supervisé que nous avons vendu. Nous avions trois paramètres. Excellent à côté de extrêmement Et nous prédisions façon et nous avons entendu une victoire record et ou deuxième record entendu le commerce excédentaire record de stringer au groupe Ces différents points de données pour entrer dans. Comme ces deux enregistrements sont similaires. Il y a une saison ont été essayés de trouver quelques manques saison là-bas. Cet ex tree est très lié à l'ex excellence chaque fois que X 1 est là. Il est très probable que extrêmement là aussi, donc ceux-ci sont liés. Donc, c'est la différence système de clustering et d'association. Et ceux-ci tombent sous l'article vos fonds sur Très apprentissage. Enfin, l'apprentissage
du renforcement, qui est le sujet principal de ce cours dans l'apprentissage du renforcement. n'y a pas de fournisseurs, mais il a des signaux de récompense, et les principaux composants de l'apprentissage du renforcement ne sont pas un environnement, donc l'agent prend une maxime basée sur certaines politiques. Donc ici, par n'est-ce pas que je veux dire un algorithme et il a une certaine politique. S' il vous plaît, ne pas numérique prend une maxime. Un environnement émettra certaines raisons évidentes, en fonction de l'action entreprise par l'agent et aussi quelques récompenses 3 30 points sur l'
accent des agents , par
exemple. Ici, il n'y a pas d'ensemble prédéfini de plus grande et de soutien. Nous avons leur travail, et il essaie d'apprendre à marcher, donc c'est la récompense se déplace dans cette direction. Vous en faites différents types hors des raisons évidentes, comme certains objets. Peut-être qu'ils sont dans son chemin, et quand il tombe, il recevra négativement le travail de l'environnement, et il essaiera de se corriger Où, si le monde aurait bougé dans cette direction, et vous devriez avoir toutes vos expériences différentes, et il pourrait y avoir ou obtenir des observations différentes. Donc, ici, le retour avec l'agent est en cours de formation dépend de l'accent de l'agent, alors que dans le cas de l'apprentissage supervisé, nous aurions fourni un ensemble de dissuasion fixe sur lequel nous allons nous entraîner sur nos réseaux neuronaux . C' est donc différent de l'apprentissage supervisé. Donc, quelques exemples d'apprentissage de renforcement pourrait être d'apprendre à jouer aux échecs où l'innovation prend, hum, hors étape et il va obtenir quelqu'un a fait votre récompense négative. Et s'il obtient un mot négatif, il essaiera de se corriger. Et enfin, avec beaucoup d'expérience, il le fera. Basin apprendra les promesses de commande. De la même façon. vol d'hélicoptère pourrait être un exemple de renforcement en apprenant la crête de l'
hélicoptère à crête . Nous pouvons donner une récompense négative avant de tomber. Un arbre tragique, comme nous voulons que nous donnions certains était de récompenser et leader similaire. Quelle marche vient également sous le renforcement, l'apprentissage
3. Agent et de l'environnement: n' est pas et l'environnement sont les deux principales composantes de l'apprentissage du renforcement. Voyons donc comment l'agent et l'environnement indirect à chaque fois que l'étape t n'est pas exécuter cyniques dans un et reçoit à son tour une récompense. Chris Morning. Deux précédent excellent, et une partie de votre raison et quel environnement est-il qu'il reçoit des impôts et une imitation du terrorisme ou P plus un sur l'article. Isman. Donc, quel que soit l'accent asiatique a pris dans l'étape précédente, l'environnement ressent une récompense pour saleté dans la prochaine étape de temps. Et aussi, cependant, Chris matin hors de la raison, et nous incrémente l'étape et l'environnement. Donc, vous avez commandé ce signal de retour Keller sur elle indique que l'agent Hole Will fait un temps donc il sera utile pour comparer entre les frontières avec le Harbin ou sont à servir. Sera en mesure de différentes récompenses sur une certaine compétence afin que nous puissions comparer les récompenses qui
vous aideront . Le n'est pas dans l'optimisation de sa politique, sorte que la politique année visuellement plus de récompense cumulative sera une meilleure politique. Donc, l'objectif principal de l'agent est de maximiser la récompense cumulative au fil du temps, il n'est
donc pas nécessaire que les récompenses immédiates le remax. C' est pourquoi il est différent de la colère livrée. Hum, donc le but est de maximiser les heures supplémentaires de récompenses cumulées sur le disque. Nous appelons cette récompense communautaire alors qu'ils renvoient le renforcement. L' apprentissage est basé sur une récompense répétitive et mon effort de récompense. C' est, nous voulons dire, que n'importe quel objectif peut être formalisé comme notre commerce maximisant la récompense accumulée. Voyons quelques exemples de récompense. Donc, en cas de juste, nous pouvons définir une récompense de ville portuaire pour gagner le jeu et négativement étaient pour perdre le jeu. Donc, vous voyez leur queue pour les mouvements individuels ne donnaient aucune récompense. La récompense Andi est retardée et nous la rendons récompense à la fin de la partie. Donc, il n'est pas nécessaire qu'après chaque X et il y aura une récompense transformante. Deuxième exemple pourrait être apprendre le robot à marcher, faire les décombres pour apprendre à marcher où nous allons donner poussé la récompense pour le
mouvement vers l'avant et la négativité. Le mot pour le gonflement et au cas où des manœuvres d'hélicoptère nous pouvons garder était la récompense pour avoir suivi l'arbre tragique. Si l'hélicoptère suit la trajectoire du cerf, il recevra une récompense de qualité. Il y a un *** à enregistrer pour la malédiction ou l'hélicoptère. Nous avons vu que leurs différents problèmes peuvent être formulés sous l'apprentissage du renforcement. Alors, ces trolling sont-ils très différents les uns des autres ? Ou pouvons-nous trouver quelque chose de policier commun si nous avons utilisé ou des séquences de prise de décision pour les
unifier dans un but commun. L' objectif commun de tous ces tests était donc de sélectionner des accents qui maximiseront le total récompenses
futures. Donc nous devrons peut-être planifier la diffusion. Par exemple, une partie de la récompense peut parfois ne pas être évidente immédiatement. Par exemple, dans le cas, hors jeu hors coffres, nous recevrons la récompense seulement après avoir gagné ou perdu le jeu. Il se peut que nous devions planifier à l'avance pour que les résultats puissent être obtenus et que nous devions sacrifier immédiatement des mots ou de meilleures récompenses à long terme. Donc, un exemple pourrait être que certains mouvements dans les échecs peuvent ne pas être évidents, mais il peut être utile à long terme d'inventer le jeu. De même, dans les investissements financiers, nous abandonnons de l'argent à l'heure actuelle, donc nous obtenons des récompenses négatives, espérant que nous deviendrons plus prêts à récompenser à l'avenir. De même, vous dépensez sur l'éducation en espérant que le rendement sera beaucoup plus que les
dépensescourantes dépenses
4. Histoire et État: dans cette vidéo, nous allons étudier l'histoire des prix à la place, la séquence des GI de rue sur les accents récents et George que l'agent avait vu jusqu'à présent. Alors rappelez-vous que nous avons parlé n'est pas et l'environnement, et comment ils interagissent est dans prend un maximum de beauté et à son tour recevoir quelques récompenses et observations. Donc, la rue, juste si l'accumulation de telles variables de niveau objet jusqu'à Time T, donc c'est très important. Et ce qui se passe ensuite dépend de la rue. Donc, l'algorithme résiduel de l'agent sélectionnera son accent en fonction de l'expérience passée ou tout ce qu'il a vu jusqu'à présent fait partie de l'histoire. Donc, il faudra l'accent en fonction de cet arbre et aussi de l'environnement. Sélectionnez des raisons évidentes et des récompenses basées sur l'histoire. Quel problème avec l'histoire qu'il continue avec les temps. Donc, après un certain temps, il va augmenter et continuer à s'accumuler, et il sera très difficile de traiter toute l'histoire. Donc, nous avons quelque chose appelé ST, qui est juste des informations utilisées. Que se passe-t-il ensuite ? Donc, c'est juste une fonction de l'histoire. Un exemple pourrait être que nous prenons juste les trois dernières raisons car les
modérations à court terme sont plus importantes que le jury puisque cela se produit dans un passé lointain. Ce n'est donc qu'un exemple. Il peut être une fonction complexe hors de l'histoire aussi, alors nous avons quelque chose appelé État de l'environnement ou des mots à l'environnement si. State est l'état généralement l'environnement pour déterminer comment générer la prochaine modification et récompense, sorte qu'il n'est généralement pas accessible à l'agent. Et même si son visuel, il peut ne pas être très utile pour l'agent de déterminer son prochain accent. Donc, quand l'exemple pourrait lire ERT, il y en a un. Ah, le travail de
chambre et de merveille est en marche et actuellement la récompense est ici. Donc, il a un appareil photo testé. Il a donc une vision très étroite de l'environnement afin qu'il puisse voir juste cette partie de l' environnement. Il n'a aucune idée de leurs paroles dans cette partie de l'environnement et sur d'autres parties de l' environnement. Il a une vision très limitée de l'environnement. Donc, notre agent gadgets un état, qui est agents, représentation
interne et cette information a utilisé des piquets d'orteil très agent. Prochain Hexham. Donc, il peut être n'importe quelle fonction de l'histoire pour le cavalier. Il pourrait juste prendre perdu trois états, donc un exemple pourrait être que dans le trading algorithmique, les traders regardent une moyenne mobile brute. Donc c'est,
disons, disons moyenne mobile de
cinq jours sous 20 jours de déménagement d'Enbridge de Ghani. Donc ici, il y a un point de déclenchement. Il est temps de vendre. Donc, ce cinq, la logistique movinaire les cinq derniers jours prix en considération. Donc, cinq derniers jours prix flottant d'une action et sur la base de cette tablette, Staybridge et de même 20 jours de déplacement, irritable prendre en considération les 20 derniers jours. Donc, ce n'est pas oh, compte tenu de toute l'histoire des prix de l'action, mais juste un peu passé, ah, les prix, parce qu'ils sont plus vivants dans la détermination des prochaines courses et notre application intérieure l' apprentissage. On a quelque chose qui s'appelle Marco Jimson. Donc, où nous dirons que l'état utilisé par l'agent, il suffit de statistiques hors de l' histoire. Donc, pour prédire l'avenir, vous avez seulement besoin de l'état actuel de l'environnement. Alors, indiquez Markov de STD. Si elle satisfait cette propriété. Donc, l'état suivant, étant donné l'état actuel et Dax dans le même que suivant énuméré, compte tenu de l'histoire entière et excellent. Donc, ce sont trois étapes ne contribuent rien, sorte qu'il soit supprimé ces. Alors on a la même chose. Donc, si nous sommes à la place, Esty et nous prenons une élite de Denver de beauté maximale, le prochain de ST Steepness un. Mais nous avons aussi entendu une autre étape de l'histoire comme celle-ci est à Oliver Twist E Donc ce genre hors, vraiment, car il ceux-ci n'existent pas. Donc juste l'accent actuel et coupé en état, il suffit de déterminer le prochain à Donc c'est quel enregistrement ? Markova Jensen. Et c'est le statut marqué. Marco State. Si elle suit cette propriété Markle, l'avenir est indépendant du passé. Ce sont donc le passé donné au présent. Et voici Steve Sprint. Donc un exemple pourrait être à nouveau Oh,
oui, oui, je pourrais envisager l'algorithme de trading à travers. Non. Et puis nous avons la moyenne mobile. Donc Ah, Wilkens, l'algorithme considère les 20 derniers jours donc ici un état serait le prix entre juin 20 jours. C' est juste e onda Steve moins un. Ses prix de 40 jours à 20 jours et tonifier la nourriture et l'algorithme de trading à haute fréquence ne tient pas compte de ces états. Il prend juste en compte les prix des 20 derniers jours. Donc, ce sera un exemple hors. Marco propriété
5. Processus de décision Markov: dans cette vidéo, vous étudierez le concept Wharton Important dans l'apprentissage du renforcement appelé Marco Decision Process ou
en bref, M v P. M v P.Pour comprendre MDP, il
faut comprendre Quels sont les différents types d'environnement. Donc un environnement. Peut-on avoir deux types soit complètement hors de la règle ou de la parcelle de vos règles ? Donc, où cela signifie Donc, dans complètement hors de l'environnement rural, ces objets indirectement les états de l'environnement, Donc il n'y a rien caché à la région. Donc l'agent connaît les règles du jeu. Alors quel que soit l'état de l'agent. Donc ici, chien une raison. Son but de l'état agent et qui est le même que l'environnement Stewart. Et quand c'est la condition, alors nous disons que l'agent est dans le processus de marque ou de précision, les autres cas partiellement hors de l'environnement de règles où il n'y a pas seulement de
faire le gouvernement en partie. Donc, certains un fouillis de cela peut être qu'un trader à haute fréquence est concerné ou juste une
partie limitée du graphique des prix. Donc, non, si vous considérez qu'il ne se préoccupe pas de l'historique du prix de ces actions ? Qui est concerné ? Onley. Eh bien, c'est petit nombre et dans leur graphique et ses algorithmes, il est 50 algorithmes ne les utilisent pas. Ainsi, le trader n'a pas accès à ces données seulement partiellement de vos objets. C' est et fait sa vision de décision sur ce paquet de votre raison. Un autre cavalier pourrait être que ça marchera. Oh, c'est apprendre à marcher à travers son Ça marchera ici et il a une vision de la caméra. Ensuite, vous prenez une très petite vue de l'environnement. Ce n'est pas l'environnement complet qu'il objecte. Il prend une décision basée sur ce cours, il a aimé votre raison. De même, un poker jouant un objet doux que les voitures publiques nourris bientôt à lui. Donc, dans ce cas, Agent Etat n'est pas Samos Environnement Stoute et dans ce cadre est la condition Alors l'agence dit à Brasilia, processus de décision
général Marko ou en sorte veulent BP. Donc, puisque l'environnement ah n'est pas complètement hors de la règle pour
l'agent, l'agent doit construire sa propre représentation hors état. Donc, une façon de construire l'état à partir de l'agent sera de simplement enlever le courant de la raison. Mais cela peut être très petit. Ça et ça peut ne pas suffire. D' autre part, l'agent peut prendre l'histoire complète comme son état et ce l'autel valide représentation hors état. Mais cela peut être trop d'enregistrements de données que l'histoire continue, et la rue contient trop de données redondantes. Donc, entre les deux, l'agent peut construire une représentation incrémentielle à partir de ses états. Donc ça, oui, on a parfois appelé les tranchées et la fonction des soldats de l'état intérêt pour la fonction et, ah, donc, euh, prend dans un coin. Il a passé l'état et l'opération en cours. Donc, cela est similaire à ce que nous appelons Oregon ou recruter réseau neuronal sur l'artiste Validation peut construire une vue probabiliste de l'état de l'environnement. Donc, agent, faire une vue stricte que la probabilité de bit même le statut de l'Agence de l'environnement un avec probabilité, P deux statut de région de l'environnement à et avec une règle. Tippi dans l'environnement est dans l'état est dans. C' est donc une approche occupée ou probabiliste sur le terrain de golf. Cette partie de toutes ces probabilités doit être une. C' est donc une autre approche commune pour ah, bâtiment et Age Institute. Un autre exemple de pour stupide de la règle de marque ou de vision croix sera que certains bien, jeu, disons ou temple courir. Donc, vous êtes l'est pas est en cours d'exécution et il seulement des objets étaient deux très bientôt à elle dans une petite distance. Donc, par
exemple, il peut y avoir du feu, et dans ce cas, vous testez pour sauter là-bas, et ensuite ça fait,
euh, euh, l'eau. Et dans l'eau il Memphis d'autres obstacles, comme la roche. Donc, dans ce cas, il a orteil Slade autour de cette cuillère, ou il peut obtenir un peu plus de nourriture, et dans ce cas, il doit ardoise sous ce serait. Ainsi, l'agent n'a pas une image complète de l'environnement. Vous venez juste partiellement objectez dans la chaleur de la petite région, l'environnement. Et basé sur ce O r génial, c'est une rue.
6. Les composants de l'agent RL: dans ça, vraiment ? Nous regardons à l'intérieur dans notre religion qui vous avez regardé, Atwater la confiance souvent, agent. Ce sont donc les trois composantes d'un agent, et toutes ces composantes peuvent ou non être présentes dans notre religion. Donc, le premier composant est une fonction de deuxième valeur de politique, et 30 est immortel. Donc la défiance politique, le comportement des agents. Chaque agent a une politique qui déterminera ce que les agents d'accent prendront dans un
état donné . Alors rappelez-vous, la goule de toute religion est de maximiser les rendements futurs attendus. Donc, les politiques seraient telles là. Les agents xom se déplacent dans leur direction. C' est donc une carte de l'État à Aksam. Donc, la stratégie devrait décider si l'agent est plutôt un accent de ce qui devrait lire. Et cette politique peut être déterministe ou stochastique. Donc politique déterministe signifie qu'il dira exactement quel accent ? Oh, la tactique de l'agent. Nous lisons que la politique ah stochastique donnera juste une distribution de probabilité. Comme quoi ? Probabilité de ce que les agents ont choisi la prochaine compagnie. Avez-vous valorisé la fonction ? Donc, il est fondamentalement un grand off. Comment bon ou mauvais état est parce que vous dit dans la prédiction de la récompense future. Donc, nous définissons une fonction de valeur en vertu de la politique donnée et un certain état, car ils certains rendements totaux attendus à l'avenir et voit un certain facteur d'actualisation ici orteil ou donner Laura. Il est trop loin à l'avenir et donne plus d'électeurs à des récompenses immédiates. Sur cette note. Les usines listent en un, donc ceci est utilisé pour valoriser la bonté ou la mauvaise qualité de l'état. Donc, si le statut très fonctionnel complet est plus que vraiment, la
fonction de l'état l'est aussi. Ensuite, nous verrons leur oui, une utilisation il a enregistré, et l'agent va essayer de déplacer orteil cet état pour lequel la fonction de la vallée est déplacée. Donc est-ce aide à choisir entre Jackson action négative. On le prend pour indiquer un accent qui a envoyé un texto à l'état deux et a reçu dans l'état
fonctionnel de la vallée . L' un, c'est plus. Nous préférerons l'accent. Même maintenant, le troisième et dernier confiant est immortel. Certains moderne est juste une vue de l'environnement que ces dans les projets de loi afin modèle prédit ce que l'environnement va faire ensuite. Donc, ce n'est pas exactement avec l'environnement étaient juste mortels. Oh, agents de votre environnement. Donc, pour les deux dernières conférences en essayant d'envoyer plus mgr. C' est le matin en essayant de supporter des vies mortelles dans la prédiction de l'état suivant, tandis que la santé mortelle récompense en prédisant le prochain travail, étant donné un certain état et si l'agent prend un maximum Donc c'est l'utilisation de la tendance et moderne. Donc, il dit quelle est la probabilité de passer du statut à une entorse, Compte tenu de certains xom il. Où est cette récompense ? Petit mortel. Quelle sera la récompense immédiate est que l'agent est dans un certain statut et il faut une maxime un
Non ,non. , Examinons quelques exemples de ces trois conférences pour en comprendre plus
clairement . Donc, c'est l'environnement en fait. Donc, c'est un point de départ, et le but de l'agent est d'atteindre ici et est en coche une partie et il vient le long de ce chemin et atteint le but. Donc, l'agent construit une vue de l'environnement. Bientôt, l'agent sera mère vivante. Il est venu d'ici et a ensuite atteint son objectif. Donc c'est la vue de la, euh dans un instant. Quant à l'agent, il n'a pas d'idée où se trouve ce qui se trouve dans cette partie de l'environnement. Donc, ce n'est pas l'environnement complet. Quels sont les agents de votre environnement. Alors maintenant notre politique. C' est donc une carte de stratégie de l'agent. Donc, la carte de politique dit que si la dentition disa état true off, si elle a insisté, il devrait augmenter s'il est en retrait, c'est une sorte de bon et similaire aliments ici. Ensuite, allez à droite,
D' un autre côté, l'inflation Vertiges, irritable, à droite. En fin de compte, ces politiques conduisent à aucun bien. Donc cette politique comme nous avons bien étudié, vraiment déterminé Agent Saxon. Non, regardons la fonction de valeur. C' est donc le même exemple avide que nous avons vu ici. Donc la fonction de valeur est la certaine récompense de la communauté attendue dans le futur d'un
état donné . Voici donc les états immédiats très proches d'aller bientôt. Donc, si l'agent est dans desisted, la fonction même est moins arbre. Juste cette valeur parce que ensuite il ira vers l'objectif. S' il n'y a pas ici. Le rendement attendu est moins deux. S' il n'y en a pas, est ici entre moins t moins. Flavier sur moins six ici, même ici, moins Lee. Donc ça te tue, puis on va dans n'importe quel état. Nous avons diffusé la récompense croustillante du matin. Donc si l'agent est ici, il aura moins sept. Parce que, agent Will, j'ai entendu ça Valued and wear on. Aller où ? Donc, ceux-ci lisent 97 moins huit ici, de même que la valeur. Une fonction est donnée est définie des différents états. Donc, ces positions de grille sont les différents états. C' est un bouvillon, Delerue, Mme Jo One, c'est celui que vous connaissez. Donc, la valeur du Sénat lui-même assez bonne tradition. Attention à ce que les agents d'accent prendront. Donc les agences sont cela commence à raisonner. Donc, il peut aller ici ou ici, mais il verra que la fonction de valeur d'un Joe, c'est moins six est plus que la fonction de valeur de Joe un, qui est moins ici. Donc tu sais que l'Etat un Juif est meilleur que l'Etat, donc ils n'iront pas ici. Maintenant,
ici, il doit impressionner ceci et ça encore. Il verra que c'est un meilleur état. Donc, il ira ici et ici et ici et conduit finalement à l'objectif. Donc, cette fonction de valeur est très importante. Et il dit dans l'évaluation de la bonté ou marinus à nouveau off. Mystique
7. Le Categorising des agents RL: Dans cette vidéo, nous allons voir les différentes catégories lui-même en agent moral. Ainsi, une catégorie, toute basée sur les présents, une absence hors valeur et la politique sur la deuxième catégorie est basée sur la présence ou l'absence hors mortel. Donc, comme pour le premier plus grand péché de bétail, et notre religion peut être soit basée sur la valeur, pleinement servi ou critique acteur. Donc, un agent basé sur la valeur utilise la fonction de valeur et ici les stratégies n'enregistrent pas les stratégies
en place . Je suppose qu'on vous donne un environnement. Donc, ce bien représente un environnement et les différentes cellules représentent, et agent du monde de l'état peut être ainsi sur ces air, les fonctions de valeur de chaque état noté, Quel est le retour futur attendu de cet état ? Donc c'est l'agent qui est là. C' est l'état de départ et il verra que cette cellule est la vôtre. C' est un euro sur ce qui commence un 00 Donc, vous ne fonctionnez vraiment hors. Geruman, qui est moins ici, écoute très fonction quand vous qui est moins six. Donc, cela signifie que cet état est meilleur que le vôtre. Donc, quand vous êtes mieux pour que le patient puisse aller. Mais quand vous et encore vous testez deux façons vers moins sept visage moins. Donc, il ira à nouveau ici. Donc, avec ça, allez-vous fonctionner ? L' est ne peut pas prendre ses décisions et les politiques qui ne sont pas nécessaires. Donc, ce genre d'agents sont appelés agents de grist de valeur. Le deuxième type est la politique vist. Donc ici rage dans les magasins la politique et pas bien, vraiment fonctionner. Donc, si cette stratégie est définie, alors si l'agent est dans cet état de départ, il ira ici. Et si c'est dans ce Stuart, la politique dit que
Va et écoute ta table. Juste le jour où l'agent arrive ici. Donc ici, les accents sont décidés par la politique et non pas développer quatre. appelle donc ce genre d'agents de politique et le troisième est critique d'acteur. Ouais, la différence dans l'histoire en tant que politique connexe parle Nous prenons celui-là pour aller deux religions de
ce genre . Non. En ce qui concerne la deuxième catégorie, la
raison, bien que notre religion puisse me soit modèle trois ou modèle basé sur le modèle trois, notre politique religieuse peut être là ou la fonction de valeur peut être là ou les deux peuvent être là. Mais il n'y a plus de sorte que l'agent essaie de construire une fonction de stratégie ou de valeur en fonction de l' expérience afin de maximiser l'avenir. Nous travaillons de sorte qu'il n'essaie pas de construire un modèle de l'environnement. Ou il n'essaie pas de comprendre la dynamique de l'environnement, tenir les travaux de l'environnement, alors que dans le cas de la politique de station mortelle et ou vraiment la fonction peut vidéo et mortellement aussi présente. Donc, la première tâche hors station est d'essayer d'apprendre comment fonctionne l'environnement afin qu'ils ne
tentent pas de construire un modèle de l'environnement, puis de déterminer la
fonction de politique ou de valeur optimale .
8. Apprendre et planification: l' apprentissage et la planification sont des concepts trop importants pour renforcer l'apprentissage. Donc, avec la prise de décision secrète encore, il y a deux types de problèmes fondamentaux. Un type de problème est l'apprentissage du renforcement et le deuxième type de problème est la planification. Alors voyons. Quelle est la différence entre ces deux problèmes d'apprentissage de renforcement ? Le modèle de l'environnement est inconnu de notre religion. Ils sont donc diligents, n'ont aucune idée de la façon dont l'environnement fonctionne notre religion en fonction de l'environnement et essayent de comprendre comment l'environnement fonctionne. C' est donc une sorte d'essai et d'erreur et basé sur leur âge et essaie d'améliorer ses politiques . Qui que ses récompenses futures ont maximisé dans le modèle de problème de planification de l'environnement est connu de l'agent, donc aucune interaction est nécessaire pour explorer l'environnement. Agent plantes en effectuant des compétitions basées sur la connaissance de l'environnement manqué sur la connaissance du modèle de l'environnement. Donc, il est penser et planifier à l'avance par rapport à l'essai et l'erreur en cas de renforcement , problème
d'apprentissage et basé sur cet agent essaie d'améliorer sa politique pour obtenir plus récompense à l'avenir. Prenons donc un exemple de cet exemple. Off planification pourrait être que vous êtes informé des chambres hors du jeu comme vous jouez juste jeu, et vous savez que les étapes de travail sont valides et ce qui ne sont pas valides. Donc on vous l'a dit avant. Et donc votre tâche est de planifier cela. Et si je déménage ici ou s'ils bougent après deux pas, qu'est-ce qu'on a laissé ? Et donc c'est gentil de penser que j'ai entendu ou de planifier à l'avance. Mais d'autre part, et l'agent peut ne pas être dit. Tenez les fonctions du jeu d'échecs et il va juste essayer d'explorer l'environnement afin qu'il va essayer d'aller ici, et il obtiendra les commentaires que c'est un mouvement invalide et il va essayer plusieurs autres mouvements , et il va obtenir le effacement renvoient ce qui se déplace est valide ou non valide. Donc, après un certain temps, il va comprendre les règles hors de l'environnement tenir un modèle de l'environnement est et puis il va essayer de maximiser il retourne. Ce sont donc les deux problèmes fondamentaux dans l'apprentissage du renforcement
9. Exploration et exploitation: l' exploration et l'exploitation sont deux problèmes fondamentaux en matière de renforcement. L' exploration de charge signifie en savoir plus sur l'environnement sur ce monde principal, renonçant à une récompense immédiate pour des récompenses futures maximales vieillissantes. Pour comprendre cela, voyons notre religion, Dejan un statut et avec son expérience passée, vous testez pour la rançon. Excellent, même dans cet état. En ce qui concerne la fac, le
sippy et le plus à un état différent. Disons que ce cadre un stagiaire donne une certaine récompense est un, et cette récompense est positive. Donc, une façon serait de continuer pendant le Saxon dans un préavis dérogé. Gardez la politique 60 et continuez à obtenir cette récompense ou une récompense. Mais il peut y avoir un autre accent disponible à partir de cet état. Peut-être avez-vous inquiété trois ou beaucoup plus d'actions, qui sont plus rentables qu'un. Donc, disons que deux anguilles le font. Les rouleaux sont trois, et il est possible qu'il y ait une liste dans ceux où c'est encore pire que la politique actuelle . Mais il est possible que nos arbres plus que le nôtre. Donc c'est l'agent découvre nerd, dérision, accent auriculaire à laquelle on peut prendre de ce domaine. Ensuite, nous obtiendrons un meilleur rendement donc cela signifierait l'exploration qui explore plus prix vers l'intérieur mais d'un autre côté, exploré n'est pas juste trop suivre la formation rentable qui est impliqué dans statut, et il a formé un excellent même qu'il peut prendre, ce qui lui donnera une certaine récompense. Donc il continuera à faire ça avec notre exploration pour le lit Robson. Donc, cela sera connu et exploité. Donc, il y a l'exploration chatouilleuse décent compromis, parce que quand
vous explosez, vous perdez sur la récompense connue, que vous saviez que Jackson donnait quelques points à récompenser. Alors pourquoi Lex Lorrison ? Vous pouvez perdre ou faire des récompenses, mais d'autre part, vous pouvez également obtenir une meilleure option que vous donnerez ou plus de rendement dans un
avenir plus long . Il y a donc un équilibre nécessaire entre la raison supplémentaire et l'exploitation. Voyons donc quelques exemples pratiques de l'exploration et de l'exploitation. Par exemple, dans la publicité, l'extradition signifierait coudre un air rentable façon suspecte, alors que l'exploration signifierait poursuivre certaines nouvelles émissions qui pourraient être plus rentables à l' avenir. De même, si vous avez un restaurant préféré dans votre localité et votre figuré ou peut-être piquer plusieurs restaurants. Donc, l'explication signifierait que vous continuez toujours à aller aux pieds de votre restaurant préféré, où l'exploration signifierait essayer un nouveau restaurant dans votre quartier, et il pourrait être forcé d'alerter la nourriture. Il y a mieux que votre restaurant préféré, mais vous les hommes finissent par manger de la mauvaise nourriture dans le processus. Donc aussi ici l'équilibre est nécessaire avec la prochaine écoute et l'exploitation.
10. La sélection d'une action pour l'exploration et l'exploitation: Dans cette vidéo, vous verrez quelques accents, Alex dans les algorithmes, ce qui nous aidera à décider quand exclure et aller à exploiter. Nous avons déjà vu que nous ne pouvons pas faire des explorateurs et des expletifs et simultanément, et nous appelons cette exploration exploser. Trude n'est pas éteint ? Donc, nous allons voir à hors les algorithmes de sélection populaires ou étendue qui voulaient un très basique , qui est appelé Epsilon Greedy X et sélectionne. Hum, et c'est une sorte d'un hasard de X et sélectionne un algorithme. Et puis nous verrons un autre algorithme appelé optimiste toutes les valeurs de cellule. Donc d'abord Cedar Playland, Greedy X et sélection. Ici, nous choisissons de l'explorer la plupart du temps avec une petite chance d'explorer les bébés. Ne fais pas un peu de hasard. Et ici Epsilon ont été forcés de la probablement être que nous choisissons d'explorer. Donc, il doit être entre votre valeur que vous avez offerte en un, par
exemple. Nous pouvons choisir une base d'accent, ne pas rouler pendant des jours, alors considérez une situation. Donc ce sont toutes les six possibilités et nous lançons leurs dés afin que nous puissions obtenir un nombre de 1 à 6 afin que nous puissions nous asseoir là s'il y a un ou deux ou 34 ou dormir alors nous allons explorer. Autrement dit, nous allons choisir et connu algorithme avide connu étape avide dans le lendemain M. So Revenu meilleur sens. Nous avons ah di algorithme paradigme qui dit que vous prenez votre Wrexham basé sur le monde
immédiatement et il est utilisé en sorte de spot trouver minimum spanning tree trouver Donc vous avez quelques options d'accents et puis vous choisissez celui qui vous donne récompense immédiate. Donc, ici, nous allons prendre un si avide xom abeilles ne roulent pas sur gentil. Donc, si elle vient de 1 à 5, n'a pas exploité avis Prenez un xom gourmand. Mais si nous arrivons six, alors nous explorerons une nouvelle excellente pour laquelle nous ne savons pas quelle est la récompense. Cela peut donc être une solution ou résoudre le problème de l'exploration et de l'exploitation. Et nous voyons que le silence était la religion que nous avons explorée. Donc, dans ce cas, nous explorons un ordre de six fois pour pouvoir dire qu'ils sont absurdes et dans ce cas, c'est 1/6. Alors formalisons cet algorithme. Donc ici soit d'abord dans la mesure choisi nos noms pour être, alors cela peut re soit. GDX. Hum donc cela fait référence à un xom gourmand, et cela nous prendrons avec une probabilité d'un moins un rabotage. Et c'est ça qui a tourné une maxime. Et cela, nous prendrons la probabilité de Upsell. Et il peut y avoir ou une radio différente, euh, en utilisant le même algorithme. Non, Voyons le 2ème 1 que nous appelons un mystique Toutes les valeurs de cellules et nous nous conformons allèguent de cette façon. Donc ici Q fait référence à certains invités initiaux ou invités hors valeur. Donc physiquement je suis égal à faire Nous ne savons pas de son accent vraiment plus de récompense. Nous avons donc attribué un peu de butin à ces accent. Donc, nous sommes très optimistes, Andrea ST Certains était dévaluations orteil l'autre ne va accents. Et dans la prochaine étape de temps non, ils fonctionneront ces valeurs en fonction de ce que nous avons réellement obtenu si plus tôt lu ou les invités. Ensuite, quand nous prenons effectivement leur accent, nous allons apprendre à savoir combien vous êtes plus grand Donc, nous allons mettre à jour ces valeurs pour entendre Qué en place même ou refuser l'état ancien ou hors de leur excellent et cubain dans la
valeur d'estimation précédente ou le succession précédente et je vais me battre. Une usine peut être entre ici et une. Supposons donc que c'est l'Europe sur cinq pour notre exemple. Et c'est le regard de récompense am Step T ou dans son temps, pas et moins la valeur précédente. Voyons donc un exemple, et ce serait vraiment clair. Voyons par trois possibilités ici trois actions que nous pouvons choisir. Donc A, B et C ont abandonné les actions possibles, donc d'abord être normal, ce qui est mieux. Donc je suis appelé à Geo là-bas. Excusez-moi. Nous sommes très optimistes ici parce qu'il est optimiste dans l'algorithme des valeurs d'argent, Andrea, sain et bon, forcé de valoriser chacun de ces accents. Donc aucun désir égal et nous allons choisir au hasard un sur ceux-ci. Réglons le choix A et nous avons obtenu une valeur en fait ou si nous étions très optimistes, donc nous lui attribuons une valeur. Mais on l'a fait et on a pris un donc je suis trop cool pour un grand donc le grand jour. Donc, nous ne serons pas grand BNC, mais nous allons à New York aussi. Donc, nous allons mettre à jour sur un de sorte que Cubain sera vous dans cette demi-fois la différence. Ou vous pouvez aider à votre façon. Eh bien, c'est un gros original de Dave. Duty free, juste valeur dans la valeur actuelle. Ou restons-en à cette terre agricole. Nous allons utiliser votre pour égale à zéro flamme point de sorte que vous et placer pour Valerie ici en Plus, Savez-vous la saveur de point ou en moins et la saveur de licorne vous dans. Donc, cela deviendra et, vous savez, la saveur
du point. Cubain Parce que Cubain moins 0,5 q et ses cinq européens Q et Plus Negroponte côté Ardant ou Cuban Plus ou dans Newbury Way. Qui ça va faire ? Q. Un plus un. Donc, dans ce cas, Q. Est-ce que nous estimons Cubain ? Donc, nous allons faire Q zéro plus retour divisé droit pour donc Phi plus deux divisé par deux. C' est sept par deux ou 3,5. Donc, je suis venu à égal à un. Nous avons ces valeurs. Donc, Mme Fleet le manque énormément parce que nous n'avons pas fait de grosses choses. Non, nous estimons le cube de valeur. Donc, nous allons essayer de choisir l'un accent, qui dit que son plus rentable Donc, dans ce cas, clairement un 3.5, qui est inférieur à la BNC. Donc, nous allons en choisir un. Disons que nous choisissons serait et il festival jeunesse un donc dans la prochaine fois encore visible
lui reste . Cela lui restera. Et cela deviendra cinq plus un lors de l'avis de droit. Six attendez deux ou trois. Donc non, c'est la valeur du temps égal pour le faire ceci est égal à un. Prenez un peu qui estimaient mignon être ici pas de temps. Trois Nous verrons que ces deux Earless et C est le plus semble être le plus gratifiant, choisir cela et nous allons sauver les valeurs de Gordon Ah, trois si fort mis à jour étaient loisirs et ceux-ci resteront inchangés trois et cela devient 45 rue plus ou le droit à la nourriture Dans la prochaine étape de temps va choisir contre quatre et nous verrons quelle récompense plus grande de sorte que chaque étape de temps nous avons essayé orteil choisir celui avec la valeur la plus élevée, puis basé sur la récompense réelle que nous obtenons de valeurs de nouvelles mortes Donc c' est le hors de la mystique toute religion cellulaire sur eux. Donc, il ya quelques limites à cet algorithme de valeurs initiales optimistes Quand est-ce que c'est , Dr Exploration sur Li. Dans la phase précoce, après un certain temps, le peut coller à un hors les accents, ce qui peut sembler, Avons-nous optimal dans cette douleur ? Mais ce n'est pas bien adapté pour les problèmes stationnaires connus. Par ça, je veux dire ça. Ou il peut y avoir des cas où les directions étaient mauvaises plus tôt sur ce mystique. Tout algorithme de vallée cellulaire, tel qu'il a été correctement découvert, est basé sur l'exploration initiale. Mais il peut y avoir la possibilité que certains accents qui n'étaient pas bons plus tôt ne sont devenus dans mes gouttes. Euh, alors on se rencontre. Donc cette semaine tout non ist est Mary problème parce que ces accents ne sont pas la justice Mary. Ils ont également changé en fonction du temps. Donc, cet accent, qui n'était pas ainsi dire plus tôt non est une meilleure option. Mais ce Exxon sera cet algorithme dans ni découvert que parce qu'il va essayer de la Lexan
optimale à chaque fois deux Donc et il y a un autre problème que toute vente de gaz. Donc, nous donnions un peu de valeur à chacun de Jackson et ceux-ci ne sont peut-être pas un bon invité. Ceux-ci peuvent être un très mauvais invités. Donc c'est une autre limitation étaient malgré ces limitations cet algorithme a empêché être un accent efficace. Sélectionne, euh important parce que vous êtes peut-être ce genre de scénarios, ce n'est pas très commun. C' est donc un algorithme très simple et efficace. J' espère que vous en avez à Houston pour sélectionner vos actions. Et le nom de moi de cette conférence était de vous donner un peu intéressant à ce sujet sur aller plein. Vous dessinez quelque chose en utilisant de cela et peut-être notre appareil votre propre algorithme de sélection d'accent , qui fonctionne encore mieux que ceux-ci.
11. Prédiction et contrôle: prédiction. Le contrôle est un autre problème fondamental et le renforcement apprentissage de la prédiction signifie concurrence ou estimation des conséquences, souvent accident. La politique ici est donnée sur l'objectif est de deux millions de trous que la politique effectue. Cette fonction de stratégie est corrigée. Donc, si le statut d'indigent, alors en utilisant cette fonction politique, il obtiendra exactement quel accident doit prendre compte tenu de cette succession. Et l'objectif serait de trouver ou de calculer le rendement attendu de cette succession en utilisant la police
donnée. Leur but est donc de prédire l'avenir, alors que dans le contrôle, la politique n'est pas fixe. Agent est dans un certain statut, et il ne sait pas quel accent prendre. L' objectif est donc de trouver une politique optimale, la politique qui maximisera. Je m'attends à ce qu'il soit livré. Alors écoutez cette chanson. Son fils n'est pas connu, et nous devons trouver cette Syrie. Il s'agit d'optimiser l'avenir. Dans le cas de la prédiction,
il s'agit de prédire l'avenir parce que les politiques ont été fixées. Dans le cas de la prédiction, Prenons donc un exemple. Donc, si c'est notre exemple ah mais, donc si nous sommes dans re ou l'agent est dans, cela commence encore, alors il est la politique dit que aller à droite, puis monter à droite puis puis atteindre l'objectif. Donc, si cette politique est donnée dans ce cas, le rendement serait moins un moins deux, moins deux moins trois. C' est 78 Donc moins huit. Ce qui, d'autre part, est Legent est dans ce domaine à commencer mijoté et les politiques ni fixe. Ensuite, il doit trouver que New York a reçu la meilleure politique. Ensuite, il comprendra qu'il peut prendre cette partie et que la Guinée retourne moins un deux, moins un moins deux. Donc moins six. Il semble donc que c'est mieux que ça. Il comprendra donc qu'il s'agit d'une politique optimale. Vous fruits et station. Ce que vous avez testé a grandi. Espérons et puis évaluez. Il déterminera donc la politique optimale. C' est donc la principale différence entre la prédiction et le contrôle.
12. Prochaines étapes: Félicitations pour avoir terminé votre premier cours sur l'introduction à
l'apprentissage du renforcement . Vous avez fait le premier pas vers le renforcement de rassemblement, apprenant maintenant votre famille avec le tournant de base Rogie à partir utilisé dans
l'apprentissage du renforcement et vous êtes prêt à aller de l'avant. Donc, vous pouvez savoir Prenez le deuxième cours ou l'apprentissage de l'application de la loi là-bas. Nous allons plonger en profondeur dans les processus décisionnels de Marco. Alors merci d'avoir fait du pied la fin du cours sur Hope pour vous voir dans le prochain cours.