Aprendizaje de refuerzo #1: Introducción al aprendizaje de refuerzo | Inteligencia artificial

Abhishek Kumar, Computer Scientist at Adobe

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Obtenga acceso ilimitado a todas las clases

Clases enseñadas por líderes de la industria y profesionales activos

Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

- 1.
  
  Introducción
  
  1:45
- 2.
  
  DESCRIPCIÓN GENERAL
  
  7:11
- 3.
  
  Agente y entorno
  
  4:07
- 4.
  
  Historia y estado
  
  6:39
- 5.
  
  Proceso de decisión de Markov
  
  5:05
- 6.
  
  Componentes del agente RL
  
  7:40
- 7.
  
  Categorizar agentes de RL
  
  3:21
- 8.
  
  Aprendizaje y planificación
  
  2:32
- 9.
  
  Exploración y explotación
  
  3:22
- 10.
  
  Selección de acciones para la exploración vs la explotación
  
  10:16
- 11.
  
  Predicción y control
  
  2:32
- 12.
  
  Qué sigue
  
  0:32

Nivel principiante

Nivel intermedio

Nivel avanzado

Todos los niveles

133

Estudiantes

Proyecto

Acerca de esta clase

Esta clase te introduce a los fundamentos del aprendizaje de refuerzo. Así que no se espera que los conocimientos previos tomen este curso. Después de completar esta clase, los estudiantes se familiarizarán con las terminologías básicas de Refuerzo de Aprendizaje y estarán listos para sumergirse en cursos de nivel intermedio y avanzado sobre Refuerzo de Aprendizaje.

Los contenidos de la clase son:

DESCRIPCIÓN GENERAL
Agente y entorno
Historia y estado
Proceso de decisión de Markov (MDP)
Componentes del agente RL
Categorizar agentes de RL
Aprendizaje y planificación
Exploración y explotación
Predicción y control

Conoce a tu profesor(a)

Abhishek Kumar

Computer Scientist at Adobe

Profesor(a)

Computer Scientist @Adobe

Ver perfil completo

Habilidades relacionadas

IA e innovación Fundamentos de la IA

Level: Beginner

Proyecto de clase práctica

Proyecto 1:

En la imagen dada de la cuadrícula con diferentes valores de recompensa, (0,0) es el estado de inicio y (3,2) es el objetivo. Los valores dentro de las celdas de la cuadrícula (Estados) representan las recompensas inmediatas correspondientes a esos estados. Hemos estudiado que la función Valor se usa para comparar la bondad/la goodness/badness de un estado. Su tarea es:

Calcular la función Valor del estado (2,0) en círculo en rojo
Calcular la función Valor del estado (0,1) en círculo en azul
De (2,0) y (0,1) que es un estado mejor y por qué?

Aquí no estoy proporcionando ninguna Política, así que usa la mejor Política para tus cálculos.

Proyecto 2:

Supongamos que estás tratando de entrenar a un agente de Reinforcement Learning(RL) para conducir un automóvil. ¿Cómo definirías las recompensas para este experimento? Definir el:

Recompensa positiva
Recompensa negativa

Proyecto 3:

El aprendizaje de refuerzo se basa en la hipótesis de recompensas. Según esta hipótesis, "Cualquier objetivo puede formalizarse como resultado de maximizar una recompensa acumulativa". Dé 3 ejemplos del mundo real de tareas orientadas a objetivos que se ajustan a esta hipótesis. Comparte tu respuesta.

Proyecto 4:

Anota 3 ejemplos del mundo real que se ajustan a los problemas de Exploración y Explotación.

Reinforcement Learning - Evaluate States based on Value Function

Abhishek Kumar 4 me gusta

Valoración de la clase

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introducción: bienvenido al primer curso bajo aprendizaje de aplicación. Esta clase se desglosa en 10 lecciones, que es más o menos una sobre de contenido de video. Y no esperamos ningún conocimiento fuera del aprendizaje de refuerzo para iniciar este curso en particular real lleno. Es Tienes alguna comprensión básica de cómo Nuland qué funciona. Y esto es para iniciar 10 cursos sobre aprendizaje de refuerzo. Tiene algún material de flujo intelecto, por lo que ganarás algún conocimiento introductorio de los conceptos de aprendizaje de refuerzo. Entonces te estarías preguntando ¿quién es el instructor? Entonces mi nombre es obviamente Kumar y trabajo como científico informático en Adobe. Tengo siete años de experiencia en programación y pobres más años de experiencia en aprendizaje automático. Entonces, ¿qué sabrás? Después de completar este curso, obtendrás algún entendimiento básico del aprendizaje de refuerzo, por lo que podrás entender el terminal clave que Aziz utilizó en el aprendizaje de refuerzo. Y después de completar el discurso, estarás listo para conducir a cursos avanzados bajo aprendizaje de aplicación. Entonces, veamos brevemente los contenidos del curso. Por lo que tiene sobre ti donde voy a dar alguna visión general fuera de la máquina, aprendiendo como un todo y aprendizajes de refuerzo en particular. Entonces buscaremos a un agente, un ambiente que sean los competentes. Entonces para el aprendizaje de aplicación que la historia y el estado que Marco ocupado y procesos componentes fuera refuerzo, agente de aprendizaje, categorizando nuestra religión, aprendizaje y planeación, exploración y explotación y predicción y control. Así que bienvenidos a las partituras y espero verte en la próxima escucha. 2. Descripción general: bienvenido a los puntajes sobre refuerzo. Refuerzo de aprendizaje El aprendizaje es una rama del aprendizaje automático. Entonces veamos primero y sobre los huérfanos en aprender sobre muy refuerzo. Aprender por su interés a partir de ver el aprendizaje se clasifica en tres categorías principales. Aprendizaje supervisado sobre aprendizaje supervisado y refuerzo. Aprendizaje. Hoy en día término de aprendizaje semi supervisado también es popular, pero por el bien de la simplicidad se apegará a estos tres hombres ramas en el aprendizaje supervisado . Como sugiere el nombre, hay alguna súper razón o orientación presente. Toby proporcionar un nivel de set off más adelante. También el Chris Morning o puesto en el trabajo de la red es aprender usando esos datos de entrenamiento bien nivel y las clases principales o aprendizaje supervisado o clasificación y regresión . Por lo que la clasificación como el nombre sugiere y se ocupa de categorizar el retorno al más cercano leemos en regresión. Nos llegan algunos reales valorados o pop, lo que un ejemplo de clasificaciones sería que se les dieran algunos ejemplos imagenlo fuera de curso en alguna imagen lo fuera de Mike o básicamente, y algunos otros vehículos tal vez fue, y tenemos objetos de embarcación nivelados en nuestras imágenes, por lo que proporcionamos la posición donde estos se encuentran en límites. Entonces es que proporcionamos apaga toneladas de detalle como tal vez 100 kr 10 regalos tal nivel más adelante a nuestra red en este caso para el procesamiento de imágenes. CNN entonces en última instancia se duplica. En la red se averiguará cuál es la diferencia entre la representación fuera de un automóvil a una bicicleta o miembros en? En última instancia, cuando alimentemos al numerador toe la extraña red neuronal, será capaz de predecir correctamente si la imagen pertenece a la clase off card Mike Oremus Así se puede llamar coraje. Cerrar uno y por caso, clase dos y árbol de clase. Por lo que dará aquí algunas clases discretas, también, leemos. En el caso de la regresión, puede dar algunos datos continuos como se dan algunos precios de mangueras y hemos dado algunos factores de entrada como número de recamaras, ID eo esas localidades en DSO hasta que B a proporcionó un montón de ciertos más adelante. Además, el precio de descuento matutino crujiente sabe así que este será algún número real, por lo que capacitar a nuestra nueva red. Pero este tipo de datos en última instancia serán capaces de predecir el precio de una manguera nueva. Entonces cuando alimentemos ah partimos recámaras Oh, cómo Siria y la localidad de esos, la red podrá predecir cuál debería ser el precio de la nariz. Entonces esto será apuesta de un riguroso y estamos va a predecir algún real valorado o en aprendizaje no supervisado, no hay supervisores ni orientación ¿Quién aquí? El red sólo trata de agrupar en un dato dado basado en similitud o trata de entender que me instructores en la camada y trata de encontrar a Originate son similares y lo hicimos son diferentes y en última instancia fue grupo de comercio datos similares juntos. Por lo que las clases principales fuera de una supervisó aprendizajes o clustering a menos que una temporada así más jingle principalmente grupo o diferentes puntos de datos hay apenas una temporada fueron o tratan de encontrar alguna relación entre diferentes perímetros, como en el anterior cerrar, supervisado ejemplo de aprendizaje que vendimos. Teníamos tres parámetros. Excelente al lado de extremadamente Y estábamos prediciendo manera y escuchamos una victoria récord y o segundo récord escuchó récord comercio de larguero excedente a grupo Estos diferentes puntos de datos para entrar. Al igual que estos dos registros son similares. Se intentó una temporada para encontrar algunas faltas temporada ahí. Este, uh, ex árbol está altamente ligado a la ex excelencia cada vez que X uno está ahí. Es muy probable que extremadamente también hay, Así que estos están relacionados. Entonces este es el sistema de diferencia clustering y asociación. Y estos caen bajo el artículo sus fondos sobre Muy aprendizaje. Por último, aprendizaje de refuerzo, que es el tema principal de este curso en aprendizaje de refuerzo. No hay tan proveedores, pero tiene señales de recompensa, y los principales componentes del aprendizaje de refuerzo no son un entorno, por lo que el agente toma una máxima basada en alguna política. Entonces aquí, por no me refiero a algún algoritmo y tiene alguna política. Por favor, no digital toma una máxima. Un entorno emitirá ciertas razones obvias, dependiendo de la acción que tome el agente y también algunos recompensan 3 30 puntos en el acento de los agentes , por ejemplo. Aquí no hay un conjunto predefinido de mayor y apoyo. Tenemos su trabajo, y está tratando de aprender a caminar, así que es recompensa se mueve en esta dirección. Lo haces de diferentes tipos fuera de razones obvias, como algunos objetos. A lo mejor están en su camino, y cuando se caiga, recibirá negativamente trabajo del medio ambiente, y tratará de corregirse Dónde, si el mundo se hubiera movido en esta dirección, y deberías tener todo tu diferente tipo de experiencia, y podría tener u obtener algunas observaciones diferentes. Por lo que aquí se está entrenando el retorno con el agente depende del acento fuera del agente, mientras que en el caso del aprendizaje supervisado, habríamos proporcionado algún conjunto de disuasivo fijo sobre el cual entrenaremos sobre nuestras redes neuronales . Por lo que es diferente al aprendizaje supervisado. Por lo que algunos ejemplos de refuerzo de aprendizaje podría ser aprender a jugar ajedrez donde la innovación toma, um, paso fuera y va a conseguir que alguien hizo tu recompensa negativa. Y si se pone palabra negativa, intentará corregirse a sí misma. Y por último, con mucha experiencia, lo hará. Cuenca aprenderá promesas de orden. De igual manera apagado. Helicóptero volador podría ser un ejemplo de refuerzo aprendiendo la cresta en helicóptero crestante . Podemos dar alguna recompensa negativa sobre antes de caer. Algún árbol trágico, como queremos daríamos algunos era para recompensar y líder similar. A lo que caminar también viene bajo refuerzo, aprendizaje 3. Agente y entorno: no es y el medio ambiente son los dos componentes principales fuera del aprendizaje de refuerzo. Entonces veamos cómo agente y ambiente indirecto en cada momento Paso t no se ejecuta cínicos en una y a su vez recibe una recompensa. Chris Morning. Dos anteriores excelente, y alguna de su razón y qué ambiente es recibe impuesto y una imitación de terrorismo o P más uno sobre artículo. Isman. Entonces cualquiera que sea el acento que tomó Asiático en el paso de tiempo anterior el medio ambiente percibe una recompensa por suciedad en el siguiente paso de tiempo. Y también, sin embargo, Chris mañana fuera de la razón, y nosotros incrementamos el paso y el medio ambiente. Por lo que has pedido esta señal de retroalimentación de Keller en ella indica que el agente Hole Will está haciendo un tiempo por lo que será útil para comparar entre fronteras con el Harbin o están a servicio. Serán capaces de diferentes premios en alguna habilidad para que podamos comparar recompensas que ayudarán . El no está en optimizar su política, por lo que la política visualmente año más recompensa acumulada será una mejor política. Por lo que el objetivo principal del agente es maximizar la recompensa acumulada a lo largo del tiempo, por lo que no es necesario que las recompensas inmediatas lo remax. Entonces por eso es diferente a enfurecido entregado. Um, por lo que el objetivo es maximizar el disco acumulativo de tiempo extra en. Nosotros llamamos a esta recompensa comunitaria ya que regresan refuerzo. El aprendizaje se basa en una recompensa repetitiva y mi esfuerzo de recompensa. Esto es, queremos decir, que cualquier meta puede formalizarse como nuestro comercio maximizando la recompensa acumulativa. Veamos algunos ejemplos de recompensa. Entonces, en caso de justo, podemos definir una recompensa de ciudad portuaria por ganar el juego y negativamente fueron por perder el juego. Por lo que ves su cola por movimientos individuales no estaban dando ninguna recompensa. La recompensa Andi se retrasa y la hacemos recompensa al final del juego. Por lo que no es necesario que después de cada X y haya una recompensa transformadora. Segundo ejemplo podría ser aprender al robot a caminar, hacer que los escombros aprendan a caminar donde vamos a dar empujó la recompensa por el movimiento hacia adelante y la negatividad. Palabra para hincharse y por si fuera maniobras de helicóptero que podamos mantener fue la recompensa por seguir al trágico árbol. Si el helicóptero sigue la trayectoria del ciervo, recibirá recompensa de calidad. Hay un *** para grabar por maldecir o el helicóptero. Vimos que sus diferentes problemas se pueden formular bajo el aprendizaje de refuerzo. Entonces, ¿estos trolling son muy diferentes entre sí? O podemos encontrar algo policía común por lo que utilizamos o secuencias de toma de decisiones para unificarlos bajo algún objetivo común. Por lo que el objetivo común para todas esas pruebas era seleccionar acentos que maximizaran las recompensas futuras totales . Por lo que puede que tengamos que planear al aire. Por ejemplo, algunas de las veces la recompensa puede no ser obvia inmediatamente. Por ejemplo, en el caso, fuera de juego fuera de los cofres recibiremos la recompensa solo después de ganar o perder el juego. Por lo que puede que tengamos que planear con anticipación para que se entreguen los resultados y puede que tengamos que sacrificar inmediatamente palabras o mejores recompensas a largo plazo. lo que algún ejemplo podría ser que algunos movimientos en el ajedrez pueden no ser obvios, pero puede ser útil a la larga inventar el juego. De igual manera, en la inversión financiera, renunciamos a algo de dinero en el tiempo actual, por lo que especie de obtener algunas recompensas negativas, con la esperanza de que nos hagamos más grandes preparados para recompensar en el futuro. De igual manera, gastas en educación esperando que el retorno sea mucho más que el gastocorriente gasto 4. Historia y estado: en este video, estudiaremos historia de premios en su lugar, la secuencia de GIS callejeros fuera de los acentos recientes y George que el agente había visto hasta ahora. Entonces recuerda que hablamos del no es y el medio ambiente, y cómo interactúan es en toma un máximo en belleza y a su vez reciben alguna recompensa y observaciones. Entonces la calle, justo aunque acumulación de tales variables de nivel de objeto hasta Time T, por lo que es muy importante. Y lo que pase a continuación depende de la calle. Por lo que agente residual algoritmo seleccionará su acento en base a la experiencia pasada o lo que haya visto hasta ahora es parte de la historia. Por lo que tomará acento dependiendo de este árbol y también del medio ambiente. Seleccionar razones obvias y recompensas basadas en la historia. Qué problema con la historia que sigue adelante con los tiempos. Por lo que después de algún tiempo aumentará y seguirá acumulándose, y será muy difícil procesar toda la historia. Entonces tenemos algo llamado ST, que es sólo información utilizada. ¿ Qué pasará a continuación? Entonces es sólo una función de la historia. Un ejemplo podría ser que acabamos de tomar las tres últimas de las razones ya que las Moderaciones a corto plazo son más importantes que el jurado ya que eso ocurre en el pasado remoto. Entonces esto es sólo un ejemplo. Puede ser alguna función compleja fuera de la historia también, entonces tenemos algo llamado Estado del Medio Ambiente o palabras a so ambiente. Estado es el estado usualmente ambiente para determinar cómo generar siguiente alteración y recompensa, por lo que generalmente no es accesible para el agente. Y aunque sea visual, puede que no sea muy útil que agente determine su próximo acento. Entonces cuando el ejemplo podría leer ERT, hay uno. Ah, trabajo de habitación y maravilla está caminando y actualmente la recompensa está aquí. Por lo que tiene alguna cámara probada. Por lo que tiene una vista muy estrecha del medio ambiente para que pueda ver justo esta parte del medio ambiente. No tiene idea de sus palabras en esta parte del medio ambiente y en otras partes del medio ambiente. Tiene una visión muy limitada del medio ambiente. Por lo que nuestro agente gadgets un estado, que es agentes, representación interna y esta información un usado piquetes dedo del pie muy agente. Siguiente Hexham. Por lo que puede ser cualquier función de la historia para jumper. Simplemente podría tomar perdidos tres estados, lo que un ejemplo podría ser que en el trading algorítmico, los traders miran alguna media móvil bruta. Entonces esto es, digamos, digamos media móvil de cinco días por debajo de los 20 días de Ghani en movimiento Enbridge. Entonces aquí hay un punto de activación. Es hora de vender. Por lo que este cinco, la logística movinaria los últimos cinco días precio en consideración. Por lo que últimos cinco días flotando precio de una acción y en base a esa tableta, Staybridge y de igual manera 20 días en movimiento, irritable tomar en consideración los últimos 20 días. Entonces no es oh, considerando toda la historia de los precios de las acciones, sino sólo algunos pasados, ah, precios, porque ¿están más vivos en determinar las próximas carreras y nuestra aplicación interna aprendizaje. Tenemos algo llamado Marco Jimson. Entonces donde diremos que el estado utilizado por el agente es suficiente para estadísticas fuera de la historia. Por lo que para predecir el futuro, sólo se necesita el estado actual del medio ambiente. Por lo que declara Markov de STD. Si satisfizo esta propiedad. Por lo que el siguiente estado, dado el estado actual y Dax en él mismo que el siguiente listado, dada toda la historia y excelente. Por lo que estos son tres pasos no aportan nada, por lo que se eliminen estos. Entonces obtenemos lo mismo. Entonces si estamos en cambio, Sty y nos lleva una máxima belleza élite de Denver, la próxima a ST Steepness uno. Pero también escuchamos algún otro paso de historia como este es para Oliver Twist E Así que este tipo fuera, verdad, ya que no existen estos. Entonces sólo el acento actual y cortado en estado, basta con determinar el siguiente a Así que esto es ¿qué registro? Markova Jensen. Y este es el estatus anotado. Marco Estado. Si sigue esta propiedad Markle, el futuro es independiente del pasado. Por lo que estos son el pasado dado el presente. Y este es Steve Sprint. Entonces un ejemplo podría ser de nuevo Oh, sí, sí, podría considerar el algoritmo de trading a través. No. Y entonces tenemos la media móvil. Entonces Ah, Wilkens, el algoritmo considera los últimos 20 días así que aquí un estado sería el precio entre los 20 días de junio . Esto es sólo e onda Steve menos uno. Sus precios desde 40 días hasta 20 días y tonifica los alimentos y el algoritmo de comercio de alta frecuencia no considera estos estados. Simplemente toma en cuenta los últimos 20 días precios. Por lo que este será un ejemplo apagado. Propiedad Marco 5. Proceso de decisión de Markov: en este video, estudiarás de Wharton Importante concepto en aprendizaje de refuerzo llamado Proceso de Decisión Marco o en resumen, M v P. Para entender MDP, uno necesita entender Cuáles son los diferentes tipos de medio ambiente. Entonces un ambiente. ¿ Podemos tener dos tipo ya sea totalmente fuera de la regla o parcela de sus reglas? Entonces, ¿dónde significa esto Así que en totalmente fuera del entorno rural, estos objetos indirectamente el medio ambiente estados, Así que no hay nada oculto a la región. Por lo que el agente conoce las reglas del juego. Entonces, cualquiera que sea el estado que mueve el agente. Entonces aquí, perro una razón. Su objetivo del estado agente y que es igual que el ambiente Stewart. Y cuando esta es la condición, entonces decimos que agente está en proceso de marca o precisión, los otros casos parcialmente fuera del ambiente de regla donde no hay parcialmente apagado sólo haciendo gobierno. Por lo que algunos un revoltijo de esto puede ser que un comerciante de alta frecuencia esté preocupado o simplemente una parte limitada del gráfico de precios. Entonces, no, si considera que no le preocupa cuál fue la historia del precio de esas acciones ? ¿ A quién le preocupa? Premio Onley. Bueno, es pequeño número y en su gráfico y sus algoritmos , son 50 algoritmos no usan esos. Por lo que el comerciante no tiene acceso a esos datos solo parcialmente de sus objetos. Es y toma su visión de decisión sobre esta parcela de tu razón. Otro saltador podría ser que va a funcionar. Ah, esto es aprender a caminar por su Va a funcionar está aquí y tiene algo de visión de cámara. Después se toma una vista muy pequeña del medio ambiente. Este no es el entorno completo que objeta. Toma una decisión basada en este curso le encantó tu razón. De igual manera, un póquer jugando un objetos suaves sólo los autos públicos amamantaron pronto a él. Entonces en este caso, Agente Estado no es Samos Medio Ambiente Stoute y dentro de esta está la condición Entonces el organismo dijo a en Brasilia, General Marko proceso de decisión o en especie quieren BP. Entonces como ah ambiente no está totalmente fuera de la regla al agente, el agente tiene que construir su propia representación fuera del estado. Por lo que una forma de construir el estado fuera del agente será simplemente quitarle la corriente de la razón. Pero esto puede ser muy pequeño. Es y puede que no sea suficiente. Por otro lado, el agente puede tomar la historia completa como su estado y este el altar la representación válida fuera del estado. Pero esto puede ser demasiado de registros de datos que la historia sigue en marcha, y la calle contiene demasiados datos redundantes. Por lo que en el medio, el agente puede construir alguna representación incremental fuera de sus estados. Entonces esto, Sí, a veces llamábamos trincheras estatales y funcionaban a los policías estatales interés en la función y, ah , entonces, uh, toma a una esquina. Ya pasó el estado y la actual operación. Por lo que esto es similar a lo que llamamos Oregon o reclutar red neuronal en el artista La validación puede construir alguna vista probabilística fuera del estado ambiental. Entonces, agente, hacer una vista estricta que bit probabilidad incluso el medio ambiente Estado de agencia uno con probabilidad, P dos estado de región ambiente a y con una regla. Tippi en el medio ambiente está en el estado está en. Por lo que se trata de un acercamiento ocupado o probabilístico en campo de golf. Esto algunos fuera de todas estas probabilidades tiene que ser una. Entonces este es otro enfoque común para ah, edificio y Age Institute. Otro ejemplo de por tontería de la regla de la marca o de las cruces de visión será que algún bien, juego, digamos o temple run. Entonces eres el no está corriendo y solo objetos fueron dos muy pronto a ella en una pequeña distancia. Entonces, por ejemplo, puede conseguir algo de fuego, y en ese caso, se prueba para saltar por ahí, y luego se hace, uh, agua. Y en el agua se Memphis otros obstáculos, como el rock. Entonces en este caso, tiene el dedo del pie Slade alrededor de esa cuchara, o puede conseguir algo de comida más larga, y en ese caso, tiene que pizarra debajo de esa haría. Por lo que el agente no tiene una imagen completa del medio ambiente. Simplemente objetas parcialmente en caliente el pequeño regional, el medio ambiente. Y en base a esa O r genial, es una calle. 6. Componentes de la agente RL: en esto, ¿en serio? Miramos por dentro en nuestra religión que te miraste, Atwater la confianza a menudo, Agente. Por lo que estos son los tres componentes de un agente, y todos estos pueden o no estar presentes en nuestra religión. Entonces el primer componente es una función de segundo valor de política, y 30 es inmortal. Por lo que el desafío de la política, el comportamiento de los agentes. Todo agente tiene alguna política que determinará qué agentes de acento tomarán en un estado dado . Entonces recuerden, el ghoul fuera de cualquier religión es maximizar los retornos futuros esperados. Por lo que las políticas serían tal ahí. Los agentes xom se mueven en su dirección. Por lo que es un mapa del estado a Aksam. Por lo que la política debe decidir si el agente es en cambio un acento lo que debe leer. Y esta política puede ser determinista o estocástica. Entonces la política determinista significa que dirá exactamente qué acento? Ah, la táctica del agente. Leemos la política ah estocástica solo dará alguna distribución de probabilidad. ¿ Al igual que qué? Probabilidad de lo que Exxon los agentes recogieron próxima empresa. ¿ Valoraste la función? Por lo que básicamente es un importante off. Qué bueno o malo es algún estado porque se cuenta en la predicción de la recompensa futura. Por lo que definimos una función de valor bajo la política dada y algún estado, ya que algunos de descuento esperaban retornos totales en el futuro y ve algún factor de descuento aquí dedo del pie o le dan a Laura. Está demasiado por delante en el futuro y dar más votantes a recompensas inmediatas. En esta calificación. Las fábricas listan en una, por lo que esto se utiliza para valorar la bondad o la maldad del estado. Entonces si el estado muy funcional lleno es más que realmente, la función del estado también lo es. Entonces veremos su sí, uno lo use registrado, y el agente intentará mover dedo del pie ese estado por el que se mueve la función del valle. Así es que esto ayuda en la selección entre Jackson acción negativa. Se toma para indicar uno un acento que envió un mensaje a estado dos y recibió en el estado Valley Funcional. Uno es más así. Preferiremos acento. Incluso ahora, el tercero y último confiado es inmortal. Algunos modernos es sólo una visión del medio ambiente que estos en facturas por lo que modelo predice lo que hará el medio ambiente a continuación. Por lo que no es exactamente lo que con el medio ambiente eran sólo mortales. Ah, agentes de tu entorno. Por lo que para las dos últimas conferencias tratando de enviar más mgr. Es por la mañana tratando de soportar vidas mortales en predecir el siguiente estado, mientras que la recompensa salud mortal en predecir el siguiente en trabajar, dado algún estado y si el agente toma un máximo Así que este es el uso de tendencia y moderno. Por lo que dice cuál es la probabilidad off pasar de estado a un esguince, Dado algunos xom it. ¿ Dónde está esta recompensa? Mortal poco. Cual será la recompensa inmediata es que el agente está en algún estado y se necesita una máxima a No , no. Echemos un vistazo a algunos ejemplos de estas tres Conferencias para tener una comprensión más clara de esto. Entonces este es el entorno en realidad. Entonces este es un punto de partida, y el objetivo de agente es llegar aquí y está en tick alguna parte y viene por este camino y llega a la meta. Por lo que el agente construye alguna visión del medio ambiente. En breve, agente vivirá madre. Vino de aquí y luego llegó a su meta. Entonces esta es la vista de la, uh en un momento. En cuanto al agente, no tiene idea de dónde está lo que hay en esta parte del medio ambiente. Por lo que este no es el entorno completo. Lo que los agentes de tu entorno. Por lo que ahora nuestra política. Por lo que este es un mapa de políticas fuera del agente. Entonces el mapa de políticas dice que si la dentición disa estado true off, si en insistió debería subir si está en desisted, es una especie de bien y de igual manera los alimentos aquí. Después ve a la derecha, Por otro lado, inflación Mareado, irritable, a la derecha. En última instancia, estas políticas conducen hacia nada bueno. Entonces esta política como estudiamos bien, realmente determinado Agente Saxon. No, veamos la función de valor. Entonces este es el mismo ejemplo codicioso que vimos aquí. Por lo que la función de valor es la recompensa de la comunidad alguna fuera esperada en el futuro de un estado dado . Entonces aquí estos son los estados inmediatos muy cercanos para ir pronto. Entonces si el agente está en desisted, la misma función es el árbol menos. Apenas este valor porque a continuación irá hacia la meta. Si no hay aquí. El retorno esperado es menos dos. Si no lo hay, está aquí entre menos t menos. Flavier en menos seis Aquí, igual manera aquí, menos Lee. Entonces esto te mata, luego vamos a cualquier estado. Recibimos la crujiente recompensa matutina. Entonces si el agente está aquí, tendrá menos siete. Porque, agente lo hará, escuché esto Valorado y desgaste. ¿ Ir a dónde? Por lo que estos leen 97 de manera similar menos ocho aquí, así es el valor. Se define una función de los diferentes estados. Por lo que estas posiciones de cuadrícula son los diferentes estados. Entonces este es un buey, Delerue, señora Jo Uno, Este es uno que usted conoce. Por lo que el valor del propio Senado bastante buena tradición. Ten en cuenta lo que se llevarán los agentes de acento. Por lo que las agencias son esto está empezando a razonar. Entonces puede ir aquí o aquí, pero verá que la función de valor fuera de un Joe, esto es menos seis es más que la función de valor de Joe uno, que es menos aquí. Entonces sabes que el estado un judío es mejor que impulsado por el estado, por lo que no van a ir aquí. Ahora, aquí tiene que asombrar esto y esto otra vez. Verá que esto es mejor estado. Entonces irá aquí y aquí y aquí y en última instancia conduce a la meta. Por lo que esta función de valor es muy importante. Y dice en evaluar la bondad o marinus off otra vez. Místico 7. Categorización de agentes RL: En este video, veremos las diversas categorías a sí mismo en agente moral. Por lo que se encuentra una categoría, cualquiera basada en los presentes, una ausencia fuera de valor y la política en la segunda categoría se basa en la presencia o ausencia fuera mortal. Para que en cuanto al primer ganado mayor pecado, y nuestra religión puede ser ya sea basada en valores, plenamente servidos o crítica de actores. Por lo que un agente basado en valor utiliza la función de valor y aquí las políticas no registran las políticas en su lugar . Supongo que se te da un ambiente. Por lo que este bien representa un ambiente y las diversas células representan, y agente mundial estatal puede ser así en estos aires, las funciones de valor de cada estado notaron, ¿Cuál es el futuro retorno esperado de ese estado? Entonces es el agente está dentro. Esto es estado de inicio y se verá que esta celda es tuya en. Este es un euro en esto está empezando un 00 Así que realmente funciona apagado. Geruman, que es menos aquí, está escuchando muy función apagado cuando usted que es menos seis. Entonces significa que este estado es mejor que el tuyo. Entonces cuando estás mejor para que el paciente pueda ir. Pero cuando tú y otra vez pruebas dos vías hacia menos siete menos cara. Por lo que volverá a ir aquí. Entonces con esto funcionarás? El no es puede tomar sus decisiones y políticas no requeridas. Por lo que este tipo de agentes se llaman agentes de valor grist. Segundo tipo es policy vist. Entonces aquí rabia en tiendas la política y no bien, realmente funcionan. Entonces si se define esta política, entonces si el agente está en este estado inicial, irá aquí. Y si está en este Stuart, la póliza dice que Ve oh, arriba y escucha tu mesa Enseguida. Justo el día agente llega hasta aquí. Por lo que aquí los acentos se deciden por la política y no se desarrollan cuarteto. Por lo que a este tipo de agentes se le llama policy vist y al tercero es crítico actor. Sí, la diferencia en la historia como charlas políticas relacionadas Tomamos ese para ir Ambos de este tipo de religiones. No. cuanto a la segunda categoría, razón aunque nuestra religión me puede ya sea modelo tres o modelo basado en el modelo tres, nuestra política de religión puede estar ahí o función de valor puede estar ahí o ambos pueden estar ahí. Pero no hay más por lo que el agente intenta construir política o función de valor dependiendo de la experiencia con el fin de maximizar el futuro. Trabajamos para que no trate de construir un modelo del medio ambiente. O no trata de entender la dinámica del medio ambiente, mantener el medio ambiente funciona, mientras que en el caso de la política de estaciones mortales y o realmente funcionar puede video y mortalmente también presentar. Entonces la primera tarea fuera de estación es tratar de aprender cómo funciona el medio ambiente para que no se trata de construir un modelo del entorno y luego averiguar la política óptima o función de valor . 8. Aprende y planificación: aprendizaje y planificación son conceptos demasiado importantes en el aprendizaje de refuerzo. Por lo que con la toma de decisiones secretas aún existen dos tipos fundamentales de problemas. Un tipo de problema es el aprendizaje de refuerzo y el segundo tipo de problema es la planeación. Entonces veamos. ¿ Cuál es la diferencia entre estos dos en problema de aprendizaje de refuerzo? El modelo de medio ambiente es desconocido para nuestra religión. Por lo que son diligentes, no tiene idea de cómo funciona el medio ambiente nuestra religión en vías con el medio ambiente e intenta entender cómo funciona el entorno. Por lo que es amable un juicio y error y en base a su edad e intenta mejorar sus políticas . Quién que sus recompensas futuras han maximizado en la planificación modelo problemático de medio ambiente es conocido por agente, por lo que no se requiere interacción para explorar el medio ambiente. Agent plantas mediante la realización de concursos basados en el conocimiento del entorno perdido en el conocimiento de modelo del entorno. Por lo que es pensar y planear por delante en comparación con el ensayo y el error en caso de refuerzo , problema de aprendizaje y basado en ese agente intenta mejorar su política para obtener más recompensa en el futuro. Entonces tomemos un ejemplo de este ejemplo. Off planning podría ser que te digan las habitaciones fuera del juego como si lo estuvieras jugando solo juego, y sabes que los pasos de trabajo son válidos y lo que no son válidos. Por lo que te dijeron antes. Y así tu tarea es planear eso. ¿ Y si me mudo aquí o qué si se mueven después de dos pasos, qué nos quedamos? Y así es amable pensando que escuché o planeando por delante. Pero por otro lado, y agente puede no ser dicho. Sostén las funciones del juego de ajedrez y solo intentará explorar el entorno por lo que intentará ir aquí, y obtendrá la retroalimentación de que es un movimiento inválido y probará varios otros movimientos , y obtendrá el naufragio devuelven aquello que mueve son válidos o inválidos. Por lo que después de algún tiempo, se va a descifrar las reglas fuera del medio ambiente sostener un modelo del ambiente es y luego intentará maximizar retornos. Por lo que estos son los dos problemas fundamentales en el aprendizaje de refuerzo 9. Exploración y explotación: exploración y explotación son dos problemas fundamentales en el refuerzo. exploración de carga significa saber más hacia el medio ambiente en este mundo principal, renunciando a alguna recompensa inmediata por el envejecimiento máximo de las recompensas futuras. Para entender esto, veamos nuestra religión, Dejan algún estatus y con su experiencia pasada, prueban el rescate. Excelente, incluso en este estado. En cuanto a la universidad, sippy y lo más a algún estado diferente. Digamos que este marco que un pasante da alguna recompensa son uno, y esta recompensa es positiva. Por lo que una forma sería continuar durante el sajón en aviso desistido. Mantén la política 60 y sigue recibiendo esta recompensa o una. Pero puede haber algún otro acento disponible de este estado. A lo mejor te preocupaste tres o muchas acciones más, que son más rentables que una. Entonces digamos que dos anguilas son hazlo. Los carretes son tres, y es posible que haya lista en son unos donde es aún peor que la política actual . Pero puede ser posible que nuestros árboles más que el nuestro. Entonces es agente descubre nerd, burla, acento auricular al que podemos tomar de esta finca. Entonces obtendremos un mejor retorno por lo que esto significaría exploración que está explorando más premio hacia adentro pero por otro lado, explorado es no sería demasiado seguir la provechosa en formación que está involucrada en estatus, y se ha formado alguna excelente incluso que puede tomar, lo que le dará alguna recompensa. Por lo que seguirá haciendo esto con nuestra exploración para la cama Robson. Por lo que esto será conocido y explotado. Entonces hay cosquillas de exploración equilibrio decente, porque cuando estás explotando, estás perdiendo en la recompensa conocida, que sabías que Jackson estaba dando algunos puntos para recompensar. Entonces, ¿por qué Lex Lorrison? Podrás perder o hacer recompensas, pero por otro lado, también puedes ganar alguna mejor opción que te darás o más retorno en un futuro más largo . Por lo que se requiere un equilibrio entre razón extra y explotación. Entonces veamos algunos de los ejemplos prácticos fuera de la exploración y explotación. Entonces un ejemplo es en la publicidad donde la extradición significaría coser algún aire rentable sospechadamente, mientras que la exploración significaría demandar algunos aires nuevos que podrían ser más rentables en el futuro. De igual manera, si tienes algún restaurante favorito en tu localidad y tu lo imaginaste o tal vez picar varios restaurantes. Entonces la explicación significaría que siempre sigues yendo del pie tu restaurante favorito, donde exploración significaría probar algún restaurante nuevo en tu barrio, y podría verse obligado a alertar a la comida. Ahí hay mejor que tu restaurante favorito, pero ustedes machos están terminando comiendo algo de mala comida en el proceso. Por lo que también aquí se requiere el equilibrio con próxima escucha y explotación. 10. Selección de acción para Exploración vs. la explotación: En este video verás algunos acentos, Alex en algoritmos, lo que nos ayudará a decidir cuándo excluir e ir a explotar. Ya hemos visto que no podemos hacer exploradores y y expletives y simultáneamente, y llamamos a esta exploración explotar. ¿ No está Trude apagado? Por lo que veremos de fuera los algoritmos de selección populares o de extensión que querían uno muy básico , que se llama Epsilon Codicioso X y selecciona. Um, y es una especie fuera de un aleatorio de X y selecciona un algoritmo. Y luego veremos otro algoritmo llamado optimista cualquier valor de celda. Por lo que primero Cedar Playland, Codicioso X y selección. Aquí elegimos explorarlo la mayor parte del tiempo con una pequeña oportunidad de explorar bebés. No hagas algo de aleatoriedad. Y aquí epsilon se vieron obligados al probablemente ser que elegimos explorar. Por lo que tiene que ser entre tu valor que Te ofrece en uno, por ejemplo. Podemos elegir alguna base de acento, no rodar por días, así que considera una situación. Entonces estas son todas las seis posibilidades y rodamos sus dados para que podamos conseguir un número del 1 al 6 para que podamos sentarnos ahí si viene uno o dos o 34 o dormir entonces exploraremos. Es decir, vamos a recoger y conocido algoritmo codicioso conocido paso codicioso en el día siguiente Mr So Ingreso mejor sentido. Tenemos paradigma ah di algoritmo el cual dice que tomas tu Wrexham basado en el mundo inmediato y se utiliza en especie de spot hallando mínimo spanning tree finding Así que tienes un par de opciones de acentos y luego eliges el que te da recompensa inmediata. Por lo que aquí vamos a tomar un xom tan codicioso Las abejas no se vuelcan bien. Entonces si viene del 1 al 5, no explotó aviso Toma un xom codicioso. Pero si venimos seis, entonces exploraremos algún nuevo excelente para el cual no sabemos cuál es la recompensa. Por lo que esto puede ser una manera de salir o resolver el problema de exploración y explotación. Y estamos viendo que silencio fue la religión que exploramos. Entonces en este caso, exploramos un orden de seis veces para que podamos decir que son absurdos y en este caso es 1/6. Entonces formalicemos este algoritmo. Por lo que aquí ya sea al principio en la medida seleccionada nuestros nombres para ser, entonces esto puede re tampoco. GDX. Um por lo que esto se refiere a un xom codicioso, y esto vamos a tomar con una probabilidad de uno menos un cepillamiento. Y esto es que se volvió una máxima. Y esto tomaremos la probabilidad de Upsell. Y puede haber o diferente radio apagado, uh, uh, usando el mismo algoritmo. No, Veamos el 2do 1 que llamamos místico Cualquier valor celular y nos conformamos lo alegamos de esta manera . Entonces aquí Q Se refiere a algunos invitados iniciales o invitados fuera de valor. Por lo que físicamente soy igual a hacer No sabemos de su acento realmente más recompensa. Por lo que optimistamente asignamos algo del botín a esos acentos. Por lo que somos muy optimistas, Andrea ST Algunos fue devalúa dedo del pie uno al otro hacen va acentos. Y en el próximo paso de tiempo no, operarán esos valores en base a qué recompensa nos dieron en realidad tan temprano leído o los invitados. Entonces cuando realmente tomemos su acento, llegaremos a saber cuánto eres más grande Así actualizaremos esos valores para escuchar que en lugar incluso o negar estado viejo o fuera de su excelente y cubano en el valor estimado anterior o el anterior finca y voy a pelear. Alguna fábrica puede ser entre aquí y una. Entonces supongamos que es Europa en cinco por nuestro ejemplo. Y esta es la recompensa regard am Paso T o en su tiempo, paso y menos el valor anterior. Entonces veamos un ejemplo, y realmente quedaría claro. Veamos a través de tres posibilidades aquí tres acciones que podemos escoger. Por lo que A, B y C dejaron caer las posibles acciones, por lo que inicialmente ser normal, lo cual es mejor. Por lo que me llaman a Geo allá. Disculpe. Estamos muy optimistas aquí porque es optimista en el algoritmo de valores de plata, Andrea, cuerdo y bueno, obligado a valorar a cada uno de estos acentos. Por lo que no hay ganas iguales y vamos a escoger aleatoriamente uno en estos. Vamos a establecer el pick A y conseguimos unos valores en realidad o así estábamos muy optimistas, así que le asignamos un valor. Pero llegamos a y tomamos un así que soy demasiado cool para uno el grande Así que el gran día. Entonces no vamos a grande BNC, pero también vamos a Nueva York. Por lo que vamos a actualizar a uno para que cubano seas tú en este medio veces la diferencia. O puedes hacer asistiendo a tu manera. Bueno, es un gran original de Dave. Libre de impuestos, justo valor en el valor actual. O vamos a apegarnos a esta tierra de labranza. Vamos a utilizar su para igual a cero punto llama para que usted y el lugar para Valerie aquí en Plus, ¿Sabes sabor puntual o en menos y unicornio sabor que en. Entonces esto se convertirá y, ya sabes, puntual sabor. Cubano Porque cubano menos 0.5 q y su europeo cinco Q y Plus Negroponte lado Ardant o Cuban Plus o en Newbury Way. ¿ A quién va a hacer esto? Q. Un más uno. Entonces en este caso Q. ¿Estamos estimando cubano? Por lo que haremos Q cero más retorno dividido derecho a así Phi más dos dividido por dos. Eso es siete por dos o 3.5. Entonces llegué a igual a uno. Tenemos estos valores. Por lo que la señora Fleet la extrañó inmensamente porque no hicimos grandes estos. No, estamos estimando el Cubo de Valor. Entonces vamos a tratar de escoger el acento único, que dice que su más rentable Así en este caso, claramente un 3.5, que es menor que el BNC. Entonces escogeremos uno de estos. Digamos que escojamos sería y es festival juvenil uno así que en la próxima vez todavía visible lo queda . Esto seguirá siendo él. Y esto se convertirá en cinco más uno durante aviso de derecho. Seis esperan dos o tres. Entonces no, este es el valor del tiempo igual para hacerlo esto es igual a uno. Toma un poco que estaban estimando lindo Estar aquí no hay tiempo. Tres Veremos que estos dos Earless y C es lo más Parece ser lo más gratificante, pues vamos a escoger esto y vamos a salvar los valores de Gordon Ah, tres Tan ruidoso actualizado fueron ocio y estos permanecerán sin cambios tres y esto se convierte 45 más calle o el derecho a la alimentación En el próximo paso de tiempo va a recoger contra cuatro y vamos a ver qué recompensa más grande Para que cada paso de tiempo intentamos dedo del pie recoger el mayor valor y luego basado en la recompensa real que me sacamos de valores de noticias muertos Así este es el off la mística cualquier religión celular sobre ellos. Por lo que hay algunas limitaciones a este optimista algoritmo de valores iniciales Cuándo es eso , Dr. Exploración sobre Li. En la fase temprana, después de algún tiempo, el puede pegarse a uno de los acentos, lo que puede parecer, ¿Nosotros óptimos en ese dolor? Pero no es muy adecuado para problemas estacionarios conocidos. Con esto, quiero decir eso. O puede haber casos en los que las direcciones fueron malas antes en este místico. Cualquier algoritmo de valle celular, como correctamente descubierto allí se basan en la exploración inicial. Pero puede haber posibilidad de que algunos acentos que no eran buenos antes no se hayan convertido en mis gotas. Um, entonces nos estamos reuniendo. Entonces esta semana todo no ist es mary problema Porque esos acentos no son justicia María. También cambiaron en base a con el tiempo. Por lo que ese acento, que no era tan decir antes no es una mejor opción. Pero este Exxon hará este algoritmo en ni descubrió que porque intentará al Lexan óptimo a cada vez dos Así y hay uno otro problema que cualquier venta de gas. Por lo que optimistamente le estábamos dando algo de valor a cada uno de Jackson y estos tal vez no son un buen invitado. Estos pueden ser unos invitados muy malos. Por lo que esta es otra limitación fueron a pesar de estas limitaciones este algoritmo ha impedido ser un acento efectivo. Selecciona, um importó porque eres tal vez este tipo de escenarios, es no son muy comunes. Por lo que es un algoritmo muy simple y efectivo. Por lo que espero que te hayan quitado algunos en Houston para seleccionar tus acciones. Y el nombre yo fuera de esta conferencia fue para darte algo interesante sobre eso al ir lleno. Dibujas algo usando de esto y tal vez nuestro dispositivo tu propio algoritmo de selección de acentos , que funciona incluso mejor que estos. 11. Predicción y control: predicción. El control es otro problema fundamental y el refuerzo aprender la predicción significa competencia o estimación fuera de consecuencias, a menudo accidente. Aquí se da la política sobre la meta es de dos millones de hoyos voluntad que realiza la política. Esta función de política es fija. Entonces si el estatus indigente, entonces usando esa función de política obtendrá exactamente lo que el accidente tiene que tomar dado este patrimonio. Y el objetivo sería averiguar o computar el retorno esperado de esta finca utilizando la política dada. Por lo que su objetivo es predecir el futuro, mientras que en el control, la política no es fija. Agente está en algún estado, y no sabe qué acento tomar. Por lo que el objetivo es encontrar la política óptima, la política que maximice. Espero que se entregue. Entonces escucha esta canción. No se conoce a hijo, y tenemos que encontrar a esta Siria. Todo se trata de optimizar el futuro. Ahí está, en el caso de la predicción, se trata de predecir el futuro porque las políticas se arreglaron. Entonces tomemos un ejemplo. Entonces si este es nuestro ejemplo ah mais, si estamos en re o el agente está en, esto está empezando todavía, entonces es la política dice que vaya a la derecha, Entonces sube entonces justo entonces arriba y luego llegó a la meta. Por lo que si se da esta política en este caso, el retorno sería menos uno menos dos, menos dos menos tres. Eso es 78 Así menos ocho. Lo que, por otro lado, es Legent es en esta finca empezando estofado y las pólizas ni fijas. Entonces necesita encontrar a Nueva York recibió la mejor póliza. Entonces se dará cuenta de que puede tomar esta parte y la guinea retornar menos uno dos, menos uno menos dos. Entonces menos seis. Por lo que parece que esto es mejor que esto. Por lo que descubrirá que se trata de una política óptima. Tú frutas y estación. Esto que probaste creció. Esperar y luego calificar. Por lo que se descifrará la política óptima. Por lo que esta es la principal diferencia entre la predicción y el control. 12. Qué sigue: Enhorabuena por completar tu primer curso sobre la introducción al aprendizaje de refuerzo . Has dado el primer paso hacia el refuerzo de agrupamiento, aprendiendo ahora a tu familia con el giro básico que Rogie comienza usado en el aprendizaje de refuerzo y estás listo para seguir adelante. Por lo que puedes saber Toma el segundo curso o el aprendizaje de la aplicación ahí. Nos sumergiremos profundamente en los procesos de decisión de Marco. Por lo que gracias por hacer de dedo el final del curso sobre Esperanza verte en el siguiente curso.

Aprendizaje de refuerzo #1: Introducción al aprendizaje de refuerzo | Inteligencia artificial

Abhishek Kumar, Computer Scientist at Adobe

Ve esta clase y miles más

Ve esta clase y miles más

Lecciones en esta clase

1.

Introducción

1:45

2.

DESCRIPCIÓN GENERAL

7:11

3.

Agente y entorno

4:07

4.

Historia y estado

6:39

5.

Proceso de decisión de Markov

5:05

6.

Componentes del agente RL

7:40

7.

Categorizar agentes de RL

3:21

8.

Aprendizaje y planificación

2:32

9.

Exploración y explotación

3:22

10.

Selección de acciones para la exploración vs la explotación

10:16

11.

Predicción y control