Aprendizagem de reforço #1 : introdução à aprendizagem de reforço | Inteligência artificial | Abhishek Kumar | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Aprendizagem de reforço #1 : introdução à aprendizagem de reforço | Inteligência artificial

teacher avatar Abhishek Kumar, Computer Scientist at Adobe

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Apresentação

      1:45

    • 2.

      VISÃO GERAL

      7:11

    • 3.

      Agente e ambiente

      4:07

    • 4.

      História e Estado

      6:39

    • 5.

      Processo de decisão de Markov

      5:05

    • 6.

      Componentes do agente de RL

      7:40

    • 7.

      Categorizando agentes de RL

      3:21

    • 8.

      Aprendizagem e planejamento

      2:32

    • 9.

      Exploração e exploração

      3:22

    • 10.

      Seleção de ação para exploração e exploração

      10:16

    • 11.

      Previsão e controle

      2:32

    • 12.

      O que vem a seguir?

      0:32

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

133

Estudantes

1

Projeto

Sobre este curso

Este curso apresenta os fundamentos do Reforço de Aprendizagem. Portanto, nenhum conhecimento prévio é esperado para realizar este curso. Depois de concluir este curso, os alunos vão familiarizar com as terminologias básicas de Reforço de Aprendizagem e estarão prontos para mergulhar em cursos de nível intermediário e avançado no Reforço de Aprendizagem.

O conteúdo do curso são:

  • VISÃO GERAL
  • Agente e ambiente
  • História e Estado
  • Processo de decisão de Markov (MDP)
  • Componentes do agente de RL
  • Categorizando agentes de RL
  • Aprendizagem e planejamento
  • Exploração e exploração
  • Previsão e controle

Conheça seu professor

Teacher Profile Image

Abhishek Kumar

Computer Scientist at Adobe

Professor

Computer Scientist @Adobe

Visualizar o perfil completo

Habilidades relacionadas

IA e inovação Fundamentos da IA
Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Introdução: Bem-vindos ao primeiro curso em aprendizagem de aplicação. Esta aula é dividida em 10 lições, que é mais ou menos uma vez de conteúdo de vídeo. E nós não esperamos qualquer conhecimento fora do aprendizado de reforço para iniciar este curso em particular real completo. É que você tem alguma compreensão básica de como Nuland o que funciona. E isso é para começar 10 cursos sobre aprendizagem de reforço. Ele tem algum material de fluxo de intelecto, então você vai ganhar algum conhecimento introdutório dos conceitos de aprendizagem de reforço. Então você estaria se perguntando quem é o instrutor? Então meu nome é obviamente Kumar e eu trabalho como cientista da computação na Adobe. Eu tenho sete anos de experiência em programação e pobre e mais anos de experiência em aprendizado de máquina. Então, o que você vai saber? Depois de concluir este curso, você obterá alguma compreensão básica sobre a aprendizagem de reforço, para que você possa entender o terminal chave que Aziz usou na aprendizagem de reforço. E depois de completar o discurso, você estará pronto para conduzir em cursos avançados sob aprendizagem de aplicação. Então vamos analisar brevemente o conteúdo do curso. Então tem sobre você onde eu vou dar alguma visão geral da máquina, aprendendo como um todo e reforçando a aprendizagem em particular. Em seguida, vamos olhar para um agente, um ambiente que é o competente. Assim, para a aplicação da aprendizagem do que a história e o estado de Marco ocupado e processa componentes fora de reforço, agente de aprendizagem, categorizando a nossa religião, aprendizagem e planejamento, exploração e exploração e previsão e controlo. Portanto, bem-vindos aos resultados e espero vê-lo na próxima escuta. 2. Visão geral: Bem-vindos às pontuações de reforço. Reforço de aprendizagem A aprendizagem é um ramo do aprendizado de máquina. Então vamos primeiro ver e sobre os órfãos em aprender sobre muito reforço. Aprender por seu interesse de ver a aprendizagem é categorizado em três categorias principais. Aprendizagem supervisionada sobre aprendizagem supervisionada e reforço. Aprendendo. Hoje em dia termo de aprendizagem semi supervisionado também é popular, mas por uma questão de simplicidade vai ficar com estes três ramos homens na aprendizagem supervisionada . Como o nome sugere, há alguma super razão ou orientação presente. Toby fornecer um nível set off mais tarde. Também o Chris Manhã ou colocar no trabalho da rede é aprender usando esses dados de treinamento bem nível e as classes principais ou aprendizagem supervisionada ou classificação e regressão . Assim, a classificação como o nome sugere e lida com a categorização do retorno ao mais próximo lemos em regressão. Nós obtemos algum valor real ou pop, então um exemplo de classificações seria que foram dados alguns exemplos de imagem fora do curso em alguma imagem fora de Mike ou basicamente, e alguns outros veículos talvez foram, e nós temos nivelado objetos de barco em nossas imagens, por isso fornecemos a posição onde estes estão localizados em limites. Por isso, é que fornecemos desliga toneladas de detalhes como talvez 100 kr 10 presentes tal nível mais tarde para a nossa rede, neste caso, para o processamento de imagem. CNN então, em última análise, duplica. A rede vai descobrir qual é a diferença entre a representação de um carro para uma bicicleta ou membros em? Em última análise, quando alimentamos numerador a estranha rede neural, ele será capaz de prever corretamente se a imagem pertence à classe off card Mike Oremus Então pode chamar coragem. Feche um e, por caso, classe dois e árvore de classe. Então ele vai dar algumas aulas discretas aqui, também, lemos. No caso de regressão, você pode dar alguns dados contínuos como alguns preços de mangueira são dadas e temos dado alguns fatores de entrada como número de quartos, ID eo aqueles localidade em DSO até B um fornecido um monte de certos mais tarde. Além disso, o preço da manhã nítido sabe, então este será algum número real, então treinar nossa nova rede. Mas esses tipos de dados acabarão por ser capazes de prever o preço de uma nova mangueira. Então, quando nós alimentamos ah set off quartos Oh, como a Síria ea localidade desses, a rede será capaz de prever o que deve ser o preço do nariz. Então, esta será aposta de um rigoroso e estamos ele vai prever algum valor real ou ou em aprendizagem não supervisionada, não há supervisores ou orientação Quem aqui? A rede apenas tenta agrupar em um dado dado com base na semelhança ou tenta entender que seria instrutor na ninhada e tenta encontrar Originate são semelhantes e nós fizemos isso são diferentes e foi, em última análise, o grupo de comércio dados semelhantes juntos. Assim, as classes principais fora de uma aprendizagem supervisionada ou agrupamento a menos que uma temporada mais jingle principalmente grupo ou diferentes pontos de dados há apenas uma temporada foram ou tentar encontrar alguma relação entre diferentes perímetros, como no anterior perto, supervisionado exemplo de aprendizagem que vendemos. Tínhamos três parâmetros. Excelente ao lado extremamente E estávamos prevendo maneira e ouvimos uma vitória recorde e ou segundo disco ouvido recorde excedente stringer comércio para agrupar Estes diferentes pontos de dados para entrar. Como se esses dois discos fossem semelhantes. Há uma temporada foram tentados para encontrar algumas falhas temporada lá. Esta, uh, árvore ex está altamente ligada à ex excelência sempre que X um está lá. É altamente provável que extremamente também lá, Então estes estão relacionados. Então esta é a diferença de agrupamento e associação do sistema. E estes caem sob o artigo seus fundos sobre muito aprendizado. Finalmente, aprendizagem de reforço, que é o tema principal desta unidade curricular na aprendizagem de reforço. Não há assim provedores, mas tem sinais de recompensa, e os principais componentes do aprendizado de reforço não são um ambiente, então o agente toma um máximo baseado em alguma política. Então aqui, por não é eu quero dizer algum algoritmo e tem alguma política. Por favor, não o digital tem um máximo. Um ambiente irá emitir certas razões óbvias, dependendo da ação tomada pelo agente e também alguns recompensa 3 30 pontos sobre o acento agentes , por exemplo. Aqui não há nenhum conjunto pré-definido de maior e suporte. Nós temos o trabalho deles, e ele está tentando aprender a andar, então a recompensa se move nessa direção. Você torna diferentes tipos de razões óbvias, como alguns objetos. Talvez eles estejam em seu caminho, e quando ele cair, ele receberá trabalho negativo do meio ambiente, e tentará se corrigir onde, se o mundo tivesse se movido nessa direção, e você deve ter todo o seu tipo diferente de experiência, e poderia ter ou ter algumas observações diferentes. Então aqui o retorno com o agente está sendo treinado depende do sotaque do agente, enquanto que no caso de aprendizagem supervisionada, teríamos fornecido algum conjunto de dissuasão fixo no qual vamos treinar através de nossas redes neurais . Então é diferente da aprendizagem supervisionada. Alguns exemplos de aprendizagem de reforço podem ser aprender a jogar xadrez onde a inovação sai saido passo e fará com que alguém tenha feito a sua recompensa negativa. E se ele recebe palavra negativa, ele tentará se corrigir. E finalmente, com muita experiência, vai. Bacia vai aprender promessas de ordem. Igualmente desligado. helicóptero voador pode ser um exemplo de reforço aprendendo a crista no helicóptero de crista . Podemos dar alguma recompensa negativa antes de cair. Alguma árvore trágica, como queremos que daríamos alguns era para recompensar e líder semelhante. O que andar também vem sob reforço, aprendizagem 3. Agente e ambiente: não é e ambiente são os dois principais componentes do aprendizado de reforço. Então vamos ver como agente e ambiente indireto em cada passo t não é executar cínicos em um e por sua vez recebe uma recompensa. Chris Manhã. Dois anteriores excelente, e alguns de sua razão e que ambiente é que recebe imposto e uma imitação de terrorismo ou P mais um no artigo. O Isman. Então, qualquer sotaque asiático tomou no passo anterior o ambiente sente uma recompensa pela sujeira no próximo passo de tempo. E também, porém, Chris manhã fora da razão, e nós incrementa a etapa e o ambiente. Então você ordenou este sinal de feedback Keller nele indica que o agente Hole Will está cumprindo uma pena, então será útil na comparação entre fronteiras com o Harbin ou estão em serviço. Será capaz de diferentes prêmios em alguma habilidade para que possamos comparar recompensas que ajudarão . O não está na otimização de sua política, então a política visualmente ano mais recompensa cumulativa será uma política melhor. Assim, o principal objetivo do agente é maximizar a recompensa acumulada ao longo do tempo, por isso não é necessário que as recompensas imediatas remax ele. Então é por isso que é diferente da raiva entregue. Então o objetivo é maximizar as horas extras da recompensa acumulada do disco. Chamamos isso de recompensa da comunidade como eles retornam reforços. Aprendizagem é baseada em uma recompensa repetitiva e meu esforço de recompensa. Isto é, queremos dizer, que qualquer objetivo pode ser formalizado como nosso comércio maximizando a recompensa acumulativa. Vamos ver alguns exemplos de recompensa. Então, no caso de apenas, podemos definir uma recompensa Port City por ganhar o jogo e negativamente foram por perder o jogo. Então você vê que sua cauda para movimentos individuais não estavam dando nenhuma recompensa. A recompensa da Andi está atrasada e faremos a recompensa no final do jogo. Portanto, não é necessário que depois de cada X e haverá uma recompensa transformadora. Segundo exemplo poderia ser aprender o robô a andar, fazendo os escombros para aprender a andar onde vamos dar empurrou a recompensa para o movimento para a frente e negatividade. Palavra para inchaço e no caso de manobras de helicóptero que pudermos manter foi a recompensa por seguir a árvore trágica. Se o helicóptero seguir a trajetória do veado, ele receberá recompensa de qualidade. Há uma *** para gravar para amaldiçoar ou o helicóptero. Vimos que seus diferentes problemas podem ser formulados sob a aprendizagem de reforço. Então estes trolling são muito diferentes uns dos outros? Ou podemos encontrar algo policial comum para que usamos ou sequências de tomada de decisão para unificá-los sob algum objetivo comum. Assim, o objetivo comum para todos esses testes era selecionar sotaques que maximizariam o total recompensas futuras. Então podemos ter que planejar ao ar. Por exemplo, algumas das vezes a recompensa pode não ser óbvia imediatamente. Por exemplo, no caso, fora do jogo fora dos baús, receberemos a recompensa somente depois de ganhar ou perder o jogo. Portanto, podemos ter que planejar com antecedência para que os resultados possam ser entregues e podemos precisar sacrificar imediatamente palavras ou melhores recompensas a longo prazo. Então, algum exemplo pode ser que alguns movimentos no xadrez podem não ser óbvios, mas pode ser útil a longo prazo inventar o jogo. Da mesma forma, no investimento financeiro, nós desistimos de algum dinheiro no tempo atual, então nós meio que recebemos algumas recompensas negativas, esperando que nós vamos ficar maiores prontos para recompensar no futuro. Da mesma forma, você gasta em educação esperando que o retorno será muito mais do que a despesaatual despesa 4. História e estado: Neste vídeo, vamos estudar história do prêmio em vez disso, a sequência de GIs de rua fora dos sotaques recentes e George que o agente tinha visto até agora. Então lembre-se que falamos sobre não é e ambiente, e como eles interagem é em leva um máximo em beleza e, por sua vez, receber alguma recompensa e observações. Então a rua, só que o acúmulo de tais variáveis de nível de objeto até o Tempo T, então é muito importante. E o que acontece a seguir depende da rua. Então algoritmo residual agente irá selecionar seu sotaque com base na experiência passada ou o que quer que tenha visto até agora é parte da história. Por isso, terá acento dependendo desta árvore e também do meio ambiente. Selecione razões óbvias e recompensas com base no histórico. Que problema com a história que continua com os tempos. Então, depois de algum tempo, aumentará e continuará acumulando, e será muito difícil processar toda a história. Então temos algo chamado ST, que é apenas informação usada. O que vai acontecer a seguir? Então é apenas uma função da história. Um exemplo poderia ser que nós apenas tomar últimos três dos motivos como as moderações de curto prazo são mais importantes do que o júri, uma vez que ocorrem no passado remoto. Então este é apenas um exemplo. Pode ser alguma função complexa fora da história também, então temos algo chamado Estado do Meio Ambiente ou palavras para o ambiente. Estado é o estado geralmente ambiente para determinar como gerar próxima alteração e recompensa, por isso geralmente não é acessível para o agente. E mesmo que seja visual, pode não ser muito útil para o agente determinar seu próximo sotaque. Então, quando o exemplo pode ler ERT, há um. Ah, trabalho de quarto e maravilha está andando e atualmente a recompensa está aqui. Então ele tem alguma câmera testada. Portanto, ele tem uma visão muito estreita do ambiente para que ele possa ver apenas esta parte do ambiente. Não faz ideia das suas palavras nesta parte do ambiente e noutras partes do ambiente. Tem uma visão muito limitada do meio ambiente. Então nosso agente gadgets um estado, que é agentes, representação interna e esta informação um agente muito usado piquetes. Próximo Hexham. Então pode ser qualquer função da história para jumper. Poderia apenas levar três estados perdidos, então um exemplo poderia ser que na negociação algorítmica, os comerciantes olham para alguma média móvel bruta. Então esta é, digamos, uma média móvel de cinco dias abaixo da Enbridge de 20 dias de Ghani. Então aqui há um ponto de gatilho. É hora de vender. Então estes cinco, a logística movinary os últimos cinco dias preço em consideração. Então últimos cinco dias preço flutuante de uma ação e baseado nesse tablet, Staybridge e similar 20 dias em movimento, irritável levar em consideração os últimos 20 dias. Então não é oh, considerando toda a história dos preços das ações, mas apenas alguns preços passados, ah , porque eles estão mais vivendo na determinação das próximas corridas e nossa aplicação interior aprendizagem. Temos algo chamado Marco Jimson. Então, onde vamos dizer que o estado usado pelo agente é suficiente para estatísticas fora da história. Então, para prever o futuro, você só precisa do estado atual do ambiente. Então, indique Markov da DST. Se satisfez esta propriedade. Assim, o próximo estado, dado o estado atual e Dax nele mesmo que próximo listado, dado toda a história e excelente. Portanto, estes são três passos contribuir nada, para que seja removido estes. Então temos a mesma coisa. Então, se estamos em vez, Esty e nós leva um máximo de beleza Denver elite, o próximo a ST Steepness um. Mas também ouvimos outro passo histórico como este é Oliver Twist E Então este tipo fora, realmente, uma vez que estes não existem. Então, apenas o sotaque atual e cortado em estado, é suficiente para determinar o próximo a Então este é o recorde? Markova Jensen. E este é o status marcado. Marco State. Se seguir esta propriedade Markle, o futuro é independente do passado. Então estes são o passado dado o presente. E este é Steve Sprint. Então, um exemplo poderia ser novamente Oh, sim, eu poderia considerar o algoritmo de negociação através. Não. E então temos a média móvel. Então, Wilkens, o algoritmo considera os últimos 20 dias, então aqui um estado seria o preço entre 20 de junho . Esta é apenas a onda Steve menos um. Seus preços de 40 dias até 20 dias e tom de comida e o algoritmo de negociação de alta freqüência não considera esses estados. Ele só leva em conta os últimos 20 dias preços. Então este será um exemplo fora. Marco propriedade 5. Processo de decisão Markov: Neste vídeo, você vai estudar o conceito importante da Wharton em aprendizagem de reforço chamado Marco Decision Process ou, em suma, M v P. Para entender o MDP, M v P. Para entender o MDP,é preciso entender Quais são os diferentes tipos de ambiente. Então, um ambiente. Podemos ter dois tipos totalmente fora da regra ou pacote de suas regras? Então, onde isso significa Então, totalmente fora do ambiente rural, estes objetos indiretamente os estados ambientais, então não há nada escondido da região. Então o agente conhece as regras do jogo. Então, seja qual for o estado que o agente move. Então aqui, cão uma razão. Seu objetivo do estado agente e que é o mesmo que o ambiente Stewart. E quando esta é a condição, então dizemos que o agente está em processo de marcação ou precisão, os outros casos parcialmente fora do ambiente de regras onde não há parcialmente fora apenas fazendo governo. Então alguns um monte disso pode ser que um trader de alta frequência está preocupado ou apenas parte limitada fora do gráfico de preços. Então, não, se você considerar que não está preocupado com o que foi a história sobre o preço das ações ? Quem está preocupado? Prêmio Onley. Bem, é um número pequeno e em seu gráfico e seus algoritmos, são 50 algoritmos que não usam esses. Assim, o comerciante não tem acesso a esses dados apenas parcialmente de seus objetos. É e faz a visão de decisão dele nesta parcela da sua razão. Outro jumper pode ser que ele vai funcionar. Oh, isso é aprender a andar através dele. Vai funcionar é aqui e tem alguma visão de câmera. Então você tem uma visão muito pequena do meio ambiente. Este não é o ambiente completo que ele objetiva. Ele toma uma decisão baseada neste curso que ele amava sua razão. Da mesma forma, um poker jogando um objetos suaves apenas os carros públicos amamentou em breve para ele. Então, neste caso, Agent State não é Samos Environment Stoute e dentro desta é a condição Então a agência disse em Brasília, processo de decisão General Marko ou em espécie quer BP. Assim, desde que ah ambiente não é totalmente fora da regra para o agente, o agente tem que construir sua própria representação fora do estado. Então, uma maneira de construir o estado fora do agente será tirar a corrente da razão. Mas isso pode ser muito pequeno. E pode não ser suficiente. Por outro lado, o agente pode tomar a história completa como seu estado e esta a representação válida altar fora do estado. Mas isso pode ser muito de registros de dados que a história continua em andamento, e a rua contém muitos dados redundantes. Então, no meio, o agente pode construir alguma representação incremental fora de seus estados. Então isso, sim, às vezes chamamos trincheiras estaduais e funções de tropas estaduais de interesse em função e, ah , então, uh, leva para um canto. Passou o estado e a operação atual. Então isso é semelhante ao que chamamos de Oregon ou recrutar rede neural no artista Validação pode construir alguma visão probabilística fora do estado ambiental. Então, agente, faça uma visão estrita que bit probabilidade até mesmo o status de agência ambiente um com probabilidade, P dois status de região ambiente para e com uma régua. Tippi no meio ambiente é no estado está em. Então esta é uma abordagem movimentada ou probabilística no campo de golfe. Este algumas dessas probabilidades tem que ser uma. Então esta é outra abordagem comum para ah, construção e Instituto Age. Outro exemplo de para tolo da regra de marca ou visão cruzes será que algum bem, jogo, digamos ou corrida templo. Então você é o não está correndo e só objetos foram dois muito em breve para ele em uma pequena distância. Então, por exemplo, pode ter algum fogo, e nesse caso, você testa para saltar ali, e então ele faz, uh, água. E na água é Memphis outros obstáculos, como rocha. Então, neste caso, tem o dedo do pé do Slade em torno daquela colher, ou pode obter algum alimento mais longo, e nesse caso, tem que ardósia sob isso seria. Portanto, o agente não tem uma imagem completa do meio ambiente. Você apenas parcialmente se opõe em quente o pequeno regional, o meio ambiente. E baseado em que O r grande, é uma rua. 6. Componentes do agente RL: Neste, sério? Nós olhamos dentro da nossa religião que você olhou, Atwater a confiança muitas vezes, agente. Então estes são os três componentes de um agente, e todos eles podem ou não estar presentes em nossa religião. Assim, o primeiro componente é uma função de segundo valor de política, e 30 é imortal. Desafio política, o comportamento dos agentes. Cada agente tem alguma política que determinará o que agentes de acento tomarão em um determinado estado. Então lembrem-se, o demônio de qualquer religião é maximizar os retornos futuros esperados. Portanto, as políticas seriam assim lá. Os agentes movem na direção deles. Então é um mapa do estado para Aksam. Assim, a política deve decidir se o agente é, em vez disso, um sotaque que deve ler. E esta política pode ser determinística ou estocástica. Então, a política determinista significa que vai dizer exatamente que sotaque? Oh, a tática do agente. Lemos que a política de ah estocástica só dará alguma distribuição de probabilidade. Como o quê? Probabilidade do que a Exxon os agentes escolheram a próxima empresa. Valorizou a função? Então, é basicamente um grande off. Quão bom ou ruim algum estado é porque você diz na previsão de recompensa futura. Então, definimos uma função de valor sob determinada política e algum estado, como alguns fora retornos totais esperados no futuro e vê algum fator de desconto aqui toe ou dar Laura. Está demasiado à frente no futuro e dá mais eleitores a recompensas imediatas. Nesta classificação. Fábricas lista em um, então isso é usado para valorizar a bondade ou maldade do estado. Então, se o status muito funcional completo é mais do que realmente, função de estado é também. Então vamos ver o seu sim, um uso registrado, e o agente vai tentar mover o estado para o qual a função vale é movida. Então, isso ajuda na seleção entre Jackson ação negativa. Um leva para declarar um sotaque que enviou uma mensagem para o estado dois e recebeu no estado Funcional do Vale . Um é mais. Vamos preferir sotaque. Mesmo agora, o terceiro e último confiante é imortal. Alguns modernos é apenas uma visão do ambiente que estes em contas modelo prevê o que o ambiente vai fazer em seguida. Então não é exatamente exatamente com o ambiente eram apenas mortais. Agentes do seu ambiente. Então, para as duas últimas conferência tentando enviar mais mgr. É manhã tentando suportar vidas mortais em prever o próximo estado, enquanto que a recompensa saúde mortal em prever o próximo para o trabalho, dado algum estado e se o agente toma um máximo Então este é o uso tendência e moderno. Então ele diz qual é a probabilidade de passar do status para uma entorse, dado algum xom ele. Onde está esta recompensa? Mortal pequeno. O que será a recompensa imediata é que o agente está em algum status e leva um máximo de um Não ,não. , Vejamos alguns exemplos dessas três conferências para obter uma compreensão mais clara disso . Então este é realmente o ambiente. Então este é um ponto de partida, e o objetivo do agente é chegar aqui e está em tiquetaque alguma parte e ele vem por aqui e atinge o objetivo. Então o agente constrói alguma visão do ambiente. Em breve, o agente será a mãe viva. Veio daqui e, em seguida, alcançou seu objetivo. Então esta é a visão do, uh em um momento. Quanto ao agente, ele não tem idéia de onde o que está nesta parte do ambiente. Portanto, este não é o ambiente completo. O que os agentes do seu ambiente. Então agora a nossa política. Então este é um mapa da política do agente. Então, o mapa da política diz que se a dentição disa estado verdadeiro, se insistiu que deveria subir se for abandonado, é meio que tudo bem e similares alimentos aqui. Então vá para a direita, Por outro lado, inflação Dizzy, irritável, certo. Em última análise, estas políticas conduzem a nada de bom. Então esta política como estudamos bem, realmente determinou o Agente Saxon. Não, vamos olhar para a função de valor. Então este é o mesmo exemplo ganancioso que vimos aqui. Portanto, a função de valor é a recompensa da comunidade alguma fora esperada no futuro de um determinado estado. Então, aqui estão os estados imediatos muito perto de ir em breve. Então, se o agente está em desistiu, a própria função é menos árvore. Apenas este valor porque em seguida ele vai para o objetivo. Se não houver, é aqui. O retorno esperado é menos dois. Se não houver, está aqui entre menos t menos. Flavier em menos seis aqui, mesma forma aqui, menos Lee. Se isto te matar , vamos para qualquer estado. Fomos ao ar a Recompensa Matinal. Então, se o agente estiver aqui, terá menos sete. Porque, agente Will, eu ouvi isso Valued e me vesti. Ir para onde? Então estes lêem 97 da mesma forma menos oito aqui, então é o valor. Uma função é dada off é definido dos diferentes estados. Então, essas posições da grade são os diferentes estados. Então este é um novilho, Delerue, Sra. Jo One, este é um que você conhece. Então o valor do Senado em si boa tradição suficiente. Cuidado com o sotaque que os agentes pegarão. Então as agências são isso está começando a raciocinar. Então ele pode ir aqui ou aqui, mas ele vai ver que a função de valor fora de um Joe, isto é menos seis é mais do que a função de valor fora de Joe um, que é menos aqui. Então você sabe que um judeu do estado é melhor do que o estado, então eles não vão para cá. Agora, aqui tem que impressionar isso e isso de novo. Ele vai ver que este é melhor estado. Então ele vai aqui e aqui e aqui e, em última análise, leva ao objetivo. Portanto, esta função de valor é muito importante. E ele diz na avaliação da bondade ou marinus off novamente. Místico 7. Categorizando agentes RL: Neste vídeo, vamos ver as várias categorias em agente moral. Assim, uma categoria, qualquer com base nos presentes, uma ausência fora de valor e política na segunda categoria está em é baseada na presença ou ausência fora mortal. Assim como para o primeiro gado maior pecado, e nossa religião pode ser tanto baseado em valor, totalmente servido ou crítico ator. Portanto, um agente baseado em valor usa a função de valor e aqui políticas não registrar políticas no local . Eu acho que você tem um ambiente. Então, este bem representa um ambiente e as várias células representam, e agente mundial do estado pode ser assim sobre estes ar, as funções de valor de cada estado observado, Qual é o retorno futuro esperado desse estado? Então é o agente que está dentro. Este é o estado inicial e ele vai ver que esta célula é sua própria. Este é um euro neste está começando um 00 Então você realmente funciona fora. Geruman, que é menos aqui, está ouvindo muito função fora quando você que é menos seis. Então isso significa que este estado é melhor do que o seu. Então, quando você está melhor para que o paciente possa ir. Mas quando você e novamente você testar duas maneiras para menos sete menos rosto. Então ele vai voltar aqui. Então, com isso você vai funcionar? O não é pode tomar suas decisões e políticas não necessárias. Então esse tipo de agentes são chamados de agentes grist de valor. O segundo tipo é a política vist. Então aqui raiva em lojas a política e não bem, realmente funcionam. Então, se esta política é definida, em seguida, se o agente está neste estado inicial, ele irá aqui. E se está neste Stuart, a apólice diz que vá, oh, cima e ouça sua mesa bem em cima. Mesmo no dia em que o agente chega aqui. Então, aqui os sotaques são decididos pela política e não desenvolvem quarteto. Então esse tipo de agentes são chamados de vist política e o terceiro é crítico de atores. Sim, a diferença na história como as políticas relacionadas falam nós levamos isso para ambos esses tipos de religiões. - Não. Quanto à segunda categoria, razão embora nossa religião possa ser modelo três ou modelo baseado no modelo três, nossa política de religião pode estar lá ou função de valor pode estar lá ou ambos podem estar lá. Mas não há mais para que o agente tenta construir política ou função de valor dependendo da experiência, a fim de maximizar o futuro. Trabalhamos para que ele não tente construir um modelo do ambiente. Ou ele não tenta entender a dinâmica do ambiente, manter obras de ambiente, enquanto que no caso de política de estação mortalmente e ou realmente funcionar pode vídeo e mortalmente também presente. Então, a primeira tarefa fora da estação é tentar aprender como o ambiente funciona para que eles não estejam tentando construir um modelo do ambiente e, em seguida, descobrir a política ideal ou função de valor . 8. Aprendizado e planejamento: aprendizagem e planejamento são conceitos muito importantes na aprendizagem de reforço. Assim, com a tomada de decisão secreta ainda, existem dois tipos fundamentais de problema. Um tipo de problema é o reforço da aprendizagem e o segundo tipo de problema é o planejamento. Então vamos ver. Qual é a diferença entre estes dois no problema de aprendizagem de reforço? O modelo de ambiente é desconhecido para a nossa religião. Então eles são diligentes, não tem idéia de como o ambiente funciona nossa religião em faixas com o ambiente e tenta entender como o ambiente funciona. Então é uma espécie de tentativa e erro e baseado em sua idade e tenta melhorar suas políticas . Quem que suas recompensas futuras têm maximizado no planejamento modelo problema de ambiente é conhecido pelo agente, portanto, nenhuma interação é necessária para explorar o ambiente. Agent plantas através da realização de competições com base no conhecimento do ambiente perdido no conhecimento do modelo do ambiente. Portanto, é pensar e planejar com antecedência em comparação com tentativa e erro em caso de reforço , problema de aprendizagem e com base em que o agente tenta melhorar sua política para obter mais recompensa no futuro. Então vamos dar um exemplo deste exemplo. Fora de planejamento pode ser que você é dito as salas fora do jogo como você está jogando apenas jogo, e você sabe que as etapas de trabalho são válidas e que são inválidas. Então já te disseram antes. E então sua tarefa é planejar isso. E se eu me mudar para cá ou se eles se moverem depois de dois passos, o que deixamos? E por isso é meio que pensar que ouvi ou planear com antecedência. Mas, por outro lado, e agente não pode ser dito. Segure as funções do jogo de xadrez e ele vai apenas tentar explorar o ambiente para que ele vai tentar ir aqui, e ele vai obter o feedback de que é um movimento inválido e ele vai tentar vários outros movimentos , e ele vai obter o destroçando retornam aquilo que se move são válidos ou inválidos. Então, depois de algum tempo, ele vai descobrir as regras fora do ambiente manter um modelo do ambiente é e , em seguida, ele vai tentar maximizar ele retorna. Portanto, estes são os dois problemas fundamentais na aprendizagem de reforço 9. Explicação e exploração de seu aproveitamento: exploração e exploração são dois problemas fundamentais no reforço. Exploração de carga significa descobrir mais sobre o ambiente neste mundo principal, abdicando de alguma recompensa imediata para o máximo de recompensas futuras envelhecidas. Para entender isso, vamos ver nossa religião, Dejan algum status e com sua experiência passada, você testar o resgate. Excelente, mesmo neste estado. Quanto à faculdade, Sippy e mais para algum estado diferente. Digamos que este quadro que um estagiário dá alguma recompensa seja um, e esta recompensa é positiva. Assim, uma maneira seria continuar durante o saxão em aviso abandonado. Mantenha a apólice 60 e continue recebendo esta recompensa ou uma. Mas pode haver algum outro sotaque disponível a partir deste estado. Talvez você tenha preocupado três ou muitas mais ações, que são mais rentáveis do que são uma. Então, digamos que duas enguias fazem isso. Os rolos são três, e é possível que haja lista em são aqueles onde é ainda pior do que a política atual . Mas talvez seja possível que as nossas árvores sejam mais do que as nossas. Então é agente descobre nerd, escárnio, sotaque atrial para o qual podemos tirar desta propriedade. Então teremos um retorno melhor então isso significaria exploração que está explorando mais prêmio para dentro, mas por outro lado, explorado não é seria apenas muito seguindo o lucrativo na formação que está envolvido no status, e formou alguns excelentes, mesmo o que pode levar, o que lhe dará alguma recompensa. Então ele vai continuar fazendo isso com a nossa exploração para a cama Robson. Então isso será conhecido e explorado. Então há uma troca decente de cócegas de exploração, porque quando você está explodindo, você está perdendo a recompensa conhecida, que você sabia que Jackson estava dando alguns pontos para recompensar. Então, por que Lex Lorrison? Você pode perder ou fazer recompensas, mas, por outro lado, você também pode ganhar alguma opção melhor que você vai lhe dar ou mais retorno em um futuro mais longo . Por conseguinte, é necessário um equilíbrio entre a razão extra e a exploração. Então vamos ver alguns dos exemplos práticos de exploração e exploração. Assim, um exemplo é na publicidade onde a extradição significaria costurar algum ar rentável , enquanto que a exploração significaria processar alguns novos ares que podem ser mais rentáveis no futuro. Da mesma forma, se você tem algum restaurante favorito em sua localidade e seu imaginou ou talvez picar vários restaurantes. Então, a explicação significaria que você sempre vai seguir o seu restaurante favorito, onde exploração significaria experimentar um novo restaurante em seu bairro, e pode ser forçado a alertar a comida. Há melhor do que o seu restaurante favorito, mas vocês machos acabam comendo alguma comida ruim no processo. Assim também aqui o equilíbrio é necessário com a próxima escuta e exploração. 10. Seleção de ação para exploração vs aproveitamento de explorar: Neste vídeo você verá alguns acentos, Alex em algoritmos, que nos ajudará a decidir quando excluir e vai explorar. Já vimos que não podemos fazer exploradores e expletivos e simultaneamente, e chamamos essa exploração explodir. Trude não está fora? Então vamos ver para fora os algoritmos de seleção populares ou extensão que queriam um muito básico , que é chamado Epsilon Greedy X e seleciona. Hum, e é uma espécie de um aleatório de X e seleciona um algoritmo. E então vamos ver outro algoritmo chamado otimistas quaisquer valores de célula. Então primeiro Cedar Playland, Greedy X e seleção. Aqui nós escolhemos explorá-lo a maior parte do tempo com uma pequena chance de explorar bebês. Não faça alguma aleatoriedade. E aqui epsilon foram forçados a ser provavelmente que escolhemos explorar. Portanto, tem que ser entre o valor que Lhe ofereceram em um, por exemplo. Podemos escolher uma base de sotaque, não rolar por dias, então considere uma situação. Então estas são todas as seis possibilidades e nós rolamos seus dados para que possamos obter um número de 1 a 6 para que possamos sentar lá se vier um ou dois ou 34 ou dormir então vamos explorar. Ou seja, vamos escolher e conhecido algoritmo ganancioso conhecido passo ganancioso no dia seguinte Sr. So Renda melhor senso. Temos o paradigma do algoritmo ah di que diz que você pega seu Wrexham baseado no mundo imediatamente e é usado em uma espécie de ponto encontrando uma árvore de abrangência mínima, então você tem um par de opções de acentos e, em seguida, você escolhe o que lhe dá Recompensa imediata. Então aqui vamos tomar um xom tão ganancioso Abelhas não rolar agradável. Então, se vier de 1 a 5, não explorei o aviso Tome um xom ganancioso. Mas se chegarmos seis, então exploraremos um novo excelente para o qual não sabemos qual é a recompensa. Então isso pode ser uma saída ou resolver o problema de exploração e exploração. E estamos vendo que o silêncio era a religião que exploramos. Então, neste caso, exploramos uma ordem de seis vezes para podermos dizer que são absurdos e neste caso é 1/6. Então vamos formalizar este algoritmo. Então aqui quer no início, na medida em que selecionamos nossos nomes para ser, então isso pode re qualquer um. GDX. Hum, então isso se refere a um xom ganancioso, e isso vamos tomar com uma probabilidade de um menos um aplainamento. E isso é que virou um máximo. E isso vamos tomar a probabilidade de Upsell. E pode haver rádio diferente desligado, uh, usando o mesmo algoritmo. Não, vamos ver o 2º 1 que chamamos de místico qualquer valor de célula e nos conformamos alegar desta forma. Então, aqui Q Refere-se a alguns convidados iniciais ou convidados fora do valor. Então fisicamente sou igual a fazer. Não sabemos de seu sotaque mais recompensa. Então, otimista atribuímos algum saque para esse sotaque. Então estamos muito otimistas, Andrea ST Alguns foi desvalorizar uns aos outros faz sotaques. E na próxima etapa não, eles operarão esses valores com base na recompensa que realmente recebemos tão cedo ou os convidados. Então, quando nós realmente tomar seu sotaque, vamos começar a saber o quanto você é maior Então vamos atualizar esses valores para ouvir que no lugar mesmo ou negar estado oldster ou fora de sua excelente e cubano no valor estimado anterior ou o propriedade anterior e eu vou lutar. Alguma fábrica pode ser entre aqui e uma. Então vamos supor que é a Europa em cinco, para o nosso exemplo. E este é o respeito recompensa sou Passo T ou em seu tempo, passo e menos o valor anterior. Então vamos ver um exemplo, e isso seria realmente claro. Vamos ver através de três possibilidades aqui três ações que podemos escolher. Então A, B e C abandonaram as possíveis ações, então inicialmente sejam normais, o que é melhor. Então eu fui chamado para Geo lá. Com licença você. Estamos muito otimistas aqui porque é otimista no algoritmo de valores de prata, Andrea, sã e boa, forçado a valorizar cada um desses acentos. Portanto, nenhum desejo é igual e vamos escolher aleatoriamente um sobre estes. Vamos definir a escolha A e nós temos um valores na verdade ou assim fomos muito otimistas, então nós atribuímos um valor para ele. Mas nós conseguimos e tomamos um, então eu sou muito legal para um grande dia. Então nós não vamos grande BNC, mas nós vamos para Nova York também. Então vamos atualizar mais para um assim cubano será você nesta metade vezes a diferença. Ou você pode ajudar do seu jeito. Bem, é um grande Dave original. Duty free, apenas valor no valor atual. Ou vamos nos ater a esta fazenda. Vamos usar o seu para igual a zero ponto chama para que você e lugar para Valerie aqui em Além disso, Você sabe sabor ponto ou em menos e unicórnio sabor você em. Então isso vai se tornar e, você sabe, sabor pontual. Cubano Porque Cubano menos 0.5 q e seus cinco europeus Q e Plus Negroponte lado Ardent ou Cuban Plus ou em Newbury Way. Quem é que isto vai fazer? Q. Um acompanhante. Então, neste caso Q. Estamos estimando cubanos? Então vamos fazer Q zero mais retorno dividido direito para assim Phi mais dois divididos por dois. Isso é sete por dois ou 3,5. Então eu vim para igual a um. Temos esses valores. Por isso, a senhora deputada Fleet sente muito a sua falta porque não nos importamos com isso. Não, estamos estimando o Cubo de Valor. Então vamos tentar escolher o sotaque um, que diz que o seu mais rentável Então, neste caso, claramente um 3.5, que é menor do que o BNC. Então vamos escolher um destes. Digamos que escolhemos seria e que a juventude festival um assim na próxima vez ainda visível permanece ele. Este testamento continua a ser ele. E isso se tornará cinco mais um durante o direito de notar. Seis esperem dois ou três. Então não, este é o valor do tempo igual para fazer isso é igual a um. Tome um pouco de quem estava estimando bonitinho estar aqui sem tempo. Três Veremos que estes dois Earless e C é o mais Parece ser o mais gratificante, pois vamos escolher isso e vamos salvar os valores de Gordon Ah, três Tão alto atualizado foram lazer e estes permanecerão inalterados três e isso se torna 45 mais rua ou o direito à comida No próximo passo vai escolher contra quatro e vamos ver o que recompensa maior para que cada passo de tempo tentamos escolher o que tem o valor mais alto e, em seguida, com base na recompensa real que me tirar de valores de notícias mortos Este é o fora do místico qualquer religião celular sobre eles. Então, há algumas limitações para este algoritmo valores iniciais otimistas Quando é que ele , Dr. Exploração em Li. Na fase inicial, depois de algum tempo, o pode ficar com um fora dos acentos, que pode parecer, Será que nós ideal nessa dor? Mas não é adequado para problemas estacionários conhecidos. Com isto, quero dizer aquilo. Ou pode haver casos em que as direções eram ruins mais cedo neste místico. Qualquer algoritmo de vale celular, como corretamente descoberto lá são baseados na exploração inicial. Mas pode haver a possibilidade de que alguns sotaques que não eram bons antes não se tornaram em minhas gotas. Então vamos nos encontrar. Então esta semana tudo não é problema de Mary porque esses sotaques não são justiça Mary. Eles também mudaram com base no tempo. Então esse sotaque, que não era tão dizer anteriormente não é uma opção melhor. Mas este Exxon será este algoritmo em nem descobriu que porque ele vai tentar o Lexan ideal em cada vez dois Então e há um outro problema que qualquer vender gás. Então estávamos otimista dando algum valor a cada Jackson e estes talvez não um bom convidado. Estes podem ser muito maus convidados. Portanto, esta é outra limitação foram, apesar destas limitações, este algoritmo tem impedido ser um acento eficaz. Seleciona, hum importado porque você é talvez esse tipo de cenários, é não são muito comuns. Então é um algoritmo muito simples e eficaz. Espero que tenha tirado alguns em Houston para selecionar suas ações. E o meu nome fora desta palestra foi para te dar um pouco interessante sobre isso em ir cheio. Você desenha algo usando a partir deste e talvez o nosso dispositivo seu próprio algoritmo de seleção de acento , que funciona ainda melhor do que estes. 11. Previsão e controle: previsão. Controle é outro problema fundamental e reforço aprendendo a previsão significa concorrência ou estimativa de consequências, muitas vezes acidente. A política aqui é dada sobre o objetivo é dois milhões buraco vontade que a política executa. Esta função de política é corrigida. Então, se o status de indigente, em seguida, usando essa função política ele vai exatamente obter o que o acidente tem que tomar dado este estado. E o objetivo seria descobrir ou calcular o retorno esperado desta propriedade usando a política dada. Portanto, seu objetivo é prever o futuro, enquanto que no controle, a política não é fixa. O agente está em algum estado, e não sabe que sotaque tomar. Portanto, o objetivo é encontrar a política ideal, a política que irá maximizar. Espero que seja entregue. Então ouça essa música. Filho não é conhecido, e temos que encontrar esta Síria. É tudo sobre otimizar o futuro. Há, no caso da previsão, trata-se de prever o futuro porque as políticas corrigidas. Então vamos dar um exemplo. Então, se este é o nosso exemplo ah mais, então se estamos em re ou o agente está em, isso está começando ainda, então é a política diz que ir para a direita, em seguida, ir para a direita, em seguida, para cima, em seguida, para cima e, em seguida, atingiu o objetivo. Então, se esta política for dada neste caso, o retorno seria menos um menos dois, menos dois menos três. Isso é 78 Então menos oito. O que, por outro lado, é Legent está nesta propriedade começando cozido e as políticas nem fixo. Então precisa descobrir que Nova York recebeu a melhor política. Então ele vai descobrir que ele pode tomar esta parte e Guiné retornar fora menos um menos dois, menos um menos dois. Então, menos seis. Então parece que isso é melhor do que isso. Então, ele vai descobrir que esta é a política ideal. Você frutas e estação. Isso que você testou cresceu. Esperança e, em seguida, avalie. Então, ele descobrirá a política ideal. Então esta é a principal diferença entre previsão e controle. 12. O que vem a seguir?: Parabéns por completar seu primeiro curso sobre a introdução ao aprendizado de reforço . Você deu o primeiro passo para reunir reforços, aprendendo agora sua família com a viragem básica Rogie começando usado na aprendizagem de reforço e você está pronto para seguir em frente. Então você pode saber Faça o segundo curso ou o ensino de execução lá. Vamos mergulhar profundamente nos processos decisórios do Marco. Então, obrigado por fazer o dedo do pé o fim do curso de Hope para vê-lo no próximo curso.