Transcrições
1. Trailer do curso: Você provavelmente já leu no noticiário. A aprendizagem profunda é a receita secreta por trás de muitos desenvolvimentos emocionantes e fez muitos dos nossos mundos sonhos. E talvez também pesadelos se tornem realidade. Quem teria pensado que Deep Mines Alphago poderia vencer Lisa Dole em um jogo de barco, que possui mais movimentos possíveis do que há átomos em todo o universo? Muitas pessoas, incluindo eu, nunca previram isso. É impossível, mas está aqui agora. aprendizagem profunda está em toda parte. Está batendo em médicos diagnosticando câncer. É responsável por traduzir páginas web e quantidade de meros segundos para os
veículos autônomos . Por William Only Tesla. Oi, meu nome é Jason e bem-vindo a esta costa e aprendizagem profunda onde você aprende tudo o que precisa para começar com aprendizagem profunda e python. Como construir algoritmos notáveis capazes de resolver problemas complexos tinha um possível apenas algumas décadas atrás. Vamos falar sobre a prancha. O aprendizado profundo é uma diferença entre inteligência artificial e aprendizado de máquina. Vou apresentar novos livros de pescoço, o que eles são e o quão essenciais eles são para soprar fundo. Você vai aprender sobre como os modelos de aprendizagem profunda treinam e aprendem e o próprio passo de aprender a identificação associada
supervisionada, não supervisionada e de reforço. Vamos falar sobre funções de perda, otimiza o algoritmo de descida de classificação, os diferentes tipos de novas arquiteturas de rede e os próprios passos envolvidos na
aprendizagem profunda . Então o que você está esperando para o controle hoje e eu vou vê-lo na costa.
2. Introdução ao aprendizado profundo: Toda esta costa está centrada na noção de aprendizagem profunda. Mas o que é isso? Deep learning é um subconjunto de máquina zumbido, que por sua vez é um subconjunto de inteligência artificial, que envolve métodos mais tradicionais sozinho. Representações diretamente do aprendizado de máquina de dados envolve ensinar computadores a reconhecer padrões em dados da mesma forma que nosso cérebro para fazer impulsiona os seres humanos. É fácil para nós distinguir entre um gato no escuro, mas é muito mais difícil ensinar uma máquina a fazer isso. E falaremos mais sobre isso mais tarde nos escoceses. Antes de fazer isso, quero dar-lhe uma noção dos incríveis sucessos da aprendizagem profunda no passado. Em 1997 Gary Kasparov, o campeão de maior sucesso na história do xadrez perdido dedo do pé IBM é Deep Blue, um dos primeiros sistemas artificiais de computador. Foi a primeira derrota de um campeão mundial de xadrez por computador em 2011, Watson da IBM competiu no game show Jeopardy contra seus campeões, Brad Rutter e Ken Jennings, e ganhou o primeiro prêmio de $1.000.000 em 2015 Alphago, um programa de computador de aprendizagem profunda criado pela divisão Deepmind do Google, derrotou Lisa Door e 18 vezes campeão mundial e ir um jogo do Google mais vezes complexo e xadrez. Mas a aprendizagem profunda pode fazer mais do que apenas ser. Faz ambos os jogos. Ele encontra aplicativos em qualquer lugar, desde veículos autodirigentes até detecção de notícias falsas, até mesmo prevendo terremotos. Estes foram momentos surpreendentes, não só porque as máquinas venceram os humanos em seus próprios jogos, mas por causa das infinitas possibilidades que ele abriu. O que se seguiu a tais eventos tem sido o sério de descobertas marcantes em
inteligência artificial , aprendizado
de máquina e, sim, aprendizagem
profunda. Simplificando, Deep Learning é uma técnica de aprendizado de máquina que aprende, recursos e tarefas diretamente dos dados executando entradas através de uma arquitetura de
rede inspirada biologicamente . Estes livros de rede neural contêm um número de camadas ocultas. Os dados avançados são processados, aliando para que a máquina se aprofunde em seu aprendizado, fazendo conexões e pesando entradas para obter os melhores resultados. Vamos nos seus cadernos no próximo vídeo. Então, por que aprendizagem profunda? O problema com os algoritmos de aprendizado de máquina tradicionais é que não importa o quão complexos eles fiquem, eles são sempre máquina como se precisassem de muita especialização em domínio, intervenção
humana e só são capazes de o que o projeto é feito. Por exemplo, se eu mostrar a imagem do rosto dela, você reconhecerá automaticamente o rosto dele. Mas como um computador saberia o que é isso? Bem, se seguirmos o aprendizado de máquina tradicional, teríamos que definir manualmente e meticulosamente para um computador quando ele enfrenta. Por exemplo, tem olhos, anos e mês. Mas agora, como você define um olho ou uma quantidade para um computador? Bem, se você olhar para um olho, os cantos em algum ângulo, definitivamente não. 90 graus o definitivamente não. Zero graus que algumas disputas entre para que pudéssemos reservar com isso e treinar um classificador para reconhecer esses tipos de linhas e certas orientações. Isso é complicado para mim, eu peticionários e para o resto do mundo. É aí que a aprendizagem profunda tem um pouco de promessa. A ideia-chave na aprendizagem profunda é que você pode aprender esses recursos apenas a partir dos dados brutos que eu
possa alimentar um monte de imagens de rostos para o meu algoritmo de aprendizagem profunda, e ele vai desenvolver algum tipo de representação hierárquica de linhas de detetive e bordas e, em seguida, usando essas linhas e bordas para detectar olhos e uma boca e compondo-o juntos para finalmente rosto detetive. Como se viu, os algoritmos subjacentes para treinar esses modelos existem há bastante tempo. Então, por que tem mais profundo em ganhar popularidade? Muitos decks depois? Bem, por um dia um tornou-se muito mais difundido estavam vivendo na era do big data, e esses algoritmos exigem enorme quantidade de dados para ser efetivamente implementado. Em segundo lugar, temos hardware em arquitetura que são capazes de lidar com a grande quantidade de dados e poder
computacional que esses algoritmos exigem hardware que simplesmente não estava disponível há
algumas décadas. Terceiro, construir e implantar esses modelos de algoritmos, como eu chamei, é extremamente simplificado com a crescente popularidade de
softwares de código aberto como Tensorflow e Pytorch.
3. O que são redes de neurais: profundos mortais primitivos se referiam ao treinamento das coisas. Cornu deixar a caixa nova let box formar a base da aprendizagem profunda, um subconjunto do aprendizado de máquina onde algoritmos são inspirados na estrutura do cérebro
humano, assim como nuance, compõem o cérebro. Os blocos fundamentais de construção de um novo Let Buck é também um neurônio. Novos livros Net tiraram dados entre si para reconhecer padrões nesses dados e prever saídas para um novo conjunto de dados semelhantes em uma nova rede. As informações se propagam através de três componentes centrais que formam a base de cada nova arquitetura de
rede, a camada de entrada, a camada de saída e várias camadas ocultas entre as duas. No próximo vídeo, analisaremos o processo de aprendizagem de uma nova rede.
4. Processo de aprendizagem de uma rede neural: o processo de aprendizagem de Anu deixar, mas pode ser dividido em dois processos principais. Propagação direta e retropropagação. propagação completa é a propagação da informação. Da camada de entrada para a camada de saída. Podemos definir nossa entrada. Camada vários neurônios, x um para o centro de recreação. Esses neurônios se conectam aos neurônios da próxima camada através de canais, e eles são assinados valores numéricos chamados pesos. As entradas são multiplicadas para os pesos, e há alguns centros de entrada para os neurônios na camada oculta, onde cada neurônio, por sua vez, é associado a um valor numérico chamado de viés, que é então adicionado ao impotente. Isto esperou. Alguns são então passados através de uma função não-linear chamada função de ativação, que, essencialmente a sanidade desse neurônio em particular pode contribuir para a próxima camada. Na camada de saída. É basicamente uma forma de probabilidade. O neurônio com o valor mais alto determina qual é a saída finalmente. Então vamos lá algumas vezes. O peso de um neurônio nos diz o quão importante é que o seu. Quanto maior o valor, mais importante é no relacionamento. O viés é como o novo em ter uma opinião sobre a relação em si é mudar a função de
ativação para a direita ou para a esquerda. Se você teve alguma experiência com matemática do ensino médio, você deve saber que adicionar a escala de valor a uma função desloca um gráfico para a esquerda ou para a direita. E isso é exatamente o que o tendencioso ao mudar a função de ativação para a direita ou para a propagação traseira
esquerda é quase como quatro propagação, exceto na direção inversa. As informações aqui são transmitidas a partir da camada de saída para as camadas ocultas são a entrada. Mas quais informações são transmitidas a partir da camada de saída? O nosso lugar não é suposto ser a camada final onde obtemos a saída final? Bem, sim, mas nenhuma retropropagação é a razão pela qual os novos livros da Net são tão poderosos. É a razão pela qual suas redes podem aprender sozinhas. Na última etapa antes da propagação, uma nova rede cospe uma previsão. Esta previsão pode ter duas possibilidades ou certo ou errado e retropropagação. A nova rede avaliou o desempenho e verifica se está certa ou errada. Se estiver errado, a rede usa algo chamado de função de perda para quantificar o desvio da saída
esperada. E é essa informação que enviou de volta para as camadas ocultas para que o peso e vieses
sejam ajustados para que o nível de precisão das redes aumente. Vamos visualizar o processo de treinamento com o exemplo rial. Vamos supor que temos um conjunto de dados, disse
esses dados, nos
dá o peso do veículo no número de mercadorias transportadas pelo veículo, e Ultra nos diz se esses veículos são causa de caminhões. Queremos passar por essa bandeja de dados e novos livros Net para prever que nossos caminhões com base em seu peso e vai começar. Vamos inicializar o novo livro Net dando-lhe pesos e vícios aleatórios. Pode ser qualquer coisa que não nos importamos. Estes valores são tão longos quanto há na primeira entrada fora de um conjunto de dados, temos peso do veículo igual a um valor que, neste caso, é 15 e mercadorias quanto a. De acordo com
isto, é um carro. Agora começamos a mover essas dimensões de entrada através da rede mais recente, então basicamente o que queremos fazer é pegar as duas entradas, multiplicá-las pelo seu peso e aconselhar, e é aqui que a magia acontece, corremos. Isso esperou algum através de uma função de ativação. Agora vamos dizer que a saída desta função de ativação é 0.1 Isso novamente é multiplicado pelos pesos e adicionado aos bys e, finalmente, na camada de saída. Temos um palpite. Agora, acordo com este novo livro Net, o tipo de legal com 15 de maio e mercadorias para tem uma maior probabilidade de ser um caminhão. Claro que não
é verdade. E um novo prognóstico líquido. Então usamos a propagação de volta. Vamos quantificar a diferença entre o resultado esperado e a saída prevista usando quase função em propagação ruim, certo? Vou voltar com um ajustador. O peso inicial aconselha. Lembre-se que durante a inicialização da nova rede, escolhemos completamente aleatórios com conselhos ao fazer retropropagação. Esses valores serão ajustados para beneficiar a lei de previsão. Ok, então isso foi um interacional através da primeira parte do conjunto de dados na segunda entrada, nós temos peso do veículo, 30 pessoas e mercadorias 67. Vamos usar o mesmo processo de antes da entrada sangrenta da Mãe com o peso e álibis passa resultar em uma função de ativação e repetidamente camada de saída, verificar o ar uma diferença e empregar propagação de volta para ajustar o peso. A tendência é que sua nova rede continuará fazendo esse processo repetido de quatro propagações , calculando a seta e, em seguida, retropropagação. Mas como muitas entradas neste conjunto de dados, quanto mais dados você der ao novo livro Net, melhor. Estará prevendo o direito de sair. Mas há uma troca porque muitos dados e você vai acabar com um problema como excesso ajuste, que eu vou discutir mais tarde sobre os escopos. Mas é assim que funciona o trabalho terrestre de Manu. Você alimenta a entrada, a rede inicializa. Foi peso aleatório e vícios que são ajustados cada vez durante a propagação traseira até que as redes passando por todos os seus dados e agora é capaz de fazer previsões. Este algoritmo de aprendizagem pode ser resumido da seguinte forma. Primeiro, inicializamos o humor da rede, valores
aleatórios para as redes, parâmetros ou o caminho dos vieses. Pegamos um conjunto de dados de entrada e os passamos pela rede. Comparamos essas previsões obtidas com os valores dos rótulos esperados e calculamos a perda. Usando a função de perda. Realizamos retropropagação para propagar essa perda a cada peso e viés. Usamos esta informação propagada para atualizar os pesos e vícios da nova rede com o grande algoritmo de descida de tal forma que as perdas totais reduzidas e na
manhã de batalha é obtida. O último passo é continuar iterando os passos anteriores até considerarmos que temos um modelo
bom o suficiente.
5. Funções de ativação: nesta seção sobre a qual vamos falar. A terminologia mais comum é o uso de aprendizagem profunda. Hoje, vamos começar com a função de ativação. A função de ativação serve para introduzir algo chamado não-linearidade na rede e também decide se um determinado neurônio pode contribuir para a próxima camada. Mas como você decide sobre o novo em Pode disparar ou ativar? Bem, nós tivemos algumas idéias, que levou à criação de diferentes funções de ativação. A primeira idéia que tivemos é como sobre eu ativar o seu em se ele está acima de um certo valor ou limite. Se for menor que esse limite, não o ative. Função de ativação A é igual dedo do pé ativado se sábio, grande evidência e limiar senão não é. Esta é essencialmente uma função de etapa. Sua saída é uma ou ativada. Quando o valor é maior que zero, sua saída é ativada quando o valor é maior do que algum limite e saídas não ativadas caso contrário. Ótima. Então isso faz uma função de ativação para um novo em nenhuma confusão. A vida é perfeita, exceto que há algumas desvantagens com isso. Para entender, é melhor pensar no prefácio. Pense em um caso de onde você deseja classificar várias nuance em classes que classe uma classe para classe três, etc. O que acontecerá se mais de um neurônio for ativado? Todos esses neurônios irão produzir um bem. Como você decide agora? Como você decide qual classe de agitação longa? É complicado, certo? Você gostaria que o livro Net para ativar apenas um seu próprio e gritou, Ele deve ser zero quando. Então você será capaz de dizer que foi confidencial. Provavelmente na prática real, no entanto, é mais difícil treinar convergente desta forma. Seria melhor. A ativação não era binária. Em vez disso, algum valor provável, como 75% ativado ou 16% ativado. Há 75% de chance de pertencer à classe, etc. Então, se mais de um neurônio se ativa, você pode descobrir qual neurônio dispara baseado em qual tem a maior probabilidade. Certo, talvez você tenha se perdido. Eu quero algo para me dar um valor mais analógico em vez de apenas dizer ativado ou não ativado algo diferente do que em binário. E talvez você tenha pensado sobre uma função linear. Função de linha reta onde a ativação é proporcional à entrada por uma chamada de valor. A inclinação da linha por aqui. Isso nos dá uma série de ativações. Então não está comprando Reativação, enfraquecer. Definitivamente conectar alguns neurônios juntos. E se mais de um dispara, poderíamos pegar o valor máximo e atribuído com base nisso. Então isso é OK para. E qual é o problema com isso? Bem, se você está firmemente foram grandes em dissidência, que eu vou vir até você em apenas um pouco, você vai notar que a derivada de uma função linear é uma constante faz sentido porque é bits lentos e mudando a qualquer momento para uma função. F X é igual dedo MX plus. Veja, a derivada é M. Isso significa que a classificação não tem nenhuma relação com X. Há também significa que durante a retropropagação os ajustes feitos nos pesos e dispositivos dependentes do X em tudo, e isso não é uma coisa boa. Além disso, pense se você tem camadas conectadas, não importa quantas camadas você tenha. Se todos eles são de natureza linear, a função de ativação da camada final não é nada além de apenas uma função linear da
entrada do leito de cartaz da primeira camada. E pense nisso. Isso significa que todo o novo livro líquido de dezenas de camadas pode ser substituído por uma única camada. Lembre-se, uma combinação de funções lineares na maneira linear ainda é outra função linear. E isso é terrível porque acabamos de perder a habilidade de informar a Leah desse jeito. Não importa o quanto você está fedendo, toda
a rede ainda equivale a um único lá com ativação única. Em seguida, temos uma função sigmóide, e se você já assistiu um vídeo funções de inativação, este é o tipo de anos de função nos exemplos. Uma função sigmóide é definida para dizer se X é igual a 1/1 mais e para o X negativo bem, isso parece suave e como uma função de passo o que seus benefícios pensam sobre ele por um momento. Enquanto as primeiras coisas primeiro, é conhecido natureza linear. Combinações de disfunção também são não lineares. Ótimo para agora enfraquecer pilha por anos. E quanto a Norm comprar um ativações re? Sim, que para esta função para fora coloca na ativação log como função passo e também tem um pequeno rádio. Em vantagem desta função de ativação é que, ao contrário da função linear, a saída desta função vai estar no intervalo 01 inclui em comparação com o infinito
negativo para infinito deste último. Então temos uma activação ligada ao alcance e isto não vai explodir as activações, e isto é óptimo. E as funções de sinal são uma das funções de ativação mais utilizadas hoje. Mas a vida nem sempre é rosada e sinaliza que tende a ter as desvantagens compartilhadas. Se você olhar de perto entre X é igual a negativo dois e X é igual a dois. Os valores Y são muito íngremes. Quaisquer pequenas alterações nos valores de X nessa região chamarão valores de largura para alterar drasticamente. Também no final da função, os valores brancos tendem a responder muito menos. Muda a próxima nota nessas regiões. Vai ser muito,
muito pequeno, muito pequeno, quase zero, e dá origem ao desaparecimento do Grady em problema. Nós somos assim. Se a entrada da função de ativação for grande ou pequena, o sinal vai esmagar isso até um valor entre zero e um, e o cinza não desligou. A disfunção torna-se muito pequena, e você vai ver por que, quando falamos de muito incento. Este é um grande problema. Outra função de ativação que é usada. É um bronzeado. Cada função Isto parece muito semelhante à sinalização. Na verdade, matematicamente, isso é o que é conhecido como uma função sigmóide deslocada. Ok, então como o sigmóide, ele tem características que discutimos acima. É conhecido na natureza, para que possamos começar os jogadores é obrigado a organizar a partir de um negativo procurado. Então não há preocupação com as ativações explodirem. A derivada da função tangente,
no entanto, no entanto, é mais íngreme do que a do sigmóide. Então decidir entre o sigmóide e o gege bronzeado realmente dependeria de sua exigência
de grande interesse. Como sigmóide, tanager também é muito popular e amplamente anos função de ativação. E, sim, como a dança sigmóide Tanager, tem problema de fuga. A unidade LTD de Retificação, ou função de valor, é definida nos. Se X é igual ao máximo de imposto zero investido, isso pareceria uma função linear. Gráfico direito é linear nas partes de acesso, Deixe-me dizer-lhe, em
vez era, de fato, conhecida natureza linear e combinações de relativo também são não-lineares. Ótimo, Então isso significa que podemos ficar jogadores. No entanto, ao contrário das duas funções anteriores será discutido não é limitado o intervalo do Ray Lewis de zero ao infinito. Isso significa que há uma chance de explodir a ativação. Outro ponto que gostaria de discutir aqui é uma passagem e de uma ativação. Imagine uma nova rede com muitos neurônios. Usar um sigmóide ou um bronzeamento fará com que quase todos os neurônios disparem de forma analógica. Isso significa que quase todas as ativações serão processadas para descrever a saída da rede. Em outras palavras, a ativação será dívidas, e isso é caro. Idealmente, queremos que apenas alguns neurônios na rede se ativem, e eles são sobre tornar a ativação cônjuge e eficiente. Aqui é onde o rali entra, imagine, e Rede foi aleatoriamente inicializado espera em quase 50% da rede você zero ativação . Devido ao relativo característico, ele produz zero para valores negativos de X. Isso significa que apenas 50% dos neurônios disparam ativação esparsa, tornando a rede mais leve. Mas quando a vida te dá uma maçã, ela vem com um pouco quente dentro. Devido a essa linha horizontal em valor para valores negativos de X, o ralado é zero nessa região, o que significa duradoura propagação traseira. A espera não será ajustada durante a descida. Isto significa que aqueles nuance que vão para esse estado vai parar de responder a variações na era simplesmente porque a classificação zero nada muda. Isso se chama “O problema da morte”. Este problema pode causar sete yuan, então apenas morrer e não responder. Isso é tornar uma parte substancial da rede passiva em vez do que o que queremos depois de
haver um trabalho para este, especialmente é simplesmente fazer a linha horizontal em um componente não horizontal adicionando uma inclinação. Normalmente, a inclinação é em torno de 10.1 Nesta nova versão do Ray Lewis chamado Leaky Value. A idéia principal é que a classificação nunca deve ser 01 grande vantagem do relevante é o fato de que é menos computação, o caro do que as funções gostam de gerenciar e sigmóide porque envolve símbolo, um matemático operações. Este é realmente um bom ponto a considerar quando você estava projetando suas próprias
redes neurais profundas . Ótima. Então agora a questão é qual função de ativação usar por causa das vantagens que melhor oferece? Isso significa que você deve usar tudo relevante que você faz. Ou pode considerar sigmóide e danos? Bem, os dois. Quando você sabe que a função que você está tentando aproximar tem certas características, você deve escolher uma função de ativação, mas que irá aproximar a função mais rapidamente, levando a processos de treinamento mais rápidos. Por exemplo, uma função sigmóide funciona bem para problemas de classificação binária, porque aproximar um classificador funciona como combinações da placa é
mais fácil do que talvez o relativo. Este alívio de processos de treinamento mais rápidos e maior convergência você pode usar suas próprias
funções personalizadas para. Se você não sabe a natureza da função que você está tentando aprender, eu sugiro que você fique com parentes e então trabalhe para trás a partir daí antes de passar para a próxima seção. Quero falar sobre por que usamos funções de ativação linear conhecidas em oposição às de qualquer um. Se você se lembra na minha definição, off funções de ativação, eu mencionei que a função de ativação serviu para fazer algo chamado Naledi já no livro
Net para todos os fins intensivos. Introduzindo não linearidade simplesmente significa que sua função de ativação deve ser longa linear. Isso não é uma linha recta. Funções matematicamente lineares, horrorizadas ,
um grau normal, um que foi enxerto no plano X Y são linhas retas inclinadas ao eixo X em um determinado valor. Chamamos isso de inclinação da linha. Não há novas funções sobre normais de grau maior do que um, e quando grosseiro, o fazendo forma empréstimos de rua em vez de mais código. Se usarmos funções de ativação linear para modelar um dado, o não importa quantas camadas ocultas e mãos de rede, ele sempre se tornará equivalente a ter um único dia em rede e em deep learning. Você vai querer ser capaz de manhã cada vez dados com isso sendo restrito, como seria o caso deve ser usado funções de empréstimo.
6. Funções de perda: discutimos anteriormente no processo de aprendizagem de livros New Net que começamos com peso
aleatório e preconceitos. O novo e eu coloquei faz uma previsão. Esta previsão é comparada com a saída esperada, e o peso e os vícios ajustados em conformidade. Bem, Lois funções da razão pela qual somos capazes de calcular essa diferença realmente simplesmente perdeu função é uma maneira de quantificar o desvio da saída prevista pela nova rede para a saída esperada é tão simples é que nada Mote, nada menos. Há uma abundância de los funções lá fora. Por exemplo, sob regressão, temos quadrado sempre perdido, absoluto nunca perdido em Cuba, perda e compra de uma reclassificação. Temos sido muito próximos entropia e perda de dobradiças e problemas de classificação multi classe. Temos a entropia cruzada da classe mãe na callback ou perda de diversões, e assim um. A escolha da melhor função realmente depende de que tipo de projeto de trabalhar em diferentes projetos foram funções de perda bastante diferentes. Agora não quero falar de mais funções de perda agora. Vamos fazer isso sob a seção de otimização porque é realmente onde a maioria das funções são utilizadas
7. Otimização: na seção anterior leia F com funções perdidas com suas formas matemáticas de medir como previsões erradas feitas pelo novo networker Durante o processo de treinamento, ajustamos e alteramos os parâmetros dos pesos do modelo para tentar minimizar isso função de perda e vícios de maquiagem tão correta e otimizar quanto possível. Mas como exatamente você faz isso? Como você altera os parâmetros de imortal por quanto e quando temos os ingredientes, Como fazemos o bolo? Este é o lugar onde as otimizações entram. Eles estão tentando obter a função perdida em parâmetros morais ou os conselheiros de peso
atualizando a rede em resposta à saída da função perdida. Em cidades mais simples, otimiza a forma e molda seu modelo em modelos mais precisos ajustando os pesos e preconceitos. A função de perda é o seu guia. Ele diz ao otimizador, se ele está se movendo na direção certa ou errada. Você quer enviar isso melhor? Imagine. Acabou de comer couve Monte Everest? E agora você decide descer a montanha às cegas para a frente. É impossível saber em que direção ir. Você pode subir, que é longe de atrás ou descer. Somos apenas palavras. Você vai, mas eles começam. Você ficaria tomando medidas. Usando seus pés, você será capaz de avaliar se você está indo para cima ou para baixo. Nesta analogia, você se assemelha à rede mais recente. Indo para baixo. Seu objetivo é tentar minimizar o erro. Em seus pés são semelhanças com as funções los que medem, se você está indo no caminho certo ou no caminho errado. Da mesma forma, é impossível saber quais os pesos da manhã devem ser desde o início. Mas com alguma tentativa e erro baseado na função perdida, você pode acabar chegando lá eventualmente. Mas agora chegamos à classificação de descida. Muitas vezes chamado de avô de Optimizers, grading descent é um algoritmo iterativo que começa um pouco de ponto aleatório da
função de perda e viajou para baixo essa inclinação em passos até atingir o Louis Point com um mínimo de função é a otimização mais popular reutilizada hoje em dia. É rápido, robusto e flexível, e é assim que funciona. Mas não podemos liderar a pequena mudança em cada peso individual. Devido à função de perda, tivemos apenas cada taxa individual com base em seu int ganancioso, isto é, dar um pequeno passo na direção de determinar. O último passo é repetir o primeiro e o segundo passo até que a função perdida fique o mais baixo
possível . Quero falar sobre essa noção de tia-avó. O Grady int de uma função é o vetor das derivadas parciais em relação a todas as variáveis
independentes. O grande em sempre aponta na direção do aumento mais íngreme na função. Suponha que temos um gráfico assim, com perda no eixo Y sobre o valor do peso no eixo X, temos um pequeno ponto de dados aqui que corresponde à espera inicializada aleatoriamente para minimizar uma lenta. Então isso é para obter este ponto de dados do mínimo com função, precisamos tomar a grade negativa. E como queremos encontrar a diminuição e a função mais íngremes, esse processo acontece. OSI letal interpretativa minimiza o possível, e isso é ótimo e descendente. Em poucas palavras. Ao lidar com conjuntos de dados de alta dimensão, isso é muito disponível. É possível que você se encontre em uma área onde parece que você recentemente foi valor
possível para sua função de perda, mas na realidade é apenas um mínimo local para evitar ficar preso em um mínimo local. Nós nos certificamos de usar uma taxa de aprendizagem adequada. Mudar espera muito rápido adicionando ou subtraindo demais, ouseja, seja, tomar medidas que são muito grandes ou muito pequenas pode dificultar sua capacidade de minimizar a
função de perda . Nós não queremos fazer um salto tão grande que nós pulamos sobre o valor ideal para uma determinada espera para garantir que isso não aconteça. Usamos uma variável chamada Taxa de Aprendizagem. Se essa coisa é geralmente apenas um pequeno número como Point the Receiver um que multiplicamos o verde em comprar para redimensionar, isso garante que todas as mudanças que fazemos todos esperar um pouco na conversa matemática. Tomar medidas que são muito grandes pode significar que o algoritmo nunca convergirá para um ótimo. Ao mesmo tempo, não
queremos tomar medidas muito pequenas, porque talvez nunca acabemos com os valores certos. Para todas as taxas em matemática, etapas de discussão que são muito pequenas pode levar a otimizar uma convergência em um mínimo local para a função de perda, mas nunca o mínimo absoluto para um resumo simples. Basta lembrar que a taxa de aprendizagem garante que alteramos nosso peso no ritmo certo, não fazendo alterações muito grandes ou muito pequenas. Em vez de calcular o Grady INTs, todos os seus exemplos de treinamento em cada passagem da sepultura em porcentagem às vezes mais pesca usar apenas um subconjunto dos exemplos de treinamento a cada vez. Grau sarcástico em dissidência é uma implementação que usa lotes de exemplos de cada vez em exemplos aleatórios em cada passagem. Mantenham o gás acordado. Neste fim, anos do conceito de momentum acumula Grady INTs dos passos passados para ditar o que poderia acontecer nos próximos passos. Além disso, porque não incluímos todo o conjunto de treinamento, S g d é menos computacional, caro. É difícil exagerar o quão popular é a descida de classificação. Back Propagation é basicamente ralar descida implementado em uma rede. Eles são todas as guias de otimiza suporte, ótimo em dissidência que são usados hoje, e uma agarra adapta a taxa de aprendizagem especificamente para recursos individuais, então significa que parte do peso em seu conjunto de dados terá diferentes aprendizagens taxas do que outros. Isso funciona muito bem para o conjunto de dados esparsos, onde muitos exemplos de entrada estão faltando. Adigrat tem um grande problema, embora a taxa de aprendizagem adaptativa tende a ficar muito, muito pequenas horas extras. RMS prop é uma versão especial do Adigrat, desenvolvido pelo professor Geoffrey Hinton. Em vez de deixar todo o grau de Ian acumular a partir do momento, ele acumula saudações em uma janela fixa. RMS prop é semelhante a adicionar um prop, que é outro otimizador que procura resolver alguns dos problemas que em um Grand deixa aberto, Adam representa estimativa de momento adaptativo e é outra maneira de usar crédito passado para calcular o radiante de carbono. Adam também utiliza o conceito de momentum, que é basicamente a nossa maneira de dizer ao novo bug esquerdo se queremos passar alterações para afetar a nova mudança. Ao adicionar frações dos grandes ins anteriores para o atual, Este otimizador tornou-se bastante difundido, e é praticamente aceito para uso no treinamento de novas redes. É fácil se perder na complexidade de alguns desses novos otimizadores. Basta lembrar que todos eles têm o mesmo objetivo. Minimizar a função de perda e tentativa e erro irá levá-lo lá
8. Parâmetros VS VS: você pode ter me ouvido referindo às palavras parâmetros um pouco, e muitas vezes isso seria confundido com os parâmetros hiper tome e este vídeo. Vou delinear a diferença básica entre os dois. Um parâmetro moderno é uma variável que é interna à nova rede e cujos valores podem ser estimados a partir dos próprios dados. Eles são exigidos pelo modelo ao fazer previsões. Esses valores definem a habilidade fora do modelo em seu problema. Eles podem ser estimados diretamente do veado e muitas vezes não são definidos manualmente pelo peticionário. E muitas vezes, quando você salva seu modelo, você está essencialmente salvando seus mortais. Parâmetros. Os parâmetros são fundamentais para algoritmos de aprendizado de máquina, e exemplos deles incluem o peso e os vieses. Ah, hiper parâmetro é uma configuração que é externa ao modelo e cujo valor não pode ser estimado a partir de dados. Não há como encontrar o melhor valor para um modelo hiper parâmetros. Em um determinado problema, podemos usar regras de valores de cópia de polegar, usar outros problemas ou procurar o melhor valor tentando um erro. Quando um algoritmo de aprendizado de máquina é ajustado para um problema específico, como quando você está usando uma grande pesquisa de pesquisa aleatória, então você estava, fato, ajustando os hiper parâmetros do modelo. Em ordem descobriu os parâmetros que resultaram previsões mais cuidadosas. Hiper parâmetros morais são muitas vezes referidos como parâmetros, o que pode tornar as coisas confusas. Portanto, uma boa regra de ouro para superar essa confusão é a seguinte. Se você tiver que especificar um parâmetro manualmente, então é provavelmente, ah, hiper parâmetros. Terra-firmes estão no céu até a manhã. Alguns exemplos de hiper parâmetros incluem a taxa de aprendizagem para treinamento, uma nova rede, veja em Sigma, hiper parâmetros para máquinas vetoriais esportivas na chave e Can Urais vizinhos.
9. Epochs, lotes , tamanhos e as de lote: Precisamos de terminologias como épocas, tamanho
ruim e inspirações somente quando os dados são grandes demais, que acontece o tempo todo no aprendizado de máquina e quando não podemos passar todos esses dados para o computador de uma só vez. Então, para superar esse problema, precisamos dividir o conjunto de dados em pedaços menores, dar a um computador um por um ao atualizar o peso da nova rede no final de cada etapa para encaixá-lo nos dados. Dada uma época é quando um dado inteiro disse é passado para a frente para trás através da rede. Uma vez, na maioria dos modelos de aprendizagem profunda, usamos mais de uma época. Sei que faz sentido no começo. Por que precisamos de uma política? Dados inteiros disse muitas vezes através do mesmo em sua rede, passando todo o conjunto de dados através da rede em uma vez que ele está tentando ler toda a letra de uma música. Uma vez que ele não será capaz de lembrar a música inteira imediatamente, você tem que re ler as letras mais algumas vezes antes de você poder dizer, você sabe a música pela memória. O mesmo acontece com a nova rede. Passamos os dados disse várias vezes através da nova rede, isso é capaz de generalizar melhor descida gradação é um processo iterativo. E atualizar parâmetros e propagação de volta em uma única passagem ou ganhou um Polk não é suficiente. À medida que o número de Papas aumenta, mais os parâmetros são ajustados, levando a um melhor desempenho mortal. Mas para muitos, parques podem significar desastre. Na verdade, é algo chamado sobre encaixe, onde o modelo tem essencialmente memórias de padrões nos dados de treinamento. Na performance terrivelmente. Não foi visto antes. Então, qual é o número certo de livros E? Infelizmente, não
há resposta certa. A resposta é diferente para diferentes conjuntos de dados. Às vezes, seus dados em segundo lugar incluem milhões de exemplos de mandar todos esses dados disse de
uma só vez . Torna-se extremamente difícil. Então, o que fazemos em vez disso é dividir o conjunto de dados em um número de lotes em vez de pausar
os dados inteiros disse uma vez que o número total de exemplos de treinamento presentes em um único lote é chamado de situações de tamanho de lote é o número de lotes necessários para completar um livro e , não o número de lotes, é igual ao número de suas orações. Para um livro e, digamos que temos um conjunto de dados de $34 exemplos de treinamento. Se dividirmos os dados disse em dois lotes de 500, em seguida, ele vai demorar 60. Deu inspiração para completar um iPAQ.
10. Conclusão a terminologias: Bem, espero que isso lhe dê algum sentido sobre a terminologia básica são anos e
aprendizado profundo antes de seguirmos em frente. Eu quero mencionar isso, e você verá isso muito. Na aprendizagem profunda, muitas vezes
você tem um monte de escolhas diferentes a fazer. Quantas camadas ocultas devo escolher ou qual função de ativação deve usar e onde. E para ser honesto, não
há diretrizes claras sobre o que você tenta sempre ser. Essa é uma parte divertida da aprendizagem profunda. É extremamente difícil saber no início qual é a combinação certa para usar seu projeto? Que caixa de mim, meu caderno para você e uma sugestão do meu fim seria que você se envolva com materiais, mostrar dr várias combinações e ver o que funciona para o seu melhor. Em última análise, isso é um processo de aprendizagem para dirigir involuntário nesta costa. Eu vou te dar uma parte de intuição sobre o que é popular para que quando se trata de
construir um projeto de aprendizagem profunda, você não vai se perder
11. Regularização: um problema central na aprendizagem profunda é como fazer um algoritmo que irá funcionar bem. Não, apenas em dados de treinamento, mas também em novas entradas. Um dos desafios mais comuns que você enfrentará quando os modelos de treinamento é um problema ao ajustar uma situação em que sua manhã tenha um desempenho excepcionalmente bom em dados de treinamento. Os dados dos testes Norden. Veja, eu tenho um encontro de lado. Enxerto no plano X Y assim Agora eu quero construir um modelo que se encaixe melhor no
conjunto de dados . O que eu poderia fazer é traçar uma linha de algum inseto aleatório, lento, sido. Agora, evidentemente, este não é o melhor mais e, na verdade, isso é chamado sob ajuste porque não se encaixa no modelo. Na verdade,
subestima o conjunto de dados. Na verdade, Ele disse. O que poderíamos fazer é traçar uma linha que se pareça com isso. Que isso realmente se encaixa estão de luto o melhor. Mas isso é muito apropriado. Lembre-se, enquanto treinamos mostramos nossas redes e dados de treinamento, e uma vez feito, esperávamos estar quase perto da perfeição. O problema com este gráfico é que, embora seja provavelmente a melhor linha de ajuste para este gráfico, é a melhor linha de ajuste. Só você se sente considerando seus dados de negociação, não é? Net Book está para baixo neste gráfico é memorizado padrões entre os dados de treinamento e não
daria previsões precisas em todos os dados. Nunca tinha visto antes. E isso faz sentido porque o conjunto de padrões de memorização geralmente para executar bem
tanto em treinamento, bem como em novos dados de teste. Nossa rede, de fato, memorizou os padrões apenas nos dados de treinamento. Então, obviamente, você quer executar bem em novos dados nunca viu antes. Este é um problema sobre a montagem. Ele se encaixava demais. E, a propósito, este seria o tipo mais preciso de encaixe. Não é perfeito, mas um pouco bem em treinamento, bem
como em novos dados de teste com precisão considerável. Há algumas maneiras de lidar com o excesso de encaixe. O tipo mais interessante de regularização é o abandono. Produziu resultados muito bons e, consequentemente, é a
técnica de regularização mais utilizada e o campo da aprendizagem profunda. Para entender, desista. Digamos que temos uma nova rede com duas camadas ocultas vai cair, mas faz é que em cada iteração ele aleatoriamente selecionar algumas notas e removê-los, juntamente com suas conexões de entrada e saída e mostrado para Cada iteração tem um conjunto diferente de notas, e isso resulta em um conjunto diferente de saídas. Então, por que esses modelos têm um desempenho melhor? Estes modelos geralmente funcionam melhor do que um único modelo como ele captura mais aleatoriedade e memoriza menos dos dados de treinamento e, portanto, será forçá-lo generalizado melhor e construir um mais robusto, previsto mais. Às vezes, a melhor maneira de tornar um modelo de aprendizagem profunda generalizado é treiná-lo em mais dados. Na prática, a quantidade de dados que temos é limitada, e uma maneira de contornar esse problema é criar dados e atitude falsos. O conjunto de treinamento para algumas tarefas de aprendizagem profunda. É razoavelmente simples criar novos veados falsos. Essa abordagem é mais fácil para classificação. Classificado precisa tomar complicado, entrada de
alta dimensional X e resumir com a identidade da categoria. Por que isso significa que a principal tarefa que enfrenta seu classificador é estar em muito em uma grande variedade de transformações. Recon gerar novo X y pez facilmente apenas aplicando transformações na entrada X Y Em nosso conjunto de
treinamento aumento de conjunto de dados tem sido uma técnica particularmente eficaz para um problema de classificação
específico. As imagens de reconhecimento de objetos são de alta dimensão e incluem uma enorme variedade de fatores de variação, muitos dos quais podem ser facilmente simuladas operações como traduzir as imagens de treinamento. Alguns pixels em cada direção muitas vezes podem melhorar muito a generalização de muitas outras operações, como girar a imagem. A escala da imagem também se mostrou bastante eficaz. Você deve ter cuidado multiplicar a transformação que mudaria a classe correta. Por exemplo, reconhecimento
óptico de caracteres talus ted exigiu reconhecer a diferença entre um B e A D e a diferença entre um seis e invertidos horizontais irritantes e
convites de 180 graus não são apropriados. Raios de organização de conjuntos de dados para estes Casa Ao treinar grandes modelos com capacidade de
representação suficiente sobre caber a tarefa. Muitas vezes observamos que o erro de treinamento diminui constantemente ao longo do tempo, mas todos os conjuntos de validação começam a subir novamente. Isso significa que podemos obter um modelo com melhor validação,
disse erro, e, portanto, espero que melhores testes essa seta, interrompendo o treinamento no ponto
em que o ar no conjunto de validação começa a aumentar. Esta estratégia é conhecida como parada antecipada. É provavelmente a regularização anterior mais comumente usada na aprendizagem profunda hoje. Sua popularidade é devido à sua eficácia e simplicidade.
12. Introdução à aprendizagem: nesta seção, vamos falar sobre os diferentes tipos de execução, que são conceitos de aprendizado de máquina. Mas eu estendi a aprender profundamente sua corda nesta costa vamos passar por cima de aprendizagem
supervisionada, aprendizagem não supervisionada e aprendizagem de reforço.
13. Aprendizagem supervisionada: aprendizado supervisionado é o aprendizado de máquina de sub-ramificação mais comum hoje em dia. Normalmente, até mesmo use um aprendizado de máquina, sua jornada começará com algoritmos de aprendizado supervisionados. Vamos explorar o que estes são supervisionados. Algoritmos de aprendizado de máquina são projetados para aprender pelo exemplo. O nome supervisionado aprendizagem se origina da idéia de um treinamento. Esse tipo de algoritmo é quase como se houvesse um humano supervisionando todo o processo. Na aprendizagem supervisionada, nós treinamos modelos em dados bem rotulados. Cada exemplo é um pacote insistindo frequentemente objeto de entrada, que é tipicamente um vetor, e um valor de saída de experimento. Velho para chamar o sinal de supervisão fazendo treinamento é supervisionado. Algoritmo de aprendizagem irá procurar padrões nos dados que se correlacionam com as
saídas de design . Após o treinamento, ele terá um novo insumos invisíveis e determinará qual rótulo os novos insumos serão classificados como com base em dados de treinamento prévio. O objetivo, fora do modelo de aprendizagem supervisionado é prever o rótulo correto dados de entrada recém-apresentados. Na sua forma mais básica, um algoritmo de aprendizagem supervisionado pode simplesmente ser escrito como ventos iguais a fx. Por que a saída prevista que é determinada pela função de mapeamento que atribui uma classe foram valor de entrada? X, a função usada para conectar recursos de entrada a uma saída prevista é criada pela máquina . Muito modelo. Durante o comércio, aprendizagem
supervisionada pode ser dividido em fazer algumas categorias classificação e regressão fazendo treinamento. Um algoritmo de classificação será dado ponto de dados dentro da categoria atribuída. O trabalho de uma classificação argo -los é, em seguida, tomar este valor de entrada e atribuído a um custo de categoria que ele se encaixa em. Com base nos dados de treinamento fornecidos, o exemplo mais comum de classificação é determinar se um e-mail é spam ou não com duas classes de suco de spam ou não spam? Esse problema é chamado de problema de classificação binária. O algoritmo receberá dados de treinamento com e-mails que são spam e não spam. No modelo vai encontrar os recursos dentro dos dados que Corleto classe e criar função de
mapeamento. Então, quando fornecido com um e-mail não visto, o modelo realmente usa a função para determinar se o e-mail foi embalado ou não. Um exemplo de um problema de classificação seria o maior conjunto de dados de dígitos manuscritos onde as imagens de entrada de dígitos manuscritos Bixel, vedo e a saída é um rótulo de classe. Para que dígito? A imagem representa que é o número zero esta noite. Existem inúmeros algoritmos para resolver problemas de classificação cada, que depende dos dados e da situação. Aqui estão alguns algoritmos de classificações populares. Muitos classificam o IRS suportam as máquinas. Árvores de decisão vieram vizinhos mais próximos na Floresta do Regressão é um processo estatístico preditivo onde o modelo tenta encontrar a importante relação entre variáveis dependentes e independentes. O objetivo de um algoritmo de regressão é prever um número contínuo como escopos de
índice de renda de vendas . A equação para basicamente na regressão pode ser escrita como dobras Rex. Se eu representa as características dos dados e W de I e B são parâmetros que são desenvolvidos durante o treinamento para simples, então você é modelos de regressão com apenas uma característica nos dados. A fórmula é assim. Onde W é uma inclinação X é o único recurso, e B é por isso que inseto familiar Para problemas de regressão simples como este, as previsões do modelo são representadas pela linha de melhor ajuste para modelos usando dois recursos, um avião é de anos, e para modelos com mais de dois recursos, Ah, problemas de
hiper plano. Imagine que queríamos dizer a muitos alunos nota de teste com base em quantos sempre um estudo a semana do teste. Digamos que os dados mais com linha de melhor ajuste se pareça com isso. Há uma clara correlação positiva entre os estudados, a Variável Independente e a final dos Estudantes. Tesco é a variável dependente ah, linha de melhor ajuste pode ser desenhada através dos pontos de veados para mostrar as previsões morais quando dada nova entrada, dizendo que queríamos saber o quão bem um aluno faria com cinco horas de estudo, podemos usar a linha de melhor ajuste para prever o Tesco com base em performances de outros alunos. Outro exemplo de problema de regressão seria o conjunto de dados de preços Boston House com a entrada de variáveis que descrevem o bairro ea saída é um preço de casa em dólares. Existem muitos tipos diferentes de algoritmo de regressão três. mais comuns são a regressão de vigna, perda de regressão e a regressão múltipla variante. Aprendizagem supervisionada encontra aplicativos e problemas de classificação e regressão como bioinformática, como impressão digital da íris e reconhecimento facial e smartphones, reconhecimento de
objetos, detecção de
spam e fala reconhecimento.
14. Aprendizagem sem supervisão: aprendizagem não supervisionada é um ramo do aprendizado de máquina que é usado para se manifestar ao contrário padrões e dados e é freqüentemente usado na análise de dados exploratórios. Ao contrário da resposta de aprendizagem supervisionada. Enquanto o aprendizado não usa dados de rótulo, mas se concentra nos recursos dos dados, os dados de treinamento de
rótulo têm uma saída correspondente para cada entrada. O objetivo, muitas vezes sem supervisão algoritmo de aprendizagem é analisar dados e encontrar recursos importantes. Nesses dados, aprendizagem
não supervisionada muitas vezes encontrará subgrupos ou padrões ocultos dentro. Os dados dizem que um observador humano pode não pegar, e isso é extremamente útil assim que construir em breve. Descubra que a aprendizagem não supervisionada pode ser de dois tipos. Agrupando uma associação. agrupamento é o mais simples e entre os aplicativos mais comuns de aprendizagem não supervisionada . É um processo de cair os dados dados dados em diferentes clusters ou grupos. Classes irá condicionar dados ponto que tão semelhante quanto possível uns aos outros e como este semelhante possível aos dados apontados. Agora, o reboco de clusters ajuda a encontrar padrões subjacentes dentro dos dados que podem não ser perceptíveis através de um observador humano. Me dê uma batida em pop. Clustering adicional e partição de cluster hierárquico. Todo agrupamento refere-se a um conjunto de algoritmos de clustering em que cada ponto de dados em um conjunto de dados pode pertencer a apenas um cluster. agrupamento hierárquico encontra aglomerados por sistema de tortas Rochosas. Cada ponto de dados pode pertencer a várias agitações de classe. Algumas classes conterão clusters menores dentro dele. Este sistema de hierarquia pode ser organizado como um diagrama de árvore. Alguns dos algoritmos de clustering mais comumente usados são k significa maximização de expectativa. A análise hierárquica de cluster da associação
U.C A, por outro lado, tenta encontrar relações entre diferentes entidades. O exemplo clássico de regras de associação é a análise do cesto de mercado. Isso significa usar um banco de dados de transações no supermercado para encontrar itens que são frequentemente comprados juntos. Por exemplo, uma pessoa e batatas tendenciosas em hambúrgueres geralmente compram cerveja. Por exemplo, pessoa aconselhou tomates e queijo de pizza pode querer ser pão de pizza. Assim, supervisionado, solitário encontra aplicações em quase todos os lugares. Por exemplo, um B e B, que ajuda a hospedar dias e experiências e conectar pessoas em todo o mundo. Este aplicativo usa algoritmos de aprendizagem não supervisionado onde a consulta cliente potencial é um requisito e A B e B aprende esses padrões e recomendar estadias e experiências que se enquadram no mesmo grupo de jogador de cluster pessoa à procura de casas em San pode não estar interessado em encontrar casas em Boston. A Amazon também usa aprendizado não supervisionado para aprender as compras dos clientes e recomendar produtos que são frequentemente reunidos, que é um exemplo de mineração de regras de associação. A detecção de fraudes de cartão de crédito é outro algoritmo de aprendizagem não supervisionado que aprende os vários padrões de um usuário e um uso de cartão de crédito. O cartão emite em partes que não correspondem ao comportamento e alarme é gerado, o que pode ser marcado como fraude. E em alguns casos, sua mente bancária ligou para confirmar se estava usando o cartão ou não.
15. Aprendizagem de reforço: reforço. O aprendizado é um tipo de técnica de aprendizado de máquina que permite que um agente aprenda em um ambiente
interativo por tentativa e erro, usando feedback de suas próprias ações e experiências como aprendizado supervisionado, usando mapeamento entre a entrada e a saída. Mas ao contrário do aprendizado supervisionado onde ele se alimenta, que fornecido ao agente é um conjunto correto de ações para executar uma tarefa. Reforço aprendizagem usa recompensas e punições como sinais para o
comportamento positivo e negativo quando você comparado com o aprendizado de reforço de aprendizagem não supervisionado é diferente em termos de seus objetivos, enquanto o ouro não supervisionado aprendizagem é encontrar semelhanças e diferenças entre os pontos de dados em reforço. Aprender o objetivo é encontrar um modelo de ação adequado que maximize a recompensa total acumulada do reforço do agente. Aprendizagem refere-se a algoritmos orientados para objetivos que aprendem a atingir um objetivo
ou objetivo complexo , ou como maximizar ao longo de uma dimensão específica ao longo de muitas etapas. Por exemplo, eles podem maximizar o ponto de um no jogo ao longo de muitos movimentos. Algoritmos de aprendizagem de reforço podem começar a partir de uma ardósia em branco e, nas condições certas, alcançar um desempenho sobre-humano como um animal de estimação incentivado por repreensão e guloseimas, esses algoritmos são penalizados quando fazem o erro decisões e recompensado quando eles fazem os certos. Isto é reforço de reforço. Aprendizagem é geralmente modelo como uma marca do processo de decisão, embora outros frameworks como você aprendendo não utilizados alguns termos-chave. Descrevi os elementos de um problema de aprendizagem de reforço fora do meio ambiente, que é o mundo físico no qual o agente opera. O estado representa uma situação atual do agente. Recompensa é um feedback recebido do meio ambiente. Política às vezes é o método para mapear o estado do agente para as ações dos agentes. E, finalmente, o valor é uma recompensa futura que um agente receberá tomando uma ação em um determinado estado. Um problema amoroso de reforço pode ser melhor explicado através de ganhos. Vamos pegar o jogo de Patman se o ouro do agente ou Pacman é comer a comida na grade enquanto evita os fantasmas em seu caminho. O mundo da grade é o ambiente interativo para o agente. Packman recebe uma recompensa por comer comida e punição. Se for morto pelo fantasma, isto
é, perde o jogo. O estado da localização fora do Pac Man in the Grid varinha e a recompensa total acumulada é Packman vencendo o jogo. Reforço construção encontra, aplicações e robótica estratégia de negócios planejamento de tráfego como um sistema Web impulsionado, configuração e controle de movimento de aeronaves e robô.
16. Introdução a arquiteturas de rede neural: nesta seção, eu vou apresentar os três tipos mais comuns de novas arquiteturas de lead book hoje para taxa
reconectada para quando suas redes recorrentes suas redes e convolução sozinho suas redes.
17. Redes de propensão com alimentação com uma rede de alimentação com um efeito completo: O primeiro tipo de nova arquitetura de rede que vamos discutir é um pé totalmente conectado à frente. Nova rede. Por totalmente conectado, quero dizer que cada neurônio na camada anterior está conectado a cada neurônio na camada
subseqüente, sem qualquer conexão ao contrário. Não há ciclos ou loops nas conexões na rede. Como mencionei anteriormente, cada neurônio em uma nova rede contém uma função de ativação que altera a saída de um neurônio quando dada sua entrada. Existem vários tipos de funções de ativação. Eu posso mudar essa relação de saída de entrada para fazer um novo. Comportar-se em uma variedade de ondas algumas das funções de ativação mais conhecidas de trilhos de uma
função linear , que é uma linha reta que essencialmente multiplica a entrada por um valor constante. A função sigmóide que varia de 0 a 1. A função tangente hiperbólica ou botânica, variando de um negativo positivo na unidade inclinada rectificada ou a função rela, que é uma função branca de peça que produz zero. Se a entrada for menor do que um determinado valor, todos Alinea múltipla se a entrada for maior do que um determinado valor. Cada tipo de função de ativação tem seus prós e contras. Então nós os usamos em várias camadas na nova rede profunda com base no problema de cada um projetado para sal. Além disso, as últimas funções de reativação que nos referimos como funções não lineares porque a saída
não é um múltiplo linear da entrada sabe Lenny já é o que permite novas redes profundas para
modelar funções complexas. Usando tudo o que aprendemos até agora, podemos criar uma grande variedade de pés totalmente conectados para quando sua leitura de livros da Net criar redes com várias entradas. Muito recente colocar várias camadas ocultas, nuance para camada oculta e uma variedade de funções de ativação. Essas inúmeras combinações nos permitem criar uma variedade de novas redes poderosas e
profundas que podem resolver a variedade de problemas do vinho. A lua que você quer estar em cada camada
escondida, a largura do livro Net se torna. Além de cortar, escondido coloca nós e quanto mais profunda a rede se torna, entanto, cada novo em que adicionamos aumenta a complexidade, e isso é um recurso computacional necessário para treinar. Uma nova rede aumenta. Essa complexidade crescente não é linear no número de neurônios iniciados, então leva a uma explosão, complexidade e tempo de treinamento para grandes redes novas. Isso é reto. Se você precisa considerar quando você estava construindoredes
mais novase profundas redes
mais novas
18. Redes de neurais recorrentes: todas as novas redes. Sério, Scott. Até agora, eu conhecido como feed para um de suas redes a tomada de entrada de tamanho fixo e dar-lhe uma correção. Esforço olhos. Isso é tudo para nós. E é isso que esperamos que novas redes façam. Tomado uma entrada e dar um Appert considerável. Mas como se vê, estes livros simples ou baunilha não são capazes de modelar todos os problemas com a reabilitação de hoje. Para entender melhor isso, use essa analogia. Suponha que eu mostre a foto de uma tigela, uma tigela esférica redonda que estava se movendo no espaço em alguma direção. Acabei de tirar uma foto da tigela ou uma foto da tigela em algum momento. T Agora eu quero que você preveja a próxima posição da tigela e diga dois ou três segundos. Você provavelmente não vai me dar uma resposta precisa. Agora vamos olhar para outro exemplo. Suponha que eu acorde com você e diga, o pato de madeira. Você nunca entenderá minha declaração porque, bem, não
faz sentido. Existem combinações de trilagem usando apenas a palavra cão e entre essas trilhões combinações eu não espero usar. E agora adivinhem o que estou tentando dizer o que esses dois exemplos têm em comum é que isso não faz sentido. Ele não faz. No primeiro caso, espero que preveja a próxima posição no tempo e no segundo espero
entender o que quero dizer com cão. Estes dois exemplos não podem ser entendidos e interpretados a menos que algumas informações sobre o passado foram fornecidas. Agora, no primeiro exemplo, se eu lhe der os estados de posição anteriores da bola e agora pedir que você preveja a trajetória
futura da bola, você será capaz de fazer isso com precisão. E nos segundos portões dão-lhe uma frase completa dizendo que tenho um médico. Isso faz sentido porque agora você entende que do trilhão de combinações possíveis envolvendo um cão, minha intenção original era que você entendesse que eu tenho um pato. Por que eu lhe dei esse exemplo? Como isso se aplica às novas redes? Na introdução, eu disse, baunilha em suas redes pode manhã cada situação de problema que temos. E o maior problema, que parece, é uma alimentação de baunilha simples. Para quando suas redes não podem modelar dados
sequenciais, os dados sequenciais são dados na sequência. Por exemplo, uma frase é uma sequência do que uma bola se move no espaço é. Uma sequência da posição de Ola afirma na frase que mostrou que você entende cada palavra com base em sua compreensão fora das partes anteriores. Isso é chamado membro sequencial. Você pode entender o ponto de dados na memória bio sequência do ponto de dados anterior nessa sequência. Novas redes tradicionais não podem fazer isso, e parece ser uma grande falha. Uma das desvantagens das sequências matinais eram os novos dólares líquidos tradicionais é o fato que eles não compartilham parâmetros ao longo do tempo. Tomemos, por exemplo, estas duas frases. Na terça-feira, estava
chovendo e estava chovendo na terça-feira. Estas frases significam a mesma coisa, embora os detalhes estejam em diferentes partes da sequência. Na verdade, quando alimentamos as frases em um feed cheio em sua rede para uma tarefa de previsão, o modelo irá atribuir diferentes pesos fazer na terça-feira, e estava chovendo em cada momento no tempo. Coisas que aprendemos sobre a sequência não serão transferidas se aparecerem em pontos diferentes da sequência. Parâmetros de compartilhamento dão ao livro Net a capacidade de procurar um determinado recurso em todos os lugares da sequência, vez de apenas em uma determinada área. São as sequências móveis. Precisamos de um quadro de aprendizagem específico capaz de lidar com variáveis e sequências, manter a ordem das sequências e manter o controle de dependências a longo prazo, em vez de cortar batata muito curto e, finalmente, compartilhar parâmetros em toda a sequência de modo a não confiar nas coisas. E é aí que recupere novos livros. Orrin Ends são um tipo de nova arquitetura let book que usa algo chamado
loop de feedback na camada oculta. Ao contrário de feed forward New Net livros a recuperação de sua rede ou em e pode operar forma eficaz em sequências de dados com comprimento de entrada variável. É assim que em nossas babás UT representou este pequeno loop aqui é chamado de Feedback Loop . Às vezes você pode encontrar as extremidades RN representadas ao longo do tempo como este. A primeira parte representa a rede na primeira vez Etapa a nota oculta. Cada um usa a entrada X um para produzir saída. Por que um? Isto é exatamente o que vimos com medo básico quando seus dólares líquidos. No entanto, na segunda etapa de tempo a nota oculta no momento atual. Etapa H dois usa tanto a nova entrada X dois, bem como o estado da etapa de tempo anterior cada um como entrada para fazer novas previsões. Isso significa que em um carro em nova rede, usar o conhecimento de seus estados anteriores como entrada para sua previsão atual. E podemos repetir esse processo para um número arbitrário de etapas, permitindo que a rede propague informações através de seu estado oculto. Ao longo do tempo. Isso é quase como dar a uma nova rede uma memória de curto prazo. Eles têm esse conceito abstrato de memória sequencial e, por isso,
capazes de modelar certas áreas de dados sequenciais que novas redes autônomas não são capazes de modelar. Gravando suas redes lembram seu passado, e suas decisões são influenciadas pelo que aprendeu com o passado. redes básicas de avanço de alimentação
também se lembram das coisas, também se lembram das coisas, mas elas se lembram de coisas que aprenderam durante o treinamento. Por exemplo, uma imagem classificar empréstimos como um três se parece durante o treinamento e, em seguida, usar esse conhecimento para classificar coisas em produção. Então, como treinamos em Auburn? N? Bem, é quase o mesmo que treinar pessoas básicas, totalmente conectadas com rede, exceto que a propagação traseira em crescido eles está aplicando para cada ponto de dados de sequência em vez de toda a sequência. Este algoritmo é às vezes chamado de propagação de volta através do algoritmo de tempo será
algoritmo DT . Para realmente entender como isso funciona, imagine onde criar uma nova rede recorrente para prever a próxima letra que uma pessoa provavelmente digita com base nas letras anteriores que ela já digita. A carta que ele usou é muito importante para prever a nova carta. No entanto, todas as cartas anteriores também são muito importantes para esta previsão. Na primeira etapa de tempo, digamos, os anos de tipos de letra F. Então, quando a rede pode prever que as próximas letras e E com base em todos os exemplos de
treinamento anteriores que incluíam a palavra F d no próximo passo de tempo o usuário digita uma letra são tão onde Network usa tanto a nova letra R mais um estado do primeiro neurônio oculto. A fim de calcular a próxima previsão. L. A rede nos prevê por causa da alta freqüência de moedas na madeira F e l. Em nosso conjunto de dados de treinamento, adicionando a letra a minha levidade prevista, adicionando um fim prediz a letra K, que coincide com a palavra que eu uso para digitar, o que é franco. Há, no entanto, um problema com os nossos nomes conhecidos uma memória de curto prazo, memórias
mais curtas causadas pelo infame desaparecimento e explodindo problemas de classificação como eles estão em e processos Mo Woods. Ele tem problemas para reter informações de etapas anteriores. Como a nossa memória. Se você recebe uma longa sequência de números como pi e você tentar lê-los, você provavelmente vai esquecer os primeiros poucos dígitos. Certo? A memória de curto prazo e o desaparecimento grading é devido à natureza da retropropagação, o algoritmo usado para treinar e otimizar novas redes após a propagação direta
na passagem, a rede compara essa previsão com o verdade funda. Usando a função leis, que são colocados em uma linha, valorizar uma estimativa de quão mal o livro Net está realizando. A rede usa esse valor sempre para executar a propagação de volta, que calcula os ingredientes para cada nota na rede. A classificação é um valor usado para ajustar as esperas internas da rede, permitindo que a rede aprenda quanto maior o grande, maiores são os ajustes e vice-versa. Aqui é onde o problema reside ao executar a propagação de volta cada nota em um ingrediente
calculado baleia em relação aos efeitos das saudações na camada antes dele. Então, se o ajuste das camadas antes de ser pequeno, então os ajustes para o jogador de golpe serão ainda menores. E isso faz com que a grandeza seja exponencialmente encolhida como uma propagação de costas que os idosos não conseguiram correr como os pesos internos mal estão sendo ajustados dever, radiância
extremamente pequena, e isso é o grande desaparecimento em problema. Vamos ver como isso se aplica. Para recuperar novas redes, você pode pensar em cada passo de tempo em uma gravação de sua rede como uma camada para treinar a gravação de seu livro Net. Você usa um aplicativo de propagação reversa chamada propagação reversa. Ao longo do tempo, os valores da grade irão encolher exponencialmente na parte de trás, propagar-se através de cada vez. Passo de novo. A classificação é usada para fazer ajustes nas novas taxas de rede. Assim, ao longo dele, aprenda pequenos grãos. Pequenos ajustes médios sobre esta causa do antigo anterior não está sozinho. Por causa dos grãos desaparecidos, a dúzia de R N N aprendeu dependências de longo alcance em etapas de tempo. Isso significa que em uma sequência estava chovendo na terça-feira. Existe a possibilidade de que as palavras que termina guerras não são consideradas ao tentar prever a intenção
dos usuários. A rede, em seguida, tem que fazer o melhor convidado com na terça-feira, e isso é bastante ambíguo e seria difícil mesmo para Human. Portanto, não ser capaz de aprender todas as etapas do tempo faz com que o livro Net tenha uma
memória de curto prazo . Podemos vir na memória de curto prazo Finneran usando duas variantes de gravar novas redes. Gated R N N de e portaria de memória de curto prazo, também conhecido como sempre. Parece que ambas as variantes funcionam como nossas redes, mas são capazes de aprender dependências a longo prazo usando mecanismos chamados Gates. Esses portões são diferentes operações de tração que aprendem informações que podem aprender quais informações adicionar ou remover para o estado oculto de feedback. Loop. A principal diferença entre um gated ou nn e um LS iam está no fechado. Arnett tem dois portões para controlar sua memória e atualizar portão e redefinir portão, enquanto em Elysium tem três portas e colocar portão um portão de saída, e se você obter portão ou em extremidades, trabalhar bem para aplicações que envolvem sequências de dados que mudam ao longo do tempo. Essas aplicações incluem processamento de linguagem natural, sentimentos, classificação sequência de
DNA, reconhecimento de
fala e tradução de idiomas.
19. Redes de neurais de Convolutional: uma convolução em seu último livro ou CNN, para resumir, é um tipo de nova arquitetura de rede profunda projetado para Tallis específico como
classificação de imagem . CNN foram inspiradas pela organização dos neurônios no córtex visual do cérebro animal . Como resultado, eles fornecem algumas características muito interessantes que um útil para o processamento de certos tipos de dados, como imagens, áudio e vídeo. Como um livro totalmente conectado New Net, um CNN é composto de uma camada de entrada e camada de saída e várias camadas ocultas entre os dois. CNN derivam seus nomes do tipo de camadas ocultas de camadas consistentes das camadas ocultas da ASEAN e tipicamente consiste de convolução, uma camadas puxando camadas totalmente conectadas de cinza e camadas de normalização. Isso significa que, em vez da ativação tradicional, as funções estavam usando feed para quando suas funções de convolução e pool de redes por anos . Na maioria das vezes, a entrada da CNN é tipicamente uma matriz bidimensional de neurônios, que correspondem aos pixels de uma imagem. Por exemplo, se você estiver fazendo a classificação de imagem, a camada de saída é tipicamente uma dimensão. Convolução é uma técnica que nos permite extrair uma característica visual de uma matriz de dois D em pequenos pedaços. Cada neurônio em uma camada de convolução é responsável por um pequeno aglomerado de neurônios da maneira
anterior. A caixa delimitadora que determina uma classe de neurônios é chamada de filtro. Chame também um coronel. Conceitualmente, você pode pensar nele como um filme de filtro e cruzar uma imagem ao executar uma
operação matemática e leituras individuais da imagem. Em seguida, envia este resultado do correspondente que você está na camada de convolução. Matematicamente, uma convolução de duas funções, F N G é definido como quedas, que é de fato o produto ponto da função de entrada e o pool de função kernel alterna. Sub amostragem para baixo é o próximo passo em uma convolução em sua rede. Seu objetivo é reduzir ainda mais o número de neurônios necessários em layes subsequentes
da rede, mantendo ainda as informações mais importantes. Existem dois tipos diferentes de puxar que podem ser realizados Max puxando e puxando. Como o nome sugere. O pool máximo é baseado na coleta do valor máximo da região selecionada, e os homens puxando é baseado na coleta do valor mínimo dessa região. Quando colocamos todas essas técnicas juntas, obtemos uma arquitetura para uma rede Deep Newell, bem diferente de uma nova rede totalmente conectada para classificação de imagens onde CNN e usado pesadamente. Primeiro tomamos imagem de importação, que é uma matriz bidimensional de pixels, tipicamente com três canais de cor vermelho, verde e azul. Em seguida, reutilize uma camada de convolução com vários filtros para criar uma matriz de feição bidimensional como a saída para cada filtro. Em seguida, extraímos os resultados para produzir matriz de feição de amostra para cada filtro na camada de
convolução. Em seguida, normalmente
repetimos as etapas de convolução e puxando várias vezes, usando recursos anteriores como entrada. Então tivemos algumas camadas ocultas totalmente conectadas para ajudar a classificar a imagem. E, finalmente, produzimos uma previsão de classificação apenas na convolução do jogador de saída. Novas redes que usei fortemente no campo da visão computacional e funcionam bem para uma variedade de tarefas, incluindo reconhecimento de
imagem, processamento de imagens, segmentação de
imagens, análise de
vídeo e natural processamento de idiomas.
20. Os 5 passos para criar um modelo de aprendizagem profunda: nesta seção, vou discutir os cinco passos que são comuns em cada projeto de aprendizagem profunda que você construiu. Estes podem ser estendidos para incluir muito outros aspectos, mas e é muito frio lá, muito fundamentalmente cinco passos.
21. Como reunir dados e conjuntos de dados: dados estão no cerne do que é a aprendizagem profunda. Seu modelo só será tão poderoso quanto os dados que você traz. O que me leva ao primeiro passo para coletar seus dados. A escolha dos dados e a quantidade de dados que você exigiria em minúsculas depende do problema que você está tentando resolver. Escolher os dados certos é fundamental, e não posso enfatizar o quão importante os dados da banda desta festa implicam. Um mau motivo. Uma boa regra geral é fazer suposições sobre os dados que você precisa e ter cuidado para registrar essas suposições para que você possa testá-las mais tarde, se necessário. Os dados vêm em uma variedade de tamanhos. Por exemplo, conjunto de dados
Iris Flawed contém cerca de 150 imagens no conjunto total. Gmail Smart Reply tem cerca de 238 milhões de exemplos no conjunto de treinamento, e o Google Translate tem trilhões de pontos de dados. Quando você está escolhendo um conjunto de dados, não
há um tamanho adequado para todos. Mas a regra geral de vir é que a quantidade de dados que você precisa por um tempo executando modelo deve ser 10 vezes o número de parâmetros que mais. No entanto, isso pode diferir de tempos em tempos, dependendo do tipo de manhã que você está criando, por exemplo, e da análise de regressão, você deve usar cerca de 10 exemplos por variável preditora para imagem classificação. O mínimo que você deve ter é cerca de 1000 imagens, mas classe que você está tentando classificar bem, quantidade de dados importa. Qualidade
também importa . Não adianta ter muitos dados. Se são dados ruins, existem certos aspectos de qualidade que tendem a corresponder a manhãs de bom desempenho. Um aspecto é a confiabilidade. Confiabilidade invertida. Será que o grau em que você pode confiar seu modelo de dados trem em um conjunto de dados confiável é mais provável para produzir previsões úteis do que o trem modelo e dados não confiáveis. Quão comuns são os erros rotulados? Se seus dados são rotulados por humanos, às vezes pode haver. Erros são suas características. Barulhento é um completamente preciso alguns ruídos. Velho direito, você nunca será capaz de purgá-lo. Dados de todo o barulho. Existem muitos outros fatores que determinam a igualdade. Para o propósito deste vídeo, entanto, Eu sei que vai falar sobre o restante, embora se você estiver interessado, Eu deixá-los nas notas do show abaixo Sorte Ferraris. Eles estão para cima. 20 de nossas fontes na Web que oferecem bons conjuntos de dados gratuitamente. São alguns locais onde pode começar o seu encontro. Isso é tal? O Repositório Você vê, I machine Learning mantém cerca de 500 extremamente reais e conjuntos de dados que você pode usar em seus projetos de aprendizagem profunda. O gado é outro que você ama. Quão detalhado que os dados configuram-se para dar recursos informados, tipos de
dados, número de registros e assim você pode usar um coronel dois. E você não terá que baixar os dados. Defina as datas do Google. Essa pesquisa ainda está em beta, mas é um dos mais incrível sentido se você confinado hoje, pronto para é um ótimo lugar para solicitar os dados disse que você quer. Mas, novamente, há uma chance de não ser devidamente organizado. Crie seu próprio conjunto de dados que irá caminhar até você pode usar raspadores Web como sopa bonita para obter seus dados necessários. Com o conjunto de dados
22. Pré-processamento de dados: depois de ter selecionado sua data é que agora você precisa pensar em como você vai usar esses dados. Existem algumas etapas comuns de pré-processamento que você deve enganar primeiro, dividindo o conjunto de dados em subconjunto em geral, geralmente
dividimos um conjunto de dados em três partes de treinamento, teste e validação de conjuntos, motivos de
reciclagem com os treinamentos avaliados no conjunto de validação. E, finalmente, uma vez que está pronto para usar, testado uma última vez no conjunto de dados de teste. Agora é razoável fazer a seguinte pergunta. Por que não tem dois centavos de treinamento e teste Dessa forma, o processo será muito mais simples. Basta treinar o momento nos dados de treinamento e testado nos dados de teste. A resposta para isso é desenvolver um modelo envolve ajustar sua configuração em outras palavras, escolhendo certos valores para os hiper parâmetros ou os conselhos de peso. Este ajuste é feito com o feedback recebido do conjunto de validação é em essência da forma de aprendizagem. Assistir que não podemos dividir o Davis aleatoriamente fazer isso, e você terá resultados aleatórios. Tem que haver algum tipo de lógica para dividir o conjunto de dados essencialmente o que você quer é para todos os três conjuntos o teste de treinamento em validações que para ser muito semelhante entre si e para eliminar distorções, tanto quanto possível. Estas duas coisas dependentes. Primeiro, o número total de amostras em seus dados e o segundo ou o mais real que você está tentando treinar modelos com muito poucos parâmetros hiper será muito fácil de validar em sintonia, então você provavelmente pode reduzir o tamanho do seu conjunto de validação. Mas se você é mortal não tem muitos parâmetros hiper, você gostaria de ter um grande conjunto de validação, bem como considerado validação cruzada. Além disso, se acontecer de você ter um modelo sem hiper parâmetros,
aqueles que não podem ser facilmente ajustados, você provavelmente não precisa de um conjunto de validação todos os nem, como muitas outras coisas em aprendizado de máquina e profundo aprendizagem. O teste de sonho da taxa de propagação de validação também é bastante específico para o seu caso de uso, e fica mais fácil fazer julgamentos à medida que você treina e constrói mais e mais modelos. Então, aqui está uma nota rápida sobre validação cruzada. Normalmente, você não dividirá seu conjunto de dados no trem e no teste. Depois disso, você mantém de lado o conjunto de testes e escolhe aleatoriamente alguma porcentagem fora do conjunto de treinamento para ser o conjunto de trem real no restante para ser o conjunto de validação. O modelo é,
em seguida, relativamente treinar e validado nesses conjuntos diferentes. Há várias maneiras de fazer isso, e isso é comumente conhecido como validação cruzada. Basicamente, você usa seu conjunto de treinamento para gerar várias divisões do trem e conjunto de validação. validação cruzada evita o ajuste excessivo e está ficando cada vez mais popular com a
validação cruzada de dobra K sendo o método mais popular. Além disso, se você estiver trabalhando em dados de séries temporais, ah, técnica
freqüente é dividir os dados por tempo. Por exemplo, se você tem uma data está à frente com 40 dias de dados, você pode treinar seus dados de dias desejados 39 avaliar seu modelo sobre os dados do dia 40. Para sistemas como este, o trem caro é mais velho do que os dados servindo, então esta técnica e mostra a sua validação, disse espelha uma lank entre o treinamento e servir. No entanto, tenha em
mente que as divisões baseadas no tempo funcionam melhor alvorada. Conjuntos de dados muito grandes, como acontece com dezenas de milhões de exemplos. O segundo método que temos em pré processamento. É formatação, dizem
os dados. Você escolheu pode não estar no formato certo que você gosta. Por exemplo, os dados podem estar na forma de um banco de dados, mas você gosta dele como um recipiente Mice arquivo CS. Claro, existem algumas maneiras de fazer isso, e você pode Google em se quiser. Lidar com dados ausentes é uma das etapas mais desafiadoras na coleta de dados para seus projetos de aprendizagem profunda. A menos que você extremamente sortudo para pousar com o conjunto de dados perfeito, que é bastante vermelho, lidar com o querido desaparecido provavelmente levaria uma parte significativa do seu tempo. É bastante Coleman e problemas do mundo real perder alguns valores de nossas amostras de dados. Isso pode ser devido a erros na coleta de dados, espaços
em branco nas pesquisas, medições não aplicáveis, etc. Valores ausentes tipicamente representados com os indicadores any end ou no no. O problema com isso é que a maioria dos algoritmos pode lidar com esse tipo de valores ausentes, então precisamos cuidar deles antes de fornecer dados para nossos modelos. Há algumas maneiras de lidar com eles. Uma delas é eliminar as amostras das feições com valores ausentes. A desvantagem, é
claro, que você arriscou excluir informações relevantes. O segundo passo é imputar os valores em falta uma maneira comum para definir os valores em falta como um valor médio para o resto das amostras. Mas, é claro, existem outras maneiras de lidar com dados específicos. Set. Sê inteligente. É lidar com dados ausentes da maneira errada em desastres soletrais,
Às vezes, você pode ter muitos dados que o que você precisa, dados
mo pode resultar em maiores requisitos computacionais e de memória. Em casos como este, são as melhores práticas. Você era uma pequena amostra do conjunto de dados. Seria mais rápido e, em última análise, um aumento no tempo para você explorar e protótipos ilusões. Na maioria dos conjuntos de dados do mundo real, você vai se deparar com dados de desequilíbrio. Isso são dados de classificação. São proporções de classe fofas levando aos direitos de uma classe minoritária em uma classe maioritária . Se treinarmos um modelo em dados como este,
ah, ah, modelo só vai gastar tempo aprendendo sobre a classe maioritária e muito menos tempo na classe
minoritária e quantidade mãos será, em última análise, tendencioso para a classe maioritária e assim em casos como este, nós geralmente usamos um processo chamado para baixo amostragem e espera, que está essencialmente reduzindo o custo majoritário por algum fator e adicionando pesos exemplo
desse fator para o pano de amostra para baixo. Por exemplo, cada amostra para baixo a maioria custa por um fator de 10. Em seguida, o exemplo. Espere, nós adicionamos a esse pano deve ser 10. Pode parecer. Ou, para adicionar exemplo, peso após baixo algo. Qual é o seu propósito? Bem, há algumas razões, pelo
menos uma convergência mais rápida. Durante o treinamento, vemos a minoria elegante com mais freqüência, o que o ajuda a todos. Você converge mais rápido, mas consolidando a classe maioritária em alguns exemplos com
pesos maiores , gastamos menos esse espaço, armazenando-os estão esperando e calafrios. O multi ainda está calibrando. Nós somamos esperar depois de tropeçar para manter o conjunto de dados em proporção semelhante. Estes processos essencialmente ajudam uma manhã a parecer sobre os custos minoritários, em vez de
apenas a classe maioritária. Esta manhã teve um desempenho melhor em situações do mundo real. Recurso. O dimensionamento é uma etapa crucial na face de pré-processamento na maioria dos
algoritmos de aprendizagem profunda antes muito melhor ao lidar com recursos que estão na mesma escala. As técnicas mais comuns são a normalização, que inverte a escala re ou recursos para organizar entre zero e um, que na verdade é um caso especial de Min Max Scaring. Para normalizar esses dados, precisamos aplicar Escala Mínimo Máximo a cada coluna de feição. padronização consiste em centralizar o campo e a média zero com o desvio padrão, um para que as colunas de feição tenham os mesmos parâmetros de uma distribuição normal padrão que é média zero e variância unitária. Isso torna muito mais fácil para os algoritmos de aprendizagem para aprender o peso dos parâmetros . Além disso, ele mantém informações jovens sobre nossos alicates em torna os algoritmos menos sensíveis a eles.
23. Treinando seu modelo: Uma vez que eu fiz está sendo preparado. Nós agora alimentamos isso em uma rede para negociar. Discutimos o processo de aprendizagem de uma nova rede no módulo anterior, por isso, se não tiver
certeza, aconselho-o a lavar esse trabalho primeiro. Mas essencialmente, uma
vez que uma data foi alimentada, quatro propagação ocorre sobre as perdas em comparação com a função perdida sobre os parâmetros são ajustados com base nesta perda e corte novamente, nada muito diferente de seria discutido anteriormente.
24. Avaliando seu modelo: seu modelo treinou com sucesso Parabéns. Agora precisamos testar o quão bom nosso mortal está usando as validações no Reitz. Eu decido. Aqui, o processo de avaliação nos permite testar um móvel em relação a dados que nunca viu antes. E isso é para ser representativo do quão bom o modelo pode ter um desempenho no
mundo real .
25. Como otimizar a precisão do seu modelo: após o processo de avaliação, há uma grande chance de que sua manhã possa ser otimizada ainda mais. Lembrem-se, começamos com pesos e vícios, e estes vão encontrar Tune fazendo retropropagação. Bem, em alguns casos, má propagação não acertaria na primeira vez. E isso é OK. Existem algumas maneiras de otimizar sua manhã. Outros parâmetros hiper de eliminação é uma boa maneira de otimizar o desempenho de um modelo. Uma maneira de fazer isso é mostrando ao mortal todo o que mais tarde disse várias vezes. Ou seja, aumentando o número de épocas. Isso às vezes é mostrado para melhorar a precisão de outras maneiras. Ao ajustar a ordem de jantar, falamos sobre qual era a taxa de aprendizagem no módulo anterior,
portanto, se você não sabe o que os geradores fazem, convida-o a conferir o módulo anterior. Mas, essencialmente, o aprendizado redefine até onde mudamos a linha durante o seu passo. Com base nas informações da etapa de treinamento anterior na retropropagação, esses valores de todos desempenham um papel em quão preciso imortal pode se tornar e quanto tempo o treinamento chuta para modelos complexos. As condições iniciais podem desempenhar um papel significativo na determinação do resultado do treinamento,
há muitas considerações nesta fase do treinamento, e é importante que você definiu um faz um moderno bom o suficiente. Caso contrário, você pode se encontrar tweetando parâmetros por um longo, longo tempo. O ajuste desses hiper parâmetros permanece um pouco de um não e está se movendo
processo experimental que depende fortemente das especificidades do conjunto de dados, Morgan e processo de treinamento. Você vai desenvolver isso à medida que você vai mais e mais para a aprendizagem profunda, então não se preocupe muito com isso agora. Um dos problemas mais comuns que você encontra é quando você é mortal desempenho bem em dados de
treinamento, mas desempenho terrível seus dados nunca visto antes. Este é um problema ou ajuste. Isso acontece quando o modelo aprende um caminho e específico para o conjunto de dados de treinamento que em relevantes para outros dados não vistos. Há duas maneiras de evitar isso sobre encaixe. Obtendo mais dados e regularização. Obter dados de movimentação geralmente é a melhor edição. Um modelo de dados modo de treinamento irá naturalmente generalizar melhor. Reduzindo os lados mortais, reduzindo o número de parâmetros de aprendizagem
no modelo com
ele, sua capacidade de aprendizagem é outra maneira, no entanto, diminuindo a capacidade da rede você forçou a aprender padrão que importam, ou, em seguida, minimizar a perda. Por outro lado, reduzir demasiado a capacidade da rede conduzirá a uma instalação insuficiente. A manhã não será capaz de aprender os padrões relevantes nos dados do trem. Infelizmente, não
há fórmulas mágicas para determinar esse equilíbrio. Deve ser testado e avaliado definindo um número diferente de parâmetros na observação do seu desempenho. O segundo método para endereçar sobre o encaixe é aplicando regularização de peso ao modelo. Uma maneira comum de conseguir isso é restringir a complexidade da rede,
forçando-a a tomar apenas pequenos valores regularizando a distribuição dos valores de peso. Isso é feito adicionando a função perdida da rede, um custo associado a ter taxas maiores. E este custo vem para aumentar L uma regularização ao custo em relação ao valor
absoluto fora do coeficiente de peso ou o L um taxas normais para fora para regularização ao custo. Melhores proteções com valor quadrado fora do coeficiente de pesos que é o L para o peso normal . Outra maneira de reduzir o excesso de ajuste é através de dados de menting antigos para uma forma mais limitada. Bem, um satisfatório. Precisamos de muitos dados. Parece que já é. Mas normalmente, se você estiver trabalhando com imagens, há sempre uma chance de que seu aviso matinal se forme tão bem quanto você gostaria. Não importa quantos dados você tem em casos como este, quando você tem conjuntos de dados limitados, dados, aumento é uma boa maneira de aumentar um conjunto de datas sem realmente aumentá-lo. Organizamos artificialmente esses dados ou, neste caso, imagens para obtermos mais dois dados de dados já existentes. De que tipo de aumentos estamos falando? Bem,
qualquer coisa, desde virar a imagem do eixo Y, virar o desfoque em branco do eixo X até mesmo ampliar a imagem. Isso mostra que você é mortal mais do que o que parece. Ele expõe o seu modelado mais os dados existentes para que no teste ele irá automaticamente melhor
desempenho porque eles viram imagens representadas em quase todos os formulários. Finalmente, o último método que vamos falar sobre seu conta-gotas caiu é uma técnica usando
aprendizado profundo que largou grandemente unidades ou neurônios na rede. Basta colocar a diversidade abandonada ignorando os neurônios durante a tendência enfrentar um conjunto de neurônios
escolhidos aleatoriamente . Ignorando, quero dizer que essas unidades não são consideradas durante uma passagem para frente ou para trás em particular. Então, por que precisamos de robô? Por que precisamos desligar parte de uma nova rede? Um anterior totalmente conectado ocupa a maioria dos parâmetros e, portanto, nuances de
dependência de desenvolvedor entre si durante o treinamento, que restringe o poder individual de cada neurônio em que, em última análise, leva sobre a montagem do dados de treinamento, então abandone uma boa maneira de reduzir o excesso de encaixe.