Ciência de dados aplicada - 5: modelagem e previsão | Kumaran Ponnambalam | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Ciência de dados aplicada - 5: modelagem e previsão

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

20 aulas (4 h 40 min)
    • 1. Sobre a Série de Ciência de Dados Aplicada

      8:12
    • 2. Tipos de análise

      12:08
    • 3. Tipos de aprendizado

      17:16
    • 4. Como analisar resultados e erros

      13:46
    • 5. Regressão linear

      19:00
    • 6. Caso de uso de R : Regressão linear

      18:01
    • 7. Árvores decisórias

      10:42
    • 8. Caso de uso de R : Árvores de decisão

      19:36
    • 9. Classificador de baías naive

      19:21
    • 10. Caso de uso de R : baías naive

      19:12
    • 11. Florestas aleatórias

      10:31
    • 12. Caso de uso de R : florestas aleatórias

      18:47
    • 13. K significa conluio

      11:53
    • 14. Caso de uso de R: K significa conluio

      16:24
    • 15. Regras de associação

      11:30
    • 16. Caso de uso de R : Regras de associação

      13:11
    • 17. ANN e SVM

      4:35
    • 18. Sacos de ensacamento e reforço

      11:27
    • 19. Redução de dimensional

      7:28
    • 20. Caso de uso de R : métodos avançados

      17:18
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

262

Estudantes

--

Sobre este curso

Este curso faz parte da "Série de Ciência de Dados Aplicada" no SkillShare apresentada pela V2 Maestros. Se você quiser passar por todo o currículo, por favor registre todos os outros cursos e atravesse deles na sequência especificada.

Este curso se concentra em Modelagem e Predição. São explorados diferentes algoritmos para aprendizado supervisionado e não supervisionado. Os casos de uso são apresentados para os principais tipos de algoritmos.

Conheça seu professor

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Professor

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Sobre a Série de Ciência de Dados Aplicada: Hey, bem-vindo ao curso são reproduzidos sinais de dados com o nosso Este é o seu instrutor, Cameron Parnham pertencem de vídeo Vamos passar por Mastro e entender o que este curso é tudo sobre. O objetivo do curso é treinar os alunos para se tornarem profissionais de dados de pleno direito. Então, estamos nos concentrando em fazer pessoas praticantes que podem executar em dados de eventos desde o projeto desde o início, adquirindo dados até transformá-los, carregando em um final mais tarde nosso destino e, em seguida, realizando análises de órgãos sobre eles em finalmente alcançar alguns resultados de negócios a partir desta análise, o que você, fazendo este curso é você entender o conceito e conceitos de sinais de dados, você entende as várias etapas do no ciclo de vida fora de uma ciência de dados você desenvolve proficiência para usar o nosso uso ANDI estão em todas as etapas fora da ANALITICO desde análise de dados exploratória até diretriz por hora. É preciso modelar o dedo do pé. Finalmente fazendo previsão usando algoritmos de aprendizado de máquina aprendeu as várias ferramentas de engenharia de dados e técnicas sobre a aquisição de dados e limpeza de dados na transformação de dados. Conhecimento adquirido sobre as técnicas de aprendizado de máquina amigo sobre também aprender como você pode usá-los e também o mais importante, então você pode usá-los se tornar um praticante de ciência de dados de pleno direito e que é pode contribuir imediatamente para dados da vida real. Projetos científicos não mencionar que você quer levar esse conhecimento para sua entrevista para que você possa obter uma posição na ciência de dados. Terry era essa prática que queríamos tocar nessa coisa específica fora da teoria versus prática, dados, sinais, princípios, ferramentas e técnicas. Imagem de diferentes sinais e disciplinas de engenharia. Não, eles vêm de ciência da computação, engenharia da computação, informação, informação, probabilidade de terry e bastões de início, inteligência artificial e assim um sobre o estudo teórico de sinais de dados que se concentra nestes fundação científica e raciocínio fora dos vários Jardins de Aprendizagem Mission. Ele se concentra em tentar entender como esta missão aprender o trabalho de Salgado em um sentido profundo em ser capaz de desenvolver seus próprios algoritmos em. Desenvolva sua própria implementação desses algoritmos para prever um problema bola real. Apenas um habita muito fora em nossas equações e formal em privações e raciocínio. Considerando que o pacto está no até tarde em parte dos dados, a ciência se concentra em um jogo as ferramentas, princípios e técnicas, a fim de resolver problemas de negócios obter o foco em tentar usar técnicas e ferramentas existentes e bibliotecas em como você pode tomar estes e um jogá-los para realmente problemas de trabalho e sair com negócios merece. Este se concentra em ter uma compreensão adequada dos conceitos um conhecimento de quais são as ferramentas e bibliotecas disponíveis sobre como você pode usar essas ferramentas e bibliotecas para resolver problemas do mundo real. Portanto, este curso é focado na prática fora de sinais posteriores, e é por isso que é chamado de Inclinação da Ciência de Dados Aplicada dos cursos. Esta ciência de dados é um assunto trans disciplinar, e é um assunto complexo. Não se concentra principalmente em três áreas técnicas. Portanto, há matemática e estatísticas que é aprendizagem de missão. E há programação neste curso é orientada para. Você sabe, programação é orientada para profissionais de software existentes. Ele está fortemente focado na programação e na construção de soluções. Ele tem limitado e pediu exposição à explosão necessária. A matemática e as estatísticas sobre ele abordam a visão geral Os conceitos de aprendizado de máquina fornecem a você compreensão articulada sobre como esses aprendizado de máquina protegiam os livros. Mas o foco está em usar a ferramenta existente para desenvolver soluções do mundo real. Na verdade, 90 95% outro trabalho que mais tarde tempo ciência. Basta fazer no mundo real é a prática da ciência de dados. Não realmente, Terry, de maior ciência e este curso se esforça para manter as coisas simples e muito fácil de entender . Então nós definitivamente tornamos isso muito simples. Ficamos longe de um pouco do conceito complexo. Nós ou eles tentaram o tom do dedo do pé para baixo Estes conceitos complexos são apenas ficar longe deles de modo que torna fácil para a compreensão para pessoas de todos os níveis fora do conhecimento no campo da ciência de dados. Então é uma espécie de grande curso de enfermeira. Se posso dizer que a estrutura central que é passa pelos conceitos de maior sentido para começar, qual é exatamente a sua atribuição? Como funciona a ciência de dados? Ele analisa o ciclo de vida dos santos de dados com seus vários estágios de ciclo de vida. Em seguida, ele entra em alguns conceitos básicos de varas iniciadas que são necessárias para fazer sinais de dados. Em seguida, ele vai para a nossa programação. É questionar um monte de exemplos de como você usaria nossa programação para várias etapas no projeto de ciência de dados. Os vários estágios em dados enviados engenharia de dados lesionados, esforço parcial. O que outras coisas que você normalmente faz lá que é a engenharia de uma das melhores práticas na ondulação de dados, ele abrange essas áreas. Finalmente, há a parte de modelagem e análise preditiva onde nós construímos para a missão Aprendizagem ou Deus Adams. Nós também olhamos para Endo e casos de uso para esses algoritmos de aprendizado de máquina, e há alguns tópicos avançados também que abordamos. Finalmente, há um pacote de recursos que vem como parte deste curso, e esses resultados pacote basicamente contém todos os conjuntos de dados. Os dados arquivados o exemplo do tribunal revestimento sobre esse tipo de coisas que nós realmente ensinar como uma parte deste curso que é abordado nos exemplos todos eles são dados no pacote de recursos. Então eu não sei o pacote de recursos que tem todos os dados que você precisa e todos os exemplos principais que você precisa para você experimentar as mesmas coisas você mesmo. Diretrizes para os alunos, o jejum este dedo entender seus dados. Saints é um assunto complexo. Precisa de esforços significativos para compreendê-lo. Portanto, certifique-se de que, se você está ficando preso, faça a revisão e aliviá-lo os vídeos e exercícios faz. Ele chamou a ajuda de outros livros sobre recomendações de terras e fóruns de apoio. Se suas consultas 1000 preocupações faz, e isso é uma mensagem privada, nosso fazer postou esta pergunta pergunta, e vamos ser realmente felizes. Toe respondeu isso o mais rápido possível. Estamos constantemente procurando melhorar nossos cursos, então qualquer tipo de feedback que você tem é bem-vindo. Por favor, forneça feedback através de mensagens privadas são dois e-mails no final do curso . Se você gosta do curso, não dar deixar um comentário. Comentários são úteis para outros novos alunos em potencial para fazer este curso e esperar Maxim discos de outros cursos futuros do We Do Mastro, queremos tornar isso fácil para o relacionamento de nossos alunos com o outro. Nós fazemos cursos de mestrado são cursos são focados em ciência de dados, realmente um tópicos basicamente, tecnologias, processos, ferramentas e técnicas de santos de dados em. Queremos que nossos cursos sejam auto-suficientes, tanto quanto possível, hein? Então o que isso significa é que, se você é um estudante de mestrado existente nós fazemos, você vai fazer ver alguns conteúdos e exemplos repetidos em todos os cursos. Queremos fazer uma visão para si mesmos. Então, em vez de dizer isso, há algum ponto no curso? Certo, garota, olhe para o despótico como outros cursos. Registre-se para o outro curso e saiba mais sobre isso. Prefiro nos concentrar neste curso em si. Manter duas coisas no mesmo curso. A não ser que esse outro conceito seja um grande concerto. Que eles mesmos, de curso separado. Nós queremos a Índia eles como uma parte deste curso em si. Assim, você pode ver algum conteúdo que é repetido em todos os cursos. Finalmente, esperamos que este curso o ajude a avançar na sua carreira. Então, boa sorte. Aprendizagem feliz em Não manter contato. Obrigado. 2. Tipos de análise: Apresse-se. Bem-vinda. Deite a sessão de narcóticos e previsões. Este é o seu instrutor, Cormorant. Aqui nesta seção, nós vamos estar falando sobre um monte de coisas fora do aprendizado de missão. Você usou vários algoritmos de aprendizado de máquina para realizar análises preditivas? Só dois por um. Vocês são os conceitos que são expletivos de feijão. Vamos dar uma cara nessa sessão de sexo em particular vai ser um pouco complexa. Nós temos atenuado. É a complexidade deste algoritmos asma é possível para fácil compreensão. No entanto, se você lidar, se sentir confuso são, você sabe, se sentir preso. Por favor, re passar pelas apresentações 17 e sinta-se livre para usar outras referências. Ou na web são livros, toe cross check nossa cruz validar esses conceitos porque eles são, em geral, um pouco difícil de entender. Então, mas temos atenuado o máximo possível. Espero que toda essa sessão seja muito útil para você. Seguindo em frente. O que é que continuamos a ouvir sobre a análise analítica da ANALITICO em todo o mundo, e todos falam sobre a análise. Mas a questão é, o que exatamente são essas análises de que estamos falando? Alex, claro, é qualquer coisa que você faz com dados. Não olhe para os dados em várias formas e, em seguida, tente fazer inferências e tomar algumas ações. Mas há uma série de tipos de análises que você continuaria ouvindo o tempo todo. Então, só para ter certeza, aqui todos nós entendemos quais são os diferentes tipos de análise que existem hoje existe na linguagem, o primeiro passo de outro Texas chamado análise descritiva sobre isso é apenas entender o que aconteceu. Esta é a reportagem básica. E sempre que você tem um relatório que está saindo, você olha para o relatório e diz: “ Ok, Ok, eu vejo que foi isso que aconteceu ontem. Ontem fizemos uma venda, você sabe, $1000. Nesta semana, temos feito uma venda de $10.000. O desempenho de hoje em comparação com a última fala. Waas moveu-se 10%. Agora, esta é apenas essa Deborah. É apenas olhar e ver o que exatamente aconteceu no próximo nível de outro Texas chamado análise exploratória, onde você está tentando explorar e descobrir por que algo está acontecendo. Então ontem nós vemos que Ok, ontem eu fiz uma venda de US $1000 que é 10% a mais do que na semana passada Então por que houve um aumento de 10% nas minhas vendas? Não foi? Porque no gênero, Lester Day como era um feriado tudo Wasit porque eu tinha algum marketing acontecendo ontem por causa do qual havia alguns aumentando nosso não era mais importante, Wasit porque veted meu novo cofre veio de Foi da minha Teia? Foi de vendas online, como foi da minha loja? Diz “Wasit “de uma região específica, como foi principalmente do resto de nós? Era o leste dos usuários nós? Então, por que exatamente algo aconteceu onde exatamente algo aconteceu é o que o Explorer tratou a análise. Inferencial início ist analógico inferencial Texas Tentando entender um Borden e sua população de uma população de amostra aqui se refere a todos. Digamos que estou tentando analisar pacientes com câncer nos EUA EUA quando estou fazendo essa análise, eu não posso coletar dados sobre todos os pacientes e tentar trabalhar neles. Em vez disso, eu tomar uma amostra desta população alguns conjuntos off em 100 ou 200 pacientes tentando a menos que eles e uma vez que eu obter algumas descobertas, tomar essas descobertas e extrapolado que para o fim sua população. Então ele está tentando entender uma população de uma amostra que isso continua acontecendo normalmente quando você tem drogas testando sua droga em uma amostra de pessoas em, então isso é um lucro. Mas você tem certeza de que ele tem uma boa mistura de nossos tipos de arquivos de pessoas, como, você sabe, pessoas de todas as faixas etárias, pessoas de todas as etnias, igual porcentagem de homens e mulheres. E então você só o Doug e depois diz, quer saber? Esta droga funciona melhor em homens do que em mulheres. Então você só olhou para uma pequena amostra, mas você está apenas levando isso para extrapolar isso para a população indiana que é chamada análise inferencial. O próximo nível é a Análise Preditiva, que vamos falar no Dale nesta sessão sobre Análise Preditiva é sobre a previsão do que vai acontecer. Estamos tentando prever que vamos usar dados passados para entender as relações entre vários recursos são variáveis e usar esses dados passados para prever o que vai acontecer no futuro. Análise de Carcelle e análise causal é onde você está tentando descobrir o que acontecerá se e se eu mudar uma variável? Se eu mudar uma variável. Como isso vai impactar a outra variável? Suponha, por exemplo. Em marketing, temos carta para as coisas que eu tenho preço Eu tenho desconto em ter Filhas é assim que eu tenho descontos de preço no total de vendas e eu estou tentando entender como será o meu total de vendas impacto que supostamente eu reduziu a mudança preço do meu produto comprar, você sabe, $20. Como isso vai impactar meus totais? É o que vai acontecer se eu der um desconto de 30 pessoa? Eu não ia impactar as vendas que eu posso em uma espécie de cama para bebê uma lajes fora deste conflito 30% 40% 50 pessoa. Quando eu continuo fazendo quando você fizer esses descontos, como isso afetará minhas vendas gerais? Isso é chamado de análise causal na última coisa. Nós continuamos ouvindo é o que chamamos de análise profunda. Deep Analytics não é um tipo. É apenas um termo que está sendo usado no paradigma popular. Pois é o uso de técnicas avançadas para entender grandes e multi dia ativos para estado em profundidade no Ártico envolvido. Você sabe que qualquer um desses que falamos, você sabe que será em todas as previsões inferenciais extra-exploratórias em Castle tipo de análise . Em geral, Deep Analytics é como um nível avançado de análise que você faz. Vamos ver o que explodiu três. Será que eu pousei. É e explodiu. Analects é um dos primeiros passos que você faz. Uma vez que você obter seus dados em forma sobre esse objetivo principal fora do d. A é entender os preditores e alvos no conjunto de dados. Você quer entender como os preditores pareciam como os alvos se pareciam Quais são as relações entre os preditores nos alvos? Como nossos preditores estavam correlacionados com um alvo? Como eu queria que cada um dos preditores correlacionasse uns com os outros? Você tenta olhar para a relação entre essas variáveis e tentar entender como quando uma sobe, a outra também sobe. Mas como um sobe, o outro não é impactado que são. Você tenta entender essas relações. Quando você faz uma idéia. Ele é usado para descobrir padrões de entrada, que é novamente relação entre essas variáveis várias variáveis. Ele é usado para identificar variáveis-chave e eliminar variáveis indesejadas, que é você olhar para típico. Um grande trunfo chegando. Existem, como 20 variáveis diferentes e há um alvo em você quer O certifique-se de que você quer olhar para esses predadores e ver quais outros que estão altamente correlacionados com o alvo em que são os que não tem correlação com o alvo em. O que você deseja fazer é se você ver determinada variável que não tem correlação com o destino. Você quer eliminá-los, você não vai eliminá-los. Por que você quer eliminá-los? É porque mesmo se passarmos essas variáveis para um algoritmo de aprendizado de máquina, a missão de aprendizagem de todos os jardins simplesmente ignorará. Mas tem que gastar muito tempo e recursos. O algoritmo de aprendizagem da missão tem que gastar tempo e fontes tentando trabalhar nessas variáveis e entender padrões, que significa que vai levar mais tempo com mais energia da CPU, mais memória e coisas assim para que ele seja executado . Além disso, se você não tem nenhum uso de um big data, disse Leno. Dados enormes disse que você também tem que armazenar isso e se perguntou onde tabelas nos dados em uma data no armazenamento de dados e coisas assim para que você possa eliminar todos os elenco indesejado se você descobrir antes do tempo. Se houver algumas variáveis indesejadas em você só quer eliminá-las. Ele é usado para detectar nossos jogadores. E d. A. também é usado como uma grande ferramenta para descobrir se os dados contém alguns jogadores fora em melhor. Você quer eliminá-los? Não são É um também um dedo do pé dito, Farid-lo se a condição de dados anteriores processa possíveis erros. Então, quando você faz um monte de processamento de dados, você pode fazer uma rápida Edie sobre os resultados finais para ver se os dados parecem bem. O que você quer dizer com dados? Parece OK é que como um processo de ingestão de dados não tem nenhum bug por causa do qual ele introduziu . Alguns dados indesejados são. Quando ele estava tentando fazer alguma transformação de dados, isso fez bagunçar algo e coisas assim. Então você pode fazer esse tipo de análise usando um D A. E isso é bem simples e direto de descobrir. Suponha que você está fazendo uma transformação de dia. Supostas datas mortas estão vindo em vários formatos e você está tentando converter todas essas datas em um primeiro e fora dessa lógica pode ter outro, por causa do qual ele sempre coloca os mortos como mortos. Então, em coisas colocando a datada real, meus dados de colocação fizeram um. Se você fizer uma análise imediata, nosso prefeito analisa por dia tipo 80 de análise irá dizer-lhe imediatamente. Ok, todos os dias que um. Então, o que aconteceu com as datas? Então você pode voltar e olhar para os dados no DSI. Por que as coisas não estão acontecendo como é esperado que foi usado para testar suposições, e eu partes é assim que você normalmente tem um monte fora de suposição de que você faz uma hipótese que você faz sobre o que está acontecendo. Então suponha que suas vendas aumentaram 10% na semana passada e imediatamente as pessoas estão falando. Mas eu acho que as vendas subiu porque porque nós fizemos bons porões Agra são eu acho que as vendas subiu porque uma determinada região teve um desempenho muito melhor. Então as pessoas começam a fazer essas suposições são hipóteses sobre E.D.A. E.D.A. E.D.A. é uma ótima maneira de verificar e validar o iPod. É verdade como um válido e por que, exatamente dito e coisas que acontecem, as ferramentas usadas para e. D. A. R. As ferramentas que já olhamos para que estaríamos olhando como um parte da nossa turma. Os colchões de correlação Eso são uma das ferramentas mais primárias para e. D. A. Nós estaremos usando isso em todos os nossos casos de uso para olhar e entender como os dados se parecem com gráficos de caixa diz-lhe as variações no dados que estão chegando. Parcelas dispersas. Scatter plots afastados, permite analisar a relação entre duas variáveis. análise de componentes principais ajuda você a entender. Componentes principais. A análise é uma maneira automatizada de olhar para o seu dia, tomando as variáveis com alta previsibilidade e jogando fora variáveis com baixa previsibilidade. Portanto, é uma boa saída automatizada, eliminando em dados Wonder. Hist o gramas, é claro, história. Grams novamente são um grande esperado olhar um dados e entender tendências profundas e padrões. Obrigado 3. Tipos de aprendizado: Oi. Nesta sessão, vamos estar olhando para o que são tipos desonestos fora do aprendizado de missão em geral sobre o que é o aprendizado de máquina. Você já viu alguns fora disso quando estamos passando pelos conceitos de ciência de dados. Por isso, tentemos reiterar algumas delas. Os dados contêm atributos que contêm muitos atributos sobre esses atributos. Basicamente, mostrar relações são correlação entre as entidades. Então, se você olhar para os dados, há preditor de que há resultados em olhar para os dados. Você pode ver como uma variável influencia a outra variável aprendendo o processo de aprendizagem é sobre compreensão. Essas relações são correlações entre essas entidades. Isto é o que você geralmente nos chama de aprendizagem são, pelo menos neste termo de ciência de dados. Aprender significa entender a relação entre essas entidades no Mission Learning é usar um computador para fazer o mesmo. Missão de virar é usar um computador para analisar os dados automaticamente e aprender sobre as relações e entregue D correspondentes grizzles aprendizagem e aprendizagem missão. Isto é o que significa quando se trata de linguagem de ciência de dados. Quando você faz o aprendizado de missão em um dado, ele geralmente conta o que é chamado de modelo. Um modelo não é nada além de uma definição fora das relações entre os vários atributos. O modelo não passa de uma definição ou de uma explicação. Fora dos relacionamentos. Um modelo pode ser qualquer criação, especialmente voar, como você pode desenvolver uma variável a partir da outra. Um modelo pode ser uma árvore de decisão. Havia árvore que mostra usando uma árvore de decisão sobre esses valores variáveis. Como você pode obter o alvo final para que os modelos possam ser construídos em várias fases? E é isso que vamos ver no resto da turma. E argamassas podem ser usados para o agrupamento de dados para que você possa usar o modelo para agrupar dados semelhantes . Você pode tentar usar modelos para agrupar como clientes semelhantes. Produtos similares juntos são que você pode usar modelos para prever um resultado antes de entrarmos em missão. Aprendendo isso já vimos que apenas tentando criar taxa aqui. As missões só entendem números, e você saberá que os dados de texto precisam ser convertidos. As novas representações médicas para missões de trabalho de aprendizado de máquina não entendem o texto sobre. Temos que passar por um monte de processamento fora de texto para converter texto em uma exposição numérica , e nós somos representação numérica para algoritmos de aprendizagem de missão para olhá-los e fazê-los funcionar. Então os números precisam ser usados. Quero dizer, mesmo se você estiver usando classificações como excelente, bom e ruim, elas precisam ser convertidas em uma apresentação numérica. Então, quando você converte dados em dados categóricos e os usa como dados categóricos, o aprendizado de missão de Deus internamente os converte como representação numérica. Então, se você está se perguntando, eu estou passando dados categóricos lá dentro. Mas então os dados categóricos são marcados. Especificamente, Leggett é marcado como dados fatoriais algo assim para os algoritmos de aprendizagem de missão para compreendê-los. As variáveis booleanas são variáveis de indicador que outra coisa que você cria variáveis de indicador são variáveis booleanas são variáveis fictícias foram quando suas classificações excelente, bom e ruim. Você as converte nas novas variáveis de indicador, geralmente em menos um com valores de zero em um é criar métricas do documentum, pois se você tiver muitos documentos de texto, convertê-los em métricas de termo de documento e usá-los para análise. Agora vamos para a compreensão de que tipos fora de aprendizagem existem dois tipos de aprendizagem chamados aprendizagem supervisionada e aprendizagem não supervisionada. Se você está se perguntando, o que significa a palavra “supervisionar”? Há algum supervisor que vai ficar sentado lá e dizer ao carro o dinheiro, coisas assim? Não há nada assim. A diferença entre a aprendizagem supervisionada e a aprendizagem não supervisionada é que na aprendizagem de super resíduos é uma variável-alvo. Você está tentando atingir uma variável específica. Você está tentando prever uma variável-alvo específica como está tentando prever vendas. Você está tentando prever se uma pessoa tem doença ou não, então há uma variável alvo em novo. A pessoa externa especifica essa variável de destino. Então essa é toda a supervisão. Você faz isso. Então não há nada complexo lá. Você apenas dizendo o que a variável alvo é, e é por isso que é chamado de aprendizagem supervisionada em aprendizagem não supervisionada em não há nenhuma variável alvo. Em vez disso, você estava apenas olhando para os atributos e, em seguida, tentando agrupá-los juntos. Você está tentando criar grupos de cinco ou grupos ou 10 em sua tentativa de agrupá-los. Com base nos atributos. Suponha que você tenha dados que, como 100 atributos, você não pode inspecioná-los visualmente e agrupá-los. Em vez disso, você os dá para uma missão. Aprendizagem vai protegê-los, que vai e analisa os dados e vê como Qual dessas amostras eles são levantados em? Os dados estão mais próximos uns dos outros e vem para cima e dizer, Ok, estes são os vários grupos iPhone com base na semelhança de valores. Alguém que eu seja inestimável significa como se pertencesse ao mesmo país. Eles são do mesmo gênero. São da mesma faixa etária. Então ele tenta encontrar semelhança entre as coisas e tenta agrupá-las. Assim, observações são agrupadas por semelhante ser exibido por DVDs. Entidade semelhante. Isso novamente vem de dados e semelhança pode ser ah, off Essas entidades são tipicamente, você sabe, seus valores baseados em distância. Como eles foram ordenados valores baseados distância é a distância entre os valores. Como, digamos, há uma pessoa A com idade 15 pessoa estar com 8 16 A distância entre os valores é apenas 15. Menos 16 é um. Se houver outra pessoa cujas idades 25 no distante entre 15 e 25 anos 10 Assim semelhante D é baseado na distância. Em outras palavras, esperança distante estão quão longe estes valores estavam uns dos outros. Obviamente 16 é menos estão mais perto de 15 do que um valor 25. Então 16 é muito mais semelhante a 15 do que o valor 25. Então esses são valores baseados em distância. Nossa presença ou ausência de um valor é uma espécie de S r não nada. Então, se duas pessoas são ambos do sexo masculino, então você vê o n Ismael tipo de uma variável indicador será sempre sim, como combate fazer. Se a pessoa é mulher, então esse valor será zero. A presença ou ausência de um valor também pode ser usado para entender semelhante. Quais são os tipos de aprendizagem não supervisionada? O 1º 1 é chamado de clustering, onde a idéia é apenas agrupar com base em dados. O segundo é chamado Association Rules Mining em associação. Será que minar o seu tempo para falar sobre como as coisas são usadas em conjunto? Não. Se o exemplo clássico é de cesta de mercado, onde análise onde você vai e descobrir em um supermercado, quais itens são reunidos? Então, o T semelhante aqui é em termos de seu uso em termos de padrão de compra. Semelhante a ouvir é como eles estão juntos na filtragem colaborativa. Você está novamente tentando fazer dia semelhante entre as pessoas são semelhantes a entre itens com base em usá-lo novamente. Você está tentando encontrar clientes semelhantes em um exemplo clássico de filtragem colaborativa é se você ir para o ponto com incrível, você tenta analisar e descobrir quem são. Os usuários similares são as pessoas que estão tentando fazer coisas semelhantes. Que coisas semelhantes eles fazem. Eles vão e olham para o mesmo tipo de produtos. Eles compram o mesmo tipo de produtos que dão o tipo semelhante de comentários para que um povo semelhante . Então esses são os três tipos de aprendizagem não supervisionada. Nós vamos estar explorando cada um desses tipos mais tarde na classe. No caso do aprendizado de super desperdício, você está tentando prever atributos desconhecidos, também chamados como resultado baseado em atributos conhecidos. Suponha que você tem um dado disse que tem três itens. Havia talvez quatro itens na idade. Vamos dizer que é a idade do cliente, o preço do produto e se o cliente por não são, e então isso é Se você tem, você terá passado e o pastor que você vai saber todas as três variáveis sobre. Então o que você vai fazer é você vai construir um modelo que vai prever se o cliente vai comprar ou não com base na idade do cliente sobre o preço do produto. Então, no futuro, você não sabe se o cliente não vai comprar ou não. Mas você saberá a idade do cliente e o preço do produto, então você tenta prever se o cliente vai comprar não são baseados nos valores fora da idade no local do produto. Os modelos são construídos usando dados de treinamento, modo que os dados de treinamento são os dados nos dados passados onde você sabe sobre os resultados anti preditores. Você sempre aprende com o passado depois e depois. O modelo é então usado para prever os resultados futuros onde você só sabe as variáveis preditoras , você sabe, OK, quem é meu cliente? O artista atribui, mas eu não sei se ele vai comprá-lo ou não, mas eu quero fazer uma previsão sobre se este cliente vai comprar não são estourar em que eu iria tomar alguma ação de negócios. Então a ideia de fazer uma previsão é fazer alguma ação de negócios. Então, o que eu sou que tipo de ação de negócios pode ser é que eu poderia tentar fazer algum marketing ou marketing de vendas para esse cliente. Sou um pregador para o cliente. Faça uma ligação, mande um e-mail para ele. Se eu sei que o cliente tem uma maior propensão para comprar, então um cliente que não vai se importar com o produto os tipos fora de aprendizagem supervisionada são para um deles é a regressão colorida. No caso de regulamentação, você está tentando em aliados e encontrar sobre valores de resultado contínuos. No caso das classificações, estamos a tentar encontrar aulas. No caso de regulamentação, você está tentando prever valores como prever a idade de uma pessoa ou prever o preço de algo produto, o valor total de algo, o caso de classificações. Você está tentando prever uma classe ou um grupo que essa pessoa possa pertencer aos pés. Normalmente, ele começa com as classificações binárias como o poço, o cliente, por nossa não vai comprar arte. Pode ser mais como algo como um bom, ruim, muito bom, bom, mau tipo de classificação. Além disso, você pode tentar prever se fomos. Os clientes do banco devem ser um cliente de ouro ou um cliente de prata ou um cliente de platina com base em várias coisas onde seus atributos, você sabe sobre os clientes. São todos itens de aprendizagem supervisionados. Então, qual é o processo? Aprendizagem de super resíduos. A aprendizagem supervisionada tem um grande processo. Você, por favor, passe algum tempo entendendo como esse processo funciona. Para iniciar o processo, você tem dados históricos passados. Na verdade, você deve estar usando uma quantidade significativamente grande de dados. Algumas previsões precisam ser excelentes. Veja todos os dados passados do seu passado, maiores valores de preditores de variabilidade no resultado. Valores como olhar para os dados passados você tem atributos de um cliente atributos de um produto e, em seguida, se uma venda foi feita ou não, que são dados passados. A primeira coisa que você faz é dividir esses dados no conjunto de treinamento em um conjunto de testes. A divisão dos dados é muito grande. Alavanca usada, feito usando algum mecanismo aleatório, alguns geradores aleatórios e divisão aleatória. A idéia de usar uma divisão aleatória é que quando você espalhar um raider em um treinamento e dados de teste, disse que deve reter conjunto de dados de treinamento do corpo e o teste da poeira que deve reter individualmente as características do histórico mais tarde. O que eu quero dizer com isso, tanto quanto supostamente nos dados históricos, digamos 30% de desconto os clientes realmente compraram o produto. Então, a relação entre o que é nós, não por sua 30 para 70 quando você faz uma divisão entre o treinamento e dados, disse que o treinamento necessário. Conjuntos de dados interessantes devem ter individualmente a mesma proporção de 30 a 70 ou edição semelhante de 30 a 70. Isso é o que é chamado de uma tira adequada em. Isso não é apenas para uma variável. Você sente, digamos, de 10 variáveis diferentes no conjunto de dados. Todas essas variáveis precisam exibir a mesma coisa. Deve manter seus padrões. A única maneira que você pode saber o que manter seus padrões é usando um gerador de números aleatórios , porque quais registros entrarão no treinamento que eu disse. Quais registros irão para o conjunto de dados de teste uma vez que você cuspir os dados de treinamento é que intestino fez afirmar que você não usaria os dados de treinamento para o processo de aprendizagem. O que eu quero dizer com os processos de aprendizagem que você passou os dados de esforço, disse Toe missão algoritmo de aprendizagem em que algoritmo de aprendizagem de máquina sai em constrói um modelo e contas ou o modelo. Então vamos dizer que você passa alguns dados contínuos. Ele constrói um modelo que pode ser impresso como uma equação ou uma árvore de decisão. Então eu quero construir um modelo. Como testamos o modelo? Como você se certifica de que o modelo é bom em previsões? Modelo é bom em prever o que é suposto prever é que eu uso o conjunto de dados de teste. Então eu jogo o modelo no conjunto de dados de teste. Lembre-se que o teste que faz isso realmente já tem o resultado conhecido. Mas eu também estou tentando saber usar o modelo para prever Bem-vindo. Então agora eu tenho um valor previsto no valor real. Então o que posso fazer é compactar o valor predito com o valor real e descobrir o quão preciso é a minha previsão para que eu possa combater o valor previsto com o valor real ligado. Tente descobrir o quão boa é a minha previsão que é chamada de processo de teste. Então eu não olhei bem, quão boa é a minha previsão é que realmente um grande ou não é um grande e então eu posso tomar uma decisão de deixar voltar atrás. Este já é o processo da noite de um país. Então você olha para o ano de resultados, então você volta, ajustar seu processo de aprendizagem. Como tratamos meu processo de aprendizagem é que eu poderia eliminar algumas variáveis. Eu poderia adicionar algumas novas variáveis que eu poderia tentar. Algumas técnicas como a criação de variáveis de indicador são tentar, centralizar e dimensionar e ver Se meu modelo tiver um desempenho melhor, eu poderia tentar diferentes algoritmos de aprendizado de missão para os mesmos algoritmos de aprendizado de máquina . Posso ajustar os parâmetros para ver se melhora as minhas previsões. Portanto, há um processo iterativo. Você passa até chegar a um nível satisfatório fora das previsões. O que é um nível satisfatório? Depende do caso de uso. Não há fórmulas globais para 80% como bom em 90% é bom. Depende do tipo de medo que você tem. Então, uma vez que você tem ah estão razoavelmente confiantes que meu modelo é bom. Então ele se torna meu modelo final. Uma vez que eu tenho um modelo final sempre que tem novos dados vindo em dados onde eu sei as variáveis preditoras , mas eu não sei o resultado. As nossas variáveis alvo. Quando a nova filha vem em, I Um jogo que novos dados. Então o modelo final e, em seguida, usá-lo para fazer a minha previsão em então essa previsão é o seu resultado real. Você pode fazer como tentar vários modelos também, Às vezes você pode desenhar do que ter um modelo. Você pode ter um conjunto de modelos inteiro e ir e tentar vários modelos e, em seguida, ver qual deles funciona. Melhor é que às vezes você pode usar para, tipo, cinco modelos diferentes construídos a partir de cinco algoritmos diferentes e, em seguida, fazer uma votação como dedo do pé Qual qual resultado particular vem mais desses modelos? Há muitas combinações que você pode fazer, o que veremos mais tarde no futuro. Obrigado. Treinamento, investimento, dados. Ah, novamente, apenas revisando o que acabamos de ver, o que acabamos de falar sobre histórico mais tarde contém preditores e resultados. Você divide os dados em treinamento e teste Os dados de treinamento de dados são usados para construir o modelo e, em seguida, testar sua dieta é usado para testar o modelo em Como você testar é que você joga o modelo em dados de treinamento. Você prevê o resultado compacto, o resultado com o valor real. E é assim que se mede a precisão. Os pontos sobre as práticas recomendadas de treinamento e teste é que você normalmente faz uma divisão 70 30 . Então, se você tem 100 registros 70 os carros vão para o conjunto de treinamento e 30 registros ou o teste disse, e você tem que fazer seleção aleatória de registros, a fim de manter o mesmo tipo fora de dados espalhados em ambos os conjuntos de dados. Nós estaríamos dia fazendo este treinamento e teste de divisão em nossos casos de uso, é claro, para que você possa ver como, exatamente esse é feito. Então este país conclui a discussão sobre os tipos fora de aprendizagem. Obrigado. 4. Como analisar resultados e erros: alto nesta seção vamos estar falando sobre Como combatemos os resultados de nossas super maneiras? Exercícios de aprendizagem sobre que tipo de líderes são possíveis durante este exercício. Então, quando você vai quando você quer comparar os resultados de nosso treinamento e teste exercício, o que você constrói é o que é chamado de matriz de confusão. Eu não sei por que eles chamaram de matriz de confusão, mas é isso que você constrói. Como a matriz de confusão é construída? É isso, Clark, para previsões contra os reais para a propriedade? Er Então você basicamente construir um modelo com os dados de treinamento disse então, em seguida, usado que contra o dedo de dados de teste realmente testar o modelo. Em seguida, você plod esta matriz de confusão em que os valores reais fora dos resultados são as variáveis alvo são plotados aqui como colunas. Os valores. Neste caso em particular, não é resultado de ouro. É uma verdadeira precipitação. Falso resultado. Talvez estejamos tentando prever pacientes que têm uma doença específica, então os reais aplaudiram. Pergunte às colunas. Seu verdadeiro ou falso sobre o que você previu é parte de albergues mais rosier, verdadeiro ou falso. Então você está tentando comparar as previsões reais do Stooge. E então você preenche esta tabela em particular como o maney realmente se separou corretamente. Quão maney reais? Você previu incorretamente. Então isso é o que você chama de matriz de confusão. O colchão de confusão diz-lhe as previsões corretas e as previsões incorretas. O que você vê nisso? Diagnosticado aqui são as previsões corretas sobre o seu Verdadeiro previsto, tão verdadeiro e falso quanto falso. Os que você vê aqui seis e nove são previsões incorretas. Então, quando você faz, ah, exercício de teste, você tira um dia, pega seu modelo e joga com os dados do teste. Então você constrói essa matriz de confusão para entender o quão preciso seu algoritmo é. E este lhe diz claramente, variam barreira. Todo o jardim está dando errado. Neste caso, é só verdadeiro ou falso, mas às vezes o fez. Isso pode até ser categórico mais tarde como excelentes, boas, muito boas coisas extras como essa. Então você olha, você sabe que é ruim. Exactamente. Isso está dando errado. Como é? É Maio Ele pode estar indo errado, se em termos off às vezes o que acontece é que seria predizer falso, o todo o falso como falso. Mas às vezes pode estar prevendo a verdade como também falso como este pode ser alto. Isso pode ser baixo, então esse tipo de diferenças vai acontecer. E você pode analisar mais detalhadamente essas métricas de conversão para entender como suas previsões estão funcionando. Então essas previsões, é claro, podem ser bullying ou são classes. E veríamos ambos os tipos de métricas de conversão como parte de nossos estudos de caso. Então, quais são os vários tipos de previsão? Então, quando se trata da matriz de confusão lá é preso em termos que estão sendo usados no campo rial em, você teria ouvido muito sobre, você sabe, falsos positivos e verdadeiros positivos, especialmente no campo médico. Estes termos não são altamente utilizados. Então vamos tentar ir e entender o que é isso. Então, se você olhar para a mesa do lado direito, você vê o que é a verdadeira tropa positiva que Asa faz é certo. Positivo. Isso é o que se chama um verdadeiro positivo. Seu verdadeiro corretivo aqui representa a precisão e positivo é basicamente a temporada de resultados aqui. Um verdadeiro positivo é o seu corretamente previsto. O verdadeiro aqui, falso negativo é algo que é um verdadeiro seu preditor como queda então o para isso é o que é chamado de falso negativo. Então você tem um falso positivo onde algo é um falso e você não pode prever incorretamente que isso é verdade e, em seguida, verdadeiro negativo é uma previsão correta é negativo. Quando você disse verdade no amigo, isso significa que é previsão correta. Quando você diz cai na frente, é previsão incorreta. Então esse outro termo que eu usei para defender cada uma dessas caixas nessas caixas realmente desempenham um papel muito importante quando você está discutindo resultados de previsão. Verdadeiro, positivo e verdadeiro. Negativo, claro, é que você sabe, esses são os esperados, mas você tem que se concentrar em falsos positivos e falsos negativos. Mais para entender a precisão de suas previsões. Até agora, é positivo. Por que, por que é falso, Positivo e falso negativo são importantes é que às vezes é sobre o que é aceitável e o que não é aceitável. Às vezes, dependendo do seu caso de uso, falsos positivos são OK, mas falsos negativos não estão OK em algum outro campo de falsos negativos são OK, mas falsos positivos não estão bem. Por exemplo, no campo médico, você está tentando fazer alguns testes e então você está tentando prever se o paciente tem uma doença ou não? Falso-negativo no campo médico é crítico,o que significa que alguém tem uma doença. Falso-negativo no campo médico é crítico, O real é verdade, mas na verdade é verdade aqui. Mas você está tentando nos enganar. Então alguém realmente tem uma doença. Um novo algoritmo de previsão prevê como falso. Isso é inaceitável. Você não quer falsos negativos. Isso significa que você não vai estar tratando alguém que tem uma doença e isso pode ser realmente fatal. Até agora, tantos feijões não são aceitáveis no campo médico. Falsos positivos passados são aceitáveis. Ok, alguém não tem uma doença. Ele prevê que a pessoa que está sempre doente, você toma essa pessoa como um paciente, geralmente você vai fazer mais testes e descobrir tudo bem. Esse cara não tem uma doença. Tudo bem, mas falsos negativos não são aceitáveis. Farsa possivelmente não eram aceitáveis? - Não. No sentido judicial, você sabe o que isso significa é que alguém não é Alguém não tem sido uma reivindicação. E você está prevendo que alguém fez um grande e que é novamente CD é você sabe , você está prevendo uma pessoa inocente como um criminoso esse tipo de proteção novamente, não aceitável. Portanto, depende do caso de uso quanto a qual é aceitável em qual não é aceitável . Algumas fórmulas são algumas métricas de confusão Mavericks que você continua ouvindo sobre o qual você estaria usando muito na linguagem de ciência de dados São estes tão jejum é precisão? Como posso ter certeza de receber uma previsão? É basicamente tomar verdadeiro, positivo e verdadeiro negativo. Essas são as minhas produções atuais divididas pelo número total de amostras. Então você tem todos eles são amostras que a contagem fora o número de amostras, certo? Então ele disse, verdadeiro positivo mais troll negativo. Eles foram atingidos por todo o resto. Tropa ainda estão bravos, negativo por mais por desenvolvê-los. Por favor, venha todas essas fórmulas à memória porque se você está indo para entrevistas, essas outras perguntas que eles normalmente podem fazer a você sensibilidade é como o quê? Quão bom você é em prever os verdadeiros positivos? Então, se você diz sensibilidade chamada de verdadeiro positivo, eles foram por verdadeiro positivo por falsos negativos, sensibilidades sobre esta coluna. Então vem a especificidade. Especificidade está a bordo da coluna falsa, então você é diferente. Tomando muito negativo aqui e o desgaste por dois negativos mais farsa especificidades positivas sobre esta cor falsa. Então vem a posição. Precisão é sobre esta coluna no passeio destruiu o verdadeiro que é verdadeiro positivo. Um Prue muito ruim positivo mais falso positivo. Então, estas são as várias fórmulas que é usado para definir a precisão off. Suas previsões tipicamente disse, estas são algumas coisas que você vai encontrar em entrevistas que você manteve fez este tipo de perguntas. Edições de produção. Então, que tipo de editores você recebe em previsões? Existem dois tipos de erros com os quais você deseja se preocupar. Um deles é chamado de viés e o outro é chamado de variantes. Então, o que é viés por nós acontece quando os modelos se orientam para certos aspectos das previsões enquanto ignoram outros. O que você faz com que seja distorcido quando esta é uma explicação complexa? Então deixem-me dar-vos um bom exemplo. Suponha que você tenha. Você é trágico tentando prever a idade de uma pessoa, ok na água. E quando você tenta realmente fazer um teste e tentar prever uma idade da pessoa e tentar encontrar a diferença entre a previsão eo real você vai ver que a diferença está sempre em algum lugar em torno de menos cinco. A diferença é sempre como menos quatro menos três menos quatro que ele estava tentando pular é realmente inclinado para terceiro intervalo de menos phi. Então tudo contido previsto em torno desse desvanecimento menos, a diferença é sempre em torno de menos phi. Isso é o que se chama viés. Então você vê, aqui neste é um exemplo muito alto por nós na Bíblia. Você vê que em coisas atingindo o alvo e o espelho é sempre fofo. As palavras um fim. É sempre em torno deste menos Phi menor seis mineiros para o tipo de coisa. Variantes, por outro lado, refere-se à estabilidade de um modelo. São o quão precisos estão perto. Ele está tentando sempre prever o que eu quero dizer novamente por um muito interessante dizer o mesmo exemplo fora da idade quando ele tenta prever a idade. Qual é o erro? O erro pode estar aqui em todo o lugar para uma noite menos fogo a próxima pessoa a deslocar a luta, e isso é um deleite e há um menos seis eo outro está em todo o lugar, modo que é chamado variante e no gráfico à direita, disse, Você vê, em uma comparação do que é alto por nós e baixo por nós eo que é alto vilões e baixa obediência, eu realmente quero estar no canto inferior esquerdo, onde há baixos compradores e baixa variância alto por, como você vê a coisa toda tem, como inclinado para uma variância final. Por outro lado, você vê um alto spread. Há uma propagação da previsão que está acontecendo, enquanto no caso de compradores baixos e bibliotecários novamente, há propagação acontecendo. Mas o espalhou isso ao redor do centro. Mas você tem altos compradores e alta variância os spreaders contra bonito que é alta propagação e alta inclinação que está acontecendo. Assim, compradores e variantes são dois aspectos importantes que são discutidos quando você está tentando discutir muito é algoritmos de aprendizado de máquina e quão bom este aprendizado de missão desprotegido eles mesmos. Há certa aprendizagem de máquina em guarda, , que tendem a ter alta por nós. Que então eu tenho variante. Então estas são coisas que você quer estar atento para tipos de erros que são enfrentados ar durante uma previsão de protegido. Hum, a primeira coisa é em amostra em amostra. Aconteceu ali. O que está em empreendimentos de amostra? Você vai construir um modelo e aprender super desperdício. Em seguida, você usa o modelo no próprio conjunto de dados de treinamento. Então você constrói um modelo com os mesmos dados, você constrói o modelo. Então você vai jogar o modelo no mesmo mais tarde disse que você construiu o modelo fora, então você jogar o modelo para o conjunto de dados de treinamento em DSI. Quanto esse modelo pode prever os dados a partir dos quais ele é construído. Idealmente, dado que o modelo é construído a partir dos dados de treinamento disse que deve ser muito preciso sobre os dados de treinamento estabelecidos em si. Essa última é a minha camisa como na carta de amostra. Então vá para o erro de amostra high-end do modelo. Isso é algo realmente ruim que está acontecendo é que não há sinais suficientes nos dados ou algo assim, porque atletas no mínimo, o modelo deve prever os dados de treinamento definidos com precisão fora do erro de amostra é Basicamente tudo o resto. Então, sempre que quando Yamada List costumava prever em um novo conjunto de dados como um conjunto de dados de teste são realmente, Abdullah disse. Qual é a área que você obtém em termos de previsão dos reais que chamou fora carta de amostra sobre pé é um conceito que se refere a uma situação em que há letra de exemplo muito baixa , mas muito alta, fora da amostra carta. O que isso significa é o modelo de quando você tenta prever usar o modelo de um trem bonito obter um conjunto em si. Não fica sozinho muito mais tarde. Mas quando você tenta prever, os novos dados dizem, é muito difícil como muito alto. O que isso significa é que o modelo está sobreajustado em si mesmo devido ao treinamento inocente. Se você olhar para isso, Data disse que os dados disseram, como sinais bons, um bom sinal e os dados disse não ruído. Ele também tem um monte de ruído em termos off. Ele mostra alguns padrões falsos, tendências falsas para, e então o modelo tenta se adaptar muito aos dados de treinamento. Set it modelos embarcar os sinais e o ruído. Mas o que acontece quando você entra em um novo encontro? Eu disse que o novo conjunto de dados estava indo toe apenas manter as mesmas características de sinal, mas ele pode não ler o mesmo. São boas características. Então, quando ele tenta prever sobre os novos dados, que eles são o árabe que você vai ter é bastante alto. Então é isso que se chama oferecer-lhe. Ele tem muito, muito bom em muito baixo em erro de amostra e muito alto fora de erro de amostra. E isso é algo que acontece quando os dados disseram que você usa é muito pequeno que talvez você não tenha quantidade suficiente de dados para caracterizar tudo o que está acontecendo no mundo real. Em segundo lugar, o conjunto de dados de treinamento não é um reflexo da situação que você está tentando prever. Por exemplo, você pegaria dados sobre seus clientes de telefone e, em seguida, você tenta prever como suas células da Web serão. Então, se os padrões de vendas de telefone e vendas da Web são diferentes, obviamente o que o modelo que é construído em seu conjunto de dados de telefone não vai prever o seu vibrar, Eu disse com muita precisão. Então, essa é a razão. Isso faz o quê? Algumas das razões pelas quais você pode ter sobre tudo o que acontece quando você está tentando fazer uma missão de aprendizagem previsões Obrigado 5. Regressão linear: Oi. Nesta palestra, vamos discutir sobre o primeiro algoritmo de aprendizagem de missão chamado regressão linear . A análise de regressão é um muito popular e um muito antigo amadurecido e um método muito usado quando se trata de analisar a relação entre duas variáveis são, na verdade, múltiplas variáveis. Então, outra análise de regressão. O objetivo é construir uma equação. A equação em que o preditor é considerado o y No resto. Desculpe, o resultado é considerado o Y, e todos os preditores são considerados o X em. Então você está tentando prever o Y com os ovos usando essa equação. Então ele tenta estimar o valor de variáveis dependentes de variáveis independentes usando uma equação de relacionamento. A equação de relação é o modelo na regressão próxima. Então, quando você está fazendo modelagem em regressão linear, você está tentando construir nada além de uma equação que explica a relação entre a variável dependente em variáveis independentes dependentes aqui sendo o resultado, variáveis e variáveis independentes sendo as variáveis preditoras. Geralmente é usado quando as variáveis dependentes e independentes são contínuas. Então tudo são números, e ambos são números contíguos. Então essa é uma análise de regressão entra em jogo onde você está tentando prever um número vez de tentar fazer classificações em análise de regressão, você precisa dedo do pé. Sempre olhar para algo chamado Goodness Off Fit são quão boa a análise de regressão sobre quão boa a equação explica a relação entre o preditor nas variáveis-alvo . Então, vamos ver como este bom nozes off para deter teste minado em como você tem que olhar para esta bondade oferecido para ver verificar o quão bom um modelo que esta análise de regressão tem sido. Vamos começar com o para entender o que é uma equação linear que você pode ter já está neste tipo de equações lineares em suas aulas de matemática, em sua escola ou em sua faculdade. Então, uma equação linear é algo que explica a relação entre duas variáveis com uma equação. Então vamos considerar que X é uma variável independente. E por que a variável dependente é? Você pode explicar a relação entre X e usando uma equação chamada y igual Do al para X mais batedor. Então, por que a variável dependente é a variável de resultado? Nossa variável alvo X é a variável independente são a variável preditora em. Você pode escrever qualquer pergunta Onde Por que igual dedo Alfa X mais B em com eles determinando os valores certos para todos batedor fino. Você pode prever por que, usando os valores desativados. X Alfa é chamado de inclinação os alfas chamado de inclinação porque é como todos os dedos físico caminho por X é a fórmula que eles normalmente usam é um número em. Se você olhar para o gráfico no lado direito, você vê que esta é uma linha que a inclinação da linha está em causa por X na interceptação da linha interceptação fora da linha é bitta be amarra o valor off y quando X é igual a zero. Então, quando você coloca X igual a zero na criação do mar, no momento em que você colocar X igual a zero, eu descobrirei que o X se torna zero. Então por que ele chamou o batedor? Sobeih amarra o valor onde a linha no tríceps, o acesso branco tão desordem também. Então, quando você construção de modelo de regressão linear idiota, você está praticamente tentando encontrar os valores fora alfa e beta porque você já sabe X I apenas fora dos valores mais ousados de Alphen batedor. Uma vez que você conhece os valores de Alpha e beta, você pode determinar branco. Então, quando você está construindo um modelo, o processo de construção moderno vai e olha para os dados e tenta chegar com os valores de alfa e beta ajustando uma linha. Vamos eso você já sabe o que uma equação é agora como usamos esse conceito para fazer esses modelos de construção na aprendizagem de missões? Chama-se o conceito de encaixar uma ligação. Então, qual é a sua base? A linha, ele diz, está aqui, dado um gráfico de dispersão do porquê O que é um ajuste sexual? Uma linha reta através dos pontos de modo que a soma dos quadrados de distâncias verticais entre os pontos na linha, como muitos devem. Então, o que exatamente esta linha em particular está dizendo? Suponha que você tem duas variáveis X e Y. Digamos que excesso de idade e deixe Us Airways peso, e então você apenas desenhar este gráfico e, em seguida, traçar esses pontos neste ofício para os pontos vão ser como em todo o lugar. O objetivo de encaixar uma linha é desenhar uma linha através do ponto do gráfico, desenhar uma linha reta através dos pontos de tal forma que. Então, o que é isso? Isso diz, tentando encontrar a distância. A distância vertical entre cada ponto e o comprimento, pois tentei encontrar a distância vertical entre cada ponto da linha. Agora, essa distância será mais tarde positiva ou negativa. Então escureça cada uma dessas medidas. Então alguns o Escudeiro cada uma dessas medidas e resumi-lo que é chamado a soma dos quadrados fora distâncias verticais. A descoberta de distâncias verticais os escureceu e, em seguida, algo. Então o objetivo é agora neste conjunto particular de pontos, você conduz qualquer matança, você pode traçar uma linha como esta. Você pode ir on-line como este trem. Você pode gostar de chocalhar do jeito que quiser. Mas o objetivo é desenhar uma linha tal que estes alguns off Squires de distância vertical da soma dos quadrados de distâncias verticais é o menor valor possível. Então, se você desenhar como cinco linhas através desses pontos e tentar encontrar a soma dos quadrados fora distâncias verticais, o objetivo é baixo. Pegar a linha, que tinha esta soma de quadrados fora das distâncias verticais, é o mais baixo são o mínimo mais valor. Então é assim que você desenha uma linha através dos pontos Obviamente, quando você diz que a soma dos quadrados fora distâncias verticais é muitas, Linha Mãe vai resolver viagens através dos pontos set off quase através do meio. Isso é para cima. Você vai ter uma linha. Havia o distante entre os pontos, e a linha é minimizada. Então, mais uma vez, dê uma olhada. Desenhe uma linha através do tipo de ponto. Encontre o distante vertical entre cada ponto na linha em. Certifique-se de que eu desenhar uma linha de tal forma que esta distância é uma espécie de mini húmido para a melhor linha é igual aos menos resíduos. Os rendimentos de receitas na integração não são nada, mas eles são alguns fora de quadrados, alguns fora de Squires. A distância vertical é chamada de menina receita porque eu fiz a coisa Presidio que não é ainda eles ainda não são mapeados são o que você vai ver. O negócio do resto. A diferença que o resto do mundo significaria porque a linha é na verdade o seu modelo. Nos pontos são os valores reais. A diferença entre o modelo e os valores reais são tipo de resíduos, então a melhor linha é a linha onde as chamadas do presidente são o mínimo que você pode lembrar que a terra pode ser ajustada a qualquer tipo de pontos. Não é necessário que esses pontos tenham que ser como quase caindo na pista. Os pontos podem estar em todo o lugar e você ainda pode, querida, A única coisa é que, se fizermos isso, se os pontos estão em todo o lugar, a linha não é um bom preditor para o nosso vermelho alterando os pontos. Então isso é algo que veremos na próxima luz. Então o que encontramos aqui é que esta equação a equação para este comprimento da linha que você desenha através deste tipo de pontos esta linha eleventy equação. Onde por que ele chamou todos para X mais B. Agora que a equação se torna o preditor fora do caminho. Essa equação se torna o modelo pelo qual você pode usar os valores do X Alfond beta para determinar por que quando você constrói um modelo, você está basicamente descobrindo os valores de Alfond Beta. Agora, você pega este modelo e você tem novos dados. Os novos dados vão lhe dar X Então nosso jogo X no modelo. Você já tem Alfond beta disponível no modelo e então você uma vez que você tem esta equação você pode praticamente encontrar o que o valor fora. Por que a bondade está fora disso? Como temos estado a falar? Como faço para descobrir se a linha é um bom preditor fora dos pontos que você mede algo chamado nós. Bondade fora disso. Essa é uma medida chamada Are Square. Nosso quadrado é uma medida que é apenas tipo fora da soma dos quadrados fora. Nós falamos sobre a soma dos quadrados fora das distâncias é R quadrado é uma fórmula para o mais do que isso, mas ele usa esse valor residual para descobrir quão bom medo, Linus. Então alguns são quadrados é um valor que vai de 0 a 1. Então tem seu próprio lote de fazenda. Não vamos entrar nisso. Normalmente, um algoritmo de aprendizado de máquina quando ele dá o modelo também lhe dará o r ao quadrado para o moderno. Então a coisa é, o valor r quadrado, quanto maior o valor, melhor s Você está em forma na parte inferior. Aqui você tem três. Um monte de três conjuntos de dados e você vê para cada um deles, no entanto, é que r ao quadrado olhando como assim O 1º 1 Você vê, os pinheiros estão quase caindo na linha sobre este tem uma equação. Além disso, por que ele chamou o 10.97 x mais 4.0 pontos +18 em seu R ao quadrado é 0.95 bastante alto, muito perto de um agora. Os pontos na segunda trama, você vê, estão meio longe da linha um pouco. Eles ainda caem na linha, mas tipo de vacilar longe neste r ao quadrado é como 10.74 e o 3º 1 você vê que os pontos estão em todo o lugar. Sobre isso, nossa pontuação esta 10.24 Então, obviamente, isso significa que os pontos estão caindo tipo de quase de comprimento. Então pergunte o que é diferente. Vai ser mais alto nesta linha vai ser um dia muito bom. Dominica são muito bom modelo para prever Y x e esposa, porque por que dizemos que isso é agora, Se este ponto este pontos vai ser mais perto, dedo do pé esta linha. Quaisquer novos dados que estão chegando em um novo valor fora de X, nós também vamos classificar fora um novo valor de X e Y também cairá quase na mesma linha. Se o conjunto de dados de treinamento e o dia de produção faz que têm as mesmas características de modo que quando você colocou esse lugar de equação, seu vai definitivamente previu uma esquiva um nível muito maior, então você tem algo no Terceiro Graf onde os pontos estão por todo o lado, um novo ponto feito vem aqui em algum lugar aqui em algum lugar aqui em algum lugar aqui. Vocês poucos prevêem Por que o sábio novamente não será tão preciso? Se os pontos em si vão estar por todo o lugar da placa? Nesse caso, um modelo linear não caberá. Na verdade, a razão pela qual você diz que é uma moral linear é que você deve ser capaz de encaixar os pontos em uma linha reta. E isso só é possível se os pontos já estiverem caindo quase em linha reta. Lembre-se que você sempre pode mudar dizendo que não se importa lá. Não precisa ser que os pontos tenham que ser todos caindo no mar. Linha reta você pode sempre com a linha, mas você tem que usar o nosso quadrado para descobrir o quão bom fora de um ajuste este modelo particular é. Correlação mais alta geralmente significa melhor ajuste. Normalmente, se você olhar para o coeficiente de correlação entre duas variáveis, se o coeficiente de correlação é maior entre as duas variáveis e os pontos são a cartilagem em coalizão tão alta, nosso esquadrão também será vice-alta. Então, no momento em que você está fazendo Explorer fez analistas e usando coeficiente de correlação sendo gentil, você pode muito bem dizer que você pode encontrar uma dessas variáveis usando reunir usando Lee perto de regressão 10 Big quer toe múltiplo regressão. O que é regressão múltipla? Mas há mais de uma variável dependente que é usada para prever Desculpe. Onde há mais de uma variável independente existem vários preditores que é usado para prever uma variável dependente. Isso é principalmente o uso porque você é, você dificilmente terá uma situação em que há apenas uma variável preditora normalmente tem um número de variável preditora e você tem uma variável alvo. Agora, nesse caso, as equações se estendem para assim. Então por que eu chamei o beta, que é a interceptação de interceptação ainda vai estar lá, mais alfa um mais x um mais Alfa Do mais X dois. Então, o que você vê aqui é que Alfa One Alfa Dough, Alfa três Todos estes estão se tornando os coeficientes para cada variável preditora após. Então, para cada impressão digital possível, você tem uma proibição. Então, quando você faz agressão ao vivo neste caso, você vai estar determinando o valor da beta fora do interesse sobre os coeficientes. Para cada uma das variáveis preditoras, este é provavelmente o caso de uso. A única coisa é que se você quer um irmão em um enredo, ele tem que ser desenhado em um enredo multidimensional, não um sangue bidimensional sobre ele é muito difícil, você sabe, com seus aliados são mesmo desenhar esse tipo de um lote multidimensional. Se essa coisa em particular selecionou três danos, não quatro dimensões, o objetivo ainda é que você deve querer traçar uma linha reta através desse gráfico multidimensional de tal forma que as distâncias são mínimas de tal forma que o coração marcado é alto. O mesmo processo de previsão é bom. Ácido está em uma única variável independente da mesma forma que você usa Ask com fio, mesmo onde você encontra Alfa e beta em assassinatos de drones. Quando você tem várias preditoras, diferentes preditoras têm diferentes níveis de impacto na variável dependente. Então, quando você faz análise de correlação, você verá que diferentes variáveis independentes diferentes variáveis preditoras têm diferentes níveis de covisões de correlação. Quanto maior o coeficiente de correlação, maior o impacto dessas variáveis independentes sobre a variável dependente nesse nível é geralmente refletido no vale fora dos coeficientes. Al Faraj al Fordo, Alfa Três Quanto mais alto faz aqueles vontade para o Alpha um Alpha fazendo tudo para três. Eles vão dados mina são eles vão mostrar exatamente quanto é essa variável em particular? A variável independente impacta variável dependente t. Então suponha que se X um tem um alto impacto sobre o porquê, Al se eu seria bastante significativo se X para dizer, não tem tanto impacto sobre por que Al Fatah será algo como 10.0 algo assim . Então, quando o dinheiro jogar com X para o valor do valor da insulina será um valor pequeno que não afeta o vôlei do porquê significativamente, enquanto que se digamos, x um como como um impacto significativo em até então, Alfa um será significativamente grande campista al al para fazer Alfandery. Quando você faz os exercícios em Olhe para dados reais. Você vai quando você começar a olhar para como esses coeficientes se pareciam, você vai ter uma imagem melhor do que eu estou falando sobre o uso de regressão linear para aprendizagem de missão . Então missão aprendizagem tomar Esta é uma técnica de aprendizagem missão muito popular para dados contínuos É. Esta é uma das super maneiras de aprender técnicas para prever dados contínuos. Os preditores e resultados são fornecidos entrada dos EUA no conjunto de dados de treinamento. Então você construir um dados de treinamento disse, você dá os preditores e resultados para o Jardim L. Você diz que o algoritmo em Norwich em era um alvo sua variável alvo qual deles para que você opere são variáveis, e quando os dados são analisados, surge com equação indignada de que a imigração é nada mais do que o moderno. A equação linear escura do modelo, o modelo que é todo material portado país, os valores fora dos coeficientes para as variáveis preditoras, os valores para o valor de intercepta Andi para R ao quadrado. Então todos eles emitem tipicamente saída que quando você usa, eu vou guardá-los para fazer regressão linear. O coeficiente em interceptação obviamente formará o modelo. Neste caso, faz esses valores que você está indo para tomar um jogador. Rick linear. Equipar a uma equação linear Quando novos dados entram em R R. Squared dá-lhe uma indicação de quão bom, Ah, Ah, modelar o seu nascimento. Então, obviamente, este mortal na Índia, mas é usado para previsão. Era tipicamente rápido para a construção de modelos. Na imigração é um sistema muito antigo e muito popular que tem sido usado para construir modelos . Então vamos agora olhar para a integração alguém Fellini. Quais são as vantagens de usar regressão linear é que ela é muito rápida. Foi muito rápido em termos de construção de modelos. Ele tem custo muito baixo em termos de uso de memória e uso de CPU. Foi excelente para o relacionamento próximo. A relação entre as lonas previsíveis no alvo é linear, que é que todas elas caem nessa linha reta. É excelente, e prever esse tipo de relações nele está relacionado a ser preciso para notícias do país , muito, muito, mas é bastante preciso quando o ar de objetos de valor continua. Não há outro algoritmo básico que seja muito bom, como a regressão linear. Mas qual é o tiro saindo deste algoritmo? As deficiências são que ele só pode ser usado em inúmeras variáveis contínuas. Pode ser usado para sexual mais tarde. Não funciona muito bem para as aulas. Tipo de dados como o tipo feminino masculino de dados que você namora tem que ser contínuo. Não pode modelar não-linear, são relações exigentes. Isso é outro problema com. Não pode ser uma não-clemência mortal. Então é limitado por wathiq e modelo. Então a relação não é linear. Sim, você não pode fazer isso. Há outro avanço nossa regressão de avanço de terra Eu guardo Dens para modelagem em ou relações não-lineares são relações quadráticas e coisas assim nele é muito sensível, as camadas de saída. Portanto, essa é uma questão que faz. Por exemplo, vimos neste enredo que quase todos os pontos caem em linha reta. Mas suponha que apenas um ponto de algum lugar distante. O que isso vai acontecer é quando o único ponto está longe. Esta linha tentará inclinar-se. Você está muito distante para acomodar esse ponto particular de outlier. Então, é assim que se ferra. Isso estraga toda a equação. Muda toda a coordenada só porque há um ponto em algum lugar distante em toda a linha ajustada, então acomode esse ponto. Portanto, é melhor do que você eliminar os outliers antes de começar a construir. E de fato, agressão assassinato, e ele usa. É o sistema de modelo preditivo mais antigo, ou sistema de link usado em uma ampla variedade de aplicações. Onde quer que haja previsão contínua de dados, ele tem sido usado por um longo tempo. Portanto, é um algoritmo muito popular que é usado para modelar variáveis contínuas, especialmente quando a relação entre elas está inclinada. Obrigado. 6. Caso de uso de R : Regressão linear: Oi. Bem-vindo a este caso de uso para aprendizado de máquina neste. Vamos falar de regressão linear. Então, normalmente, todos os exemplos que você vê como frases usadas seguirão esses caminhos. E basicamente ele vai passar por essas seções fora explicando qual o problema que você está tentando resolver. Que técnicas eu usei neste caso particular, como quais técnicas que você aprendeu na data atribuída pontuação vai ser usado aqui neste caso de uso do que sobre engenharia de dados, análise, modelagem e proteção, testes e conclusões. Você tem um arquivo pdf da mesma coisa que veremos aqui como parte do pacote de recursos. Então você sempre pode dar uma olhada nisso e, você sabe, pegar o mesmo código, copiar o código para o nosso e brincar com o tribunal. Vamos ver o que vamos fazer neste exemplo em particular. Então, a declaração do problema aqui é que você tem um conjunto de dados de entrada com conjunto de dados de entrada é um arquivo CSP. Ele contém dados sobre vários modelos de carros, Ele apenas vários dados sobre vários modelos chamados. E com base nesses dados, vamos construir um modelo linear. Vamos criar uma equação linear, que pode ser usada para prever o Miles Burger galão para um modelo. Se você tiver novos dados que entram, você pode ter os dados sobre o carro, e então você pode usar esse carro. Reboque os dados para prever o mpg neste. As técnicas que você estaria usando para análise estão nos cobrando linear quando regressão Bellini que é multi muito que nós vamos estar falando. Já fez imputação de dados? Nós também vamos estar fazendo produção variável, então vamos continuar e ver o que fazemos neste exemplo. Então, a primeira coisa, é claro, você sempre começa definindo seu diretório de trabalho. Então você vai ler este arquivo auto mpg dot CS. Nós rebocamos esse quadro de dados chamado dados automáticos, então o C SV está novamente disponível como parte do seu pacote de recursos para que você possa dar uma olhada nele. A primeira coisa que você quer um dedo imediatamente após o carregamento é hoje é basicamente inspecionar os dados para que eu faço a estrutura fora de dados automáticos e dar uma olhada no que está lá? Então isso mostra quais são as várias colunas neste quadro de dados particular? Em que tipo de dados? Olhos? Não é um exemplo. Dados. Por isso, tem o meu respeito, Garland. Qual fora? Apenas os dados que você vai prever. Você vai construir um modelo entous e criar uma equação. Então é um número. Certo, cilindros justos no carro. É um pátio inteiro. Parece bem. O deslocamento do carro e número de dificuldades mais de metade de um carro fora do carro. E está chegando um fator passado. E talvez eu precise do ano passado porque nosso esperber é um valor numérico. Maneiras que me mostrando uma passagem um fator fator só vem se for um valor não numérico. Valor arquitetônico. Então dê uma olhada nisso e alguns exemplos que eles fizeram humanamente. Vê este ponto de interrogação? Então ponto de interrogação é um dos valores para isso, o que significa que estão faltando dados aqui. Precisamos fazer algo sobre a Miss Índia. Então vem o peso parece OK. Aceleração parece OK. O ano modelo ano começa a partir de 1970 com o nome do Martin. Esta é uma maneira de olhar para os dados. Agora vamos dar uma olhada no mesmo mais tarde de uma forma diferente, fazendo este resumo de dados. Quero dizer, foi alguém. Todos os dias ele vai me dar por todos os valores numéricos, os cartéis. Então eles estão olhando para o cabo me diz se os valores são bons, então mpg está em qualquer lugar entre nove e 46. Então, dado que eu sei sobre carros e tipicamente carros no meu espumante entre nove e 46 anos , os dados parecem OK. Olhe para algo como Cilindro. Está entre três e oito. Portanto, há um estranho é de Theresa cilindro Indústria faz sentido. Sim, isso é o que os carros têm. Suponha que eu vi valor algo como menos 50 ou um valor como 170. Ficaria preocupado porque esses valores não são reais. Esses valores não são valorizados para o número de cilindros. Os carros não são construídos assim hoje. Da mesma forma que você começa a olhar para o resto dos caras. Deslocamento como o mesmo dia força dura que já vimos. Há um ponto de interrogação reconhecer é um fator. Então temos que fazer algo sobre isso ótimo. Parece bem, aceleração entre 8 e 24 parece bem. O ano modelo entre 1970 e 1982 parece bom. Então é assim que olhamos para os dados em alguém de grande e meio que pode ter certeza de que os dados são bons e não há nenhum dado lixo que está sentado lá e coisas assim. Então, novamente, você também pode fazer uma cabeça de moderado e olhar para os registros reais aqui. Os seis primeiros registros do JAG parecem bem. Então eles vieram com apenas uma questão lá, que é que há um ponto de interrogação que estava lá para o barbeiro duro em. Vamos fazer algo sobre isso. Então, o que vamos fazer com onde quer que a pergunta seja qual for a informação do esporte do coração está faltando , vamos substituí-lo pelo valor médio fora da potência, mas a média baseada em todos os outros registros. Então, como fazemos isso? A primeira coisa que fazemos é converter esta coluna em uma coluna numérica. Então é uma coluna fator neste ponto, você sabe, você sabe, há uma função numérica pedida que você converte em novos americanos em direção a ela de volta para a mesma coluna. Uma vez que você escreveu isso, perguntou numérico esta pergunta Marks será realmente convertido como Eneas. Isso não está disponível. Uma vez que você faz isso, o quê? E o que eu vou fazer é calcular a média desta coluna em particular fazendo chamada neste comentário, que significa fora do nosso reboque no hospital. E eu posso, estou vendo aqui o inato que nossa filha deve ser verdade. Então ele elimina todas as colunas inatas e para as colunas restantes ele vai calcular a média e eu vou usá-lo no dedo do pé ascendido a este. Então o que fazemos aqui é que estou esquecendo que estou acessando apenas a coluna de poder de artes no quadro de dados. Então eu estou filtrando quatro linhas onde ele diz que isso está em um off. Nossos esportes só levam aqueles onde o próprio hospital é qualquer. E por isso eu digo no meio Então ele só sente faz naquelas colunas aqueles registros onde as propriedades corações em um e que é substituído pelo eu. Agora você sabe, novamente, um resumo do que eu fiz lá para ter certeza que tudo parece bem Agora olhe para o poder duro. Agora, onde Joe não está mais? Há agora mostrando, como todos os cartéis em qualquer lugar entre 1994 tipo de aparência. Está bem. Quero dizer, estes carros são muito velhos. 1970 a 1982. Então, obviamente, você não vai ver esporos de coração como 3300 ou 400 olhares novamente. - Tudo bem. Uma vez que você tira essa limpeza do caminho, então você começa a fazer alguma exploração, essa análise, tentando fazer algumas parcelas para ver como as coisas estão relacionadas umas com as outras. Então, o primeiro sangue eu vou estar fazendo isso. Eu vou estar olhando para MPG pelo número desligado. Esbelta. Então eu estou desviando os dados pelo número de cilindros que um carro tem, e para cada um deles, eu estou fazendo um gráfico de caixa contra mpg. Então este é o comandante. Use um você g plotagem separar ou dados em que. Eu estou dando os fatores, você cilindros e mpg. E então eu faço com sangue de caixa preta nisso. E eu usei a cor sendo o fato terrível fora do fator cilindro dos cilindros. E isso é o que eu recebo. A hipótese é que quanto mais o número de cilindros, menos será Sperber duro. E você pode ver que aqui para quatro cilindros os corações barbeiros terminando em qualquer lugar entre 25 a 35 mas que o número de cilindros aumentar o pai casa média continua caindo , Você vê isso? Os Rangers estão a descer à medida que o número de cilindros aumenta. Então isto está a dar-te uma ideia. Os dados parecem estar seguindo alguns padrões. Além disso, você vê que para 67 dúzias de oito cilindros, há um monte de nossos jogadores em pé lá em cima. Então, obviamente, o que, 16 no carro deles está me dando, tipo, 35 MPG neste é como um modelo 1970 a 82. Então pode haver algo especial lá. Você pode realmente ir e consultar o quadro de dados para ver quais exatamente cartões estão correspondendo a esta condição ao adquirir com algumas condições, e você pode realmente ver quais estão realmente dando a você este tipo de apartamento. Eu recomendo que você sabe tipo de explorar mais sobre o jogador de dados em mais plano, fazer mais artesanato como este para que você obtenha realmente uma boa imagem fora dos dados que estão lá . Uma vez que você filhas, então você vai para as correlações. Correlações entre as variáveis preditoras no alvo. Alvo variável aqui sendo mpg on. Além disso, observe a correlação entre a própria variável preditora porque as variáveis preditoras idealmente entre elas não devem ter coordenação Hi. Eu realmente eles deveriam ter correlação zero, então vamos dar uma olhada nisso. Agora chamamos esse comando chamado painéis de início de parte, dados automáticos, e vamos ver o que está acontecendo. Então já vimos isso antes, Então as variáveis reais, a variável alvo é mpg. Aqui. O resto das variáveis estão alinhadas aqui nas métricas cruzadas dessas são, na verdade, a provisão Kardashian. Então vamos olhar para o meu gasto galão na correlação X com todas as outras variáveis. Então vá um por um com cilindros menos 7.78 Bom um. Boa correlação. Menos 8.0. Boa correlação. Média com hospital novamente alto com grande em médio com aceleração, ano modelo e nome. Uma coisa que você percebe é para peso, deslocamento e cilindros. As visões de correlação são muito altas. Então vamos dar uma olhada na correlação entre as variáveis e o que você percebe é esses valores elevados 0,75 ponto 90,93 E isso está acontecendo entre cilindros, deslocamento no peso entre deslocamento do cilindro e esperar entre essas 23 variáveis, parece haver alta correlação entre essas três variáveis propriamente ditas. E se eu realmente jogar alguma lógica em nosso lugar, hum, conhecimento de domínio, você verá que quanto mais disciplina lá, os motores, seu deslocamento e muito mais vai ser ótimo. Então o que isso significa é, entre essas três variáveis, uma variável. É um procurador, muito. Mas para os outros dois, muito, mas para os outros. Então o que você pode eu realmente gostaria que pudéssemos fazer redução variável aqui. Dado que você vê que isso tem variáveis preditoras de alta correlação, podemos eliminar para fora deles e apenas manter um que faz muito do cruzamento a jusante muito mais fácil e Senhor mais rápido. Então é isso que vamos fazer a seguir. Então nós vamos apenas fazer este encontro arto. Nosso deslocamento do dólar não ordenou um total de um certo pessoal. O que isso significa é ele irá embarcar diariamente essas colunas a partir dos dados. Agora você gosta de um resumo de dados. O que você vê aqui? Você vê que essas duas colunas se foram. Agora, você só olha com seis variáveis lá dentro. Um alvo, e o resto é preditor. Agora, uma vez que você vem aqui, o que nós vamos estar fazendo é a realmente construir o modelo linear para realmente construir o modelo Linnean são tem em sua função de classes baseadas chamado limp. Este Conley precisa de um moderno. Então, basta chamar esta função de Elham na primeira coisa que você nos diz, Waters, que você quer prever o que vai ser sua variável alvo. E quais são as variáveis preditoras? E este é um utilitário foi um mpg assim prever MPG. O sinus de fezes prevê milhas por jardim pelo conjunto de carboidratos. Então, neste caso, eu coloquei um ponto significa tudo o resto então prever mpg por tudo o resto. Você pode realmente dizer uma coluna que eles prevêem mpg por hospital. Eu posso dizer prever mpg por copas, poder mais de oito. Algo assim. Eu posso ter toe variáveis são eu posso colocar todas as variáveis e, finalmente, eu vejo aqui qual data eu preciso usar. Então eu vou estar usando este quadro de dados auto menos seis, que significa que eu estou vivendo a coluna de nome. Como nome é uma coluna de texto, é ele. O modelo linear não teria uma coluna textual, então ele só precisa de todas as variáveis para ser números. Então ele vai dar outro se você passá-lo uma coluna de texto. Então eu estou apenas tirando essa coluna de texto passando o restante dos dados com o restante dos dados prevê a milha por galão. Com tudo o resto aqui vem o órgão me dá esta argamassa branda. O modelo líder está disponível para mim em uma variável. Quero dizer, isso então pode ser usado para outra análise. Este modelo pode ser usado para previsões. Na verdade, você pode salvar este arquivo de dedo variável e, em seguida, voltar os dados e os arquivos toe na memória que assim você construir um modelo, salvá-lo e, em seguida, usá-lo para análise posterior. passo deles. Olhe para o que este modelo está realmente dizendo. Então você vê que é um resumo de Elham através de alguns muito bem. E isso é o que sai com o jejum, ele diz. E isso é o que sai com o jejum, Ele diz que o chamado que é o que ordenou que você dê então o mesmo ordenado, apenas repete. Em seguida, ele informa sobre a receita mais no resíduo de dados. As meninas são basicamente nós falamos sobre a distância real entre a linha final e o ponto real. Vimos estas linhas. E qual é a distância nessa distância vertical aqui está dizendo como essas distâncias se pareciam. Então, se eu pegar as distâncias verticais entre cada ponto nos dados que são dados para construir o modelo, então a linha real que o modelo construiu que distâncias, você obtém essa lista de todas essas distâncias. E este é o cartel para essa lista particular de distâncias. Então bebe em qualquer lugar entre menos ponto pago 0.0.9 para 40. É assim que o mais estranho. Agora lembre-se, isso não é. Este é um gráfico multidimensional. Isto é como se houvesse cinco dimensões nesta prisão, por isso é tipo de navegar através de todo este dano. É muito difícil saber qual utiliza este. Então diz-lhe o que é o líder Alfond. Nós falamos sobre a equação por que chamado Tau Alpha um x um mais todos para frente dois x dois xxx mais bater eso anos O Alfond beta. A interceptação é o valor da beta. Então, e ele tinha os interceptores menos um ponto Fine. Excepto experiencial. Acabou. Então. Estes são todos os Alfa Um Alfa. Então estes são todos os coeficientes. Então esta é a corporação para o hospital. Esta é a opção CO para o peso. A coalizão da cidade para a aceleração. Este aqui é para os modernos. Então você tem quaisquer novos dados sobre, você sabe outras coisas, mas você não sabe MPG. Então alguém te dá dados sobre este é o meu coração. Para quê? Este é o meu caminho. Esta é a minha aceleração. E este é o meu modelo. Aqui, me dê a Ilha do Espectro de Massa que você vai pegar esses valores. E você disse esta fórmula. Então eu vou pegar o valor do Sperber coração e multiplicado por isso, em seguida, adicionado com isso Isto mais este neste lugar este neste e finalmente mais o intercepto Alfa um X um alfredo X dois em três árvores X. Continua mais o melhor. Então essa Aereo Very S coalizão fez lá fora. É tudo colocar um modelo linear desagradável para você Uma vez que você tem o modelo líder a próxima coisa Um olhar para isso. O que é que o meu é quadrado? Porque isso é o que eu vou te dizer quão preciso seu modelo vai ser no valor r quadrado aqui. Ele compartilha que neste 0.809 que é realmente muito alto. Então é realmente um bom modelo. Eles devem prever com precisão os dados que você possui. Ok, o modelo agora está construído. Então precisamos prever alguns dados novos. Agora, apenas para este exemplo, eu vou apenas prever os mesmos dados no dia em que o modelo é construído. Eu vou pegar os mesmos dados do modelo que eu poderia realmente espalhar em treinamento e testes. Além disso, eu não fiz isso no exemplo específico eu tomei que eu pegar os mesmos dados automáticos e prever usando este modelo. Então eu estou tentando encontrar operando no mesmo dia em que o modelo é construído. Estou tentando ver o que é meu na carta de amostra. Então preveja sobre isso é o comando. Preveja que eu o usei. O que? Eles estão usando este novo modelo nos dados sobre isso vai me devolver um vetor chamado preditor. Então, para cada lei nos dados de auto, ele vai prever nosso valor fora mpg. Então, se o operador tinha, tipo, 100 subiu esse valor de 100 MPG para ir para prever e que vai voltar para você nesta variável predita e então quando você faz um alguém de prática me dá o intervalo de todos os valores que saíram com. Agora o que você pode então construir porque você pode plotar o valor previsto contra o valor real porque você sabe o corpo real para dados. Você pode simplesmente traçar o valor previsto em relação ao valor real e ver como ele se parece. Idealmente, eu a previsão e os reais realmente de perto. Esta saída deve parecer uma perna reta, e é isso que parece. Quase parece que é quase uma linha reta, que significa que as previsões são realmente boas. Eso isso é um muito Verifique desta forma. O segundo caminho. As damas Você pode ir uma correlação entre o preditor e os reais, mas dado seus reais peregrinos, tinha que ser muito perto um do outro. A coalizão Kardashian deve estar muito próxima de uma na DSI. O que você vê agora é que a coalizão da coalizão é na verdade 0,89. Nove. Então é realmente um alto coeficiente de correlação. Então isso significa que em terroristas de amostra, você sabe, bem pequeno você tem que experimentar em uma nova filha e então ver como exatamente isso funciona. Mas, em geral, o R ao quadrado valores bastante altos. A correlação entre os olhos previstos e reais altos ou, em outras palavras , a amostra árabe é muito baixa , então parece , então pareceum modelo muito bom. Então é assim que você sabe, regressão linear em nosso e novamente. Este arquivo está disponível para você como um pdf como parte do pacote de recursos. Então vá em frente explodiu mais, obrigado. 7. Árvores decisórias: Oi. Nesta palestra vamos estar olhando para árvores de decisão muito populares e uma técnica de aprendizagem de missão muito simples e muito fácil de explicar. Por isso, é muito popular porque é muito simples e é muito fácil de entender em fácil de explicar , torna o meu trabalho muito fácil neste curso particular. Então o que acontece em uma árvore de decisão é que novamente você previu variáveis I e você tem variáveis-alvo. Você usa as variáveis preditoras toe build na árvore de decisão. Uma árvore de decisão é construída onde você continua verificando os valores das variáveis preditoras dependendo dos valores das variáveis preditoras, você começa a tomar decisões sobre. Com base nisso, você continua tomando decisões progressivamente até chegar e a folha norte, onde você está realmente prevendo estão classificando alguns dados. Então, quando você constrói a rua, as árvores tipicamente começam na nota raiz em. Então, progressivamente, há alguns ramos que continuam vindo em cada ramo. Você continua fazendo uma pergunta, está fazendo alguma comparação lógica com base nessa tomada de decisão e continuar seguindo adiante. E, finalmente, há os nódulos foliares que realmente apresentam os médicos. Entradas Visage são uma classificação popular. É usado principalmente para classificações. Ele pode ser usado em dados contínuos, mas é usado principalmente para fins de classificação. Então, novamente, um dia de treinamento é usado para construir uma árvore de decisão que a própria árvore é o seu modelo. No caso das árvores de decisão, que três é o modelo na Árvore de decisão. Basicamente, Briggs prevê o alvo. Em seguida, você usa este modelo específico em, em seguida, você prevê novos dados. Então aqui está um exemplo fora de uma árvore de decisão no lado esquerdo, você tem dados. Então você tem três variáveis que é idade e B m minha idade e B m I R U preditores. E então uma chamada variável é diabética. Se a opressão é diabética ou não é três variáveis-alvo. E para esses dados, vamos construir uma árvore de decisão à direita. Então, neste caso, começamos com idade maior que 41 anos. Portanto, esta é a primeira pergunta que nos fazemos. Um maior do que 41 em diferente é sim. Então vamos tomar a próxima decisão. Beom é maior que 24? Se é anos, então o valor fora de seu diabético é por isso, se não desvalorizar é diabético é não. Da mesma forma, você constrói uma árvore no lado esquerdo também e você vê Não e por isso a árvore realmente se torna um modelo. Então suponha que você começa um novo ponto dia que você tem a previsão alguém lhe dá um agente a ser na minha combinação. Fazer-lhe a pergunta. Este paciente está se desviando? Supostamente isso? Eu digo que a idade da pessoa para estudar no BME é 40. Então não andamos nessa árvore para fazer a previsão. Então, a idade desse cara é maior que 41 anos? Este lado está emigrado do que 28. Sim, então venha à vista. E sim, essa pessoa estaria se desviando. Por isso, é muito fácil caminhar através da árvore e chegar à solução. Então a árvore em si se torna o modelo em. Em seguida, você usa o modelo para prever em quaisquer novos dados. O desafio na construção da árvore é que em que sequência você usa essas variáveis? Como você faz o homem mais rápido? Ok, eu deveria usar o ano H na nota raiz. Não ser um meu eu poderia construir-nos outra árvore com os mesmos dados, mas eu começar com talvez uma pergunta em um B e meu maior do que algo sobre. Então, depois de pergunta b em b m eu posso tomar uma decisão sobre a idade, mas usando diferentes variáveis em diferentes sequências, então você pode neste para combinação você pode usar idade Ocidental do que B M I R. Você pode apenas estar no meu primeiro em idade. Você pode construir diferentes árvores de forma diferente. É pode ter níveis diferentes. Depende da complexidade dos dados que estamos lidando aqui. Os dados são bem simples, por isso estão abaixo de dois níveis. Então tentar billitteri manualmente não é tão fácil. Então, há um monte de complexo que os envolvidos felizmente, algoritmos de aprendizagem de missão se adaptam a esta cidade complexa. Eles vão descobrir internamente dentro de sua biblioteca, que, quando ele foi para usar primeiro, qual senhora muito ônibus para o segundo com base na seletividade fora dessas variáveis e sair com uma árvore de decisão otimista. Então você não se preocupa realmente em usar esta variável. Então, basta passar para esses algoritmos o H B M I as variáveis preditoras e água alvo no dia. Construir uma árvore de decisão e sair muito rapidamente. Onda. Claro, quando você tem que prever algo, você apenas dá as variáveis preditoras e o algoritmo de previsão apenas andou através da árvore com o valor fornecido e aparece com Harrison. Mais uma vez reiterando o que vimos. A profundidade disso é realmente altamente influenciada pela sequência em que os protestos são escolhidos para decisões. Então, às vezes, as árvores podem acabar muito grandes. Às vezes eles são muito pequenos de novo. Dependendo do número de variáveis preditoras que você tem, as árvores serão caracteres maiores ou menores usando o desfile dança fora alta seletividade tipicamente dá-lhe um grande rápido nós mesmos novamente. Os algoritmos encontram-nos para ti, a não ser que ninguém esteja ansioso para aprender a teoria por trás destes algoritmos. Você não precisa se preocupar com essas coisas. Algoritmos de aprendizado de máquina fora do curso, eles automaticamente tomam as decisões sobre a sequência e preferência. Então este é um algoritmo de aprendizado de máquina bastante simples e direto. Você vê o uso de conta DCD e fácil de explicar. Então, quais são as vantagens dessas árvores decisórias? A primeira coisa é, eles são fáceis de interpretar e explicar por que isso é usado para interpretar. Explique. É uma grande coisa é porque isso tomou o exemplo de que você está usando um aprendizado de máquina. Vou protegê-los para construir um modelo que vai aprovar ou rejeitar o empréstimo de uma pessoa . Ele é um banco e alguém um lugar onde sozinho você é um algoritmo de aprendizado de máquina olhar para os diferentes atributos da pessoa que solicita um empréstimo, e então você aprova ou rejeita sozinho. Agora a pessoa pergunta: “Por que meu pedido foi rejeitado?” Então você pode realmente facilmente olhar para o algoritmo e dizer-lhe, Ok, Ok, esta é a razão pela qual sua coisa foi rejeitada porque é fácil para você andar através da árvore e depois dizer e em que ponto as decisões estavam sendo tomadas com base em quais atributos que atributos fora dele. Digamos que as idades, que a renda é a indústria do comércio passado, que uma influência sua é a classificação de crédito e você pode realmente entrar na árvore e explicar. Certo, foi assim tomamos uma decisão. Não é possível fazer este tipo de coisas. Com todas as outras missões, um aprendizado de missão os protegerá possivelmente com regressão linear, mas não com algo como “Vamos entrar”. As redes neurais são missões vetoriais de apoio. Não é fácil para você explicar por que o algoritmo se comportou de uma maneira que ele se comportou. Então isso é muito importante. Eu faria VOCs muito bem com dados perdidos. Se faltam dados sobre os detentos, não faltam. Está tudo bem. Ele pode lidar com detentos e você passa por isso. Era sensível às variações locais. O que quer dizer com “ bacias “? Uma variação local diferente é que, se diferentes guardas fora, o alvo tem fenômeno diferente. Por exemplo, digamos que você está tentando prever idade e em prever idade para idade 21 a 40 anos o está se comportando de uma maneira que é 21 a 40 tem um comportamento diferente da idade para 40 a 60 tem um comportamento diferente, adapta-se a si mesmo. Então esse comportamento. Então ele vai construir uma árvore onde idade inferior a 40 anos e, em seguida, lidar com esse comportamento separadamente e idade maior que 40 anos. E olhe para esse fenômeno separadamente. Deixe-nos olhar para algo como agressão branda, não é agressão unitária local. Você tem que desenhar uma linha reta de qualquer maneira através de todos os pontos, então há variações locais. As variações locais não são ajustadas. É neste modelo linear, você vai ver quando você está desenhando uma linha e tentando prever algo, ele vai prever este estranho 21 a 40. Muito um atualmente são o 41 para 60. Com muita precisão, ele pode prever que ambos, se ambos têm diferentes tipos de sinais são eles têm diferentes tipos de padrões. Mas a Árvore Decision adotou rapidamente esse tipo de padrões locais. E é, claro, rápido. É um muito mais rápido e construir a árvore de decisão. Então a construção de modelos é bem rápida. Por que, rápido como uma coisa importante é, se você está para fazer tempo real este seus modelos de projeto de lei em tempo real, por qualquer motivo, então o Esta é uma das vantagens as deficiências das árvores de decisão são. Tem uma precisão muito limitada. Precisão não é tão grande com árvores de decisão por como contas fora muito rapidamente por nós em direção variável sendo algum valor, já vimos o que preconceitos na ressecção sobre, Então viés se acumula muito rapidamente em não é bom com um grande número de preditores. Se tivermos como 40 ou 50 variáveis preditoras. Entradas de mensagem não funcionarão muito bem porque torna-se difícil para ele descobrir quais foram capazes de usar primeiro e quais foram capazes de usar segundo e coisas assim , tipicamente usadas em coisas como aprovações de crédito em situações em que há necessidades legais para explicar decisões tão supostamente rejeitar alguns pedido de empréstimo partisans, que a pessoa vai e arquiva um processo dizendo que OK, Eu fui rejeitado para não tão bom. Recente eu estava pelo vício foi por nós para algo. Em seguida, você pode usar árvores de decisão irá protegê-los para explicar por que este pedido pessoas em particular foi rejeitado. Então ele faz isso vantagem apenas nessas situações legais e é usado para categorizações preliminares muito fora dezenas. É sensível às variações locais. O que ele pode fazer é primeiro usado este local muito para separar seus dados em dois conjuntos de três conjuntos. Então ele é usado para algum tipo de decisão preliminar fazendo nossa categorização preliminar. Então você divide os dados usando uma árvore de decisão em. Em seguida, em cada uma das divisões, você pode ir e, uh, jogar alguma outra missão aprendizagem vai protegê-los tão escorregados. Pode-se usar algoritmo pode dividir. Do pode usar mal guardado eles Seja assim você pode realmente misturar e mestres algoritmos como quiser. E árvores de decisão geralmente estão em algum lugar um amigo na cadeia. Você primeiro coloca os dados usando árvores de decisão. Para cada uma das divisões, você pode aplicar em diferentes algoritmos e chegar a diferentes previsões. Portanto, estas são as vantagens, deficiências e usos fora das árvores de decisão. Obrigado. 8. Caso de uso de R : Árvores de decisão: Oi. Nesta palestra, vamos estar olhando para um caso de uso e são para árvores de decisão sobre. Vamos prever tipos de flores de estrela de flor para este. Então os dados de entrada disseram que você tem aqui é o mundialmente famoso dados irlandeses definir o status da área que contém 150amostras acima. Diferentes tipos fora grande lá. Três fitas lá em baixo. Sentosa foram seculares e Virginia em para cada uma das amostras. Você sabe sobre a melhor batalha terrestre com CEPAL int e sagacidade flexível. Ok, então você tem 44 Eu executar atributos são quatro preditores em. Então você está tentando prever o tipo de farinha com base nesses quatro preditores. Então, neste exemplo, vamos estar usando árvores de decisão. A adição B tem um número fora implementações de algoritmo. Neste caso, vamos usar o ponto do mar para o algoritmo 5.0. Vamos fazer. Tem que fazer a divisão de treinamento e testes? E como você usa os dados de treinamento? Disse modelo de construção e os dados de teste disse testar o modelo. Estaremos também a olhar para a confusão. Meus truques sobre como usá-lo. Os dados para isso são o padrão da íris, disse Irish Data. Isso vem como uma parte fora do são fora do são nossos dados nossos dados que você tem. Então nós apenas carregado no quadro de dados de reboque chamado dados de íris e, em seguida, vamos começar a inspecionar os dados de idéias. Sem dados estruturais de vírus. Eles são olhar bastante semelhante em seus números e número Rangers. A espécie é um fator de três níveis, com fotos sobre secular e Virgínia. Se você olhar para alguém ou lutadores, dados o comprimento SEPA, você vê o alcance simples com talento e separou trabalhou em. Então, finalmente, os discursos. Então, há 15. Há divisão igual entre colonos fora particular, e Virginia nos dados disse que você tem novamente. Vamos fazer uma cabeça fora neste encontro são agora que vai te dar como e um hoje que parece uma coisa muito simples. Tudo parece OK que são conhecidos. Parece que não há jogadores fora que parece que não há dados ausentes. Há um conjunto de dados parece estar realmente limpo. É de alta qualidade que parece não haver nenhum Anderson lá. Uma vez que dodôs. Vamos começar a fazer alguns explorar um tratado, Talentless é porque dissemos que vamos estar olhando para quatro variáveis diferentes. Spread muito estava aqui. A primeira coisa que vou fazer é traçar uma pergunta que possa ter. Que andar fora da trama você faz. Você faz quando pode fazer o que quiser. Você quer dizer que você tem suas próprias suposições e coisas que você tem. Você pode validar sua suposição e dizer, “ Ok, eu acho que isso vai aumentar esses aumentos e coisas assim. Você faz suas suposições e começa a dizer as coisas? Eso Neste caso, o primeiro sangue que eu estou fazendo isso melhor emprestar contra pétala com e eu vou colorir os pontos pelo tipo de espécie. Agora, com melhor alongamento priddle bit uns contra os outros e a faixa da cor da espécie querendo que você imediatamente percebe como a separação acontece entre essas três classes. Batalha com e predominante parecem dedos realmente separar as classes para fora, que significa que se você só sabe bem, pedal entra. Digamos, neste caso, por exemplo, se eu tiver uma nova flor e eu digo que eles nos prevalecem. Vamos chegar a Ele não pode ser outra coisa senão Sentosa porque o pedal e parecem realmente diferenciar os três tipos de flores e parecia apenas aconteceu com Mas o rasgado também Santosa especialmente distinção distinta Virginia foi Doente. As cores estão testando. Em seguida, há um pouco sobreposto que você vê aqui, mas praticamente pelo pedal de Londres com boa aparência. Vamos tentar fazer a mesma coisa entre bebês CEPAL até um pouco sobre o que você vê é novamente um pequeno problema aqui, porque o que você vê aqui é Santoso parecem ter se separado em um cluster quando você CEPAL e era uma cor simples, mas versi e Virginia são todos misturados tão flexível, mistura e flexível Que parecia não ser bons indicadores de pelo qual você pode separar esses três tipos de flores para explorar mais. Vamos fazer esta caixa de enredo. Você vai estar fazendo um gráfico de caixa de cada variável que você tem. Isso é como, você sabe, massa mãe força bruta pegar cada variável preditora na caixa da porta, bloco por espécie. Então, para cada Prechter, muito mas veja como o intervalo fora desse valor é dado o tipo de espécie. Então vamos pedalar e vender peso cepal e depois nos separar. Vamos acabar aqui com quatro quarteirões diferentes. O que você vê é o comprimento do remo quando você olha para petulância Sentosa farcical. Na Argélia, os Rangers são muito distintos, nem se sobrepõem aqui. Então isto está neste intervalo. Isto não é este alcance. E isto é na rua. O que lhe diz é claramente distinto? Outras palavras pedal e parecem ser um preditor muito bom por apenas saber que o pedal de terra acabar com uma flor, você pode imediatamente dizer que eu acho que isso é Settles são eu acho que isso é particular a mesma coisa. É um lugar para vender Victor. Além disso, eles meio diferentes, mas muito rapidamente um contra o outro. Venha para baixo para separar emprestado planos bastante semelhantes, exceto que talvez as caixas são pouco mais carrapato. E isso é muito, muito, um pouco mais ou um pouco mais que está acontecendo entre os Rangers. Não como se ele tivesse isso realmente, realmente sei. No entanto, esse cara está sobrepondo Gilbert flexível, que parece ser ruim, você sabe, há sobreposição em todo o lugar, então só por saber flexível, mas eu não acho que eu posso prever qualquer coisa sobre este pacote de flores. Próximo. Vamos continuar com correlações e correlações podem realmente reenfatizar nossa reiterar o que você acabou de ver e explorou analistas. Então vamos olhar para os mesmos painéis de início do passado. Mas estes quatro viram a espécie da era aqui. Correlações artísticas com todos os quatro. Você vê que melhor terra e pétala com 40.95 e 0.9 63 reitera o que acabamos de ver. Que esse valor realmente separa os três tipos de discursos, o que significa que há alta correlação entre o tipo da espécie e esses valores. Então você vê que 0,9 disparando 0,90. Excelente correlação entre estes dois valores que também é excelente correlação entre melhor guitarras de terra e metal. Um 20.96 Este é meio interessante. Você pode escolher a rua, nem uma, ou você pode não os judeus. Neste caso, não vamos fazer qualquer direção variável que possamos se quisermos. Entre espécies e CEPAL, os credores apontam alguém. Meio tipo fora, você sabe, níveis suplementos parecem dar diferente ainda, mas não ao nível de terra fértil e bit Priddle. E finalmente, CEPAL. Com este menos para três, nós vimos isso junto com todo o lugar, então ele não tem aquela condição mais alta. Então, o que você vê nos dados contra a análise explodida para que esta correlação, você pode ver imediatamente que este treinador de correlação em um número pode imediatamente dizer-lhe se este preditor é um bom preditor não são um bom preditor. Bastante simples e direto para você dizer imediatamente apenas olhando para este número. É por isso que a visão de cravo é muito bem usada. Na verdade, apenas olhando para o coeficiente de correlação, você pode imediatamente dizer Ok, estamos construindo uma árvore de decisão. O algoritmo da árvore de decisão tem que decidir qual será a nota superior. Qual é o próprio marfim prever. Mas ele vai estar usando a caixa de decisão stop e ele vai ser ou pétala interpretado com porque isso é o que lhe dá realmente alta previsão acontecendo, modelagem amigo e previsão que nós vamos estar novamente usando o pacote R estava dividindo entre o claro entre o conjunto de dados de treinamento e teste. Uh, então o que você usa este pacote de arte? Há uma biblioteca chamada Carrot. O cartão é uma biblioteca que dá às suas funções de aprendizado de máquina suas funções internas . Taxa de aprendizagem de missão. Uma outra função que ele faz é que ele lhe dá a capacidade de pegar um conjunto de dados e dividi-los aleatoriamente em treinamento, e o conjunto de dados de teste nele pode cuspir na maneira que suponha que você está tentando prever uma variável de classe. Ok, neste caso, você está tentando prever a espécie fora da flor em particular na classe. Variável tem dados. Digamos que há quatro classes diferentes sobre isso. Quatro classes diferentes ocorreram em alguma proporção específica entre si neste dom. Discursos, como disse três classes, faz supervisionar cor e Virginia em sua quase na proporção igual como unidade de querer que um no conjunto de dados original. Quando ele está tentando sprint os dados, ele irá certificar-se de que o treinamento e os dados de teste cada um individualmente, ainda tem o mesmo tipo de proporção. Ele vai dividir de tal forma que tanto o treinamento disse sobre os testes que continuarão a ter a mesma proporção para este particular up. A variável-alvo. Então o que queria Como você usa é escrever de nós, chamar esta função chamada criar partição de dados e que você está passando. Quero criar uma partição baseada nesta. Então diga, este é o alvo que vou usar. Então ele vai inspecionar este alvo e então espalhá-lo na proporção deste. Então você vê as propriedades 10.7. O que significa que você está dizendo que se jogar conseguir uma busca teria 70% de desconto nos dados. Então eu estou pirando fazendo um 7230 mais bonito no Lester. Você ligou? O quarto minuto vai me devolver um vetor. Então ele vai colocar em mim. Esta festa. Feliz Victor em linha. O que esse diretor contém é que as ideias da linha são os números errados da rosa que deveriam estar no treinamento. Será que ele realmente foi inspecionar? O que é um arrastado não vai conter números. 1356 É basicamente dizendo-lhe esses outros que devem entrar no conjunto de dados de treinamento e qual Electra está faltando neste deve estar indo para o conjunto de dados de testes profundos. Então você usa este para dividir o treinamento e os testes. Então eu crio este novo treinamento do tribunal distrital substituindo esses dados da íris apenas pelas estradas que estão entrando. Então conheço os testes fazendo a mesma coisa, como os dados da Iris. Mas aqui eu chamei centralização menor, que é cada estrada que não é neste particular no trem Vector vai para o teste . Agora. Eu dividi-me na coluna sete, que é 70% de centenas de Rosas 105. Então vamos fazer um brilho de diamante em todo o treinamento e testes, você vê que o treinamento tem 105 rolos e destinos para os vídeos. Além disso, vamos ver como a espécie com apenas a minha variável-alvo porque eu fiz esta placa com base nesta variável-alvo. Como essas variáveis foram espalhadas entre o treinamento e teste, disse Gator. Você vai ver que há 35 35 35 novamente 111 Pressão para o trem fez afirmar sobre ele era 15 15 15 15 novamente 1111 é querer que nós a uma proporção sobre os testes, dados disseram que há uma magia. A partição de dados de três anos faz para você. Ele faz as coisas aleatoriamente ao mesmo tempo, garantindo que o espírito se certifique de que a proporção ainda é mantida. É assim que você sabe, entregando dados de teste. Agora, uma vez que você tem os dados de treinamento, nós vamos estar construindo o modelo sobre os dados de treinamento em. Em seguida, testar o modelo estão prevendo a classificação de preparação de teste com base no testado. Então vamos ver como este funciona Primeiro, eu comecei com a biblioteca de C 50. Ok, este é o bibliotecário vai usar o seu talento cerebral com pacotes de instalação e depois carregou o espaço. Então esta é a função que eu chamei C 5.2 que eu vou estar passando todos os meus outlets previsíveis ou treinando fora. Menos phi é todas as colunas, exceto a variável alvo. E então seu passaporte é medidor variável. Só estou passando os dados de treinamento e construindo o modelo. Uma vez que eu construí um modelo, deixe-me tentar fazer um resumo do modelo tentando descobrir o que está lá. O que é isso neste modelo? Olha para este modelo, está bem? Comece com a chamada. Feito Ok, esta é uma chamada feita. E então diz que as 850 caixas certas lá dentro e construiu uma árvore baseada nela. Então aqui ele me dá os três reais que ele faz isso no nível superior mostrando. Aqui, este é o nível superior. Este é o segundo nível. Este é o terceiro nível, o nível superior de redução de patel terra ponto. E isso está dizendo muito. terra leva ou não, ele chamou o 1.9 está dizendo, tudo está resolvido. Então ele tomou uma decisão que ele próprio. Então as três paradas lá pedalam em menos de um ponto em Sentosa. Em seguida, ele leva a outra marca, que é vendida e maior do que um apontando e em que um decidir um sub. Nem então leva em adição, que é um pouco. Então pedal com maior do que 1.7, diz, é Virginia, mas pedal com menos de igual a 1,7. Ele está indo queimar outro nível, outro nível novamente, usando padrão, não terra. Ele toma uma decisão menor ou igual a cinco país, caso em que é Virginia pedal e maior do que 5.3. Lamento que a outra seja a cor desta Virginia. Então este é o Redbirds. Leva uma nota e tomar as decisões menos do que incrível valor maior do que algum valor. Em seguida, ramifica-se no lado sim e no novo local, e depois continua a crescer a árvore. E este é o deleite que é realmente será usado em qualquer nudez. Se você tem novos dados sobre você, posicionar os valores fora do pedal e peddle com simples com Lyndon Suple Com este é o três são Esta é a condição que vai ser um jogado sobre os novos dados para descobrir se que tipo de Flórida vai ser, e então ele dá o que é chamado de erro no exemplo, que é que você jogou a mesma entrada de mensagem nos dados de treinamento em si, e isso tem uma questão de 1,7%. E esta é a matriz de confusão para os dados de treinamento sugerem a dar-lhe nas colunas os valores reais fora das classes fora de espécies nas linhas são as previsões sobre quanto são as previsões e correspondência real, que é uns com os outros. Então o Bagnall que você vê aqui são todas as correspondências corretas porque é Sentosa vesicular Virginia nas colunas e disse, Oh então bicicleta na Virginia na rosa, o topo nas colunas são basicamente os reais subiu ou as previsões. O Dagnall vai ser as previsões reais sobre este e este ou o outro, então ele meio que previu com bastante precisão. Em outras palavras, ele tem dois erros 105 que é um erro, uma porcentagem de um ponto 9%. E então diz o uso de atributos, que são divorciados para reduzir. Então ele usou o cuspidor Atlanta revisado por 100% dos rolos que ele usa pedalou para fora com que revisado por 66% desses. Parece que ele não usou o Lenton separado flexível com um pensamento. Então é assim que o seu modelo se parece. Então este é o modelo que foi confundido. Agora, como você sabe testar este modelo novamente? Use o caractere de biblioteca em você. Chame esta função chamada predizer e passe o modelo. O modelo realmente que você tem que usar para quebrar detestou os dados que é culpado usado para prever qualquer nova data, Eu vou novamente cair da mesma coisa. Suporte você obter um novo dados sobre os novos dados, tem apenas quatro colunas e não tem a cor dos discursos. Você apenas cria um quadro de dados fora dele e passa assim exatamente da mesma maneira que você está passando os dados de teste. Então você chama isso de previsão importada com modicum estão testando. Ele vai chegar com este vetor para longe, onde para cada, você sabe, no amigo de dados de teste, ele vai ter um valor previsto. Então, olhe para a tabela de valor preditivo e, em seguida, você vê que há 15 Saito US 17 cores misericórdia e 13 Virgínia. É assim que a mesa se parece. Então isso é o que este preditor Agora você vai em frente, vá sua matriz de confusão sobre a coisa toda chamada Há novamente uma função na cenoura chamada matriz de confusão onde você passa o valor previsto no corpo real. Na verdade, o dólar dos testes é suspeito. Você sabe, o valor real valores. Então você passa, o valor fora previu um real, e isso vai chegar com esta pesquisa Então esta é a matriz de confusão, e também aparece, mas muitas estatísticas. Então você sabe, a matriz de confusão as referências nas referências de coluna. Os valores reais são diferentes. Sentosa particular Virgínia. A previsão está na Rose novamente, disse faz um particular na Virgínia. Então, tudo no Bagnall são as previsões corretas. Você pode ver Sentosa instala AR 15. Qual é a sua vertical colorida? 15. Virginia, Virgínia 15. E as histórias parecem ser o único erro que é seus dois lugares onde os valores reais Virginia, previu particular. Essa é a área. Então você é a estatística geral. A principal coisa que você quer uma garrafa limita a teocracia dessa previsão. Então a precisão é 95% 950.956 ou 95% que é realmente mais alta moeda fora deste algoritmo fazendo esta previsão. E há outras coisas como há algumas coisas estatísticas como confiança em 95% confiança em problemas e valores de P. Não os aprendemos. Não queremos entrar neste ponto. Onda finalmente, coisas como sensibilidade e especificidade. Também vimos. Então esses são os valores para eles. Então, em geral, é assim que suas classificações funcionam. Você constrói seu treinamento que eles estão testando dados 1.000.000.000 modelo nos dados de treinamento e prevê no pistão. Agora, nós só queríamos ninguém mais nível de experiência. Vimos que melhor terra e pedal teriam alta correlação. Vimos que o modelo só os usou para a decisão. Não utilizou CEPAL int em sagacidade separada que não tinha essa alta correlação. Digamos, se o único tivesse dados sobre a Quaresma CEPAL flexível com não frágil e, em seguida, vende-lo Como o trabalho de exploração seguraria Oculus? Ele seria a previsão. Vamos tentar uma experiência aqui. Mas eu só vou estar usando CEPAL e sagacidade flexível e espécies e apenas uma ordem de panificação sob o subconjunto dos dados sobre nós sabemos que CEPAL endon flexível com não tem essa alta correlação Em seguida, sobre isso, eu vou estar fazendo treinamento, testes, construção de modelos e, finalmente, distinta. Então, repetindo as mesmas etapas divididas como dados de treinamento e teste. Em seguida, construa um modelo. Vamos ver como este moderno parece Então é apenas um separado emprestá-los flexível. Qual é o endereço para ir com esses dois valores e você vê uma árvore aqui Zeppelin grande, menos de 5.5 vermelho do que 5.5 e como esta árvore inteira parece em dívidas. Exemplo. Prender 24.8. Não realmente erro alto, porque sabemos que as correlações não são muito. É óbvio que você quer inventar algo assim. Agora você não treina e testa e vê sua matriz de confusão. Você verá que a precisão é de 0,6 ou 60% ao ano. Ele wa bateu 3 95 pessoa, mas um Landon simples separado, mas apenas em 60 pessoa. Isso novamente vai mostrar o fato de que os valores do coeficiente de correlação diz como uma variável preditora lista após o alvo? E isso é o que vemos para algumas variáveis preditoras realmente altas. Temos 95% para algo que é moderado a fraco preditores. Temos apenas 60%. Isto é que você pode compará-los. Você pode fazer algumas provações e descobrir como o quão bom ou ruim o espírito. Muito bolsa. Então esta é uma árvore de decisão para você. Como você vê a árvore de decisão não faz, não tem que usar todas as variáveis disponíveis para prever que só tem que usar como dinheiro para descobrir qual deles deve estar usando. Então isso é outra coisa única sobre árvores de decisão. Então isso é tudo o que temos para árvores de decisão. Apelo. Vá, saia e tente Isso novamente está disponível para você como um pdf. O arquivo de dados está disponível para você no pacote de recursos. Então, por favor, experimente seus experimentos com os dados e veja que tipo de coisas você pode obter. 9. Classificador de baías naive: Tudo bem. Nesta palestra, vamos falar sobre a base da nave, um algoritmo de aprendizagem da missão. Formas de nomes, aprendizado de máquina. Todo jardim é baseado no teorema base em probabilidade, e estatísticas sobre o teorema base é um assunto em si. Há, como os livros foram feitos com base aqui só na teoria da liberdade condicional pode ser aplicada a muitas situações do mundo real. Mas para essa aula em particular, eu estou tentando, tipo, realmente, realmente, realmente simplificar com base neles para apenas obter o justo fora de como este desprotegido eles deve funcionar. Então, o começo com vamos começar com alguma probabilidade. Então nós jogar, começar com algo chamado uma probabilidade, muitas vezes até mesmo um ocorrendo em qualquer vant. Nós chamamos isso de probabilidade de AP ou fé, e isso é geralmente entre zero r quer ele ou aquele quando diz, você sabe, o único é Este é, você sabe, o de geralmente entre 0 200%. Então vamos começar com algo como nós somos a Copa do Mundo de futebol Copa do Mundo Onda. Temos Argentina e Alemanha jogando, e então você pode dizer, Qual é a probabilidade da Argentina ganhar a Copa do Mundo então mesmo um que estamos falando é a probabilidade de Argentina ganhar a Copa do Mundo e que pode ser algo ponto para nossa chance de 40% de Angelina. Vencer a Copa do Mundo, por exemplo, agora vem baseado aqui na base aqui, e falamos sobre o que é chamado de probabilidade condicional. Então, o que é probabilidade condicional é que você fala sobre tentar prever e até mesmo um dado que dado ser como já ocorreu. Então, em vez de apenas prever até mesmo todos eles uma baía em si. Você tem algum conhecimento prévio de outras coisas que aconteceram. Dado que essas coisas aconteceram, como isso muda a probabilidade neste mesmo dia? Então novamente, voltar para a Argentina, queimar a Copa do Mundo? A probabilidade de Londrina ganhar a Copa do Mundo é, digamos que 40% são pontos para. Mas suponha que você saiba que Messi não vai jogar no jogo. Então você tem o que é chamado de precedente mesmo que já aconteceu. Imaginemos que Missy se machucou e ele não está jogando na Copa do Mundo. Então, qual é a probabilidade da Argentina acontecer na Copa do Mundo? Dado que Messi não está jogando Agora isso será uma probabilidade diferente. Talvez 0,1. Nosso ponto para apenas 10 são 20 pessoa. Então essa é a baía. O que se baseia aqui, , é que todos são um barco. Ele está tentando prever um provavelmente estar fora em evento dado que certos eventos fora eventos anteriores repentinos já ocorreram. Então esta é a fórmula para baseado em torno do provavelmente fora do ar dado ser. Então, o que é um dado? Significando a probabilidade muitas vezes até mesmo um ocorrendo dado que B s já ocorreu A probabilidade de jardinar uma vitória dado que Messi está ferido. Então um ser humano já ocorreu. E você sabe que nós ocorremos. E baseado nisso você está tentando prever um Então o que acontece é quando você está tentando prever algo, você começa com algum percentual e então você pergunta, você sabe, mais e mais informações sobre esse algo ao redor que mesmo algo já aconteceu. Alguma coisa já aconteceu que muda o provavelmente ser que fora da final. Mesmo assim, suponha novamente. Se a Argentina e na Alemanha estão jogando a final da Copa do Mundo, você começa com a previsão de que bem Argentina Vince, o provavelmente argumentou na abertura é de 40%. E então durante as minhas certas coisas acontecem em então as pessoas não ficam dizendo isso quando durante um jogo, os militares dizem isso. Ok, o primeiro time, o primeiro time marcando um gol. O Bigley tem um problema. Estivemos no jogo que é de 70%. Isso é, na verdade, uma probabilidade condicional. O problema. Você começa com a probabilidade de ambas as equipes terem uma chance igual de um íntimo, que é 50 50. Mas eles também dizem que se alguém é chamado de primeiro gol, então eles provavelmente estão fora. Ganhar sobe em X por cento de desconto. Alguém chamou os 2 primeiros gols. Provavelmente muda assim. Se alguém está liderando no intervalo, provavelmente muda assim. Então tudo isso é chamado de probabilidades condicionais. Você está tentando prever a probabilidade de um futuro mesmo tendo em conta que algo mais já ocorreu. Aqui está um exemplo de que eles supostamente há 100 pacientes no provavelmente fora um paciente com diabetes em geral. A probabilidade geral é apontar para agora o problema. Temos um paciente que morreu de diabetes. Dado que a idade do paciente é maior que 50 que é o que chamamos de anterior, mesmo em um problema no anterior mesmo acontecendo. E isso é ponto para. Então, obviamente, quando você sabe mais sobre o paciente, a probabilidade desse paciente ter diabetes não é diabetes. Continua a mudar. Então este não é apenas um dia em que você pode começar a ter muitos eventos privados, não apenas um. Então, a idade de um paciente é maior que 50. Sabe de uma coisa? OK, isso muda a probabilidade. O que de que Os pacientes é maior do que 50 em debate é maior do que o não £150 em. E se você tivesse 1/3 condição de que a pessoa é uma refeição? Então, enquanto você continua sabendo alguma informação prévia sobre o paciente ou o que me chamamos no Prior, até mesmo ele continua mudando. A probabilidade é o resultado que você está treinado para prever. Isto é o que o justo fora da base lá deve tudo sobre. Eu só estou, você sabe, realmente, realmente simplificado o todo baseado seu mundo em apenas um slide. Agora, próximo passo na base da Marinha. O que é chamado de classificações de viés? Aprendizagem de missão é tudo sobre isso. É a aplicação fora da missão de tédio base aprendizagem assim vizinhos classificações a aplicação fora da base. Lá um levou o aprendizado de missão para fazer algumas classificações Previsões. A variável alvo que você está tentando prever nas classificações torna-se o A par em cada previsto que você está tentando usar. A previsão torna-se o mesmo ser querer ser um. Então, no que queremos estar. Então isso é um mapa de visão, seus preditores e alvos para as classificações de vizinhos. O alvo torna-se mesmo dizer que é que você está tentando prever em todos os preditores torna-se anterior. Mesmo assim, os valores são os preditores são na verdade como os uniformes anteriores. Você está tentando prever provavelmente fora mesmo um recorrente dado que ser. Quer ser suficiente já ocorreu. Então você tem cliente AH entrando em sua loja e você está tentando prever se o cliente vai comprar suas coisas em, você vai ser querer ser e não basicamente o problema anterior. Isso você sabe, já ninguém cliente como os clientes a renda do cliente, as preferências do cliente e coisas assim. Então, por exemplo, se olharmos para o estábulo que criamos no exemplo anterior, cada um sendo meu e diabético. Então, a maneira como você ficou estes são como provavelmente que é diabético igual Dubai. Dado que as idades 24 sendo espantado 22 no provavelmente que para o segundo gravadores novamente igual. Dubai, dado que a idade é 41 BMX 36. Uma coisa que você faz em sido uma classificação baseada é muito diferente de outros jardins que apenas sair e dizer, OK, este gravador particular um RB ou descartado ordens clérigo sim ou não. Ele simplesmente lhe dá o provavelmente que algo é um sim e então provavelmente há algo. É um “não”. Por isso dá-te um valor de mais. Ele realmente tenta prever a probabilidade onde cada um dos possíveis resultados para as variáveis-alvo a variável alvo é puramente prisões são não, ele piers você. Qual é o problema com isso? Sim, ocorre. E qual é a probabilidade de que nenhum trabalhador se a variável alvo é algo como alta média baixa, dá-lhe o provavelmente para cada um deles em. Então você basicamente vai na escolha, que já um com a maior probabilidade é o que eu vou usar para minha previsão. Então, como é que os vizinhos todos os livros de jardim que basicamente contas faz tipo fora de uma mesa. Este tipo fora de uma tabela de probabilidade, lendo através de todos os dados atingidos como eu tinha construído uma tabela provavelmente como esta. Então deixe-me tentar explicar esta mesa. Então esta tabela é construída sobre três colunas estavam tentando prever o salário de uma pessoa. Esse salário é a variável alvo no sábado é entre lição para P e maior do que você . Apenas tentando prever é essa lição de salário pessoa de PK um maior do que de decadência na previsão depois que você está indo para estar usando nossa idade e sexo. Agora, olhando para os dados que você está indo para olhar para o conjunto de dados de treinamento, você vai construir esta tabela em linha reta. Quando você está construindo esta mesa, como você constrói um estábulo? Primeiro você começa a descobrir probabilidades gerais dentro do conjunto de dados de treinamento. Então você começa por aqui. O treinamento, que é o geral provavelmente estar fora do resultado. Menos de 50 anos pontos na figura terminou em 50 nasce. Façam luta. Isso é provavelmente baseado no conjunto de dados de treinamento. Supondo que os dados de treinamento terceiro tem 200 registros neste é um som de ponto. Se eu for o ser, deve estar fora menos do que eu próprio de decadência. Significa 150. O custo lá na verdade tem salário menor do que treinamento, disse Data. Então você já sabe o resultado. Esta é a probabilidade geral. No geral, quantas pessoas são menos do que de decadência? Quantas pessoas são grandes não começou. Você é a mesma coisa para a idade, cada faixa de idade aqui. Então você vê isso no conjunto de dados de treinamento. Se o que é provavelmente que alguém idade entre 20 e 30 que vem aqui, Ponto fazer para semelhante 30 a 40,26 você faz a mesma coisa. Assim, para cada classificação possível disponível em idade, você encontra o geral provavelmente de forma semelhante, para cada classificação possível de gênero, que é masculino e feminino, você encontra a probabilidade geral. Depois de encontrar a probabilidade geral, você encontra o que é chamado de probabilidade gigante entre uma preditora e a variável alvo dedo do pé. O que, como a probabilidade conjunta é o que você vê nessas células do meio, então vamos dizer, tome este ponto para lutar. O ponto a lutar é a probabilidade conjunta de que a pessoa tem entre 30 e 40 anos nessa pessoa. Salários lição de PG, Então aponte se eu provavelmente que alguém de idade 30 para 40 em salários de bilhete inferior a 50 k O mesmo valioso a probabilidade conjunta para todos esses caras. Então este meio a rosa, você vê, são as probabilidades conjuntas entre o alvo e os preditores. Então você encontra as probabilidades gerais, e então você encontra as rivalidades gigantes individualmente. Todos eles são provavelmente simplesmente tomar o número de registros esta conformidade com esta condição dividido pelo número total de registros. Isso é tudo o que você acha provavelmente é muito simples, direto. Número total de registros em que esta condição é um lugar. Então, quando dizem Point desafia que ponto lutar, é o provavelmente para a idade, e menos de 50 casos basicamente tomar o número de registros. E com os suprimentos eles eram pelo número total de África. É bem simples e direto. Uma coisa que você vai notar é que algumas dessas probabilidades sempre sai o único, então o total provavelmente 0.752 pontos para lutar contra a propriedade geral será sempre uma mesma coisa com sexo gerado 33 mais 330.6 em seria uma mesma coisa. Um lugar para estes subiu para nestas estradas para que todos eles vão ser assim. A ordem vai ser uma, porque é uma pobreza total de todos os resultados possíveis. Uma vez que você tenha o estábulo construído, é bastante simples e direto para você fazer qualquer tipo de previsão. E como você vai? Essa previsão é suposta quando uma nova previsão deve ser feita. Use ur jogar a fórmula de probabilidade condicional que acabamos de falar, que é provavelmente de um dado ser. Você vê caldo, a probabilidade de ser dado um em algo algo então nós apenas conversamos sobre o primeiro passo. Então suponha que eu queira prever se o salário de uma bolsa água o salário da pessoa é menos do que para planícies maiores de decadência. Dado que eu sei que as pessoas em particular com idade chamada 25 de modo que significa propriedade do salário inferior a 50 K dado mágico para quantificar, Eu tentei prever ambas as probabilidades, provavelmente menos do que a partir de tomar 100 e 50 k dado que o envelhecimento chamou 25. Pego emprestado a informação desta mesa, colocá-los em apenas uma peça. Só estou jogando a fórmula. Então, o que? Estou colocando a fórmula. Eu estou tentando colocar o geral provavelmente que alguém salário lição para decadir dividido pelo geral provavelmente que alguém idade 25. Então eu estou apenas pegando emprestado de pontos de e luta aqui e então 250.4 Aqui eu estou apenas emprestando esses valores podem ser jogados pela articulação, provavelmente sendo que o salário de alguém é menor e pegar uma energia chamada 25 em que é emprestado a partir deste senhor em particular e eu apenas sair e calcular o valor. Então eu completar ambos os valores e compactar os valores. Obviamente, 0,9 dedo do pé é maior do que o ponto de valor do problema de distância. Então isso significa que estamos prevendo aqui que o salário da pessoa é inferior a 50 K se esse ID percentual for igual a 25. Então este é o nosso nome pelos votos do algoritmo. Ele só primeiro constrói esta tabela condicional provavelmente que vimos em então apenas vai um lugar, esta tabela pública condicional. Então, quando você precisa, quando você tem novos dados, ele vai em um lugar, a tabela, os números. Você telefona a mesa para a fórmula e vem com o resultado. Ele encontra um resultado para cada um dos limites de probabilidade para cada um dos resultados possíveis , e então você decide quais você quer escolher com base em. Então, o que faz? Vamos ver algumas das vantagens das compras de nomes. É simples e direto e ganho mais rápido. Ele funciona bem com dados agradáveis e ausentes. Provavelmente é como resultado, o que às vezes pode ser bastante útil porque, digamos que estou tentando prever sim ou não. Às vezes é este 0,9. O problema que temos é uma espinha, e às vezes por que você sabe esse ponto às vezes, sim, é apenas ponto Fifi e pesar no ponto de Noah para lutar. Então, com base nisso, posso tomar algumas decisões quando os vizinhos estão me dando uma previsão muito alta de que os resultados de alguém provavelmente estão relacionados em 0,7, eu posso apenas ir com isso. Mas se os vizinhos estão se aproximando mais do que um tipo 50 50 de uma tira, então talvez eu possa usar alguns algoritmos adicionais para tomar mais decisões para que eu possa tomar esse tipo de posições com base no resultado de nós próximos, porque eu sou obtendo a probabilidade de cada um dos resultados possíveis em outros algoritmos, mas está apenas tentando prever apenas sim ou não. Não sei o quão perto é uma arte do nariz, mas neste caso saberei o quão perto está em Não, senhor. Então, essa é uma das vantagens de vizinhos deficiências novamente, ele faz limitada uma boa ASI. Ele espera que os preditores sejam independentes, e este é um importante. A base razão, o nome do algoritmo vizinhos é chamado nave porque faz algumas suposições de nome. E essa suposição de nome é que os preditores são totalmente independentes uns dos outros. A suposição de que a base que você sabe faz são os eventos anteriores que falamos. O B quer que eu cada um deles seja independente um do outro. Em outras palavras, o canto O B não deve me afetar, Toby To não deve em Bagby tree, que significa que um evento anterior deve ser independente do outro evento anterior, o que significa que uma vez que você não influencia o outro ocorrendo. Isso é o que uma das coisas importantes sobre o soro base é que os eventos anteriores são independentes um do outro. Quando, quando o que você quer dizer com independente um do outro. Isso é supostamente uma prioridade? Quando esta idade e o outro Prior e David é peso, a questão não de forma alguma influenciou despejo. Isso é o que ele está tentando dizer. Suponha que você tem 1/3 foram capazes de algo como, você sabe, seus níveis de colesterol. Não, pode ser possível que seu bebê tem um impacto sobre os níveis de colesterol, modo que os níveis de peso e colesterol não são realmente independentes. Eles têm alguma quantidade de coeficiente de correlação. Então, quando você diz que usar aparelhos são independentes um do outro, isso significa que eles são correlações. O coeficiente é muito baixo. Isso é o que você está tentando dizer. Os eventos independentes do anterior ainda não devem ter qualquer correlação entre eles. Isso é o que chamamos de independente em. Nenhum preconceito faz suposições de independência. Então, quando as variáveis são realmente independentes umas das outras, novos bisões funcionam muito bem. Mas se eles têm dependências internas, isso não vai funcionar tão bem, e é isso que tentamos dizer com a afirmação. vez não é bom com um grande número de preditores numéricos. Se você tem preditores numéricos, você tem que fazer é licitar para que os vizinhos só funciona bem com classes para variáveis preditoras . Então, quando há variáveis numéricas, você tem que convertê-las em caixas como fizemos para a idade. Agora você está convertido. Se você tem variáveis contínuas como idade, você convertê-los em oito rangers 20 para 30 30 para 40. Então você é a construí-los a reboque, por favor. Nas classificações de Binda Mendel, neste caso, o nome de Barry como uso. É tipicamente usado no diagnóstico médico porque você quer prever se alguma pessoa tem e o César não tem uma doença. Então, este é o lugar onde conhecer ambos ele provavelmente você mesmo o conselho. Os resultados são bons, porque se alguns você está tentando prever um paciente como doença ou não, se a probabilidade de ruído muito alto, então você ignora o paciente. Se o provavelmente do Essen ou muito perto um do outro. Então talvez você submeta o paciente a transar com o teste ou algo assim para fazer mais análises médicas para que o nome de May seja bastante útil. É a filtragem de spam de Houston, tentando descobrir se um e-mail específico é presunto de spam novamente. Neste caso, o que é muito útil é essa pessoa envelhece Então, se o filtro de spam aparecer e diz que o provavelmente que este e-mail é um spam é muito alto. Normalmente, o algoritmo, normalmente esse processo, matará esse e-mail em particular e não o enviará para o receptor. Mas se você diz que ele sai com uma previsão de SPAN que é uma chance de 60% de que isso é um spam, então você pode enviar esse e-mail para a pessoa que está em. Mas pode haver uma nota de que Alexis este tipo, este e-mail em particular pode ser S pan. Então é aí que no título do e-mail você verá isso. Ok, essa é a marca, que possivelmente é a família dele, para colocar um ponto de interrogação. Então esses tipos de decisões são tomadas sobre os valores de probabilidade que são feitos pelos algoritmos de filtragem de spam e eles estão usando nas proximidades é fazer isso. Ele é usado para classificações documentais, tentando classificar, digamos, artigos de notícias a reboque, se seus artigos relacionados ao esporte são política ou algo assim. Novamente, ele vem com essas probabilidades para cada uma das várias classificações, Shen está disponível novamente, bastante útil. Então há assim e, em seguida, finalmente, previsão de esportes como eu falei sobre tentar prever o resultado fora novamente com base em certos uniformes que ocorrem, já estão ocorrendo sobre isso é novamente cidade muito próxima útil. Então provavelmente alguém vai ganhar um jogo. Dado que eles marcaram o primeiro gol são dado que eles estão namorando e intervalo tudo isso em previsões esportivas novamente, quase viés entra em jogo nestes casos. Obrigado. 10. Caso de uso de R : baías naive: Oi. Agora vamos ver um caso de uso para o nosso viés de nome no nosso caso de uso que vamos estar olhando é filtragem de spam. Poderoso durante é uma atividade muito popular que acontece em qualquer tipo de dados textuais. Pode ser como e-mail mais tarde. Dados SMS, Twitter morto. Eu sei. O que quer que tenha de ser. Onda New Place é um dos algoritmos populares que está sendo usado para filtragem de spam. Então, neste exemplo em particular, vamos ter um conjunto de dados que tem um set off mensagens SMS. Há tantas mensagens foram pré-classificadas como ambos os presunto são spam. E usando esses dados, vamos criar um modelo que pode ajudar eu apenas identificar mensagens para ser uma extensão de martelo. A idéia por trás de você sabe, usando esse tipo de análise é que ah, presunto e mensagens de spam. Diferentes do que as pessoas tipicamente iluminam os diferentes termos de que tipo de pássaro ocorrendo. A mensagem do presunto era uma mensagem de spam. Normalmente temos palavras como, você sabe, negócios, oferta de dinheiro algo que é mais vendido do que martelá-lo, e isso é o que nós vamos estar vendo as técnicas usadas nesses portões de uso estão por perto . Classificações treinamento e teste matriz de confusão em A nova coisa que estaremos vendo é texto pré processamento. Como você processa o texto e o texto preparado em convertido em uma representação numérica para que ele seja consumido por algoritmos de aprendizagem de missão. Começamos definindo o diretório de trabalho. Em seguida, lemos esta chamada de arquivo SMS Pam Shot, que está disponível como parte do pacote de recursos. Você não se preocupe ponto CS nós e carregado para estes dados SMS. Os dados SMS atualmente estão fora do tipo presunto e span. Só nos certificamos de que está fora do fator assitant. Por quê? Não é uma fábrica. Porque nós carregamos que uma string satisfatória chamada de falso traidor, ter carregado a string como caracteres. Eu só fiz isso para mostrar como você faz essa conversão, assim como ela deve datar nosso tipo de dólar, você transformá-lo em um fator. Agora olhe para a estrutura dos dados. Veja lá, 500 observações localizador disparou duas colunas. Há um tipo de coluna que é um fator fora presunto e span. E há coluna de texto, que é todo o X expandir. Foi alguém dos dados. Veja, há 437 mensagens manuais. Foi uma decisão de planejamento dos anos sessenta. Chefe dos dados, na verdade social. Veja a mensagem e você tem dificuldade em A mensagem. Você vê um monte de coisas acontecendo lá. Há um monte de números e seus símbolos de moeda no lote de pontuação é e outras coisas lá dentro. Então, por que ele tem um touro e processo? Todos estes para X klinsi explicar Sing em são a biblioteca mais popular que está disponível para limpeza de texto É a biblioteca chamada PM Onda. Nós apenas carregar esta biblioteca tm sobre ele também carrega a outra chamada de pacote e eu vou ser uma vez carregar a celebridade, temos a converter esses dados de texto que temos no que é chamado de uma mensagem Corpus isto e eles são texto PM Library funciona em um mensagem corpus e tem uma função para convertê-lo. Então você pode trabalhar assim. Chama esse primeiro método chamado fonte do diretor e depois chama isso de mãe Tapetes? É assim que você tem que usar celebridades. Então você só segue a convenção e converte isso em uma mensagem. Corpus ligado. Então, uma vez que você converte para um corpo de mensagem, você pode dar uma olhada em trouxe este cartão. Baskins contém usando esta função chamada Inspect. Então você vê que eu estou apenas olhando para as cinco mensagens difíceis apenas. Então, cada mensagem que você vê, 123 e apenas lhe dá realmente o conteúdo. Ele faz um monte de metadados que coloca em sua Isso é o que este objeto realmente mostra. Mas há também o conteúdo. Assim que tiveres isto, agora vamos limpar os dados. Falamos sobre como os dados devem ser apertados na apresentação. Então, vamos fazê-las na verdade. Agora, no pai, há uma disfunção chamada ser um mapa, que tem muitas dessas funções limpas. Então este diem feliz ou passando os tapetes de mensagem real. E então há um barômetro que você passa chamado pontuação removida. Então isso está indo para o mais você sobre símbolos de pontuação na saída de outra mensagem tapetes, que estamos dizendo toe esta variável particular chamado tapetes de refrão e, em seguida, você repetidamente não fazer outro processamento como passado. A próxima coisa que você faz é remover o espaço em branco e novamente eles estão todos fazer é chamado a mesma dor com os novos tapetes de refrão como o parâmetro de entrada. E então você começa uma coisa chamada asma chamada espaço branco despojado que tira o espaço em branco nos dados que somos nós. E agora os tapetes diferentes. Então você sabe, conversão minúscula quando há um covarde é chamado de transformador de conteúdo contra algo construído na biblioteca PM. Basta chamá-lo com mapa GM e dizer para menor que lhe dá com um minúsculo. Em seguida, você remove os números no texto usando os números remotos. Então você remove palavras de parada onde você diz, OK, remover Werth em quê? O que eu quero remover uso. Chame esta função aqui em Donley chamada de palavras de parada. Remove todas as palavras de parada. Então você quer mover algumas palavras especialmente do que você novamente. Palavras confortáveis em dar uma lista de palavras que você deseja remover como uma lista C sobre ele vai apenas ir remover essas palavras de todos os tapetes. Agora, uma vez que você tenha feito isso, vamos tirar uma hora, novamente a um inspetor sobre os dados que têm sido aterrorizantes. Agora você vê os dados sendo muito mais amendoim como se não houvesse números e coisas assim . Os espaços estão fora. Um monte de dardos. RB Agora é muito mais limpo. Assim que estes dados estiverem prontos desta forma, a próxima coisa a fazer é criar este documento. Sem métricas. Um documento de picaretas loucas consistem no documento sendo convertido em um tapete. Truques são ofertas mortas em que cada documento é zero e cada palavra é uma coluna. Então, todas as segundas docas, zero e cada palavra é uma coluna. Então você só chama isso de importado em então que converte o em seus tapetes em um documento. Nossas métricas? Não, deixe-nos fazer. Ah, esse olhar para o jogo do documento sobre métricas, as dimensões do documento em Metrics it, Josie, Josie, que eu acho que ele rola cada um representando o documento de entrada que o documento aqui é na verdade a mensagem SMS ligada. Em seguida, as colunas Há nossas 2000 colunas, então cada palavra se torna uma coluna. Portanto, há 2000 colunas nesta questão particular truques. Então isso é meio estranho. Outra coisa interessante porque você tem tantas colunas diferentes do So Maney e elas estão em qualquer missão aprendendo tudo o que precisa para processar toda essa coluna. Então, pode estar muito cansado, então o que você vai fazer agora é que eu não vou passar por essas coisas. Você quer focar apenas em palavras que ocorreram pelo menos 10 vezes em todos os mortos-vivos. Então você pega todos os documentos, faz uma palavra, conta para todos, conta quantas vezes essa palavra ocorreu nos documentos do localizador. E então você só pode filtrar as palavras que ocorreram apenas 10 vezes. Então é isso que vou fazer. Estou chamando esta função chamada Encontrar termos freqüentes neste DTL. E eu estou passando o valor do perímetro 10, o que significa que só vai me dar a lista de números que ocorreram pelo menos 10 vezes neste e seus tapetes e, em seguida, usando isso como uma entrada, eu vou estar fazendo um corpus refrado fazendo essa lista de disfunção de chamada. O que isso vai fazer com ele vai saber ir e terminar neste documento escuro sobre truques Matt só faz o quê? que significa que vai reduzir as colunas de 1966 as únicas palavras que ocorreram pelo menos 10 vezes. A Andi. Então, depois de eu fazer este filtro DDM se você olhar para a chance de diamante do guardião completo, eu vejo este localizador e 59. Então, a partir de 1009 166 as colunas desceram para apenas 15 em preservativos com este tipo de nós sabemos decente, honrado. Então nós realmente obtivemos um monte de dados que você sabe que são muito escassos. E nós nos preocupamos e talvez não seja tão útil no processo de sinalização porque você precisa ter essa palavra ocorrendo muito mais vezes para que ela tenha algum impacto nos algoritmos de aprendizado de missão . Por último. Agora, vá em frente, inspecionar este grande documento sobre assuntos. Olhe exatamente como parece. Você vê os documentos que ocorrem como subiu nas palavras que ocorrem como colunas em. Então você vê uma empresa eras Qual palavra? Se este mundo, digamos que a chamada de acordo com o documento 51 tempo. Então nós apenas colocar o código é um aqui. Isso é chamado de métrica esparsa porque, você sabe, os dados são muito escassamente preenchidos. Ondas em algum lugar você vê cerca de 20 Caso contrário, é tudo que ninguém está em todo o lugar, principalmente uns. E quando eles imprimiram e rezaram para todo Mataric Então sinto muito por isso. Desci muito para voltar para o próximo pedaço, é claro. Então, uma vez que eu tenha um documento de métricas Ok, deixe-me começar a fazer não. Alguns exploram a análise refeita. Outra coisa que você quer fazer com palavras é o que é chamado de nuvem de palavras. Você teria visto essa carga de trabalho muitas vezes em que as pessoas apenas plod as palavras que estão ocorrendo do tamanho fora. A palavra está dependendo do número de vezes que a palavra ocorre em que dados específicos disse Então nós vamos estar fazendo a mesma coisa Forward cloud. Então usamos essa biblioteca chamada Nuvem do Word. Nós dissemos que o painel nós dissemos que o piloto desculpe. O piloto basicamente diz que eles nos cortaram veio para ser usado este caminho ponto cervejeiro como um número de esquemas de cores. Eu só estou escolhendo a cor da pele chamada escura também. E então eu vou você primeiro traçar um cartão de palavras onde eu estou pegando Lee dos Karpers refinados só aqueles dados em que o tipo é que ele chamou de presunto. É só escolher aquelas palavras de encontro que ele chamou de presunto. Estou usando os tapetes de refrão, não o documento não faz métricas. Então, basta olhar para aquele e depois dizer: “ Olhe só para as palavras que ocorreram nestas cinco vezes em diante, em seguida, fazer uma conspiração. Então este é o enredo e sai para ser escolhido, que era tipicamente depois em mensagens de mão e usando. Você vai chamar guarda agora? Estes ocorreram muito. Agora tentei fazer a mesma coisa. A mesma nuvem de palavras para as mensagens de spam em. Agora vamos ver como parece que há uma grande palavra chamada Carl chamada “Parece ser usado com muita frequência livre”. Parece ser muito usado reivindicação. Então você vê que há certas palavras que ocorrem exclusivamente em mensagens de spam que diferenciam de como as mensagens de presunto estarão olhando. Então é assim que você pode fazer uma nuvem de palavras. Isso é quase nenhum outro. Sabe, você pode fazer qualquer correlação aqui. Muitos mais análise de dados exploratória aqui por causa do tipo de dados que você tem seus próprios . Sangue de salsa Lex lá dentro. Então você está imediatamente recebendo guloseimas de porta treinamento e testes divididos. Voltamos novamente e usamos a biblioteca. Cenoura. Então nós vamos estar fazendo a partição de dados Bip 70 a 30% em. Na verdade, vamos dividir três tipos de dados em treinamento e testes. Então nós primeiro dados bastante brutos, que é lá tanto Eles são feitos de treinamento. Interessante. Nós espalhamos os tapetes em reboque, treinamento e superação. Em seguida, espalhamos o documento sobre as minhas quebras em formação e testando o Parlamento a mesma metodologia. Então, há tantos dados que abstêm do Carper e do rádio filtrado, cada um deles sendo dividido em treinamento e testes. A próxima coisa que vamos fazer é converter números e fatores. Então a documenta importa que eles construíram como em seus valores reais de células, a contagem off o número de vezes que a palavra ocorre em cada documento que vamos converter isso agora em ele é o nosso não, independentemente de quantas vezes tem pássaro ocorre em um documento. Vamos dizer o cartão de água, sim ou não. E para isso nós vamos escrever uma função chamada Contes Anaconda converter cones em que anos você toma uma entrada em. Se esse valor s entrada é maior do que zero melhor feito 10 Então, consideramos valor é maior do que zero, que significa que não importa se ele tem cinco ou seis ou 10. O que é maior que zero. Eles fizeram mais um, torná-lo zero. E então eu converto isso em um fator de usar este comando. Então, neste caso, vou convertê-los em um não e sim. Então eu só estou dizendo, fator fora isso, eu chamo isso de assunto. Passa isso. O que? O nível disse que os níveis são zero e um e, em seguida, 01 R um R mapa para não e sim, modo que é a sua Dunbar. Então, uma vez que eu fiz esta con função, eu vou usar o meu um chapeamento, uma função de jogo que são colocados dedo do pé cada linha ou cada coluna nos dados. Então eu vou dizer treinamento. Eu jogo o treinamento BDM na margem igual porta, o que significa que ele vai se aplicar a cada coluna que o Concorde sufocado. Eu aplico força para o treinamento doc métricas mentais, em seguida, para a correção de formato de documento de teste, e, em seguida, um treinamento de boa demanda e teste. Assim que conseguirem uma estirpe e testarem como o meu Crixus. Meu lugar é para que eu possa trabalhar mais rápido. São os assuntos em uma oferta de encontro Usando o perguntado nossos dados, amigo, porque eles fazem quadro é o que todos eles têm. Aqueles vão levar o traseiro de entrada, e depois disparam. O que eu vou fazer é adicionar este tipo o tipo real que vamos prever, porque o Dark Montel Matters não vai ter o tipo de apenas construído fora do esforço de parte do texto . Então eu vou apenas adicionar este tipo de coluna para ambos os quadros de dados de treinamento e teste. Então este é todo o processamento. Eu não faço uma vez que eu faço todas as coisas, deixe-me dar uma olhada neste quadro de dados os primeiros tendões em colunas ocidentais. Então você vê que estas são a rosa. Este é o conjunto de dados de treinamento. Então você é um garoto desaparecido porque eles foram para o conjunto de dados da mesa. E então você tem as colunas sobre quantas vezes o Eckert. Então você vê que os uns e zeros tipo de coisa, todos sendo substituídos por sim ou não, porque fora do processamento que fizemos com esses dados. Então, uma vez que isso é feito, então é uma simples coisa de oração construindo o modelo e prevendo usando o moderno para qual estamos usando. A biblioteca chamou cada e 1071 Então mesmo 07 minutos uma biblioteca que me dá um nome por nós função. Então eu chamei essa função próxima dos EUA para construir um modelo para o qual eu passei todas as minhas variáveis preditoras . Nesse caso, as variáveis preditoras são todas as 59 colunas que tenho no quadro de dados, exceto a 60ª coluna, que é a coluna tipo. E então eu passei. Qual é a minha variável alvo, que é o meu tipo. Então isso constrói o meu modelo, então eu vou estar olhando para o quê? Como o modelo parece Então falamos sobre quando olhamos para a apresentação em um viés sobre todas as probabilidades e condição provavelmente desvaloriza. Então você vai estar realmente vendo no mercado. O valor real começou a ser descoberto. Primeiro é a chamada da Madonna muito simples o primeiro, e então ele escolheu Qual é o meu A priori? Provavelmente estes que é geral geral. O que é isso jogado entre presunto e spam? O que é um Provavelmente algo é um presunto é 0,87 87 pessoa e Thomas 850,12% nos dados de treinamento disse que esta é a probabilidade geral. Então eu sou um dedo probabilidades condicionais onde para cada coluna para cada coluna nos dados. Vai me dar uma probabilidade de que seja um presunto ou uma vara. Então cada coluna neste caso é cada palavra porque nós fizemos todas as palavras colunas. Então você começa com este mundo tudo e qualquer coisa valores onde nenhum outro lugar na mesa. Então, qual é a probabilidade de que qualquer coisa é e saber se o documento é 1/2 e que está saindo para ser 0,97 da mesma maneira? Qual é a probabilidade de que qualquer coisa será um Sim Se o documento é um martelo neste ponto, Toto, o mesmo provavelmente a primeira vez. Qual é a probabilidade de que alguma coisa seja? Não, você tem o documento que spam em semelhante para sim. Então você vê todas as probabilidades chegando aqui e você vê, isso sempre vai somar a uma. Isso irá somar a um. Então, primeiro há a probabilidade geral de que algo é um presunto e algo assim. Tem um spam. Então, uma vez que algo é um presunto, qual é a probabilidade de qualquer coisa ser? Não. Se houver alguma coisa será sim, é Então você tem todos esses níveis são provavelmente que ele está construindo. Então você verá este colchão para cada palavra no documento em particular. Serão 59 palavras. Isso vai ser como 59 dessas coisas aqui. Ok, então este é o total de truques Karamat que ele constrói. E usando esta matriz, ela sempre é colocada a fórmula base para descobrir as habilidades reais que vimos na apresentação. Agora vamos e vamos a função predizer internamente predizer função será realmente computação. Essas probabilidades iam dizer, prevendo a função do desfile. Usando este modelo em usar esses dados em você vai estar saindo com previsões sobre. Então você usa confusão matriz dedo, na verdade tablet as previsões contra os reais e como ver quão bem meu modelo é executado contra os dados de Dustin. Então, referência que você tem presunto um cidadão. A confusão geral Matrix Hammond predição Span. Há apenas sete erros. E aqui há sete spam, que na verdade entrou em diferentes como presuntos. O que isso significa seria que as sete mensagens de spam seriam realmente enviadas para nós presunto para a pessoa real. E a pessoa estará olhando para ver caminhos. O meu Stanford. Eu não estou trabalhando. Tudo bem. Então isso é trabalho. Este aqui, você sabe, significa Então agora nós olhamos para a precisão de 0,95% de precisão. 90% concordam. Muito, muito, muito boa precisão para este algoritmo. O que? Estamos tentando bonito Pierre Andi, que é isso que você tem, sério? O que vai acontecer acabou. Chega uma nova mensagem. Você vai se converter. Vais ter este modelo. Você vai salvar esse modelo, aquela marcha humana para uma espécie de luta em tempo monreal. Quando realmente quando uma mensagem realmente chega, você vai converter essa mensagem em, tipo, tipo, um amigo de dados vetoriais. A mesma estrutura que D D de testículos olhando como em, em seguida, passou que dedo do pé a mesma função predizer. Vai sair com uma previsão, então, neste caso, pare de vir da Leicester Productions. Ele vai aparecer com um vetor um porque você só grating uma mensagem. E isso é o que então você vai usar para identificar se a mensagem é um martelo spam em. Baseado nisso, você decidiu, você sabe, enviá-lo para a caixa de entrada real. É esse mercado que é a Pam ou o que você quer fazer. Então este é um muito, muito, muito envergadinho de presunto , Phil, que realmente funcionaria usando nós próximos. Obrigado. 11. Florestas aleatórias: Oi. Nesta palestra vamos estar falando de floresta aleatória. Outra missão Madird muito útil. Classificações de aprendizagem mal os guardava. Então aleatório para nós é um dos algoritmos mais populares e precisos que estão disponíveis para aprendizado de missão. É um dos mais populares no sentido de que quando você tem essas competições de santos de dados , este é um dos jardins al, um burro que é muito popularmente usado. É um assunto insaciável que é usado para construir árvores de decisão e vários o que é uma matéria insaciável e método simples está em algum lugar que você não tomar uma decisão. Tomaria uma série de decisões e pegava um barco. Então deixe-me explicar um pouco mais. Suponha que eu queira comprar um laptop e quero obter alguma opinião sobre se devo comprar um laptop ou não. Se eu continuar, peça um de um amigo. Devo comprar este laptop ou não? E ele me dá uma resposta, sim ou não? Isso é algum tipo de reunião de decisão básica. Então todo amigo se torna um modelo. Eu uso apenas um modelo para obter uma opinião, e eu só tenho uma resposta, que é sim ou não. Em vez disso, se eles vão tem 10 off da Matrona, mas que eu deveria comprar um laptop ou não. E então eu tenho 10 opiniões diferentes e depois dou um passeio entre esta. Está bem? Sete dessas pessoas disseram que sim. Três destas pessoas disseram que não. Então sim é maior do que não. Então eu deveria ir e comprar este laptop que é chamado de tomada de decisão símbolo. Você está usando muita gente. Pessoas marchavam, pessoas, cérebros. Então é assim, neste caso, o que acontece é que a floresta aleatória é uma montada, madura, construída sobre árvores de decisão. Todo amigo aqui é uma decisão. Árvore em baixo para nós não é nada além de uma coleção ofrece É por isso que é chamado de floresta porque é uma coleção de árvores tão aleatoriamente para nós. Você constrói modelos do meu povo, constrói várias árvores de decisão, usa o mesmo algoritmo de árvore de decisão, mas constrói várias árvores de decisão. Você verá como construímos essas várias árvores de decisão mais tarde para previsões. O que você faz é usar cada um desses modelos. Suponha que eu construa árvores decisórias. Eu sou multado e modelos. Eu uso todos os modelos de descoberta para tomar uma decisão, então eu vou conseguir 500 chuviscos diferentes. Então eu meio que descobrir se um paciente está realmente doente ou não. Eu vou conseguir respostas do localizador Sim e não. Depois apanham um barco. Entendo o quão maney avalia. Entendo como Maney sabe que me dou bem, for o mais alto. Eu vou escolher entre isso. Então você vota esses resultados para encontrar sua melhor resposta. É por isso que é chamado de método instável. Você realmente, em uma questão instável, quando o aprendizado de missão quando você diz que algo é uma matéria no verão, você normalmente tem vários modelos. Toda vez que você tenta tomar uma decisão, você joga todos esses modelos e, em seguida, tomar um o que entre esses vários modelos. Então, como este funciona é digamos que você tem um dado dito que contém amostras M ou embriões , e em preditores e estão na faculdade lá em colunas e Ambrose no exemplo que você constrói X vinco. Mas cada árvore é construída com um subconjunto diferente de dados, e é assim que há uma possibilidade de Leste três grandes diferentes. Se você usar os mesmos dados de um edifício com cada um dos sacerdotes, todas as árvores serão parecidas. Mas para cada árvore você passa um subconjunto diferente de dados dessas amostras M e em preditores, você passa uma diferença de dados perturbados para cada uma das árvores. Então, como essa substância é escolhida? Escolhidos aleatoriamente. Então você apenas apontou para fora desses embriões, e em colunas você vai escolher um subsídio, Afros e melhor subconjunto de colunas aleatoriamente. E é por isso que este algoritmo é chamado aleatório para nós aleatório porque você usou um mecanismo aleatório para selecionar as linhas e colunas para nós porque você tem vários Treaster. É por isso que se chama Floresta Random. Por exemplo, se você já dados disse que, como 1000 linhas e colunas de luta, cada árvore é construída usando 700 rosa e três colunas, então você é realmente aleatoriamente 103 alguns 100 rosa e três colunas em então usado que conjuntos de dados nas forças armadas. Agora você não precisa se preocupar em escrever código para escolher essas linhas e colunas porque aleatório para nós, eu vou jardim implementações ou bibliotecas. Faremos por você. Isso é mais para sua compreensão. Às vezes você pode controlar em termos off Como, maney, Qual porcentagem de rosa que você quer escolher e que porcentagem de colunas você quer escolher para cada assunto três que você está tentando construir. Mas principalmente eles se otimizam em termos desse processo eleitoral que os subsídios de dados usavam para construir uma árvore para a produção. O novo Dodi é passado para cada uma dessas árvores X e você obtém X possíveis resultados. E então você faz uma votação. Estão entre este ex possível resultado para ver você sabe qual eu quero comprar. Então, por exemplo, se você está protegendo sim ou não, então alguém vai comprar um produto ou não em você. Bill demitiu as árvores. Você vai ter, tipo, 3 50 maneiras e centenas de pinos e então você sabe que 3 50 é maior que centenas de B. Então eu estou indo com a decisão fora. Sim, Então isso é como a concessão de decisão mais democracia tipo de processo de tomada de decisão que você uma peça. Então o resultado mais encontrado é a previsão geral que você vai estar fazendo isso aleatório para nós é sobre a construção de várias árvores cada uma com um subconjunto de dados escolhidos aleatoriamente e então você sempre que você tem que prever, você basicamente correu através do mecanismo de atribuição para tomar uma decisão, e que é a sua previsão final. Então, Então, alguém para a floresta aleatória? Vejamos quais são as vantagens? Uma das vantagens é que é muito preciso. Cada árvore está sendo construída com um subconjunto diferente de dados. O que isso significa é muito do bom que está lá nos dados. Bom eliminado Onley seu processo prop sinais adequados continua recebendo, você sabe, embutido neste modelo. Então, é divertido ser muito preciso, e foi eficiente com um grande número de preditores fora. Não importa se você tem 40 ou 50 pessoas. Ele faz, dado que cada árvore escolhe um subconjunto de preditores. O número de preditores que você escolhe para uma determinada árvore geralmente é esse coro fora do número de preditores realmente disponíveis. Eso Suponha que vocês são quatro protetores. Cada árvore é construída com dois. Mas suponha que você tenha, digamos, 16 preditores. O que? É silencioso o suficiente. 16. Talvez algo como quatro direita, então você só tem quatro preditores para cada um dos assuntos construídos, por isso é bastante fácil e flexível em termos, em termos de ajuste a um grande número de preditores. Outra grande vantagem do aleatório para nós é que é totalmente parlays ervas mesmo que cada árvore é construída de forma independente. O processo de reconstrução pode ser pode ser usado como várias CPU. Todos eles podem correr em popular, construir as árvores e, em seguida, você pode coletar todos os resultados de volta. Assim, mesmo lugar com quando você está fazendo previsões, você pode aprender tudo o que você pode fazer previsões em paralelo com cada uma das árvores que estão sendo construídas usando o uso múltiplo de CP e, em seguida, coletar de volta os resultados. Então, em que muito é totalmente remo Izabal, você pode usar algumas técnicas de processamento paralelo para realmente acelerar as coisas. Com isso, eu sei que para nós também é muito bom com dados ausentes. Os benefícios desta nobreza as árvores de decisão individuais também acumulou as palavras florestas aleatórias tiro chegando é, é claro, é muito tempo e fonte consumindo seu duplo encontrar as árvores em vez de um. Então isso vai levar muito tempo, você sabe, a menos que você mesmo se você jogar cruzamento de parceiros e coisas assim. Vai levar muito tempo para que variáveis categóricas por nós ainda possam existir se os níveis são desproporcionados. Agora, vamos explicar. O que você quer dizer com os níveis são desproporcionais. Suponha que você esteja tentando prever sim ou não. Portanto, há níveis sim ou não nessa variável categórica particular que são valores do dedo do pé . Sim ou não? Isso é o que chamamos de níveis. Então, no conjunto de dados de treinamento, os dados de treinamento disseram, se você tem, tipo, 50 SS e 40% por cento, 50% sabem isso como proporção igual. Supondo que o treinado tenha que 95% de desconto no valor disse que sim. Apenas 5% dos valores são não, isso é desproporcionado. Quando você tem esse tipo de dados desproporcionais disse, onde um dos tipos de classe domina as outras classes para, neste caso, o branco domina novamente. Tanta quantidade de modelos que você constrói sobre esse tipo de dados praticamente nos comprará em direção a esse y em particular. Então qualquer coisa que você tiver, 95% não tem 5%? Não, nos dados de treinamento, o modelo que você constrói com sempre ele prevendo sim, o tempo todo. Que você arriscaria que há se o número de precisão que vai sair com essa produção material vai ser altamente um grande porque suponha que você tem 95% Sim, e 5%? - Não. No jogo nos dados de treinamento, a mesma proporção também existirá nos dados de teste. Então, nos dados de teste que você toma em começar a prever tudo como sim. Você ainda tem 95% de precisão porque você tem 100 discos deles. 95 eles vão ser Sim. Basta ir e prever cegamente todos eles para ser Sim, você ainda vai ter 100% de precisão na propriedade. O problema é que sempre que o nem acontece, não vai ser sensível àquele Noé alto. Então, esses são lugares onde você tem que ter cuidado. Uma das técnicas que geralmente tem aplicado quando os níveis são inadequados é os dados disse que ele usou escolher um conjunto de dados dos dados de treinamento. É aí que os níveis são quase iguais? Você sabe, precisamos de 100 registros e 95 Domar es e cinco ou não, em vez de tomar 100 cartões só tomar 20 registros com incêndios e 15 Desculpe com finais e 15 anos ou assim que tivemos alguma proporção é alcançada. único problema lá de novo. É o seu uso claramente um grande conjunto de dados para que você não obtenha nenhum tipo de erros de previsão . Então esses são alguns dos desafios que você enfrentará quando você tiver essa proporção, ela nivelará os valores. Isso é usado na pesquisa científica muito e pesquisa científica topa pesquisa científica, o lugar. Mas você não está realmente preocupado com, você sabe, velocidade fora da previsão, nossa velocidade de construção de modelos para que você possa alegremente ir e usá-lo competições. Muitas competições usam agora para nós Outro lugar onde a precisão é a velocidade mais importante . Nosso espírito de produção não é novamente. Isto é teu. Lá Ele também é usado no diagnóstico médico para prever se um paciente, como você sabe, como você sabe, Sicard no Ártico, que tipo de proteger a tomada de decisão novamente. Eu não tinha para nós. Altamente. Você cria muito tempo. Esse é o alguém do aleatório democrático para nós. Obrigado 12. Caso de uso de R : florestas aleatórias: Oi. Nesta palestra, vamos estar olhando para o nosso caso de uso aleatório para nós, mas apenas potenciais clientes de empréstimo O problema. Temos tentando resolver as áreas que temos um banco e esse banco tem um conjunto de lista de clientes potenciais , uma lista de clientes, uma lista de clientes potenciais que querem ir atrás. Então isso é que vai atrás desses clientes para um empréstimo bancário, talvez os clientes interessados em tomar um empréstimo bancário. Então esses caras vão pegar uma lista de clientes e começar a chamar os clientes qualquer coisa. Estamos ligando deste banco. Você está investido no banco. Agora eles têm todas essas coisas, digamos fora 1000 potenciais clientes. Mas o que eles estão tentando pensar de nós. Eu quero ir e chamar cada pessoa possível de nossa massa? Quero encontrar os clientes que têm uma alta probabilidade de serem convertidos em um cliente real. Em outras palavras, eu quero escolher apenas aquelas pessoas que provavelmente vão comprar um serviço por nossa vontade por um empréstimo de mim ou tomar um empréstimo de mim, e eu só quero me concentrar nessa lista de pessoas. Então, o que? Eu vou estar fazendo isso. Eu vou estar construindo modelo. Isso vai prever se porque se um clientes potenciais vai se tornar um cliente real para empréstimos bancários. Então eu tenho esses dados. Que técnicas? Eu estava indo para ser usado neste exemplo particular que nós vamos estar usando treinamento florestal aleatório e testes de confusão Metrics. Vamos fazer variáveis indicadoras. Ganhar na redução de variáveis são nós começamos com o referido diretório de trabalho em. Depois há uma mesa. Vamos ler esta luta chamada banco ponto CSP nos dados bancários. Isso tem, na verdade, como 17 variáveis como enfermo. Ele faz informações sobre campanhas anteriores que as pessoas de correu contra as pessoas com a gente informações nossas campanhas anteriores. Então eles estão tirando uma lista de clientes em potencial com base em campanhas anteriores que eles estão feitos e, em seguida, tentando filtrar essa campanha para um novo acampamento e vendo que clientes mais ricos da campanha antiga seria bom o suficiente para a nova empresa . Então, quais dados eles têm sobre os clientes? É que eles têm idade, trabalho moderato estado faz educação os quatro, então eles tiveram um empréstimo anterior com essas pessoas sobre se o inadimplente no empréstimo não são o tipo de violência que eles têm. A violência do empréstimo Eles têm habitação ou não? Mas eles têm empréstimo anterior ou não. Além disso , há uma informação de contato com eles. Como eles os contataram? É um telemóvel ou um monte de telemóveis, o nosso telefone? Quantos dias em que eles tipo de clientes com o banco? Que segunda-feira? Na verdade, eles só Jordan se tornou um cliente. Hum, duração. Acho que é a duração do empréstimo. A duração do empréstimo que eles tomaram, que tipo de campanha foi enviada vai colocar contra eles. Então, normalmente, os bancos têm campanhas como, você sabe, e-mail, campanhas campanha telefônica na Web e a conferência tipicamente de Heidi. Então estas são as ideias das campanhas. E então onde alguma empresa anterior fez abraçar as mesmas pessoas antes desta campanha que foi feita, e se sim, quando uma campanha anterior foi feita? Qual foi a idee da campanha anterior, e qual foi o resultado da campanha anterior? Finalmente, você tem isso sim ou não, que é quando eles amam Randy última acampamento contra esses clientes que este cliente realmente tomou sozinho não são. Estes são os dados. Nós temos, como 17 variáveis nos dados. Portanto, há um alvo muito distante. E o resto vai ser tudo muito pó. Vamos dar uma olhada nisso. Alguém fora do banco. Dados recebidos. Os dados estão limpos. Idade entre 19 e 87 empregos. Está bem. Gestão, técnico de colarinho azul, estado civil. Divorciada Mary Solteira. Certo, educação inadimplente. Sim ou não? Apenas equilíbrio. Ok, há um saldo chamado menos 3313, mas é possível que às vezes eles pagam mais ou algo assim. Está tudo bem. Habitação não é empréstimo. Eles aceitaram sozinhos sim ou não. E eles têm coisas semelhantes para todos os outros perímetros. E eles são baixos, ou menos. OK. E, finalmente, nos dados disseram que há cerca de quatro. Lutar para um cliente fora de qual 4000 deles A não. E descubra mais inspeção no banco da Maria. Eu acabei de olhar para a cabeça, então? Então? Ok, Don Parece meio OK. O mesmo arquivo está, é claro, disponível para você no pacote de recursos, que você possa ir mais longe Olhe para os dados mais explorados. Mais os dados? Muito mais. Certo, agora o que vamos fazer é seguir em frente. Veja os coeficientes de correlação. Então você ia olhar para a biblioteca. Psiquiatria, a biblioteca. Psiquiatria. Vamos olhar para algo chamado painéis de partida par. Nenhum painel de partida parte vai pendurar no dedo do pé. Demora muito tempo quando o número de variáveis é grande. Então eu vou dividir os dados em dois conjuntos. Vou olhar para o 1º 8. Temos 16 variáveis preditoras. A primeira vez será olhando para o preditor de primeiros socorros Variáveis contra o alvo no cara vai fazer mais uma passagem painéis de início para o restante. Para que ele tipo de funciona facilmente. E então o tipo de sangue de alimentos em um número no quadro, eu vou estar apenas fazendo espalhando em dois e fazendo eles passo a passo. Então vamos dar uma olhada nisso. Por que a variável que estou tentando prever? E aqui estão as visões de correlação sobre o que você vê? Arte uniformemente usada. Todas as variáveis preditoras são ruins. Mineiros com mais de sete menos um ou comprar toto ou quatro É quase nada que nós fora de qualquer sentido aqui, porque todas as variáveis bric olhar muito ruim contra White. Agora você vai para baixo e, em seguida, fazer o resto dos caras 9 para 17 e, em seguida, novamente apenas durações em algum ponto de correlação razoável para descansar novamente. Há um 0.0.1 ponto dois. Isto é tudo muito pequeno. Há um menos 0,13 Normalmente, eles são todos muito pequenos no que você tem. Não, sem género o que chamamos, temos uma semana preditores. 20 anos, Williams disse de preditores muito fracos. É possível que uma combinação deles se torne realmente forte. Então, quando você tem um conjunto de criadores de E, isso significa que alguns dos algoritmos básicos, como novos compradores, são árvores de decisão podem não lhe dar bons resultados. É assim que temos que ir. O símbolo importa como aleatório para um solar. Ele tem trabalhos de floresta aleatórios no set off preditores muito fracos? A primeira coisa que vamos fazer com eliminar algumas variáveis que são muito, muito baixas, como dedos muito próximos, apenas menos de 0,1. Nós só vamos eliminar essas variáveis como o equilíbrio padrão, campanha Damon. Vamos pegar esses dados, eliminá-los. Pegue o resto das colunas e crie esses novos dados, senhor. Chame novos dados. Mas não há maior. Só tem tantos números de variáveis. por isso que destruí as variáveis alvo. E nós apenas olhando para as variáveis onde o cálculo, como você sabe, maior que 0,1 a mais de 10%. Então, após este foltrigg, vamos olhar para concordou. Ocorre novamente. O tipo de dados de Tudo é provável. Está bem, está muito fora do fluido. Mesmo muito baixo. Prever são para que eu não veja como isso vai em frente. Vamos então o que vamos fazer é fazer algumas transformações de dados. A primeira coisa, vamos fazer este edifício. Vamos estar na era dos Rangers. Então esta é a primeira coisa que vamos fazer. Cortaram a idade e os Rangers. 1 2022 44 para 60 e 60. 200 em você. Apenas substitua a idade orginal por esta nova era curva. Então o que? Você vai fazer isso? Vamos criar variáveis indicadoras para o estado civil. Então, esta é uma variável indicador Ucrânia para criar nova variável chamada é diversificada e, em seguida colocar uma condição se mais o nosso novo dólar civil mais tarde e dizer igual divorciado se conjugal é igual a diversa, em seguida, colocar uma outra porta zero. Então tudo isso, em seguida, se tornam variáveis indicadoras em. Depois de criar essas variáveis de indicador, você exclui o original. Minha variável de escritor agora olha como os novos dados se parecem. Então você tem a idade agora se tornando um fator de quatro níveis 1 a 2020 a 40 e então você não tem Newbury, mas é divorciado é solteiro e é casado e todos eles você vê zeros e uns. Tanto para a transformação de dados. Para uma parte, não há início a explodir ao fazer alguns dados exploratórios. Análise desligada. Como por que você pode ser como branco tendência contra várias outras variáveis. Então você conhece este enredo para habitação contra o porquê e, em seguida, contatos contra o tipo de contato contra o caminho. Então você faz diagramas de duração contra formas e a polícia contra a direita. E vamos ver como esses são feitos. Então aqui você vê habitação nenhuma audiência contra o cliente. A habitação nenhum tipo de tem um impacto fora. Há mais. Sim, quando a moradia é não, que significa que alguém não tem casa e sua tendência a receber um bônus. Eu possivelmente a oposição o que faz mais sentido. E você também vê que o tipo de contato por algum motivo, telefone Sonoran tem íris do que a razão desconhecida. Talvez um sinal não seja um sinal que não sabemos do que essas outras parcelas da duração contra. Por que ver as SS tipicamente têm uma grande adoração de arame então você sabe, é uma espécie de , você sabe, flak onde isso é meio branco na caixa. Mas todos eles têm, você sabe, alto nossos jogadores, então nós realmente não sabemos o que está acontecendo. Veja, este é um exemplo, mas não lhe dá muita confiança durante o reprocesso explodido. Olhe para o tipo fora dos ofícios e então você realmente não vê confiante que eu vou ser capaz fazer algum tipo fora de boa previsão que desde o governo não hétero e dizer, Ei, isso é realmente bom. Não há ir para o processo de construção do modelo, que é um grande personagem de entrega em. Então eu vou estar fazendo o treinamento e testes dividir a música criou uma função para criar os dados de treinamento e dados de teste em. Então olhe para a chance de diamante cada um. Quando eu começar em variáveis, eles vão se dividir nesta relação de sexo 3165135. E eles, é claro, têm o s e nenhuma divisão em números iguais sob este trabalho criou uma partição. Melhor para você passar para o processo de construção de modelos. Há uma biblioteca chamada aleatória para nós. Não, eu vou usar. E se você está perdendo a instalação deles induzindo pacotes instalados em Don't the library? Há uma cultura de função, e para nós que eu vou chamar e não há nenhuma floresta é chamado com Qual é a minha variável alvo por toda a minha variável preditora. Então, por que disse ponto significa que é prever por que usar tudo o resto nos dados que ele vai estar usando é o conjunto de dados de treinamento que o treinamento fez um amigo eo modelo sai assim . Então vamos ver como o modelo se parece. Então faça um modelo, e então este é o modelo que você vê aqui. A primeira coisa, claro, é a chamada que é dada aqui. Então olha para que tipo de Burnham. Para nós, é uma regressão de classificação. É uma classificação. Aleatório para nós. O número de árvores que ele tentou acreditar que é tratável. 500 árvores diferentes, o número de variáveis usadas em cada história dividida. O que significa que falamos sobre usar um subconjunto de colunas e o subconjunto de rosa para cada tratado. O projeto de lei, este persegue para cada árvore tinha usado três colunas. Então, há totalmente o que dissemos. Há cerca de oito colunas ou algo assim. Desculpe. Havia 12 colunas nas colunas de 2012 para cada divisão ou cada compilação de deleite que você usava na árvore. Então aqui, ele me dá, dá-lhe o erro em exemplo, que é você tentar prever usando o modelo que ele construiu sobre os mesmos dados de treinamento aqui . Está me dando o erro na amostra. Bonita, hein? Você vê que a maioria do especialmente a parte s não que ir para este erro muito alto na parte exemplo. Oi, Erin. A parte do exemplo não significa que o modelo é ruim. Então também vamos ver o que é o fora da carta de amostra? Também. Então você tem este comando chamado importância do modelo, o que significa que ele vai me dar a importância fora as várias variáveis que estão sendo passadas. E aqui dá o seu valor. Então estas são as várias variáveis que eu tinha as variáveis preditoras, e aqui está um valor que ele dá seu valor de Jeannie faculdade quanto maior o valor, mais importante que a variável particular duração assoc do maior 1 a 24 3 dias é Próximo 52. Anterior é 28 tipo de parece OK. É assim que a importância da lista de mártires, em seguida, vem para testar parte onde vamos fazer e fazer a parte de previsão oferecida. Então eu vou chamar essa função, prever, prever, dando-lhe o modelo nos dados de teste, e ele sai com um vetor fora dos valores preditos reais e os valores particulares de e sim. E então, é claro, eu vou e faço minha matriz de confusão em, em seguida, ver como os resultados parecem que ele vem com uma precisão de 0,89 80 nome pessoa precisão, o que parece muito bom. O grande admitir quando há também inspecionar um pouco mais sobre Não ver o que está acontecendo. Nariz para cima Lá estão Olhe para o meu diagnóstico é lá Há 1168 sabe sobre sim. Então uma vez ele disse sabe que eu fui predito corretamente. Apenas 30 não sabem que estão sendo preditos incorretamente. Mas se você olhar para os anos queria 42% do s rep Reiter corretamente em 149 anos foram previstos incorretamente. Então, mesmo que o agressivo geral pareça bom, o que você vê é que o s não está sendo previsto. Que um corajoso eles são mais erros em prever sim, apenas 40 porta previsto corretamente é o resto da SS previsto como não e por que isso está acontecendo. Por que você iria ver alta precisão quando este meu Texas parece tão ruim é por causa do número desproporcional off s e nariz no in? O conjunto de dados originais nos dados originais disse que vimos que vamos voltar para a divisão no portão de teste nos dados de teste disse que tinha 1002 100 sabe em apenas centenas de CSS básico . Isso é que eles são a maioria Leno e 90 para 10 pressão sobre quando você tem esse tipo de uma proporção. Mesmo no conjunto de dados de treinamento, o que vai acontecer é que o modernista tendem a inclinar-se para o tamanho altamente desproporcional eso neste caso, o modelo X curado salgado a parte nenhuma Nesse caso, uma vez que há um número muito alto de sabe que vai inclinar-se e começar a prever tudo como sabe quando pode ser. Sim. Então esse é um problema que você vai ter quando você está lá em seus dados tem o número desproporcional fora dessas classes. Uma possibilidade para você fazer aqui é, você sabe, reduzir o número fora do nariz nos dados de treinamento disse. Mas você se sente prestes a fazer isso? Então você realmente olha para uma grande proposta fora dos dados para começar. Então essa é uma possibilidade que você pode fazer aqui. Mas veja, os espetos estão acontecendo simplesmente porque as classes, os castelos tipo, você tem um desproporcional. Quando ele olhou para as ideias, os dados diziam que as aulas eram iguais assim. Essas são as vesiculares a Virgínia muito unidez para nos querer aqui é como a noite é como nove é 21 Então é por isso que você pode estar tendo esse tipo de problemas. Então é aqui que você vai. Tente várias coisas. Experimente vários outros algoritmos, tente filtrar os dados faz em ensacamento, aumento e veja o que ajuda esse tipo de coisas. Faça-os tu. Há mais uma experiência que vamos ver depois de fazermos esta previsão, que é? Vimos que ele construiu 500 árvores, mas para construir cada árvore, Ele tem um monte de trabalho para fazer em porque ele tem um projeto encontrar árvores. Mas a questão é, você realmente precisa encontrar árvores? Como posso obter o mesmo nível de precisão com talvez 100 árvores? 10 árvores lutam com árvores. Então massa que porque isso novamente depende do conjunto de dados. Você tem, Dennis, isso é muito bom. Você só levou a precisar de menos um número de árvores. Mas disseram que era ruim. Você precisa de mais número de árvores. Então, pai, o quê? Eu vou estar fazendo isso. Eu vou ser como passar por esse loop onde o que eu estou fazendo é eu vou estar lendo através de valores queria 50. Então eu vou estar construindo árvores de 1 a 50 e eu chamo isso mesmo com aquele aleatório para nós. E eu passei essa variável chamada entrada, que me diz quantas árvores e imutável por entrada padrão é 500. Mas eu só estou dizendo, bem, para seu 1 a 50 em. Então, para cada árvore que é construída, estou tentando encontrar a precisão. Então o que eu vou fazer é que eu estou fazendo tudo aqui em uma linha, mas basicamente a mesma coisa. Ambos um mártir perdendo a função de crédito, em seguida, chamar a matriz de confusão. E a confirmação minhas malas realmente me dá um objeto de dados que eu posso consultar e encontrar a precisão geral, que é o que eu estou pegando aqui e, em seguida, adicionando-o a este carro vetorial particular Oculus e. Eu quero fazer isso. Só vou traçar a precisão. Então eu vou estar plotando os três salvamentos no eixo X sobre a precisão no eixo Y sobre como você vê como a precisão aumenta nos três locais também sobe. Então o que você vê aqui é que talvez os três lados de ST para com é baixo três este baixo. Mas Omurbek, como quatro, ele se fortalece imediatamente tomou algo como, você sabe 0,89 do que 90 e então dá indo em algum lugar como este. Mas lembre-se também que isso tem um número desproporcional de classes, modo que também pode estar influenciando essas cerdas gerais. Então essa é uma possibilidade. Mas sempre que usa, encontrava-os para nós. É bom fazer para este tipo de exercício para descobrir quantas árvores você realmente tem que construir, porque não há nenhum ponto de construir fogo sob árvores se tudo em um dia de países suficientes ou até 50 árvores para fazer boas previsões, porque cada árvore vai custar-lhe mais recursos em termos de CPU e memória. Então esta é uma vista para a floresta aleatória. Eu sei que para nós é um grande assunto quando você tem baixos preditores e tal, mas então cuidado com a quantidade de tempo que leva em torno desses algoritmos. Andi, a melhor maneira de controlar isso. Como você sabe, descubra o número de árvores que uni realmente têm. A compilação para o conjunto de dados dado e o modelo dado. Obrigado 13. K significa conluio: Oi. Nesta palestra estaríamos olhando para o que chamamos como k significa agrupamento. Portanto, o agrupamento é uma técnica de aprendizagem de missão não supervisionada na qual o objetivo do agrupamento é hospedar dados de grupo. Então veio agrupar o método popular de agrupar dados em substância. Então você pode agrupar alguns dados em conjuntos de três são conjuntos off quatro. Baseado na semelhança entre os dados sobre como você sabe que a semelhança entre a Rada é basicamente pela similaridade fora das variáveis. Portanto, não há diferentes variáveis preditoras e alvo aqui. Tudo o que você pode considerar como uma quebra sua variável em que estamos olhando de forma semelhante, entre os valores das variáveis preditoras observou que mina como esses grupos devem ser cultivados. Então, em Edo veio em agrupamento. Suponha que você tem em observações são levantados em seus dados disse e invariável Zoran veio colunas Novos dados disse que você não agrupá-los em grupos K. Como você crescê-los em grupos K é que você agrupa de tal forma que cada observação ou cada linha é finalmente colocado no primeiro e único cluster. Então, se você subiu em cada rolo em digamos representa um cliente e, em seguida, o euro entrou em custódia. Você vai e criar clusters K e K pode ser como cinco ou seis ou qualquer valor e você acaba criando que muitos números de clusters e cada linha são cada cliente é subir um e apenas um cluster e que é chamado K significa clustering. Como Brooks tão, você sabe, você sabe, veio em estresse, você se importou com um espaço dimensional M. Então M é o número off variáveis são colunas. Você tem Ucrânia um espaço dimensional M e plotar cada um daqueles naquele espaço com base nos valores fora da variável. Então você sangue cada ponto naquele espaço e então você faz agrupamento fazendo águas chamadas medidas de distância entre os pontos. Então, nesse espaço n dimensional, você mede a distância entre cada um dos pontos em, em seguida, usa essa distância para agrupar os dados. Na próxima vida, você vai estar vendo como exatamente veio em nojento é feito com um exemplo meu povo , os tipos de distância minhas ações estão disponíveis e saber como você calcula a distância entre o ponto A e ponto B E alguns exemplos são a distância euclidiana. Distância euclidiana é encontrar a distância como pediu as moscas corvos. Mas como Manhattan distância está no meu galpão, pelo qual é como um passo a passo tipo de distância, e há uma série de outras medidas de distância também disponíveis. Mas a medida mais utilizada é a distância euclidiana. É como tentar uma linha reta entre dois pontos e usar isso para medir a distância entre os pontos. trabalho de agrupamento do Souders. Então vamos rebocá-los passo a passo. O ar do primeiro estágio é feito. Se você olhar para o primeiro bloco, digamos considerar os dados disse. Estamos falando sobre ele só tem duas colunas, então é um espaço bidimensional fácil para você visualizar. É aí que temos apenas considerando um espaço bidimensional. Portanto, há apenas duas variáveis nesta coisa em particular. Eu tenho um eixo X e o eixo Y ligado. Aplaudo os pontos aqui presentes. Suponha que isto talvez, como apenas idade e peso. Talvez eu esteja explorando cada paciente que tenho baseado em sua idade e peso em cada um desses pontos. Todos os pontos verdes aqui representam um paciente, e isso foi por isso que aplaudiram. Agora eu quero agrupar esses dados no reboque Dois clusters para que eu possa escolher qualquer número de clusters que eu quiser para ele. Mas neste exemplo em particular, eu só vou estar escolhendo clusters. Então eu vou ser apenas para afundar classe baixa apenas um ano, e então eu vou começar a bloquear. Então, como faço para começar um agrupamento O primeiro. A primeira etapa que faço é escolher pontos aleatoriamente. Eu os chamo de drogas enviadas. Mas a primeira vez que escolho o centrista, uso-os aleatoriamente. Então eu coloquei dois pontos em qualquer lugar neste gráfico em particular. Eu só estou escolhendo, você sabe, esses dois pontos aqui, mas eu posso escolher onde eu quiser e os algoritmos tipicamente judeus. O que o aleatório? Uma questão é, uma vez que eu escolho um ponto, a próxima coisa que eu faço foi medir a distância de cada ponto do pé cada centric supostamente tomar este ponto em particular. Meço a distância entre este ponto e a dissidência, Troy. E então, novamente, esta parte nesta central para cada ponto, eu vou estar repetindo esse processo encontrando ele desce entre cada ponto e come e tribo. Então o que eu faço? I Assane cada ponto para as novas prisões e tentar uma sã cada ponto para o mais próximo centralmente. Então, no final desta missão, cada ponto é um santo, um conjunto cada ponto é um santo, um conjuntode pontos. Então, esses pontos azuis em particular são enviados que este central e, em seguida, os pontos vermelhos são enviados para distante Tente Agora isso se torna seus clusters para cerca de um agrupamento fora. Então anel de classe acontece em muitas rodadas. A primeira rodada de clustering Estes são você cluster. Então você tem os pontos vermelhos longe para formar aglomerado direto e os pontos azuis formando o aglomerado azul . Então isso é em torno de um agora o que você faz em marrom para uma vez que você tem os clusters formados? - Não. Encontre o centro de cada um dos agrupamentos ou o centro à direita de cada um dos agrupamentos. Como encontrar o centro certo é encontrar um ponto dentro do aglomerado de tal forma que a distância de cada um dos pontos dentro do aglomerado do pé do centro Roy tende a ponto central é mínima. A mesma tribo telefonou de tal forma a essa distância. Mas ser cada ponto no cluster para o ponto central é o mínimo. Então, em termos de termos, você está tentando encontrar o verdadeiro centro desse grupo de pontos em particular . Então, quando eu encontrar o verdadeiro centro a partir desse conjunto particular de pontos, eu acabo aqui as notícias e tento. Então, os Sentras realmente se mudaram daquele local original. Faça o novo local. Agora você vê que estes são os centristas. Sabe o que acontece agora? Vamos repetir o processo. Repito o processo de encontrar a distância entre cada ponto do pé um do outro central. Por isso, repito o processo de encontrar cada ponto cada um dos direitos centrais e, em seguida, atribuir cada ponto ao centro mais próximo. Agora, quando eu fizer isso mais uma vez, o que vai acontecer é que alguns dos pontos se moverão entre clusters. Por exemplo, este ponto azul aqui que você está atrasado pertencia ao cluster azul, agora seria movido para o cluster vermelho. Da mesma forma, algum ponto que eu ouço no aglomerado vermelho tornaram-se nenhum cluster azul no centro da direita move a dissidência entre os pontos e a troca central como resultado, alguns pontos mover seria em um cluster para outro. Não, eu tenho um novo conjunto de um novo aglomerado. E para este novo agrupamento, o que eu faço de novo? Vá e encontre a Nova Central. Está ligado novamente, tentando encontrar a distância Michelle e novamente tentando re pontos de subida. Então, há essa coisa em particular de encontrar distância entre o ponto e o cheiro, escreve encontrando um novo aglomerado. Em seguida, encontrar o centro fora do cluster continua repetindo uma e outra vez. E esse processo continua em iterações. E quando essa iteração pára? Em seguida, este ponto não se move mais entre clusters. Ele pára quando a central se tornou estável. Eles não se movem mais e então os pontos não se movem entre grupos. Ele faz aquele lugar que o processo de agrupamento parou e é aí que você obtém os clusters reais. Neste caso, os pontos são realmente não se espalham uns aos outros. Então, dentro de algumas iterações que você tem no resultado final estão descobrindo que as taxas centrais e os pontos às vezes você sabe, se os pontos estão todos misturados uns com os outros, pode levar muito mais iterações. Antes que você acabe chegando com os propulsores reais, nem todos os algoritmos de agrupamento normalmente vão até o fim. Eles costumam parar depois de alguns X quantidade de iterações. Eles têm algumas medidas internas através das quais eles descobrem quando o processo de agrupamento é tipo de ideal estão completos. E então eles pararam naquele ponto. Mas este é o mecanismo básico em que o jogo em clustering funciona, encontrando o centro certo, ascendentes partes da direita central e, em seguida, nenhuma área enviando-os. E esse processo continua. Então este é o seu processo de agrupamento. Como entrou em livros de agrupamento? Portanto, vantagens de K significa agrupamento. Compacto? Há outros tipos de agrupamento, como agrupamentohierárquico. Há outros tipos de agrupamento, como agrupamento Existem outras variantes de K significa que agrupamento estão disponíveis, mas muitas delas normalmente funcionam com. Você sabe, o mesmo tipo de conceitos. Quais são as vantagens de K significa agrupamento é que ele é rápido. É uma visão para um grande número de variáveis ar Ok, pode ser mesmo se houver 20 ou 30 variáveis e área entrou em agrupamento pode funcionar bem . É explicável. Você poderia resultar, explicou por que é pontos de ser assentimento a esses clusters baseados geralmente. E eu sou facilmente explicável. Deficiências é que você precisa saber. OK, um amigo. Então, se temos um grupo de dados, como você lê? A mente se o bonito permaneceu o número de valor de K. Como você sabe que esses dados de grupo em particular disseram que eu realmente tenho três agrupamentos lógicos de agrupamentos biológicos de quatro agrupamentos lógicos? Não sei se é nosso amigo. Então você precisa saber. Está bem. De antemão para você. Dodo entrou em agrupamento. Uma maneira de superar isso é realmente tentar fazer agrupamento para todos os tipos de valores. Como pegar o mesmo conjunto de seus Dando 23456 tipo de aglomerados em não é que você está tentando encontrar algo chamado nós? Você sabe a distância. O que é chamado de separação entre os aglomerados, que é medido pela lógica de alguns off Squires. Você veria que quando fazemos o exemplo o caso de uso veio em estruturação. Você faz isso repetidamente e então você desenha águas nos chamou de curva para isso. Peça alguns fora Squires. Onde quer que haja em mim na curva é muito bom uma mente que agrupamento particular está completo. Vamos ver esse exemplo quando olharmos para o caso de uso como me encontrar no cluster. A posição direita enviada inicial tem influência sobre os agrupamentos realmente formados. Você sabe, onde quer que você coloque esses dardos, um amigo, às vezes eles fazem de graça no tamanho real da nave estação e forma do cluster. Às vezes o que acontece é se os pontos são que começam os sete sapatos e tentou iniciar uma posição diferente. O ponto significava realmente acabar em grupos diferentes. Assim, as iniciais inteiras têm uma influência sobre os aglomerados que estão sendo formados. Então esse é um tiro chegando. Há outro brilho clustering que tomador deste tipo de uma deficiência para, mas alegando agrupamento por antes relaciona muito sobre esta central inicial. Se os pais estão muito próximos uns dos outros, então as classes de unidade se formam são influenciadas pelas iniciais e tentadas que são usadas. Ele é usado no agrupamento de dados preliminares lá em cima. Muitas vezes, costume pode ser usado como um agrupamento preliminar de taxa I primeiro grupo que eles estão morrendo para três ou quatro clusters e, em seguida, começar a fazer aprendizagem de missão ou clusters individuais e ver como eles se comportaram. Às vezes, é usado como uma técnica preliminar de agrupamento. Ele foi usado para o agrupamento suave de dados como qualquer tipo de dados, como agrupamento de documentos, encontrar grupos de documentos e coisas assim. Agrupa pesquisas de sites, texto de pesquisa, coisas assim. Ele também foi usado para agrupamento geográfico onde você tem a longitude e assim você pediria as próprias compilações e, em seguida, usá-los para encontrar agrupamentos lógicos de dados de tal forma que você encontrar alguns verdadeiros centros e verdadeiros grupos de dados no gráfico de trabalho configurar. Portanto, há outro abuso de clustering de jogos. 14. Caso de uso de R: K significa conluio: Oi. Nesta palestra, vamos estar olhando para como podemos ir. K significa agrupamento. Andi veio em estruturação. Estamos escolhendo um exemplo chamado para dados automáticos. Estamos tentando manter o exemplo especificamente simples para que seja fácil para você entender e visualizar como esse mecanismo de agrupamento funciona exatamente. Neste caso de uso, os dados de importação contêm carros, informações sobre carros sobre algumas informações técnicas e de preços sobre eles. O objetivo deste problema é agrupá-los em quatro clusters nos quatro grupos lógicos . Com base nesses atributos, as principais técnicas que vamos usar aqui são k significa agrupamento e centralização e dimensionamento. Começamos com a análise de engenharia de dados. Começamos com o carregamento e compreensão dos dados certos. Então nós dissemos que o diretório de trabalho em nós carregamos esta arte ou dados não nos ver, nós arquivamos a partir do pacote de recursos em. Vamos olhar para como esses atributos olhar para este conjunto de dados. Começamos com o make off o carro específico, o tipo de combustível, a aspiração se é padrão são turbo, o número de portas, o tipo de corpo que é conversível para porta em porta, o tipo de Dr A tração nas quatro rodas para um rifle amigável irá conduzir o nosso ar Will dirige coisas assim. O número de cilindros, rpm de potência dura, meu esporão City mpg para cidade mpg para estrada no preço, vamos usar esses dados fora do grupo os carros em quatro clusters e então vamos ver Como é que uma mina? O número ideal de clusters para isso novamente dando uma olhada no alguém dos dados, você vê? Certo, o tipo de combustível. Você sabe, todos eles meio que parecem muito bons. Você pode Você definitivamente deve dar uma olhada neste conjunto de dados e até mesmo tentar outros algoritmos para este conjunto de dados cabeça fora dos dados mostra o como a filha Parece que não havia requisitos de limpeza aqui. Uma das primeiras coisas que são necessidades de agrupamento é que o agrupamento precisa de todos os valores numéricos para estar no mesmo intervalo. Outras maneiras agrupamento é um agrupamento é baseado em medidas distantes em para que o dedo do pé acontecer. Todos os dados numéricos que você vê nesses dados diziam, que são coisas como o rpm de potência, minha perna por quilometragem cidade por galão estrada no preço, todos eles devem estar na mesma faixa. Você vê que o nosso esporte tem entre 48 brinde é para fazer. Nosso PM está nos preços de gama 4000 a 6000. Alguém que você conhece na faixa de 50 mil. Temos que fazer com que todos entrem no mesmo alcance. O que você faz? Ou seja, Fazemos centralização e dimensionamento. Então, para fazer centralização e dimensionamento, há uma questão que está disponível escala de chamada. Então passamos essas variáveis numéricas, que são as colunas 8 a 12 pés em que o estado está. Em seguida, coloca-lhes um número de escala, em seguida, usa a escala. Mas para substituir as colunas originais 8 12 Quem é o Autodata? Vamos lá. 8 12 Substitua o original posteriormente pelo valor da escala. E agora, novamente, olhamos para os resumos e vemos como os resumos se pareciam com o rpm de cavalos de potência. Todos eles estão entre alguns. Certo, mas de menos para mais três, você pode ver o menos 40,0 menos 2 para 3. O preço desceu para menos um. Antes de ver que a escala aconteceu. Skate, enviar e Skilling veio trazê-los para baixo praticamente a mesma ponte. Então esses são os dados que você tem e então o que você vai fazer nervoso Fazer alguma análise exploratória de dados para olhar, você sabe, há nossos jogadores são algum tipo de erros que estão lá os dados? Então vamos fazer o número de lotes de caixas. Normalmente, vamos estar fazendo diagramas de caixa para cada valor que está lá. Não é isso que não vamos prever nada aqui. Não há variáveis preditoras. Estamos apenas tentando ver que tipo de intervalo de valores iria ter para cada um dos dados. Também, HB rpm, meus Spurs, Avellan City, MPG Highway eo preço Como os Rangers podem imaginar agora que desde que temos centrado e escalar todos eles, podemos realmente colocá-los lado base e realmente olhar para como eles tipo de escala, porque eles estão todos agora na mesma escala anel. Então você vê que o poder duro deve, mas tem todos eles estão na parte da caixa meio fora olhando. Eu não espalhei em todos eles fora jogadores em preços. Muitos dos nossos jogadores, na verdade, em preços. Talvez haja alguns modelos caros lá dentro, possivelmente, e escolhemos indiscutivelmente mais camadas fora. Há muitos. Na verdade, poderíamos possivelmente a coisa do crescimento. O que estamos tentando fazer aqui é que estamos tentando agrupá-los em grupos. Mas quando você faz clustering como as claras podem criar um problema porque nossos jogadores estarão em algum lugar longe no dia começarão a formar seu próprio pequeno grupo, seu amor. Isso vai ser. Se estou a tentar fazer quatro agrupamentos. Há uma possivelmente esta camada fora pode influenciar você que é um escuro em algum lugar distante, magicamente criar seu próprio agrupamento em. Pegue o resto dos pontos de estudo de cluster para começar. Os pontos só então obterão três clusters para realmente se agrupar em. Então esse tipo de classe pode ser prejudicial para o problema do agrupamento. Mas dado que temos tantos jogadores fora, você vê que muitos deles estão lá. Tudo bem para nós manter seus jogadores e ver como o agrupamento sai para ser. Se você realmente acabar vendo que o agrupamento não é tão bom em outras palavras. Quando você cria esses clusters, observamos o número de membros em cada um dos clusters que saem. Se você vir um ou dois, as classes têm apenas muito, muito poucos clusters. Talvez isso seja devido aos nossos jogadores. Então você quer talvez voltar para seus dados e limpar seus jogadores e tentar clustering novamente quando todos esses algoritmos de aprendizado de máquina forem de teste. Outro tipo de coisa. Você é o eu muito tarde fazendo modificações para ver quais você vai ser o melhor fora adiado. Vamos para os prédios de fluster. Então o jejum que eu vou fazer é apenas para que seja fácil para nós visualizar em um gráfico bidimensional . Vamos tentar construir esses clusters com apenas duas variáveis. Então, apenas para a visão, sic no Ártico claramente ver esses pontos dispostos em um em um bom para demonstrar sangue. Eu vou ser o seu falando 100amostras em apenas para realmente tanto o poder áspero e preço para criar quatro clusters apenas para que você saiba o rápido ao redor, dê uma olhada e veja como exatamente o cluster funciona e como ele se parece com o único 100 amostras em apenas cavalos de potência e preço. Então usei a biblioteca chamada classe. A biblioteca de classes tem uma função para K significa agrupamento no agrupamento Caymans é importante para definir o seu assento aleatório. Assim, a posição inicial fora dos clusters, a parte de iniciativa da maneira de classes falou uma fronteira durante a palestra lá escolhido aleatoriamente . Então o número aleatório ele usa um gerador de números aleatórios basicamente o gerador de números aleatórios sistemas para escolher um número aleatório e resfriado esses clusters. Então, se você quer resultados repetíveis, que é toda vez que você executa este tribunal, você quer acabar com o mesmo tipo de agrupamentos. Então você disse a semente explicitamente para que este sério sempre usado sapatos de dedo do pé, as iniciais e tentar posições em, em seguida, essas iniciais e posições tentadas. Uma vez que eles são os mesmos, esse processo de agrupamento de mineração também será o mesmo. Há chances quando o mar não vai para você pode tentar isso. Além disso, ele realmente muda as iniciais e tentou posição que pode realmente influenciar os grupos reais de cluster que um farm se o dia que não se segrega que muito bem internamente grupos lógicos. Portanto, é sempre bom definir a semente um amigo de algum número, modo que as iniciais e posições tentadas sejam sempre as mesmas. E nós vamos escolher e subconjunto de dados, que é a 1ª 100 Linhas e colunas comeram e jogadas sair bem. Então vamos apenas dizer o A k significa sobre esses dados e criar quatro clusters muito simples. E então você diz agrupamentos. Isso vai lhe dar as informações reais sobre o formulário de clusters, então K significa agrupamento. Isso está realmente dando a você os jogos do aeroporto confiando com quatro grupos de tamanhos 14 45 28 13. Sim, há quatro grupos encontrados com cada um desses tamanhos, que é bem legal, e todas as classes têm alguns bons membros. Se uma classe direita como um membro do que você pode estar se perguntando por que isso pode ser um outlier em algum lugar sentado fora que está influenciando seu processo de clustering. Isso é 14 15 28 30 e parece OK. O agrupamento significa que estas são as médias da barreira do cluster. Direitos enviados são tipo de olhar, é realmente Augusta enviou direita esses pontos que você vê aqui são os pontos centrais fora de seus clusters e, em seguida, ele dá-lhe o vencedor clustering, que é para cada um dos 100 registros. Lá dentro. Você diz que grupo esse registro pertence ao hospital. Um vascular mais rápido. Deus pertence ao segundo grupo. Kendrick está bloqueado. O primeiro grupo de terror, carpintaria, o segundo aglomerado. Então é só dar. Você enviou isso orgulhoso de pertencer a ele. E então você vem do pé e faz o que é chamado de soma de quadrados fora de aglomerados. Então ele vem com uma fazenda local entre alguns não escurecidos pela soma total de quadrados. O que isso significa é apenas mostra o quanto ele diz a você quanta coalizão existe dentro do cluster. Em outras palavras, você quer muita coesão dentro do cluster e muito menos coesão entre clusters Para repetir, você precisa de uma coalizão muito fora dentro de um cluster em muito menos coesão entre os clusters no melhor maneira de medidas é esta lei agrícola que vem com o número era uma porcentagem. Assim, quanto maior a pessoa dias, melhor é o processo de agrupamento. Então esta é uma fazenda permitir. Eu não quero me intrometer nisso. Mas o que você precisa saber é basicamente, esse valor é um intervalo entre 100 e quanto maior o valor, melhor é o processo de agrupamento ou 87 é realmente um bom valor. Então agora que nós só agrupados em duas variáveis Ah, vamos tentar e ir em frente, ploted e ver ter ele parece então eu vou estar plotando a escotilha ser no eixo x o preço no eixo Y em. Eu vou estar colorindo cada ponto com o tipo de cluster com o cluster que Columba que é encontrado em Eu estou apenas usando o ponto do tipo de ponto é um escuro E então eu estou dizendo que o tamanho do ponto é para e, em seguida, para este enredo eu estou adicionando o cluster centros para como roxo. Então o que você vê aqui é OK. A casa publicou ano os preços aqui em seguida os clusters. Cada cluster é de cor diferente na central, que clusters de todos esses triângulos que você vê lá. Então estes são o formulário de clusters, você pode ver que ele se agrupou muito bem em quatro conjuntos. Então isso é clustering explicado, mas apenas duas variáveis para você. Não, vamos sair e fazer o agrupamento para todos os dados em para agrupamento com todos os dados. O agrupamento só leva dados numéricos. Então o que vou fazer é para as 8 primeiras colunas, vou convertê-las em variáveis numéricas. No entanto, converter em variáveis numéricas sugerem que eu vou estar loping através desta variável. Eu quero oito e depois dizer que auto foi desligado. Eu chamei como dados de ordem numérica fora, então eu vou ler cada um deles em um dado numérico em então. Agora, a maneira como alguém desses dados alguém desses dados que você vê, que pode digitar tudo foi convertido em um inteiro igual. Então, onde quer que haja fatores de texto fora, ele é convertido em sua forma I d. Sabe, eu teria essa idéia no conceito de nome? Então isso se converteu nos anos noventa. Tudo é agora qual número? Assim que conseguir tudo, faça este número. Ex. Agora você vai e faz agrupamento no resto dos dados. Então, faça tudo bem. Minutos agrupamento em dados de pedidos em todas as portas. Ok, eu só estou escolhendo aqui as cinco colunas lá dentro a 7 a 12 variável alguém a 12 lá dentro para tipo de limitar as variáveis que você poderia realmente ter coletado em todas elas. Mas neste exemplo, apenas focando nas colunas 7 a 12 apenas sobre elas criando os clusters off. Então isso novamente me dá clusters e os clusters e tentou novamente dado aqui você ter como , 12345 variáveis aqui. Então, há uma coisa de cinco dimensões que está chegando com no cluster Sent escreve lá fora sobre o mau humor não é tão bom em A 60% ainda é meio bom E ok, esse é o tipo de confiança como ele faz para mim. Então este é o nosso jacaré. agrupamento funciona. Você pode tentar um tamanhos diferentes e variáveis diferentes e ver como exclusivamente vai segurar com o problema de confiança Venha para cima para ele. Um dos maiores desafios na estruturação de jogos é descobrir Quantos clusters eu realmente tenho nos dados que eu tenho? Está cheio nesta tenda? É 10? É apenas para como maney clusters lógicos que faz Este dados realmente cresceu pinto e você desde jogo em vez string é um processo onde você tem que dar o número de clusters como uma entrada anterior. É difícil para você inventar isso. Então, a única maneira de você descobrir é realmente executar o processo de clustering com muitos números fora do cluster com valores de cluster diferentes. Então tente Cluster um cluster duas classes, três cluster para e, em seguida, você faz o que é chamado como você olha para esta soma de quadrados valor em lá é algo chamado de nós e atender que ele tem que tomar. Então, o que é que isto precisa? Perguntar? Tome. Vamos dar uma olhada nesse Eu. Então eu tenho essa função. O que a disfunção é basicamente vai fazer é que ele está indo para Tran entrou em agrupamento para você sabe que este aqui para acabar. Então 1 a 15 vai tentar em qualquer lugar, todo o caminho de um cluster para 15 testadores um por um em cada vez que ele faz este processo de agrupamento , ele vai vir descobrir que esta água é chamada de vertigem fora do aglomerado que é uma parte fora do processo de agrupamento. Então ele está indo para o agrupamento dever e obter isso dentro de nós valor sobre ele vai traçar isso dentro de seu valor contra o número de clusters. Então, o que acontece? Não. Então aqui você vê o número de clusters aqui e, em seguida, uma vez que eu faço, meu veio em agrupamento em. Eu obtenho o valor da testemunha do objeto de cluster e estou arrastando-o aqui. Este gráfico parece tipicamente como este, mas basta usar qualquer Ele iniciar o dentro de seu valor começa de onde muito mais alto em seguida em linha reta de um fantasma realmente não e, em seguida, em algum lugar ele leva um joelho. Então, em algum lugar ele vira do sul para o melhor. Então é aí que nos chamamos. Qualquer. Então, parecia ter tomado e eu sobre este valor fora três. Entäo o que isso significa é onde quer que me leve. Então, o que? O que é que isto nos diz? À medida que você continua aumentando o número de clusters primeiro, o que acontece é que ele começa a entrar em cada vez mais agrupamento lógico. Então dentro de nós começará a cair drasticamente uma vez que tenha alcançado esse agrupamento lógico. Depois disso, você só está criando divisões artificiais. E isso não muda tanto o entre nós. Você está negociando spread artificial, então se você olhar para o ano até o valor de três gotas realmente suave, realmente grande. E então aqui leva e eu são porcos vai um vai para o leste, então do sul e vai para o leste. Este é o ponto em que depois todos os outros novos Costa que foram criados são clusters mais otimistas. O que a justiça usa? Três é o número ideal de clusters. Três é o número lógico ideal de cluster que este conjunto de dados tem. Então é assim que você encontrar o lógico são número ideal de clusters em um determinado conjunto de dados. Então este é o nosso trabalho de agrupamento. É muito poderoso para fazer qualquer tipo de agrupamento que você pode agrupar como nossos documentos você pode agrupar clientes com base em seus atributos é um financiador tem uma grande variedade de funções em, como você vê que são funções tão simples Isso torna seu uso muito, muito fácil e simples. Obrigado 15. Regras de associação: Oi. Nesta palestra, você vai estar olhando para o que nós chamamos Associação baba mineração, que é um popular técnicas de agrupamento tipicamente usado em um monte fora do negócio de varejo. Então, o que são bonecas de associação? Mineração em associação faz mineração? Você está tentando encontrar coisas que normalmente ocorrem juntos. Há um conjunto de itens em um conjunto de coisas que normalmente ocorrem juntos. Você está tentando encontrar as coisas que ocorreram mais frequentemente juntos. Por exemplo, em um supermercado você está tentando encontrar itens são alimentos que são frequentemente comprados juntos, como leite e ovos, pão e queijo, ou pão e geleia, coisas que muitas vezes compraram juntos. Por que você quer encontrá-los? O supermercado quer talvez armazenar esses itens comprados juntos geralmente seu estoque juntos, modo que quando alguém compra algo, é fácil para eles comprar outras coisas que eles também pretendem comprar. Ele também é usado para encontrar transações fraudulentas. Então, o que? Por que desperdiçamos você? Então encontrar fértil e transações é que existem certos padrões que ocorrem transação fraudulenta. Suponha que eu tenho como 50 variáveis sobre transações são criadas transação de cartão que acontece, transações fraudulentas tipicamente têm um padrão que normalmente há coisas como suas idades. Então e assim e então você sabe o local insolente ou na hora do dia e assim por diante. Assim, as coisas que ocorrem frequentemente juntos são identificados usando associação de mineração rosa. Também é feito para o que é chamado de mineração padrão freqüente. O que é parte freqüente na mineração é que quando você olha para os dados disse, vamos dar uma olhada nos dados enviados fora dos pacientes, há certas coisas que ocorrem juntos, como quando a coluna um como uma coluna de valor X para tem um valor por. Então há algumas relações entre esta coluna que continuam acontecendo sempre que a idade de alguém tem menos de 30 anos. Também é telefonado que eles não têm diabetes. Também é o telefone que eles estão no químico, menos de 50.000. Ele também descobriu que algo como isso para que você veja que quando algum evento algum valor particular ocorre em uma coluna, outras colunas para esse registro terá algum tipo semelhante de valores. Eles sempre ocorrem juntos. Então, são ideias para encontrar coisas que ocorrem juntas. E sempre que você tem esse tipo de desafio, regras de associação mineração é a solução para esse tipo de desafio. Ele também é usado para encontrar a próxima palavra que. Digamos que quando você olha para os motores de busca e você quer prever qual é a próxima palavra . Então você começa a digitar uma palavra e o cirurgião e prevê o próximo tipo possível de palavras que também saem da associação. Drew é muitos, provavelmente porque você está tentando em associação para lembrar você mente os dados para encontrar palavras que freqüentemente ocorrem juntos. Então, quando alguém começa a digitar, nunca mais do que a previsão de jardim se torna fácil, então ele vai e olha para as pontuações das palavras que estão próximas, e então eles alertam você. Na verdade, quando você está digitando lá fora, string que você deseja pesquisá-lo é uma das técnicas de agrupamento que uma suposição associação regras de mineração faz é que ele assume que todos os nossos dados são categoricamente, categoricamente precisa de todos os dados para ser categórico, não palavra contínua. O trabalho. Então você precisa trabalhar candidato para fora, convertê-los dados inter categóricos, modo que são novos dados médicos. Você precisa convertê-los com as curvas e coisas assim antes que você possa passá-lo para as regras de associação mineração. Também é popularmente chamado de análise de cesta de mercado. Se você quer o que, é popularmente usado no negócio de varejo. Quando você executa associação faz mineração, ele vai chegar a um set off artistas chamados regras de associação, e essas regras de associação pode então ser usado para pelo negócio e vamos ver o que essas regras de associação estão na próxima Luzes. Os dados de importação dizem que vacas em quando você está fazendo regras de associação mineração é um tipo diferente de um conjunto de dados no quando você olha para transações cestas de mercado que plantam quando uma associação faz mineração All Guard, hum, toma como entrada de arquivo que tem transações. Cada pista contém seção Airtran em que a transação é possivelmente uma transação 80 em itens que ocorreram na transação. Então, normalmente, ele vai ser parecido com esta transação um tem pão, queijo, transação de leite para US Apple X iogurte que não resolve o dedo de dados de importação. Ah, ano no jardim, parecemos uma transação 90 vírgula separada, em seguida, uma lista de itens que, acordo com a transação, você também pode usar isso para dados textuais que dizem que é um saco de dados de palavras. Então, para cada palavra que está lá você vem com o que é chamado de um saco de palavras ou as palavras-chave nesse documento em particular. Suponha que você está tentando agrupar como set off artigos de notícias. Você pode aumentar as palavras-chave no artigo de notícias e formar isso como seu saco de palavras. E isso se torna como parecia uma transação. E isso é o que é então dado como um dedo de importação. As regras de associação algoritmo de mineração. Então, quando se trata de ar e há um conjunto de métricas são medidas que eu usei para medir como esses itens ocorrem frequentemente juntos. Existem algumas medidas que usam as coisas que são carregadas. Então, quais são essas medidas? Entradas vão explodir. Digamos nb o número de transações em seu conjunto de dados. Deixe X. Por que esses são os itens individuais no dia como ele? Talvez tentativas como em um leite ou manteiga ou ovos O prêmio X que são as tentativas individuais no conjunto de dados. Então o que acontece? Existe uma medida chamada medidas de apoio. frequência e combinação de itens agosto no déficit para apoiantes quantas vezes uma determinada combinação de itens que talvez uma noite um toe itens, vários itens que ocorre no conjunto de dados O suporte de X igual fazer contagem de transações com Dex desenvolvido por em apoio de X y, onde X e Y ocorreram, levou-o. Essa é a contagem de transações com X e Y dividido por n de modo que é assim que você mede suporte. A próxima medida é chamada Confiança Mesure. O esperado provavelmente é que por que ocorreria quando o exaltar ocorre. Esta é a associação provavelmente assim cada vez que X ocorre. Qual é a probabilidade de que y todo o futebol de enquanto como eles ocorrem juntos? A confiança de X Por que dado Excell cada vez que X ocorre? Por que também ocorre a fórmula para o seu suporta fora X vírgula y desenvolvido suporte baseado fora X Nós já computado suporte e isso acabou. Você calcula confiança confiança fora Por que dado X também ocorreu um suporte de X vírgula y dividido por afixo separado. 1/3 missão é chamado elevador para levantar minhas ações. Quantos mais vezes X e por que um próximo Damn esperado. Então é como se houvesse uma expectativa que eu não gosto assim em média. Quero dizer, eles não podem ir juntos. Quantas vezes mais está ocorrendo? E esse elevador é computador para Por que, dado X é que a confiança desligada X dado y assim confiança? Já conhecemos a fórmula David. Suporte de base desligado. E é assim que a esquerda mede. Então, sempre que você está dando pelo menos ouviu falar de transações para um jardim airmall, ele vai computar, suporte, confiança e viveu para todas as combinações de dados. E então ele vai dar a você fora set off regras as regras onde você normalmente tem o maior apoio e mais confiante. Esses são os que saem como as principais regras. Normalmente, dá-lhe toda a combinação e todas as regras e, em seguida, todas as medidas. Mas é classificado na ordem decrescente de apoio e confiança. Então vai taxas especiais quando mais o que um item amaldiçoado e outros também ocorrem. Então, quando você olha para toda a saída fora do ar, um, você pode fazer este tipo fora de hipótese uma decisão baseada em algo como quando o pão é comprado. O leite é comprado 33% do tempo. Quando a Índia ocorre em um saco de palavras como em uma menina 20 dólares pessoa em. Então isso é, Ah, as regras que saem em um jardim de animais seria parecido. E você veria mais quando estivesse olhando para o caso de uso. O objetivo muitas vezes algoritmo Ahram. Quando você vira um fio de cabelo na minha guarda, um, você especifica um nível mínimo de apoio e um nível mínimo de confiança, que é, você disse ao Al, guardou eles para ir e comprar ido embora. Encontrar todas as regras são todas as combinações que ocorrem, que tem um suporte mínimo de X, são mais em um suporte mínimo fora da confiança mínima de por que são mais tipicamente, você diz apoiar este ponto em um, e confiança é 10.3, então não vai olhar para todas as transações. Mas o mínimo suportado spined um são ocorre mais de 10% do banco. É você, Deus abençoe, você sabe, jogador, e com os níveis de apoio e confiança que você tenta dar para menor apoiante ou muito baixa confiança, e você é a lista de itens que são como 50 mil. Há um Ramallah Adam vai correr para sempre. Pode acabar os problemas de memória que você conhece falhas e coisas assim. Então você sempre quer começar em um nível mais baixo para suporte e confiança e ver o número de regras que são geradas. Sabe, às vezes o número de regra geralmente é muito pequeno porque há que em si não tem combinações que ocorrem frequentemente. Então você pode aumentar lentamente os níveis de suporte e confiança até obter um nível desejável fora do número de regras. Mas sempre comece em um nível alto. Deixe a confiança de 3% ou algo assim e continue indo para baixo uma identidade freqüente como um conjunto de itens. Assim, a saída fora e Airmall jardim é o que chamamos os itens frequentes disse coisas que estão indo mais frequentemente onde o suporte é maior do que o nível mínimo de suporte fornecido. Então você deu o perímetro. Eu quero olhar para todos os I freqüentes que têm um nível de suporte de X ou mais. Ele vai fazer a análise e sair com os resultados para essa análise em particular . Agora, muitos deles que são usados para um Aramis o que é chamado de algoritmo a priori. Então ele faz sua magia internamente e são Tipicamente há uma implementação fora do ar. Rezo para que todos os guardados disponíveis na língua da formação Charles Use. E então você passa para esta lista de algoritmos de transações. Você fornece o nível de suporte e o nível de conferência, e ele vai voltar e dar-lhe o set off regras de ocorrência freqüente. E isso é para Aaron reservar um quarto era uma técnica muito popular. Ele é usado muito na indústria de varejo para encontrar coisas que se reuniram como falamos sobre isso é Houston para proteção contra fraudes. Ele é usado em analistas explodidos suponha que você tenha, tipo, 50 diferentes, muito pessoais variáveis preditoras tentando passar por cada uma das variáveis Breda para entender como elas funcionam umas com as outras. Uma das coisas que você sempre faz com, você sabe, você está tentando encontrar as eleições de carro. Mas correlação, é um super amante, você sabe, é uma correlação de nível global, mas poderia haver alguns padrões mais internos onde, quando, quando o excesso de valor de um y é um valor de dois, que tipo de proximidade entre duas variáveis Esse tipo de relacionamento pode ser descoberto usando mineração dominada pela associação. Veremos também um exemplo disso no caso de uso que se segue. Obrigado 16. Caso de uso de R : Regras de associação: Oi. Neste exemplo, vamos estar olhando para a associação brocas mineração em que a declaração do problema é um acidente, disse Data. No acidente, Data disseque Data disse vamos usar a mineração de regras de associação para fazer a Associação de Mineração de Padrão Frequente faz. A mineração também é feita para análise de cesta de mercado, mas você sabe o número de exemplos na análise de cestas de mercado que você pode praticamente encontrar na Web. Muitos desses exemplos existem sempre que você está indo contra e encontrando exemplos de regras. isso, optei por utilizar outro exemplo para demonstrar a capacidade de cabaz de mercado e uma capacidade adicional de converter dados regulares em transações de cabaz de mercado também. Então, se você vai olhar para exemplos de regras que você vai encontrar muito sobre, você sabe, você sabe, a cesta de mercado regular, ele vai falar a bordo como leite, ovos e manteiga 20 anos o tempo todo. Então eu estou tentando usar um exemplo diferente aqui. Então, neste caso, a afirmação do problema é que eu tenho um conjunto de dados que tem informações sobre 1000 acidentes fatais que tem 1000 acidentes fatais, e há um número de variáveis associadas a esse acidente. O que eu estou tentando encontrar como eu vou encontrar padrões freqüentes neste acidente. Então eu vou descobrir que tipo de condições sempre ocorrem juntos. Então esses dados, as variáveis, serão como as condições. Que tipo de tempo existe? Que dia da semana é esse? Que horas do dia é? E eu vou encontrar que tipo de padrões tipicamente um bom juntos, mas apenas sido variável um valor igual X variável, ser igual tão mal. Por que a maior parte do tempo, então não sirva. Patentes é o que estou tentando encontrar aqui. As técnicas que eu vou estar usando é regras de associação mineração, bem como converter dados futuros figura dados significando tabela tipo de dados no formato de dados cesta. Os dados que usarei são um arquivo chamado Acidentes Ponto CS. Estamos disponíveis em seu oh tão fraude que eu carreguei nesta variável chamada dados de acidente em. Então vamos dar uma olhada na estrutura para que ele diga para esta força a primeira variável, mas que a força policial estava lá, não a gravidade dos acidentes, o número de veículos envolvidos, o número de casualidades o dia da semana. A outra autoridade local tipo o distrito basicamente acredita que o acidente ocorreu Tipo de estradas, limite de velocidade, tipo de cruzamento de pedestres, luz, condições meteorológicas, condições da superfície da estrada nossos dados Bernardo em que o policial tinha sido a cena do acidente. Então eu estou tentando descobrir a partir daqui quais são os padrões comuns mais freqüentes em todo esse conjunto de dados? Eu poderia realmente ter ido e feito, você sabe, o outro tudo que havia para fazer uma oferta exploratória. Analistas tentando comparar manualmente cada variável com outra correlação de variável. Co opção não lhe dá esse tipo de minhas coisas novas, que é coeficiente de correlação dá-lhe mais como, você sabe, um X aumenta o caminho, também aumentar mais tipo fora de um tipo de número de coisa. Mas como ele tinha tentando encontrar valores que ocorrem mais frequentemente e que tipo de combinação de valores ocorre com maior freqüência que você não obtém a partir desse tipo de análise. Você precisa de algo assim para amável. Encontre os padrões que ocorrem com mais frequência. Então olhe para os dados do acidente, os índices de acidentes, e eu acentuei. Eu desejo saltar de um grande número, e então você tem todos os outros. Polícia por gravidade. Dados bastante simples. Nada parece barulhento aqui. Então nós estamos apenas indo com esses dados que já estão lá novamente, fazendo o chefe dos dados novamente. Coisas bem diretas. A primeira coisa que vou fazer é converter esses dados, que é uma tabela normal no que chamamos de dados da cesta do mercado da mesquita. Então, como eu vou convertê-lo para este é o antigo destino em que eu quero converter . Então eu vou converter para este CSP onde cada regra representa uma transação. As transações tem uma transação 91. E então isso é o que você chama de cesta de mercado, em seguida, menos do que itens na cesta. A maneira como eu vou converter esses dados é convertê-los em valor de nome por assim e coisas dentro da coluna nomeando apenas força policial. Estou convertendo isso em uma força policial. Ele chamou um acidente por ano igual a três número de veículos, igual a três. Então isso é como item isso isso se torna como itens. Então você tem um valor separado por vírgula dos itens na cesta. Então isso é Ah, você converteria a mesa normal no reboque em uma cesta de mercado. Ex são transação Aramark para muito transação I d. Seguido pelos itens indiferença, ação. E fazer este tipo de conversão. O que eu tenho é que eu tive na minha própria corte. Então este tribunal basicamente anda por cada linha. Então há. Eu leria através de cada baixo nos dados e, em seguida, se a função e, em seguida, qual o preço para construir esse registro em particular. E, em seguida, ele tenta iterar através de cada coluna nos dados. E então ele tem o nome igual valor tipo de coisa em constrói toda a cadeia. Construímos Sethi e seu CSB arquivando memória, finalmente organizamos aquela luta em particular na cesta. Então ele cuida de toda essa vírgula. Ele cuida dos novos personagens de terra e coisas assim para que você possa passar por este código em detalhes. É apenas regular chamado CSC arquivo fora desses dados. Então eu mostrei a vocês como a forma final parecia, e que está sendo salvo neste arquivo chamado acidente Basket guard CSP agora dado para fora que foram convertidos os dados regulares em dados de cesta de mercado. Vamos começar a fazer algumas análises. Então, para ler transações na análise de transações, há uma biblioteca chamada Biblioteca de Regras de Associação de Edel, que é o que vamos usar. Então nós carregamos esta biblioteca em, nós fazemos uma leitura nossa transação, então quando eles não lêem, escrevem transações, ele vai esperar os dados no formato de encaminhamento da transação, que é transação Seguido pela lista de itens que vão pegar a queimadura carregada em acidentes. E uma vez que eu embarquei em acidentes, eu posso fazer este resumo de comandos de acidentes. Só me explode para alguém dos dados que leram a partir desta transação estável. Então, há cerca de 1000 linhas lá. É o que ele vê. E quais são os itens que ocorrem mais frequentemente com ele. Este é o item. Este item chamou o policial um tenso o suficiente acidentalmente chamado um que ocorreu em 902 transações ou 902 vezes Este padrão ocorreu. Ocorreu o valor único de parceiro único. mesmo com as próximas contratações. A próxima alta Sim, oficiais, o top 10. Você também pode olhar para os mesmos dados sobre como fazer o que é chamado de nós no bloco de frequência item para que eu não gráfico de frequência mostra os 10 itens principais ou top 28 eles. Então você faz. Não sei, os programas de frequência são sobre os acidentes. transação disse parar a tensão do Nicholas. Mostre-me o top 10 porque o absoluto comigo Mostre-me os valores absolutos cor chamada da sorriso na horizontal Colotto basicamente traçar o enredo Arizona as outras maneiras que ele será plotando verticalmente. Então agora você vê quais são os que ocorrem mais frequentemente. Então ele começa com este policial morto na cena do acidente acontece e 900 transações e diz-lhe os padrões de itens mais comuns. Então acentos se artigo uma árvore parecem ser o mais alto também, foram ser escritos típicos. O seis parece estar bem alto. Um número de baixas é igual ao que é o mais alto ou limite de velocidade. Os três que um ser o mais alto de vocês sabem que nenhum outro limite de velocidade aparecendo aqui. Então você começa a olhar aqui, você começa a entender o tipo de padrões que você vê nesses dados. Agora, isso é apenas, você sabe, único item durante o dia em apenas olhar para um único item e ver como o próximo Ecker você quer começar a olhar para a combinação de itens que ocorreram juntos, a combinação de condições que se juntaram. Então vamos começar a olhar para isso. E para isso você está tentando descobrir as regras dentro do círculo regras e as regras estavam tentando encontrar usando este comando chamado de oração, certo? A priori Você passou o acidente. Então você diz a ele os níveis de apoio e confiança que você quer olhar para o que você está dizendo é olhar apenas para essas ferramentas. Descubra apenas esses padrões. Mas o apoio, o apoio mínimo este 0.1 sobre o mínimo de confiança 0.3 Nós olhamos para o que a família de apoio e confiança confiante estão na apresentação regular. Então você só vai olhar para esses. Se eu der esses valores muito baixos, o algoritmo pode ir para um lance. Ele pode apenas ir para uma volta porque ele está tentando deve ter, a menos que muitas coisas diferentes e então ele vai acabar, você sabe, ficando sem memória e coisas assim. Então você quer começar isso confiante no suporte em um nível muito alto e olhar para o número de número total de regras geradas. O número total de gerador de regras faz parte do gênero. Não é suficiente. Em seguida, largue o apoio e a confiança. Outras formas 0.1 e países tipo de muito bom tipicamente. E quanto menor o valor daqueles que você dá, mais tempo este vai correr porque ele faz para encontrar mais número de padrões porque você está dando a ele com muito baixo apoio e muito pouca confiança. Então, uma vez que você sabe que as rosas me dão, você é o resultado de como as ferramentas que eu tenho usado nele que mostram suas coisas aqui. E então uma vez que as estradas são dadas, você pode realmente olhar para o que as regras estão fazendo e este inspecionar sobre essas regras. E então eu vou estar apenas inspecionando regras. 1 a 40 você pode realmente ir inspecionar todas as regras. Se você quiser, ele vai me dar em ordem decrescente fora de um apoio e confiança, apoio e confiança. Então vamos ver como isso se parece. Então o primeiro conjunto de regras são basicamente os itens de regras de item único, itens únicos, que nós meio que já classificamos isso. Então tipo de linha que chamamos de seis como um suporte fora de pontos de e Fifi sobre a confiança em 60.75 Então, se houver apenas uma noite eles, estes apoio e confiança será igual e elevador sempre será um. Em seguida, a história começa no item múltiplo um. Então, neste aqui, o que significa é quando o dia da semana é igual desafiar Será que a polícia ofereceu fora de Israel e o tráfego visto igual? O que acontece com, uh, com o suporte desligado 0.1, que é 10% da transação. Tinha isso na confiança off 991 pessoa. O que isso significa é, quando eles são veículo igual a se eu 91% da data oficial hora na cena do acidente que ele chamou um aconteceu. Então o que isso significa é que, cada vez que eles são o que nós podemos desafiar o acidente. Aquele oficial não vejo nenhum Dax e 91% do tempo que então você lê, então você começa em mais do que padrões e olha para uma parte interessante feita desde o ano, sabe? E olhe para este aqui diz quando a melhor condição para que ele ligou, que é Talvez seja chamado se estão em um acidente de tempo nevado. CVRD ligou para três. Então este grave, alto, grave os acidentes acontecem nesta condição climática específica que imediatamente lhe dá alguns sabem alguns dentro. Até que tudo bem, esse tipo de clima parecia ser o mais problemático. O que isso significa é que sempre que este tempo acontece, isso tem que ser mais precauções de segurança. Você sabe, isso tem que ser mais precaução de trânsito do que coisas que eu tenho que tomar, ou talvez em alguns lugares. Mas esse tipo de condição climática ocorre. Você precisa ter mais precaução de segurança, talvez sem cruzamentos de nível ou sinais. Isso é para o departamento de polícia descobrir. Você sabe como eles podem minimizar esses acidentes fazendo algo. Mas este dá-te uma boa indicação do que acontece lá. Parece que temos a gravidade dos acidentes bastante alta quando essa condição específica acontece, então você começa a ler isso e começa a encontrar algum Parton interessante. Mas você pode então tomar e, em seguida, começar a tomar alguma decisão sobre nós dedos do pé. O que você quer fazer com ele? Então estes são todos os parceiros que você vê e isso é tudo que você faz análise de cesta de mercado. Se você é feito uma cesta de mercado regular do que? Essa maravilha de Leicester Leicester? Como leite, ovos, pão. Quantos números de transações que ocorreram em? Nós olhamos para a combinação diria quando o leite é comprado. Tábua de ovos, como 90% das vezes. Coisas assim. Mas esse exemplo, como eu disse que você encontraria em toda a Internet, basta olhar para exemplos de euros. Isso é o que você encontra. Então, estou tentando usar um novo exemplo de compartilhamento para oferecer uma experiência diferente. Eu explodo esse exemplo no mercado normal. Também na Web em que você vai? Experimente vários níveis de suporte e vários níveis de confiança. Não vejo como este algoritmo se comporta de forma diferente. Então isto é para o meu que temos para a associação. A análise de cesta de mercado de mineração é frequente? Mineração Parton. Obrigado. 17. ANN e SVM: Oi. Nesta palestra, vamos estar olhando para duas técnicas avançadas de aprendizado de máquina, e elas são chamadas de redes neurais artificiais. Andi apoia missões vetoriais. Agora essas duas técnicas são chamadas de métodos de caixa preta, e a razão pela qual eles são chamados de Caixa Preta importava é que eles se pareciam com uma caixa preta dentro da qual alguma magia acontece. Você dá a eles os dados de importação, e magicamente faz algo e vem com as previsões. Não é tão fácil que são simples de, você sabe, explicar ou entender como essas redes neurais artificiais funcionam são as missões de vetores de suporte lá tipicamente precisam de alguma compreensão sólida, algumas somas off, computador base, ciência e fundação e matemática em seguida, com base em que você pode melhorar e, em seguida tentar entender como este trabalho. A boa notícia, porém, é que estes estão novamente disponíveis para você, implementados em certas bibliotecas em para fins de prática. Para fins de uso, tudo o que você precisa fazer é ligar. Esta biblioteca passará mais tarde e eles farão a magia por você. Então, nesta palestra, não vamos realmente dar uma boa olhada nos corpos. E Carl Adams para isso. Nós só vamos estar fazendo e todos vocês aqui porque eu afirmo que é bastante complexo em tentar explicar as teses, e não que é impossível lá texano disponível para isso. Mas dado que estes são tópicos complexos, nós apenas passávamos através deles e simplesmente nos concentramos em como podemos usá-los na prática. As redes Neurex artificiais são inspiradas no coração pela forma como o cérebro humano biológico neblina, e é um algoritmo de caixa preta que vai levar muito tempo para explicar e entender. Ele tem usado muito no domínio da inteligência artificial onde as coisas são exigentes. As relações de dados difusos nem sempre são corretas e nem sempre são concluídas em. Agora é um verde estendido para o uso para o aprendizado de missão. Ajuda a descoberta, não há correlações complexas escondidas na data I que funciona semelhante ao cérebro humano. Ele ajuda descobertas correlações bastante complexas com, você sabe, dados incompletos e relações facetadas e exigentes, todos os seus discordados, pois ele funciona muito bem com meus dados C e funciona muito bem com variáveis relações sociais não são tão fáceis de entender a parte de produção é construção rápida. O modelo é lento. As previsões são de construção rápida. O modelo é baixo sobre ele é muito fácil. Teoh lobo. Foi usado em muitas situações de inteligência artificial, fora da Mission learning, como aprender sobre reconhecimento facial, reconhecimento caráter. Nosso sentido nós e coisas como que missões Support Vector está sob a caixa preta importava. É novamente, o funcionamento interno é complicado e complexo e difícil de entender. É chamado um fora da questão coronel. Há algo chamado Programação Coronel ou Coronel Matemática que vai para explicar todas essas coisas fora, e eu vou guardar o máximo, e eu vou guardar o máximo, baseado no que é chamado Vector German Tree and Statistical Learning. Terry de novo, você precisa de alguns conceitos básicos desses campos antes de começar a pisar. Compreender? Explique o que apoiar as missões do Reitor da Missão Muktar fazem. Ele pode modelar relacionamentos realmente complexos, e é muito popular para uso em um reconhecimento de padrões como reconhecimento facial e reconhecimento de texto nesses tipos de áreas de aprendizado de máquina. Não realmente nas situações de negócios, mas neste tipo de situações de reconhecimento de padrões é onde missões vetoriais de suporte são geralmente usadas e um implante aplicações bem-sucedidas missões vetoriais de suporte suave acontece em Biomet Informática e uma grande ignição esse tipo de áreas. E é usado para ambos e ou classificações e problemas de regulação para resultados discretos e contínuos. Então, e eles também são muito populares nessas áreas nas cavernas de empresas. Mais uma vez, estes estão disponíveis implementados em bibliotecas. Nós só temos que passar as variáveis e você está indo para obter a saída em dúvida em seguida, usar a saída para o seu suporte de trabalho. Missões vetoriais, obviamente, levar muito tempo para executar, porque suas previsões complexas, mas são bastante um grande quando você usa missões vetoriais de suporte. Eso de novo. Nós não vamos entrar no departamento, neste particular, claro, porque este é mais o começo, claro. Mas então há muito material que está disponível para você. Se você estiver indo para passar por eles e entender estes para o mais Obrigado 18. Sacos de ensacamento e reforço: Oi. Nesta seção, vamos ver sobre dois métodos de conjunto chamados Bagging e Boosting. Nós já vimos um método e símbolo como floresta aleatória e semelhante à floresta aleatória. Ensacamento e reforço também são em sambal importado em que você vai em frente, construir modelos multi-pessoas usando o mesmo conjunto de dados, e, em seguida, você pega um barco entre esses modelos quando você está tentando prever a diferença entre ensacamento e reforço é como o é isso. Como você pega o conjunto de dados deste edifício para cada modelo que você constrói essa diferença Stoneleigh ? E nós vamos ver como, exatamente sua diferença em termos off, os dados dizem que está sendo selecionado de modo que ensacamento é chamado de agregação bootstrap, e é uma matéria e símbolo, e ele sempre usa uma base. Classificador baseado classificados como árvores distantes, são nomeados por uma regressão. Ele sempre usa o algoritmo baseado em usar esse algoritmo. Ele vai fazer várias rodadas fora do treinamento, e vai construir o meu povo. Modelos em produção é feito usando cada modelo, então sempre que há produção precisa ser feita, que a produção é feita usando cada um dos modelos. Então, se há em modelos que você vai produzir Entwistle em, então você faz uma votação Entre os resultados finais para ver qual deles é o melhor ouvir. Então, o conjunto de dados selecionados muito uso para cada um dos edifícios mortais redondos é que para cada rodada fora do modelo edifício no treinamento que você constrói águas chamou-nos um bootstrap replica , disse Data. Então, como você constrói um bootstrap? Replicado um conjunto é que, se os dados originais set off como M exemplos PM exemplos significando número AM off subiu. Você faz arredondar a amostragem sobre os dados em para cada uma das rondas de amostragem. Você selecioná-lo por n exemplos, então suponha que o seu orginal disse mais tarde tem tendrils em. Então você acaba correndo fora de amostragem. Digamos que você faça duas rodadas de amostragem em cada rodada de amostragem. Você seleciona Mbai final que é 10 por Duke Fi exemplos cada. Então você faz duas rodadas de amostragem e cada rodada de amostragem. Você obtém exemplos fi de fotos. Então você coloca os dois lançamentos de luta juntos para formar os dados enviados. Assim, o conjunto de dados final também tem o mesmo número de linhas, como o Data original disse, exceto que essa é uma possibilidade de que alguns valores possam ser repetidos, então veremos como isso é feito no próximo slide. Suponhamos, digamos que queremos executar fins de luta de treinamento, que é queremos executar treinamento cinco vezes ou construir cinco modelos em um conjunto de dados que diz que eles fazem que tem oito registros. Então, como você faz isso em cada rodada? Queríamos dois conjuntos de amostragem, e isso é chamado de amostragem com substituição. Por que é que se trata chamado de amostragem com substituição é que quando você tira uma amostra da população geral, você coloca a amostra de volta. Então, na próxima vez que você fizer uma amostra novamente, essa função que você puxar, o anterior pode realmente ocorrer novamente. Essa é a palavra chamada amostragem com substituição. E como você sabe disso? Como digamos, para treinar a primeira rodada que eu peguei eu faço é para esses registros são um dedo do pé oito. Então Nero Sampling emprestou um. Você seleciona 14 fiserv em quando você sabe amostragem em torno de você selecionar 2467 Assim, a mesma rosa pode ocorrer novamente porque você está fazendo amostragem com substituição sua amostra e substituí-lo volta nos dados originais disse. Então você pode estar recebendo os mesmos valores de volta. E então você coloca amostra um e amostra toe juntos para criar o que é chamado de replicações bootstrap . E como você pode ver, algumas das amostras são repetidas. Eles, como a Floresta Rosa, repetiram na rosa. Sete. É meio que repetido, e essas fazendas, seus dados dizem para treinar em torno de um. Agora você vai entrar em campo de treinamento para repetir o mesmo processo em que você pode obter outro para lançar amostras. Sob os dois conjuntos de valores, você formar novamente a replicação de bootstrap. Alguns valores podem ser repetidos, como os valores para e o valor seis são repetidores, e então você vai construir um mártir arrastando Então você vai repetir assim para construir cinco modelos diferentes. E sempre que você quer um produto, você passou os dados para esses cinco modelos diferentes. Então você vai fazer uma votação sobre qual deles é dar quais resultados ocorrem. O número máximo de vezes que as coisas não são sobre ensacamento é que ele pode produzir melhores resultados. Em seguida, o baseado, classicamente, a base classificada com o jardim de manjericão, que você normalmente executa apenas uma vez. Mas no ensacamento, você está usando o mesmo emptor bem guardado muitas vezes em diferentes conjuntos de dados. Se manjericão guardado, , está fornecendo reservas instáveis, que é, você tenta executar o algoritmo de novo e de novo na mesma data, afirma isso. Continua a dar-te resultados diferentes. Nesses casos, o ensacamento é uma opção melhor quando você usa o mesmo algoritmo básico e então eu jogo o conceito de ensacamento nele. Ele tem alta exigência de resultados. Demora mais tempo graças à construção de modelos, obviamente porque vai ser a construção de vários modelos. E existem vários modelos disponíveis em termos de ensacamento várias implementação de ensacamento disponíveis, e todos eles usam classificador baseado diferente. E aqui estão alguns exemplos, como adicionar um carro saco de volta artistas usando árvores de decisão de volta análise discriminada flexível . É uma discriminação muito flexível. Análise é uma regressão linear muito difícil em. Então você está jogando apoio nele. Regressão logística você pode fazer ensacamento. Há outra chamada rede neural média modelo. - É. É uma variante variante, redes de neurônios difíceis, nas quais você aplica ensacamento, por favor, não papai. Não, o algoritmo que estão disponíveis no mundo. Mesmo que alguns dos conceitos básicos sejam os mesmos, há uma série de variantes que continuam saindo e saindo. Um monte de pesquisa está acontecendo em termos depois de tentar produzir novos ganhar seus itens de guarda de honra sobre estes são tipicamente variantes fora. A origem os considerava assim que você vai ver, como toneladas desses algoritmos disponíveis em Como você sabe qual eu vou chegar a eles? É melhor para o seu uso. Caso é simplesmente fazendo Tailândia nunca usou algoritmo e ver se o algoritmo está prevendo melhor. Então você veria que muitos desses são jardins. Mas não se preocupe com nenhum deles porque tudo que você tem que fazer é escolher o algoritmo e chamá-lo 1/3 com os comedores de baixo, e ele vai fazer magia para você. A próxima coisa, você vai estar olhando para nós, impulsionando o reforço. Também é muito semelhante ao ensacamento. É um assunto instável. A única diferença entre ensacamento e aumento é como você cria o conjunto de dados para o processo de treinamento para que ele novamente crie vários modelos novamente produção. Há modelos não múltiplos e, em seguida, os resultados. Você faz uma votação para entregar a previsão final. Neste caso, a diferença é que você está dizendo algo chamado Fades. Coma uma amostra para a outra. Assim, seu conjunto de dados contém um número de registros em cada registro é dado uma isca. Então, normalmente você começa com todos os registros sendo um peso de um em, e depois usado. Às vezes você quer fazer com como você continua indo e construindo modelos, você continua aumentando as taxas fora dos registros. Como você aumenta o peso fora do registro? Você pode simplesmente duplicar a guarda deles. Suponha que conjunto de dados faz um Pickard de e você quer aumentar o peso do terceiro registro simplesmente duplicado o que isso significa é não. Você acaba com nove discos com esse disco em particular. Quando ele é duplicado, seus valores os valores de várias variáveis a esse respeito obter maior idade isca porque ocorre mais número de vezes e tipicamente que irá influenciar a missão. Aprender todos os jardins muito humor. Então é assim que você tipo de aumentar o peso de um papel particular ou de uma amostra particular . Então, como é que um como Horace Bait está sendo usado. É você? Enquanto você continua fazendo várias rodadas de previsões, eu perguntei, erro de classificação acontece, você só aumentaria o peso desses registros mal classificados em. Como é que sabes isso? Vamos dar uma olhada na próxima vida. Então, novamente, aqui há várias rodadas fora do treinamento. Você começa com o peso fora de todos os registros sendo igual na primeira sala. Então você não pega um subconjunto, você pega tudo o que ocorreu e todos os pesos de todos os registros são iguais. Então vá em frente, construa seu primeiro modelo. Depois de construir seu primeiro modelo, tente encontrar o erro de exemplo no projeto de lei do modelo. O que está na carta de exemplo está tentando usar o modelo para prever o conjunto de dados de treinamento em si e ver quantos dos registros estão incorretamente previstos. Se o registro é erroneamente prever, isso significa que ele não modela o suficiente no modelo que estava sendo construído. Então você vai e aumenta o peso desses registros mal classificados. Você aumenta a taxa desses registros mal classificados, como eu disse em uma duplicata desse registro, e agora você tem outro conjunto de dados com um registro recém-adicionado. Agora, esse dia, o deserto torna-se a entrada para o segundo. Já chega de modelo. Não, você vai fazer uma modelagem novamente sobre os novos dados disse. Mais uma vez, encontre o exemplo. Erro. Finalmente, Misclassified Ricard, em seguida, aumentar o peso dos registros mais confidenciais agora ir para cerca de três rounds para luta round. Então, como ele continua construindo esses modelos em cada rodada do modelo que está sendo construído, você continua aumentando o peso fora do registro classificado errado. Então, cada outro modelo que está sendo construído usa um conjunto de dados diferente em com uma espera diferente para o melhor. Com menos registro vermelho, você está acabando com uma série de modelos uma vez por ano. O número de modelos. O processo de produção é o mesmo que o ensacamento são executados. Você está colocando através de vários modelos, venha com o trabalho sobre os resultados. E depois há a sua previsão final. As coisas não são é que eles têm requisitos de recursos elevados semelhantes ao ensacamento porque eles levam mais assassinatos pensáveis sob este porque você está construindo vários modelos, A coisa boa sobre isso é que você pode usar um set off alunos semana. Proprietários semanais não passam de grandes preditores. Você tem um número um preditor set off supostamente você perder sua análise de correlação orginal em você achar que a correlação é fraca para todos os preditores. Então esta pode ser uma boa opção para ir e tentar e ver se podemos usar um set off esta semana preditores para realmente vir acima com a criatura forte. Então, quando um jardim normal pode não funcionar para possivelmente impulsionar pode realmente trabalhar com. Então, é uma coisa boa tentar se a previsão se você vê que os coeficientes de correlação entre os preditores no alvo não são tão bons introduz viés porque sempre que há erro de classificação, ele dá grande idade. Então o viés que o algoritmo originalmente tinha no outro subiu como um tipo de vídeos. Então ele gerencia por também muito bem. E, novamente, há diferentes implementações fora desses algoritmos disponíveis como classificações de booster , árvores, booster G A. M. Boost. Um modelo linear. Sabe, Madeira de Arianos “fora desses algoritmos estão novamente disponíveis. Qual deles é o melhor? Você tem que tentar ver e você basicamente aprende com a experiência de como você usa esses algoritmos? Obrigado. 19. Redução de dimensional: Nesta palestra, vamos olhar para o que é chamado de produção dimensional. Nesta palestra, Então, o que é redução da dimensionalidade e o que são dimensões? Dimensão neste caso não são nada além de preditores. O número de variáveis preditoras que você tem nos dados disse, são o que chamamos de dimensões. Mas quando você tem um número de variáveis preditoras, temos uma série de problemas associados a eles é por causa disso, queremos reduzir o número de preditores. Então, quais são os problemas de ter muitos preditores? Ele precisa de muito mais requisitos de memória, muito mais requisitos de armazenamento como mais sopa você requisitos. O tempo necessário para a missão Aprender nossos jardins para correr é realmente muito mais se o número de variáveis preditoras estiver mais sobre a correlação entre as artes preditoras novamente entre os próprios predadores, não entre o preditor e alvo. Um protetor pode ter uma alta correlação, que com outro operador, que significa que eles são dependentes um do outro em que pode realmente influenciar o seu jardim . Normalmente, você deseja as preditoras. Eles não se pegaram? Isso não deveria ser esse tipo de correlação. Então esse tipo de complexidades surgem. Há uma chance de ajuste excessivo porque algumas preditoras influenciarão mais do que as outras preditoras em algum aprendizado de máquina irão protegê-las, simplesmente não funcionam bem quando há muitas preditoras. Então, como nós já é o número de preditores e quais são as várias opções disponíveis ? Se eu pudesse, já com o número de preditores. Então algumas das coisas que você pode fazer é você pode usar a seleção manual. Nesse caso, você pode usar o conhecimento de domínio. Você sabe, o campo em você baseado porque você conhece a sensação. Você pode fazer certas coisas e você pode dizer que isso não vai influenciar meu alvo. Por exemplo, no campo médico, você está tentando prever se alguém vai ter diabetes ou não. Agora, há um atributo para o paciente chamado altura, e um médico faz a altura. Metade de um paciente não tem influência sobre se o persa como diabetes ou não. Então isso é conhecimento de domínio. Então use esse conhecimento de domínio e jogue esse conhecimento de domínio e diga: “ Sabe o que eu vou levar? Eu saí fora dos meus dados disse, porque eu sei com certeza o quão alto não vai influenciar meus níveis de colesterol, mas você tem que ter cuidado. Pode ser possível que haja realmente uma correlação e ninguém sabia relatado. Isso é um risco fora tentando remover colunas são variáveis removidas sem ter consideração adequada . Segundo é olhar para os coeficientes de correlação entre as variáveis preditoras e o alvo, e você pode lançar essas variáveis bonitas que não têm alta correlação, simplesmente de modo que é uma coisa fácil de fazer. Essa é uma possibilidade de descartar variáveis com base em sua correlação com a variável alvo. 1/3 coisa é usar árvores de decisão, e então você pode apenas decisão por favor toe realmente escolher preditores na Páscoa. Se o espectro de como preditores maney estão lá, você pode dar às árvores de decisão e tentar construir um modelo, mesmo que árvores de decisão fazer pior ou tomar um monte de tempo com um monte de preditores, Pelo menos a rua final sai com Você gostaria de usar todas as criaturas. Você sabe que metade das variáveis T Prater. A árvore de decisão final pode não usar todas as botas. Ele só pode usar cinco ou 10 ou ele está indo apenas escolher número suficiente de variáveis, há apenas escolher aquelas variáveis que têm alta correlação R alta tendência para prever o resultado em apenas usado para construir uma árvore de decisão. Então Decision Tree pode dar-lhe alguma visão sobre quais fora as variáveis são um ao outro. Pretty realmente tem alta realmente influenciou o resultado para que você possa construir uma árvore de decisão uma vez olhar para qual dos muito sobre a árvore de decisão realmente usado em então Onley Full Dario Data disse que esse conjunto de variáveis e, em seguida, usou outros jardins para fazer previsões finais. O outro método científico mais popular que está disponível para você fazer redução de dimensionalidade é o que é chamado de análise de componentes principais. Na análise do componente principal, você está tentando encontrar os componentes principais que têm alta influência sobre o resultado . Então este é um método muito científico usado para reduzir o número de preditores. Uma explicação completa de toda a família e o conceito envolvido é, eu diria, um nível avançado de aprendizado de máquina neste momento, então eu não vou entrar nisso. Mas é baseado na água chamada vetores de envelhecimento e valores de agentes. Isso envolve um monte de matriz complexa e inverso dos meus truques e transportes de uma métrica tipo fora coisas que acontece antes de você vir acima com isso. Felizmente, eles são implementados para você nas bibliotecas que realizam a análise de componentes principais para você. Então, quais são o princípio das análises de impressão com para supor que você já dados set off em preditores do PC, ele leva este conjunto de preditores em e os transforma em um set off en preditores, outro configurado no Preditor. Agora você olha para este fim, preveja artes. Você não é possível para você. Faça o chumbo um único valor US A. coluna única na preditora dedo do pé uma única coluna na origem predador alienígena. Não é possível entrar em conflito. É totalmente transformado e totalmente difundido. Você pode criar um novo conjunto de valores, e um novo conjunto de colunas nas novas preditoras são basicamente a preditora certa. Eles são chamados de PC um PC para PC três. A boa notícia, porém, é que a espécie um pc para PC três. Eles mostrarão alta correlação com a variável alvo o urso. O resultado surgirá como o primeiro preditor. P C um terá a maior correlação possível com a variável-alvo. O 2º 1 vai agora a próxima pontuação maior como e terceiro não permitirá a próxima correlação mais alta em para cada variável que cada Prechter que está vindo no PC. Uma pontuação nos chamou de quanto fora da variação no alvo final é explicado por esta variável. Assim, o PC 1 pode ser capaz de explicar 50% da variação na final do alvo. PC variável, também, pode ser capaz de explicar mais 20% fora do alvo. Variável PC três pode ser capaz de explicar mais 10% da variável-alvo, então nós apenas usamos PC 12 e três. Esse conjunto seria capaz de explicar 80% da variação nas variáveis-alvo. Então o que isso significa é quem escolheu os três primeiros no topo para fora desses a tarefa de crédito certo e ignorar o resto deles. Só não usa detalhes, preveja escuros, e você começa a ir para ela e ir sua missão aprendendo nossos exercícios de construção de modelos assim e modelo impulsionado, você sabe, modelos de construção excessos. Com os preditores vermelhos, você também tem que fazer a mesma coisa quando você vem com as peças de produção fora de sua peça de abuso aqui para fazer a conversão para, a fim de fazer a previsão, a nova previsão pediu manteve nível semelhante de correlação e previsibilidade. Então eles fazem um excelente nível de correlação e eles são capazes de prever quando o bom é, eles vão em níveis decrescentes sobre o quanto eles influenciam a variável alvo. Então você só vai em frente, escolher o X superior dessas novas variáveis preditoras e usá-los para sua análise. Se você olhar para o caso de uso que temos para este modelo, você verá como isso está sendo exatamente. 20. Caso de uso de R : métodos avançados: Oi. Nesta palestra, vamos estar olhando para os métodos avançados que falamos sobre um exemplo de caso de uso para avanço importado. E para isso, a primeira coisa que eu quero falar é que este pacote de cenoura em nosso pacote correto é um pacote muito útil que você não tem no qual você pode fazer todos os algoritmos de aprendizagem de missão usando apenas este pacote lá. Ele oferece uma série de funções que já vimos. Ele lhe dá a capacidade de se espalhar entre dados de treinamento e teste. Ele lhe dá coisas como pré passando como análise de componentes principais e dimensionamento e centralização e esses tipos de atividades para a coisa mais importante que o pacote atual faz é que ele tomou todos os outros pacotes pacotes missão de aprendizagem e a colocar um wrapper agradável em torno dele, colocar um wrapper em torno dele para que você só tem que chamar nossa função da mesma forma o respeito que ele fora de qual algoritmo você deseja usar a mesma função da mesma maneira, independentemente da velha guarda, , No algoritmo, você quer usar se torna um dedo do pé do perímetro. Essa função particular, nós só temos que mudar o valor do parâmetro de árvores de decisão para vizinhos. E você tem vizinhos, você só muda para outro nome de algoritmo. Isso te dá aquele pequeno jardim que você não dá o número todo diferente. Vimos todos esses outros algoritmos para inventar através de cada uma dessas chamadas de função tinham maneiras diferentes em que você é chamar a função as diferentes maneiras em que você é as variáveis preditoras pastor nas variáveis alvo. Às vezes é dentro que eles estão dentro do mesmo paradigma. Faz algo bem lá fora. Apenas todo tipo de confusão está acontecendo lá para ouvir que você só tem a maneira número um de fazer as coisas na máquina. Aprender todo o jardim em si é um metro para. Dado que faz o algoritmo de aprendizagem de missão como um perímetro, quais são os vários algoritmos que ele realmente suporta? E para isso, você pode ir e olhar para esta lista de modelos de trem no que você vê é uma lista realmente exaustiva de modelos que ele suporta. Você aprendeu até agora sobre o quê, quatro modelos e aqui você vê o quê? Eu não sei algo como 203 100 vezes. Então não se assuste ao olhar para tantos algoritmos e depois dizer, “Oh, eu não conheço todos esses algoritmos. Lembre-se que todos eles são apenas variantes Variantes fora do que já vimos. Então vimos o jardim basal. Vamos eleger classificações, árvores. Agora, todos esses algoritmos ou implementações onde as pessoas estão tentando tomar a base em Agata podem tentar ajustar o dedo do pé, torná-lo melhor para algo aqui, algo lá. Estas são as nossas pessoas. O que eles fazem pesquisa em seu doutorado, você sabe, peças estão na universidade. Eles continuam criando novos algoritmos para diferentes casos de uso, mas eles praticamente usaram esse mesmo conceito básico. E dado que o FBI se concentrou na prática nem na teoria, tudo o que temos que saber é que o conjunto de algoritmos de saída existe e todos os ou vamos tentar esses algoritmos diferentes e ver como eles se comportam? Por exemplo, você tem algo como árvores de classificação. Aqui, vejamos todo o algoritmo que salva árvores. Desculpe, eu não deveria ter trabalhado aqui. Então você vê que há árvores de classificação bootstrap que está aumentando a placa em árvores de classificação. Então você vê isso aleatório para nós por ização aleatória. E há outra árvore as estatísticas Toshi Attic Grady em impulsionar outro tipo fora das árvores do tipo C 4.5 do que árvores modelo lógico. Você sabe que existem diferentes tipos de realmente guardados eles. Da mesma forma, você vai encontrar para cada manjericão guardá-los. Eles são como 10 variantes diferentes desses algoritmos baseados, então não precisa se preocupar com isso. E eu também vou dar-lhe uma maneira fácil pela qual você pode tentar todos eles e ver qual deles se adequa mais para o seu caso de uso. Então, com essas letras mais do exemplo do método avançado e do medo, vamos analisar os dados do câncer de mama. O que você tem aqui é um conjunto de observações feitas sobre um set off pacientes com câncer de mama, observações e diagnóstico que tem realizado sobre eles os valores do diagnóstico que saiu . E finalmente, o valor se o paciente era benigno ou saudável ou Mulligan é que eles têm um possível é que é tão olhando para esses perímetros que você está tentando descobrir se este paciente pode ter a doença não é assim. As técnicas que vamos usar é que vamos usar a análise de componentes principais com treinamento e teste de matriz de confusão. Vamos olhar para o apoio da rede neural emissões apoiadas ensacamento e postar todas elas de uma só vez, porque estaríamos usando o pacote de cenoura para fazer tudo isso. Todas essas coisas há primeiros pacotes de dados carregados chamados de câncer de mama ponto CS Nós no pacote de recursos e você olhar para os dados sobre o que você vê. Há 30 portas diferentes variáveis lá dentro. Então, há a hera, que podemos simplesmente ignorar essa ideia do paciente em seguida o diagnóstico, que é dizer se há bananas benignas ou malignas. OK, eles não conhecem a doença maligna e eles têm a doença. E você tem, tipo, 30 variáveis preditoras diferentes lá, como áreas de mídia de amigos, compartimento de mudez. Estes são exames oficiais ou algum tipo de exame dos pacientes e estes outros toma menta missão tomado sobre estes pacientes. Então, obviamente, o número de variáveis aqui é enorme. Se perdermos alguém dos dados novamente, 30 variáveis diferentes, tudo parece bem. Você pode inspecioná-lo e em sua coisa quando você quando você faz sua análise Da mesma forma, a cabeça não dando esse mesmo tipo de maio de coisa. Os dados parecem bastante simples, exceto que há um monte de variáveis. Vamos descer, fazer os cálculos de novo. 30 variáveis diferentes. Vou dividi-los em, dispara 10 e tentar estudar análise. Então, sob o gráfico, a segunda variável, que é o diagnóstico contra todas as outras, como 3 a 10 variáveis. E veja como o diagnóstico tem correlação com o resto do jogo. Então 0.70 ponto 42.74 tipo de dedo médio. OK, tipo de alcance Agora em fazer o próximo set off 10. Então volte para 11 para 20. Este é novamente tipo de Woking 33 rostos e Fifi parece muito OK, e depois voltar novamente do que o resto dos caras novamente. Meio que... Ok, então o que você faz com 30 variáveis diferentes? Você tem que entrar em redução variável. Você pode fazer o método inicial pelo qual você pode inspecioná-los visualmente e descobrir quais variáveis eu quero remover manualmente. O nosso eu posso usar a análise de componentes principais. A análise dos componentes principais é como mágica. Ele vai chegar a um novo conjunto de variáveis sobre este novo conjunto de variáveis são usados para explicar o ou conjunto de variáveis. Quando eu digo explicar, significa que está correlacionado são os padrões no centro antigo? As variáveis são capturadas na nova variável. Então isso não tem padrão. Os velhos foram capazes capturados nesta nova variável em que é feito usando um envelhecimento vitoriosos e valores de agente na matemática, uh, uh, a coisa de planejamento que está lá. Então, como é que este funciona? A primeira coisa que você faz para análise de componentes principais, você tem a habilidade. Os dados assustaram os dados do câncer usando a função de escala. E depois há uma função chamada PR calm. Análise de componentes principais nos dados de escala. Então, de quanto outro complexo você tem falado sobre esse material fora desses algoritmos? Sim, muito simples, porque algo já está implementado para você apenas capturou uma corrida neste campo de PR comando na escala. Mais tarde, você obtém esses dados para fora chamados dados do PC para os dados do PC tem novamente um conjunto de variáveis que captura os padrões no conjunto original de variáveis. Então, que tal esses? Eles capturaram as mesmas coisas. Vamos ver. Mas você conhece uma trama da espécie. Um dado. Estas são as variáveis que estão chegando. É chamado de PC um PC para PC três, PC. Quatro. Chama-se Director Competente. Um princípio competente para 34 em cada off. Esta nova variável captura os padrões sobre todas as 30 variáveis diferentes antigas. Capturar os parceiros sobre todos os 30 velhos, diferentes muito. Mas é assim que funciona em cada uma dessas variáveis. Explica que muito variâncias nessas variáveis antigas em diferentes níveis. Então o primeiro PC variável que se vê a variância que explica, é realmente alto. O próximo explica até certo ponto, e que eu quero uma explicação. Cada uma dessas novas variáveis de poeira sobre as variáveis antigas continuam diminuindo assim. Então, o que está no topo, o BC explica mais. Depois o próximo, depois o próximo. Algo assim. Agora você precisa de um com alguém de BC. Você fez isso. Verá o quanto da explosão realmente acontece. Então você olha para PC um BZ. Um explica a proposta de variante que explicou o PC. Um explica o ponto para três. Então o que significa é que 44% de idade fora dos padrões que você vê nessas 30 variáveis antigas são explicadas nesta única variável a mesma coisa. Agora vamos para PC com 19% de desconto nessa variação variável que você viu. Esse velho conjunto de 30 variáveis é explicado que uma variável sozinha aqui no personagem da comunidade . Então, há um 44 44 mais 1963. Então, no momento em que você chegar ao quarto muito bluesy 80% das variantes que é que eles estão nessas 30 variáveis antigas são explicadas nestas primeiras 4 variáveis principais componentes. Então, em apenas quatro variáveis, você explicando todo o padrão que você vê naquelas ou 30 variáveis que desencadeia a morte mágica mesmo que reduza o número de variáveis que ainda X foi capaz de explicar 80% das variantes que você ver nessas variáveis antigas. Isso diz que eu não sei o que você quer saber o que saiu com, você sabe, 30 novas variáveis. Eu não sei o que vai escolher todas as 30 novas variáveis. Talvez se eu for o melhor da nossa luta, você não explique a quantidade suficiente de variação para mim. Então, isso é o que eu vou estar fazendo é eu vou ser senhora pegando as 3 primeiras variáveis sozinho e fazendo meus dados finais as 3 primeiras variáveis sozinho. Então esta variável valores que novamente apenas números. Se inspecionarmos os valores, você verá, como 1234 alguns números e lá. Então você escolhe o Varios para criar um novo quadro de dados, escolhe os 3 primeiros componentes principais sozinho e coloca isso no quadro de dados final. Em seguida, você adiciona o diagnóstico é para que o diagnóstico, aquele que precisa ser previsto, ou a variável alvo. Então subida que também para os dados finais, Agora você faz de painéis de início par e ver o que vem com. A primeira coisa que você vê é o diagnóstico. A correlação que ele faz. Ele faz uma correlação muito alta com PC um porque, como sabemos, PC um é capaz de explicar, como 44% dos padrões em que mostra boa, realmente boa correlação com o valor do diagnóstico. O que? O que é muito importante. mais importante é ver os zeros aqui. Não há correlação entre variáveis preditoras d. Muitos são assim que é uma das maiores coisas que sai do PC é que, como cada uma dessas novas variáveis que estão saindo, eles têm correlação com a correlação com o alvo. Eles estão capturando os padrões nas variáveis antigas originais, mas eles não têm qualquer tipo de correlação entre si. Então isso novamente Brilhante. Porque isso realmente tem muito no mundo de cobrança de missões, porque essas três variáveis preditoras são totalmente independentes umas das outras. Então isso é realmente muito bom. Então somos apenas três variáveis foram capazes de explicar. Os padrões que você vê no diagnóstico foram convertidos 30 em três muito rapidamente. Agora nós convertemos 13 para 3. A próxima coisa que vamos fazer é modelar e prever usando o pacote de cenoura . A primeira coisa que você sabe onde carregar o pacote. Então você vai estar fazendo o treinamento e teste espalhar 70 para 30 semelhante a como temos feito no outro exemplo de coloração, teste no trem e, em seguida, indo para baixo. Você verá isso de novo. A divisão entre benigno e maligno é quase igual a 50 a 149 Simmons, vamos usar quatro algoritmos diferentes. O que? Eu vou estar fazendo aqui é que eu tenho este pedaço de tribunal. O que? Este tribunal vai fazer isso. Ele vai fazer modelo, construção e previsão para cada um dos quatro algoritmos e uns para os outros para os nossos jardins . Ele vai ser medir o tempo que levou para construir um modelo e prever sobre isso também sobre a precisão do modelo. Então eu vou estar correndo como um ano de teste, um teste de comparação aqui entre todos esses quatro modelos, embora eu esteja usando todos os quatro modelos predizer a coisa do câncer de mama. Eu prevejo se a coisa benigna e maligna para o câncer de mama, eu vou estar comparando como esses modelos funcionam uns contra os outros. Então vamos dar uma olhada no que este tribunal faz. Primeiro, A C acabou de limpar o vetor desses nomes de missão. Então eu só estou escolhendo o imposto para cada um desses mal guardados. Então, há um apoio do jardim meu porco impulsionando nosso jardim A pegou em uma rede neural, um , , e depois uma missão vetorial de apoio. Um grande e essas coisas que eu escolhi do pacote atual que vimos aqui, o real eu vou guardar-lhes valor que você tem que usar como paramilitares na segunda coluna . Então foi isso que eu escolhi daqui. Eu gostaria que para Gotham este fosse o mesmo tribunal. Você pode usá-lo como todos os outros algoritmos para, e então eu crio um estado resultado final. Eu disse que um dados de memória disse para capturar os resultados finais. Então este conjunto de dados vai ter, como, como, o nome do algoritmo, a duração e a precisão. Então eu vou estar looping através desta lista vermelha são analista prever que estão de 1 a 4 em para cada um dos membros desta lista. O que eu vou fazer esta primeira coisa eu vou dizer, OK, OK, eu estou apenas fazendo isso. Eu comecei a gastar um valor, em seguida, capturar a hora de início, a hora atual do sistema, Construir o moderno. Então eu tenho uma função Coltrane dedo do pé, que eu passei o alvo dizer todos os preditores data que eu chamei treinamento em eu digo método. Ele chamou um Qual é o nome do método. Então este é um assunto treinando com o treinamento que eu chamo para que eu possa passar o guarda Al, hum, nome como um parquímetro. Então, passando o nome do jardim, posso tentar algoritmos diferentes com o mesmo tempo do trem. E é isso que estou tentando fazer aqui. Então eu só estou olhando através desta lista fora de algoritmos e chamando-os um por um. E então por que construir um modelo? Eu prevejo no modelo Idêntico. A matriz de confusão no modelo capturou a hora de término. Onde estão basicamente para descobrir quanto tempo este está demorando, digamos, capturado. Em seguida, comece com eles e seu tempo. E então eu povoar os resultados. Tenho estes resultados, Nate. Depois de Mnuchin, você só vai preencher o algoritmo usado o tempo total que levou 10 minutos de início. Qualquer momento sobre a precisão que eu recebo da matriz de confusão, a matriz de confusão tem isso em geral, lembre-se qual por sua vez tem isso? O primeiro membro fora deste quadro de dados geral é uma boa precisão. Acabamos de nos capturar e o dinheiro jogou 100. Então a precisão vai sair do ponto algo que eu estou apenas segunda-feira jogando por 100 em droning off para fazer. Isso é o que eu faço aqui e capturar Grizzles e eu dirijo este tribunal em algoritmos diferentes irá aquecê-lo de forma diferente. Nenhum dos nossos portos. Tudo isso é besteira. Então, finalmente, vou olhar para a saída final na zona final executando o fogo que o Senhor colocou aqui. Um algoritmo de assento é o tipo do algoritmo usado. A duração que assumiu a precisão do algoritmo. Então você vê que o FDA, o apoio, na verdade, levou 80 segundos para executar nove e 96% de precisão. O maior carrapato em você. Levou dois segundos para executar. Veio em 97% de precisão quase quebrou oito segundos. 97% no SPM. Três segundos, 94%. Você sabe, você pode ir e tentar o resto dos algoritmos para e, em seguida, ver que você sabe qual deles dá que tipo de precisão tipicamente nos dados aumenta o em vários assuntos como ensacamento, impulsionando asno astral floresta aleatória vai levar mais tempo. As redes neurais também levarão muito mais tempo. Os jejum que você encontraria talvez algo como árvores de decisão são uma regressão. Talvez o mais rápido. Então este é todo o trabalho de orientação. Então isso é que você pode usar o pacote de cenoura para fazer previsões. É um pacote que pode tudo que você precisa deste pacote no resto dos algoritmos que tínhamos. Tentamos bibliotecas diferentes só pela oferta de saquê. Poderíamos ter feito todos eles usando o pacote de cenoura. E eu recomendo que você tente todos eles também com a atual agência de volta como ele vem a ser. E também vimos como a análise competente principal produz o número de variáveis, mantendo todos os sinais necessários. Então estes são todos os métodos avançados para você. Obrigado.