Curso completo de algoritmos de aprendizagem de máquina | Arunnachalam Shanmugaraajan | Skillshare
Pesquisar

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Curso completo de algoritmos de aprendizagem de máquina

teacher avatar Arunnachalam Shanmugaraajan

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Apresentação do curso

      0:34

    • 2.

      Aula 1: regressão linear

      8:11

    • 3.

      Aula 2: regressão logística

      5:24

    • 4.

      Aula 3: árvore de decisão

      8:29

    • 5.

      Aula 4: Bayes ingênuo

      9:29

    • 6.

      Aula 5: máquina vetorial de suporte

      11:07

    • 7.

      Aula 6: K significa agrupamento

      5:51

    • 8.

      Aula 7: KNN

      7:24

    • 9.

      Aula 8: floresta aleatória

      5:40

    • 10.

      Projeto de aprendizado de máquina

      14:45

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

14

Estudantes

--

Projeto

Sobre este curso

Desbloqueie o mundo do Machine Learning com este curso abrangente projetado para iniciantes e alunos intermediários. Neste curso, você vai dominar os algoritmos de aprendizado de máquina mais usados.  Quer você esteja aspirando a se tornar um cientista de dados, analista ou desenvolvedor de IA, este curso irá equipar você com as ferramentas para ter sucesso no campo.

O que você vai aprender:

1. K-Nearest Neighbors (KNN)

  • Entenda como o KNN funciona como uma técnica de classificação e regressão simples, mas poderosa.
  • Aprenda como calcular distâncias e ajustar hiperparâmetros como k.
  • Implemente o KNN para tarefas como segmentação de clientes e sistemas de recomendação.

2. Agrupamento de K-Means

  • Explore o aprendizado não supervisionado com o K-Means.
  • Entenda como agrupar dados em grupos usando centróides.
  • Aplique K-Means a problemas como compressão de imagens e segmentação de mercado.

3. Regressão logística

  • Domine este algoritmo para classificação binária.
  • Aprenda sobre a função sigmóide, limites de decisão e funções de custo.
  • Resolver problemas como detecção de spam e previsão de rotatividade de clientes.

4. Regressão linear

  • Mergulhe no aprendizado supervisionado para tarefas de regressão.
  • Entenda conceitos como mínimos quadrados, coeficientes e R-quadrado.
  • Prever resultados para problemas como previsão de preços de casas e previsão de vendas.

5. Florestas aleatórias

  • Aprenda este método de conjunto para classificação e regressão.
  • Descubra como árvores de decisão se combinam para modelos mais robustos e precisos.
  • Aplique Florestas Aleatórias a conjuntos de dados complexos para alto desempenho.

6. Máquinas de vetores de suporte (SVM)

  • Entenda como os SVMs criam hiperplanos ideais para classificação.
  • Explore conceitos como kernels e maximização de margem.
  • Resolver problemas na classificação de texto e reconhecimento de imagens.

7. Bayes ingênuo

  • Mergulhe neste algoritmo probabilístico para tarefas de classificação.
  • Entenda como ele usa o teorema de Bayes para fazer previsões.
  • Implementar Bayes Naive para aplicações como análise de sentimentos e filtragem de e-mail.

8. Árvores de decisão

  • Aprenda como as árvores de decisão dividem dados com base na importância das características.
  • Entenda as principais métricas como o índice de Gini e a entropia.
  • Resolver problemas como pontuação de crédito e diagnóstico médico.

Por que este curso?

  • Cobertura abrangente: inclui todos os algoritmos de aprendizado de máquina principais usados na indústria.
  • Foco prático: exemplos e projetos do mundo real tornam o aprendizado prático e envolvente.
  • Amigável para iniciantes: projetado para alunos com conhecimento básico de programação e matemática

Ao final deste curso, você terá o conhecimento e as habilidades para criar, avaliar e implantar modelos de aprendizado de máquina, preparando você para resolver problemas do mundo real usando o poder dos algoritmos. Vamos começar sua jornada para o aprendizado de máquina hoje!.

Conheça seu professor

Hi I am Arunnachalam R S From India. I am a computer science student and I have choosen cybersecurity as my profession. I am youtube content Creater and i teach people about the latest technology and new softwares and I am big cricket fan of MS Dhoni. I can help people with my experienced knowledge about the technology. I am choosing Skillshare to show my passion towards technology and Science..

Visualizar o perfil completo

Habilidades relacionadas

Desenvolvimento Mais desenvolvimento
Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Apresentação do curso: Vou discutir sobre os algoritmos presentes no aprendizado perdido. Então, os algoritmos como regressão linear, regressão logística Este é classificador de entrada, classificador de floresta aleatório, K e um algoritmo, K significa agrupamento, suporte Este curso é muito, muito útil para aqueles estudantes que estão tentando aprender o que falta de aprendizado e ciência de dados com Python pela primeira vez Somente para isso, criei este curso para esses alunos. Então, vamos começar. 2. Aula 1: regressão linear: Bem-vindos, pessoal. Na aula de hoje, discutiremos sobre nosso primeiro algoritmo em aprendizado de missões Portanto, nosso primeiro algoritmo será a regressão linear. Portanto, a regressão linear é um dos tipos de aprendizado supervisionado de minas Portanto, o conceito principal de regressão linear não é nada, mas ele encontra a relação linear entre a variável dependente e a variável independente Por exemplo, temos que ver a relação entre salário e, portanto, trabalho será considerado uma variável independente. O salário será considerado como variável dependente. Com base no trabalho, nosso salário será aumentado. Então, com base no trabalho, nosso salário também diminuiu. Portanto, o trabalho pode ser considerado como variável independente e, em seguida, o salário será considerado como variável dependente. Portanto, o conceito de regressão linear não é nada, mas temos que encontrar a relação entre a variável dependente e a variável independente Assim, você pode ver o gráfico, para ver que o eixo X será a variável independente e, em seguida, o eixo Y será a variável dependente. Depois disso, temos que encontrar a linha de regressão. Portanto, a linha de regressão nada mais é do que a separação da linha entre a variável independente e a variável dependente Então, esses são todos os pontos da variável dependente. E esses são todos os pontos da nossa variável independente. Então, essa linha separa nossa variável dependente e, em seguida, a variável independente Então essa é a linha de regressão. Portanto, na regressão linear , existem dois tipos. Portanto, a primeira será uma regressão linear simples. Portanto, a regressão linear simples nada mais é apenas uma variável dependente e , em seguida, apenas uma variável independente Por exemplo, podemos ver o valor do salário. Ele será considerado um exemplo de regressão linear simples. Portanto, este é o gráfico de exemplo para regressão linear simples eixo X será a variável independente e, em seguida, o eixo Y será a Portanto, essa linha separa a variável independente e, em seguida, a variável dependente E então o segundo tipo será a regressão linear múltipla. Portanto, a regressão linear múltipla nada mais é uma ou mais variáveis independentes que predizem o valor da variável dependente Portanto, você pode ver o exemplo de regressão linear múltipla. Então, você pode ver que há muitas linhas de regressão que separam a variável independente e a variável dependente Para encontrar a linha de regressão, precisaremos da ajuda da interceptação de trocadilhos de inclinação Para a interceptação da inclinação, você precisa se lembrar da fórmula Y é igual a MX mais B ou beta zero mais beta um nu X, Y é a variável dependente X é a variável independente. Então X será a variável independente, beta zero será a interceptação e beta um será a inclinação Assim, você pode ver o gráfico da interceptação e, em seguida, da inclinação Então você pode ver o gráfico. Então, o eixo X será a variável independente e, em seguida, Vyxls será a variável dependente Então essa é a linha de recursão que separa a variável independente e depois a variável dependente Então a fórmula será teta um mais teta dois X. Isso é MX mais B. Então você tem que encontrar o valor observado e , em seguida, o valor previsto Portanto, com base na linha de regressão, você precisa encontrar o valor previsto e, em seguida, o valor observado Portanto, a distância entre o valor previsto e valor absurdo será um erro aleatório Portanto, há três termos usados. primeiro será o valor absurdo observado e, em seguida, o segundo será o valor previsto E então a distância entre o valor observado e valor previsto será um erro aleatório. Portanto, a inclinação e o intrastepo podem ser usados para encontrar a linha Portanto, a linha de regressão é usada para separar variável dependente e, em seguida, a variável independente Então, depois disso, vamos discutir sobre como encontrar a melhor linha de recorscen que separa a variável dependente e, em seguida, a variável independente e, em seguida, Para isso, vamos usar o conceito de erro médio quadrado Para o erro médio quadrado, você precisa se lembrar da fórmula Então, a fórmula será um por N, soma, I igual a 12n e depois Y menos AX mais A zero ao quadrado inteiro Então N será o número total de observações. Y será o valor real e, em seguida, A um X mais A noz será o valor previsto. Portanto, o valor previsto será A um X mais A noz, e então Y será o valor observado. Então, usando o método do erro quadrático médio, podemos encontrar a linha de regressão Portanto, a linha de regressão desempenha um papel importante na regressão linear Então, depois disso, temos que encontrar a exatidão e a precisão da nossa regressão linear Para encontrar o desempenho do modelo, usaremos o método da fórmula R ao quadrado Portanto, a fórmula para R quadrado nada mais é variação explicada dividida pela variação total. Portanto, R quadrado é muito, muito útil para encontrar o desempenho de nossa recursão linear Portanto, mostra a força da nossa relação entre a variável dependente e a variável independente. Depois disso, o alto valor de R determina a menor diferença entre valor previsto e o valor real. Portanto, representa um bom modelo. Portanto, nosso valor de R será grande. Se o valor de R for grande, nosso modelo está muito bem treinado. Portanto, o valor de R ao quadrado varia de 0 a 1. Portanto, o quadrado R é muito, muito útil para encontrar o desempenho do modelo. Portanto, quanto maior o valor de R, nosso modelo terá maior desempenho. Por fim, discutiremos sobre as desvantagens da regressão linear Portanto, a primeira desvantagem será que regressão linear não pode ser usada para problemas complexos Ou seja, não podemos usar regressão linear para um conjunto de dados maior Só podemos usar para conjuntos de dados menores. E então a segunda desvantagem será sensível aos valores discrepantes Os valores discrepantes nada mais são do que um valor indesejado em nosso conjunto de dados. Portanto, os valores atípicos diminuem nossa exatidão e precisão em nosso modelo Então, essas são todas as desvantagens da regressão linear. Então, a regressão linear não é nada, mas vamos encontrar a linha de regressão usando a fórmula Y igualdade mt mais B. Então, a linha de regressão separa variável dependente e depois a variável independente 3. Aula 2: regressão logística: Bem-vindos a todos. Na aula de hoje, discutiremos sobre os rigores logísticos e o algoritmo no aprendizado de máquina Portanto, a regressão logística é um dos tipos de algoritmos de aprendizado supervisionado. Então, na aula anterior, discutimos sobre regressão linear e algoritmo Então, na regressão linear, precisaremos da ajuda da inclinação intra para encontrar a linha de regressão que separa a variável independente e a variável dependente Mas no caso da regressão logística, vamos criar o gráfico na forma de função sigmóide Então, no lado direito, você pode ver o gráfico de exemplo para regressão logística Portanto, no exemplo do gráfico de regressão logística, você pode ver o gráfico Apd Então esse é o gráfico da função sigmóide. Portanto, para a função sigmóide, haverá apenas duas saídas possíveis, seja zero ou Portanto, se o gráfico S chegar a zero, a saída da regressão logística será Se o gráfico SSAP for igual a um, nossa saída de regressão logística será 1 Portanto, existem duas saídas possíveis na regressão logística, seja ela zero ou uma ou verdadeira ou falsa ou Portanto, nossa saída será de dois valores, seja zero ou um. Portanto, a regressão logística só pode ser possível para problemas de classificação Então, depois disso, vamos discutir sobre os tipos de regurescência logística Então, o primeiro será o binômio. Portanto, no binômio, haverá apenas duas saídas possíveis, sejam elas zero ou uma, aprovadas ou reprovadas, verdadeiras ou falsas Então, o multinomial, então pode haver três ou mais resultados possíveis, seja gato, moreno ou Portanto, no ddinal, pode haver três ou mais quantidades possíveis de saída, seja ela baixa, média ou alta Assim, podemos ver a saída do modelo de regressão logística. Portanto, há três conjuntos de dados e, em seguida, vamos prever o valor, seja ele feliz ou triste Portanto, na regressão logística, só pode haver duas saídas possíveis, seja sim ou não, zero ou uma, feliz ou triste Então, na aula anterior, discutimos sobre regressão linear. Para regressão linear, temos que usar o conceito de inclinação e interceptação para encontrar a linha de regressão que separa a variável independente da variável dependente usar o conceito de inclinação e interceptação para encontrar a linha de regressão que separa a variável independente da variável dependente. Mas no caso da regressão logística, vamos converter nosso gráfico de regressão linear em gráfico de função sigmóide Para isso, você deve usar a fórmula 1/1 mais E, que potência menos beta zero mais beta um X. Então isso não é nada além de MX mais B. Então , a fórmula Então, vamos converter nosso gráfico de regressão linear em gráfico de função sigmóide Para isso, apenas como lembrar a fórmula da conversão. Então, na primeira linha, você pode ver, modelo de regressão logística transforma as funções de regressão linear em saída categórico Então, na função sigmóide, valor pode ser dois, seja zero ou um, com base no S de S. Então, os termos beta zero serão a interceptação beta um, será a inclinação, X será a variável independente, e então Y será a variável dependente ou coordenada X e, em seguida, a ou coordenada X Portanto, o conceito principal será que teremos que converter o gráfico de regressão linear em gráfico função sigmóide com base nessa fórmula Então, depois disso, vamos discutir sobre as diferenças entre regressão linear e regressão logística Portanto, a regressão linear pode ser usada para regressão e problemas e também para problemas de classificação Mas a regressão logística só pode ser usada Depois disso, as regressões lineares são de natureza contínua porque a linha é contínua Mas no regresso logístico ele pode ser alterado, seja zero ou Na regressão linear , ele cria o gráfico para a variável dependente e depois para a variável independente Para a regressão logística , ela se baseia no evento específico, se ele pode ser verdadeiro ou falso E o verde linear é tritano e, em seguida, o goresceno logístico Na aula de hoje, discutimos sobre logística de goresen no Portanto, o conceito de evolução logística não é nada, mas temos que criar um gráfico em forma de S. Nossa saída será se pode ser zero ou um. 4. Aula 3: árvore de decisão: Bem-vindos, pessoal. Na aula de hoje, discutiremos sobre o algoritmo classificador decisório no Portanto, o classificador de tentativa de decisão é um tipo de técnica de aprendizado supervisionado Portanto, ele pode ser usado para problemas de classificação e regressão Mas, principalmente, é preferido para problemas de classificação. Portanto, no classificador decisório, existem dois nós O primeiro nó que é o nó de decisão ou nó raiz. E o segundo nó será o nó da folha. Portanto, a saída principal do classificador decisório não é nada, mas fornece se sim ou não Assim, você pode ver que o primeiro nó será o nó de decisão, ou seja, o nó raiz. E então você pode ver os nós s, como o nó de decisão, novamente o nó de decisão no lado esquerdo e depois. Então, no lado esquerdo, você pode ver a subárvore. Então, na árvore de decisão, você pode ver dois nós separados. Isso é nó foliar. Então, a partir do nó da folha, podemos ver a saída, seja sim ou não. Portanto, há dois nós no classificador de decisão. Portanto, o primeiro nó será o nó de decisão. Do nó de decisão, nó da folha será separado. Então, vamos discutir sobre como funciona o algoritmo classificador de decisão? Então, na primeira etapa, vamos encontrar o nó raiz do nosso conjunto de Assim, o conjunto de dados, por exemplo, o conjunto de dados será fr, então fruit será o nó raiz do nosso classificador de decisão. Para encontrar o nó raiz ou encontrar o melhor atributo, precisaremos da ajuda da medida de seleção de atributos. Então, discutiremos sobre o que é medida de seleção de atributos no próximo slide. Então, depois de encontrar o nó raiz, vamos converter nosso nó raiz em subnós Portanto, os subnós podem ser nó folha ou nó de decisão. Portanto, o nó da folha pode ser encontrado com base em algumas condições do nó raiz. Então, fazendo isso, vamos encontrar nosso valor de saída, seja sim ou não. Então essa é a saída final do nosso nó foliar. Portanto, há três etapas no nó de decisão. Primeiro, você deve encontrar o nó raiz usando a medida de seleção de atributos. E a segunda etapa será encontrar o nó da folha. E a terceira etapa será encontrar nosso valor de saída, seja sim ou não. Então, vamos ver um exemplo classificador decisório com base no salário do candidato Portanto, o salário está entre $50.000 e $80.000. Então esse é nosso nó de decisão, nosso nó raiz. Então, na segunda etapa, vamos encontrar o nó da folha com base na condição do nó raiz. Se o candidato aceitar a condição do nó raiz, poderemos gerar o nó de decisão novamente. Se o salário não for aceito pelo candidato, podemos encontrar o nódulo foliar. Portanto, a oferta do nó foliar será recusada. Portanto, o valor de saída do nó foliar será não, portanto, se o candidato aceitar o salário entre $50.000 e $80.000, então o segundo nó de decisão Então, isso está desligado, está perto de casa. E então vamos encontrar o nó da folha e o nó decisão novamente usando o nó de decisão anterior. Portanto, se o candidato aceitar que a folga está perto de casa, podemos gerar o nó de decisão. Se o candidato não aceitar a condição, podemos encontrar o valor de saída, não. Então, ao fazer isso, a última saída será se pode ser sim ou não. Então essa é a saída para o classificador de dissidência. Portanto, o classificador de dissidência não é nada, mas nossa saída será se pode ser sim ou não Apenas uma tendência será aceita, seja não ou sim, então veremos a medida de seleção de atributos Portanto, há dois tipos de medida de seleção de atributos. Portanto, o primeiro será o ganho de informações e o segundo será a impureza do gene Com base nesses dois atributos e na medição de seleção, podemos encontrar nosso nó de decisão ou melhor Então, depois disso, veremos um termo importante no classificador de decisão que é entropia Portanto, a entropia não é nada molhada. É uma medida de incerteza de uma variável aleatória. Portanto, não podemos descobrir se o valor dá ou não. Então esse é o significado da incerteza. Então esse é o conceito de entropia. Para encontrar a entropia, você precisa usar os fóruns Então a fórmula será menos P de S, log dois Pfs menos P de n log dois P de n. Então essa é a fórmula para entropia. Então você pode ver que os termos serão o número total de amostras, P de S será a probabilidade de S&P de não será a probabilidade de não para encontrar a entropia, como lembrar a fórmula Então a fórmula é muito, muito, muito simples. Portanto, a entropia não é nada, mas não podemos encontrar o valor, seja sim ou Então, para a entropia, vamos ver um exemplo Então, criamos o conjunto de dados A, a, a B B B B e, em seguida, o número total de instâncias será oito. Então, há três A e depois cinco B. Depois disso, vamos substituir os valores pela fórmula da entropia Portanto, a fórmula da entropia nada mais é do que PFS, A dois PS menos P de não la dois Pf não Então, depois de usar a fórmula, podemos encontrar o valor de entropia 0,954 Então três por oito não é nada além de P de s, L dois, cinco por oito não é nada além de Pf não. Então, depois disso, veremos sobre a fórmula de ganho de informação. Então, para o ganho de informação, temos que lembrar a fórmula, ganho de S vírgula A igual à entropia de S menos soma, S V dividido por S e, em seguida, entropia de pontos de SV e Portanto, você precisa se lembrar da fórmula para obter informações. E então vamos ver a fórmula do índice da Guiné. Portanto, a fórmula do índice da Guiné nada além um menos a soma P Essas são todas as duas medidas de seleção de atribuições no classificador de decisão para encontrar o melhor nó Então, depois disso, discutiremos sobre as vantagens do classificador decisório. Portanto, a primeira vantagem será a interpretabilidade. A interpretabilidade não é nada, mas podemos entender o classificador decisório Portanto, podemos usar o classificador decisentry para encontrar as previsões do modelo E a segunda será a flexibilidade. Portanto, o classificador decisentr pode ser usado para todos os tipos de dados, todos os tipos de classificação, regressão e tarefa E o terceiro serão os robôs. Portanto, a robótica não é nada, mas podemos lidar com os dados ausentes e lidar com aplicativos em tempo real usando o reclassificador de decisão Portanto, a última vantagem será a não linearidade. Portanto, o reclassificador de decisão pode ser usado para dados de relacionamento complexos Então esse é o uso da não linearidade. Então é isso. Na aula de hoje, discutimos sobre o algoritmo classificador de dicionário no Portanto, o conceito principal do classificador decisentry não é nada, mas vamos construir a árvore com base em Portanto, o nó raiz será separado em nó de folha e, em seguida, em nó de decisão. Portanto, a saída do classificador de disenteria será sim ou não. Somente uma será a saída. 5. Aula 4: Bayes ingênuo: todos bem-vindos. Na aula de hoje, discutiremos sobre o algoritmo baseado em N no aprendizado de mensagens Portanto, o algoritmo de base N é um dos tipos de método de aprendizado supervisionado Então, principalmente o algoritmo N Bse usado para resolver problemas de classificação Portanto, o conceito principal da base N não é nada , mas a saída do valor depende da probabilidade. Portanto, alguns dos exemplos algoritmo N Base são a filtragem de spam, se o homem é spam ou não , portanto, análise sentimental Então, se o texto é sentimental ou não sentimental, último serão os artigos classificatórios Então, esses são os exemplos do algoritmo N Base. Portanto, a formulação matemática da base Na nada mais é do que P de A sus B igual a P de B A no P de A dividido por P de B. Você tem que lembrar os termos da formulação matemática da base Na Depois disso, veremos um exemplo do classificador de base Na Para isso, vamos usar o conjunto de dados da condição climática, e também nossa saída será reproduzir ou não reproduzir. Então, vamos decidir se a partida pode ser disputada ou não acordo com as condições climáticas. Então, na primeira etapa, vamos converter nosso conjunto de dados em tabela de frequência E então vamos encontrar a tabela de verossimilhança usando as probabilidades das características fornecidas Então, depois disso, na última etapa, vamos usar nossa formulação para algoritmo de base Na para encontrar nosso valor ou saída Portanto, este é o nosso conjunto de dados para encontrar nosso classificador baseado em Nay Então, no conjunto de dados, você pode ver 0213 e também pode ver a perspectiva e jogar Então, as perspectivas parecem chuvosas, ensolaradas e nubladas. E a peça será sim, sol, não. Portanto, este é o nosso conjunto de dados para encontrar o classificador baseado em Nay Então, na primeira etapa, vamos converter nosso conjunto de dados em tabela de frequência Então você tem que ver a tabela de frequência. Então, na tabela de frequência, você pode ver as três colunas. Então, o primeiro será o clima e o segundo será o sim, e o terceiro será o não. Portanto, você precisa encontrar as condições meteorológicas em nosso conjunto de dados. Portanto, o tempo pode estar nublado, chuvoso e ensolarado. Portanto, você deve descobrir quantos para o tempo nublado e quantos não para o tempo nublado E você também deve descobrir quantos são para o tempo chuvoso e quantos não para o tempo chuvoso. Por fim, você deve descobrir quantos são para o clima ensolarado e quantos não para o clima ensolarado usando nosso conjunto Primeiro, vamos descobrir quantos nublados estarão, então sim Então, no conjunto de dados, você pode ver que uma nuvem nublada aparece cinco vezes . E também, você pode ver, uma vez, duas vezes, depois três, depois quatro e depois cinco. Portanto, há cinco para nosso clima nublado. Então, na saída, você pode ver cinco. E então não há nenhum nublado com o valor de não. É por isso que o zero aparece na coluna não. Então, depois disso, vamos descobrir quantos sim para o tempo chuvoso. Então, em nosso conjunto de dados, você pode ver a chuva. Então a chuva vem por volta de uma, duas, três, quatro vezes a chuva E então vamos descobrir quantos sim e quantos não. Então você pode ver, sim, sim, duas vezes. E então, não, duas vezes. Então, duas vezes e duas vezes não. Portanto, na saída, você pode ver duas vezes e duas vezes não. Então, depois disso, vamos descobrir quantos sim e quantos não para o tempo ensolarado. Então, no sol surge uma, duas, três, quatro, cinco vezes o sol. E então vamos encontrar e não. Então vem, vem uma, duas , três, três vezes. E então duas vezes não vem. Então, na saída, você pode ver três vezes e duas vezes não. Então você tem que descobrir quantos números totais permitem encontrar o total de dez, e então você tem que encontrar o total de não, que é cinco. Então, encontramos nossa tabela de frequência para as condições climáticas. Então, depois disso, na segunda etapa, vamos encontrar a condição climática da tabela de probabilidade. Para isso, existem três colunas. O primeiro é o clima, o segundo é o não e o terceiro é o sim. No clima, você pode ver que o tempo está nublado, chuvoso e ensolarado Para o clima, o não chega em torno de zero vezes. Pois o tempo nublado chega cinco vezes, e então você tem que encontrar a probabilidade dos valores do S P dividido por B, e então você tem que encontrar o total do conjunto de No conjunto de dados, você pode ver de zero a 13. Há 14 valores presentes em nosso conjunto de dados. É por isso que, na saída, você pode ver cinco por 14. Pi nada mais é do que o número total de S vem. Então eu tenho que encontrar a probabilidade, então temos que ver o valor 0,35 E então vamos encontrar o NE, então o não vem duas vezes e vem duas vezes. Então, o total será quatro e, em seguida, dividido pelo número total de valores do conjunto teta, que será 14 Então, igual a 0,29. Portanto, o valor da probabilidade será 0,29. Então, um dia ensolarado, então o sol chega duas vezes não, e depois três vezes. Portanto, o total será dividido pelo número total do valor do conjunto teta igual a 0,35 E então vamos encontrar o, então você não tem que encontrar nenhum valor total de 4/14 do conjunto de dados igual a 0,29, e então vamos encontrar tudo para S, e então todo o total será 10/14 O valor será 0,71. Portanto, encontramos a tabela de frequência e a tabela de iluminação para nosso classificador de base Na Então, duas etapas estão concluídas, vamos encontrar nossa última etapa. Para a última etapa, usaremos a fórmula da base N. Para isso, você tem que lembrar a fórmula P de A sla B, igual P de B A, N t P de A dividido por P de B. Então, o P de A será Pfs Então P de B será Pf sol. E então você tem que usar a fórmula para Pfs Pf sunny igual a Pf SNE sla S, int Pfs dividido por Pf E então você tem que usar os valores três divididos por t igual a 0,3. E então Pf Suny será 0,35 e, em seguida, Pfs será Somos encontrados na tabela de verossimilhança e na tabela de frequência anteriores . Portanto, na tabela ilihod de S, o valor será 0171 Então, vamos substituir esse valor no P de S. Então, vamos substituir nosso valor gerado no ilihod e na tabela de frequência E então você tem que substituir o valor na fórmula. Você precisa encontrar a probabilidade de PFS. Portanto, o Pfs sunny será o valor de 0,60. E então vamos encontrar a probabilidade de P de não haver uma barra ensolarada E então você tem que usar a fórmula novamente, P de no sus sunny igual a P de Suny slasNo no P de n dividido por E então você tem que usar os valores para o Pf sunny SluSNo igual a 2/4, igual Portanto, esse valor vem da nossa tabela de probabilidade. E então P de não será 0,29 e P de Sunny será 0,35 Por fim, você precisa substituir todos os valores e, em seguida, encontrar a probabilidade de P de nenhum slas Sunny Portanto, o valor será 0,41. Portanto, você precisa encontrar o valor máximo das probabilidades reais Portanto, nossa saída será calculada a partir do valor de 0,60. Isso é P of s Sunny. Portanto, nossa produção será no dia de domingo. O jogador pode jogar o jogo. Então é isso. Descobrimos que nosso algoritmo classificador baseado em navegação usa as três etapas Então, na primeira etapa, você precisa converter o conjunto de dados em tabela de frequência e, em seguida, encontrar a tabela de inclinação usando as usando as Depois disso, você deve usar o teorema básico para encontrar a probabilidade de o valor ser ensolarado ou chuvoso 6. Aula 5: máquina vetorial de suporte: No entanto, todos, na aula de hoje, discutiremos sobre o suporte ou o algoritmo ausente no aprendizado de máquina. Portanto, o algoritmo Support Wetter Missing é um dos tipos de algoritmos de aprendizado supervisionado Ele pode ser usado tanto para classificação quanto para regressão. Portanto, o conceito principal do algoritmo tar de suporte não é nada, mas temos que encontrar o hiperplano, que separa as diferentes classes Então esse é o conceito de vetor de suporte ausente. Então, temos que encontrar o hiperplano. Portanto, na regressão linear que discutimos , temos que encontrar a linha de regressão, que separa a variável independente e a variável dependente No vetor de suporte ausente, temos que encontrar o hiperplano, que separa as duas classes diferentes Portanto, a primeira classe será gato e, em seguida, a segunda classe será escura , separada por um hiperplano Então esse é o conceito de vetor de suporte ausente. Temos que encontrar o hiperplano, que separa duas classes diferentes, duas ou mais classes diferentes Então, os fundamentos das missões de vetores de suporte e, em seguida, discutiremos sobre os tipos de missões de vetores de suporte Portanto, o fundamental básico do vetor de suporte ausente é que temos que encontrar o hiperplano, que separa as duas classes diferentes Então, para isso, vamos ver um exemplo de mesano do vetor de suporte Então, vou criar um gráfico. No meu gráfico, há dois copos diferentes. Então, a primeira classe será gato e a segunda classe será escura. Então, depois de criar o conjunto de dados, temos que encontrar o hiperplano, que separa as duas classes diferentes em igual distância Portanto, não podemos criar um hiperplano porque a distância entre o conjunto de dados CAD e o conjunto de dados do cão é maior Só para isso, não podemos usar isso, então você precisa criar o hiperplano, que separa as duas classes diferentes em igual distância Então você tem que criar uma distância igual. Então, você pode ver que duas classes diferentes são separadas por hiperplano; você pode ver, duas classes diferentes são separadas por hiperplano na mesma distância ou distância igual Então esse é o hiperplano. Então esse é o hiperplano. Então, depois de encontrar o hiperplano, temos que encontrar a margem de duas classes diferentes Para encontrar a margem, você precisa criar uma linha das entre dois conjuntos de dados. Então, temos que criar uma linha de traço. Então essa é a margem entre dois conjuntos de dados diferentes. Então, isso será considerado como margem máxima ou margem maximizada, margem máxima para SAT, vou chamá-la de margem máxima. Portanto, o centro será um hiperplano e a distância entre duas margens será a margem máxima Então, esses são os dois termos envolvidos no apoio a Messine Por fim, vamos discutir sobre o último termo no mecanismo de torção de suporte que é vetor de suporte, para o suporte t para a torta de suporte, temos que encontrar os pontos mais próximos da estrela de suporte, temos que encontrar o ponto de dados que está mais próximo da margem Portanto, você pode dizer que esse ponto de dados está mais próximo da margem. Para isso, temos que considerar esse ponto de dados para o suporte tor. E então, para isso, você deve considerar que esse ponto de dados será o vetor de suporte para o gato do conjunto de dados e, em seguida, você terá que encontrar o vetor de suporte para o cão de segunda classe Portanto, você precisa encontrar a distância mínima entre o ponto de dados e a margem. Portanto, você pode considerar esse ponto como o vetor de suporte para o conjunto de dados. Então esse é o vetor de suporte. Então, esses são todos os três termos envolvidos na falta do vetor de suporte. Portanto, o hiperplano não é nada, mas separa as duas classes diferentes em igual distância E então maximizar a margem não é nada, mas você precisa criar uma margem entre dois conjuntos de dados diferentes Portanto, o ponto central será considerado como margem máxima. E então o terceiro termo será vetor de suporte. Portanto, o vetor de suporte nada mais é do que pontos próximos entre a margem. Portanto, temos que considerar o ponto mais próximo entre a margem. Então, esses são todos os termos envolvidos na falta do vetor de suporte. Assim, podemos ver o hiperplano ideal, que separa as duas classes diferentes em igual distância E depois maximizou a margem. Maximizar a margem não é nada, mas precisamos criar uma margem entre dois conjuntos de dados e, em seguida, a distância entre duas margens será considerada como margem maximizada E o terceiro termo será vetor de suporte, vetor suporte nada mais é do que o ponto mais próximo da margem. Assim, você pode ver o ponto mais próximo. Portanto, será considerado um conjunto de dados de cães. Ele será considerado como um conjunto de dados CAT. Portanto, ele será considerado um vetor de suporte para o conjunto de dados de cães Ele será considerado como vetor de suporte para o conjunto de dados CAT. Então, depois disso, vamos discutir sobre os tipos de missão de vetores de suporte Então, a primeira será a missão do vetor de suporte linear. Portanto, para o vetor de suporte linear ausente, podemos separar os dois conjuntos de dados diferentes usando o hiperplano Mas no caso de falta do vetor de suporte não linear, não podemos usar ou não podemos separar dois conjuntos de dados diferentes usando o hiperplano com a mesma distância Então, anteriormente, estamos indecisos sobre como separar os dois conjuntos de dados diferentes para o tipo linear de mistura vetorial de suporte Mas no caso de falta do vetor de suporte não linear, todos podemos separar os dois conjuntos de dados diferentes com a mesma distância Para isso, temos que converter os diamantes dos aviões Por exemplo, se o diamante filho do plano é unidimensional, temos que converter os diamantes em bidimensionais Para uma dimensão nula, você pode ver o exemplo Portanto, será considerado unidimensional. Assim, você pode ver os pontos de dados. Portanto, será considerado unidimensional. Para o vetor de suporte não linear ausente, você precisa converter o unidimensional em bidimensional. Para duas dimensões, você pode ver o eixo Xs e depois o eixo Y. Será considerado bidimensional. Se seu conjunto de dados for unidimensional, você deverá convertê-lo em bidimensional Se seu conjunto de dados for bidimensional, você precisará converter o bidimensional em tridimensional Então esse é o conceito de vetor de suporte não linear ausente. Ao fazer isso, podemos separar os dois conjuntos de dados diferentes. Somente para isso, temos que converter as diamensionais dos aviões. Portanto, na saída, podemos ver que podemos separar os dois conjuntos de dados diferentes usando o hiperplano convertendo os dados convertendo a dimensão de uma dimensão em duas dimensões Depois disso, discutiremos sobre os tipos de margem. Portanto, faltam dois tipos de margem no vetor de suporte. Portanto, a primeira margem será uma margem rígida. Portanto, na margem rígida, você não pode colocar nenhum ponto dentro do hiperplano ou da margem maximizada Mas no caso de margem flexível, você pode colocar pontos teta dentro do hiperplano e, em seguida, maximizar a Portanto, a margem flexível é mais eficiente do que a margem rígida porque podemos prever nossa produção com muita facilidade na margem flexível. Mas, no caso da margem rígida, não podemos prever nossa produção. Então essa é a desvantagem entre a margem rígida e a margem flexível Na margem flexível, podemos permitir pontos de dados dentro do hiperplano Ao fazer isso, podemos prever nossa produção com muita facilidade. Na margem rígida, não podemos permitir nenhum ponto dentro do hiperplano Somente por isso, não podemos prever nossa produção com muita facilidade no caso de margem rígida Por fim, discutiremos sobre as aplicações do vetor de suporte ausente. Portanto, a primeira aplicação será o reconhecimento de imagem. E a segunda será a classificação do texto. Portanto, a classificação de texto nada mais é do que saber se o texto pode ser spam ou não. E então a terceira aplicação será a bioinformática. E então o quarto será financeiro, e o último será o diagnóstico médico. Então, esses são todos os aplicativos que podemos usar sem o vetor de suporte. 7. Aula 6: K significa agrupamento: todos bem-vindos. Na aula de hoje, discutiremos sobre K significa algoritmo de agrupamento em aprendizado ausente Então, K significa que o agrupamento é um dos tipos de algoritmos de aprendizado ausente não supervisionados. Portanto, ele pode ser usado para problemas de classificação e, em seguida, de recursão Portanto, o conceito principal de que K significa agrupamento não é nada, mas vamos agrupar os pontos de dados semelhantes em clusters distintos Então esse é o conceito de K significa agrupamento. O clustering nada mais é do que um grupo de dados. Então, vamos agrupar pontos semelhantes em grupos. Então, no exemplo, você pode ver três clusters diferentes são criados a partir do nosso gráfico. Portanto, existem pontos de dados semelhantes diferentes. Então, o primeiro será o grupo de pontos de dados azuis. Então, o segundo serão os clusters de pontos de dados verdes e, em seguida, o terceiro será o grupo de pontos de dados pretos do cluster. Portanto, o conceito principal de K significa que agrupamento não é nada, mas vamos agrupar pontos de dados semelhantes em clusters distintos Então, no lado direito, você pode ver os três grupos diferentes. Então, o primeiro será o grupo de pessoas. E o segundo será o grupo de pontos de dados semelhantes de guerreiros de soma E o terceiro será o grupo de grupos de pessoas gordas. Esses três são clusters diferentes com pontos de dados semelhantes. Então, vamos discutir sobre quais são todas as principais terminologias que N K significa Primeiro, o primeiro será o centróide. Centrid nada mais é do que o ponto médio ou médio do cluster Então esse é o ponto central do nosso cluster. Então esse é o centróide. E a segunda terminologia chave nada mais é do que agrupamento. O cluster nada mais é do que um grupo dos mesmos pontos de dados. E o terceiro será o método Elbow. Vamos discutir o método do cotovelo no próximo slide, então vamos usar o método do cotovelo para encontrar o valor K. Então, vamos discutir quais são todas as etapas envolvidas em K significa agrupamento Então, no primeiro passo, vamos encontrar o valor de K. Para encontrar o valor de K, vamos usar a fórmula do método Elbow Então, veremos um método de cotovelo no próximo slide Então, na segunda etapa, vamos encontrar o centróide dos nossos clusters Portanto, o centrod nada mais é ponto central de nossos clusters de pontos de dados semelhantes Então, depois de encontrar o centróide de cada cluster, vamos criar clusters vamos criar distintos com base em pontos de dados semelhantes Então essa é a etapa final. Então, na primeira etapa, você precisa encontrar o valor K. Então, na segunda etapa, você precisa encontrar o centróide de cada cluster Na terceira etapa, usando o centróide, você precisa agrupar os clusters Para encontrar o valor de K, precisaremos da ajuda do método Elbow Então, para o método do cotovelo, veremos quais são todas as etapas envolvidas Para o método Ebo, você precisa criar um gráfico Para o excesso, você precisa criar os clusters. Portanto, os clusters podem estar na faixa de um, dois, dez. Para o eixo, você precisa criar o valor WC SS. Portanto, para o valor do WCSS, você pode ver a fórmula para encontrar o WCSS Portanto, você precisa usar a fórmula para encontrar o valor do WCSS. Com base no valor do WCSS, podemos criar o eixo Depois disso, você precisa criar o gráfico com base no valor do cluster e, em seguida, no WCSS Portanto, no gráfico, você pode ver que sempre que encontrar o valor da curvatura pela primeira vez, isso será considerado o valor de K. Então, em nosso gráfico, com base no cluster três, nosso gráfico será dobrado Então, três será considerado como o valor de K. Então esse é o uso do método Elbow Então, o método Elbow é muito, muito útil para encontrar o valor de K. Usando o valor K, podemos encontrar o centróide Usando o centróide, podemos agrupar os clusters Então, essa é a maneira de K significar agrupamento. Portanto, na primeira etapa, você precisa encontrar o valor K usando o método Elbow Portanto, no método Elbow, você precisa usar os eixos Xs e V, pois os AAs serão os clusters Então, no eixo Y, será o WCSS. Então você tem que se lembrar da fórmula. Então, na fórmula, você precisa substituir os valores e, em seguida, encontrar o valor do WCSS Depois de encontrar o valor do WCSS, você deve apontar o gráfico sempre que encontrar a primeira curva para que essa seja considerada o valor de K. Então, depois de encontrar o valor de K, você deve usar o valor K para encontrar o Portanto, você deve usar o centrad para cada cluster. Depois de encontrar o centróide de cada cluster, você precisa agrupar os clusters você precisa agrupar os Então essa é a nossa etapa final. É isso mesmo. Na aula de hoje, discutimos que K significa agrupamento no aprendizado perdido 8. Aula 7: KNN: todos bem-vindos. Na aula de hoje, discutiremos sobre o algoritmo K do vizinho mais próximo. Portanto, o algoritmo do vizinho mais próximo K é um tipo de algoritmo de aprendizado supervisionado Portanto, ele pode ser usado tanto para classificação quanto para regressão e problemas Portanto, o conceito principal do algoritmo KNN não é nada, mas temos que encontrar a distância entre nosso novo ponto de dados e nosso próprio ponto de conjunto de dados, que é mínimo ou próximo Então esse é o conceito do algoritmo KNN. Temos que encontrar a distância mínima entre nosso próprio ponto de dados e nosso novo ponto de dados. Depois disso, veremos um exemplo do algoritmo KNN. Por exemplo, no valor de entrada, ele é desconhecido para o usuário, mas somos os pontos de dados de dois animais. Então, o primeiro será o gato e o segundo será o escuro. Com base em pontos de dados semelhantes, nossa saída será gerada, seja ela felina ou escura. Depois disso, veremos as etapas envolvidas no K e no algoritmo. Então, na primeira etapa, você tem que selecionar o número de K. Então K pode ser seu próprio valor Você precisa selecionar o valor de K, valor maior. Portanto, um valor maior pode ser como cinco ou mais do que cinco. Na segunda etapa, você precisa encontrar a distância. Para encontrar a distância, temos que usar o valor euclidiano Então, depois de encontrar a distância, você deve verificar a distância mínima entre nossos pontos de dados. Depois de encontrar a distância mínima, podemos prever nossa saída. Então, vou mostrar um exemplo de que vou usar a tinta. Vamos ver um exemplo de K e algoritmo. Primeiro, vamos criar um gráfico. Então, em nosso gráfico, criamos dois conjuntos de dados. Portanto, o primeiro ponto do conjunto de dados será cat. Então, criamos o conjunto de dados para o gato. Então, isso é para o gato. Então, esses são todos os pontos de dados do gato. E então criamos o conjunto de dados para o cachorro. Então esse é o nosso segundo conjunto de dados. Então esse é o ponto de referência de dados para o escuro. Vamos introduzir um novo ponto de dados em nosso conjunto de dados. Portanto, não sabemos qual será a saída do ponto de conjunto de dados. Para encontrar a saída, você precisa encontrar a distância entre os pontos de dados. Portanto, você precisa encontrar a distância entre esses dois conjuntos de dados. Então você tem que encontrar a distância entre esses dois pontos de dados, e então você tem que encontrar a distância entre esses dois e então isso, e então você tem que encontrar toda a distância entre o novo ponto de dados e nosso próprio ponto de conjunto de dados. Portanto, você precisa encontrar tudo o que precisa para encontrar o conjunto de dados, tanto o escuro quanto o CAT Então, depois de encontrar a distância, você precisa encontrar a distância mínima entre os pontos de dados. Então, por exemplo, distância do gato é mínima em relação ao nosso novo ponto de dados. Portanto, o valor encontrado da distância CAT é mínimo em relação ao novo valor do ponto de dados Então, nossa saída fará com que seja cat. Então esse é o conceito do algoritmo KNN. Em nosso gráfico, há dois conjuntos de dados. primeiro será o gato e o segundo será o escuro. E então vamos introduzir novo ponto de dados em nosso conjunto de dados. Vamos encontrar o valor do ponto de dados. Portanto, para encontrar o ponto de dados, você precisa calcular toda a distância entre o novo ponto de dados e os pontos de dados antigos do conjunto de dados Então, depois de descobrir isso, você precisa encontrar a distância mínima, a distância mínima. Com base na distância mínima, podemos prever a saída. Portanto, nossa distância mínima de dados será CAT. Então, para isso, apenas nossa fonte de saída AT. Então esse é o conceito do algoritmo K e N. Então, na saída, podemos ver esse é o nosso novo ponto alvo. E então vamos encontrar a distância de dados entre todos os pontos de dados. Depois disso, estamos encontrando a distância mínima entre nosso novo ponto de dados e nosso ponto de conjunto de dados. A partir dessa distância mínima, podemos prever nossa saída. Então é isso. Então esse é o conceito do algoritmo KN N. Para encontrar essa distância, existem dois tipos de algoritmo ou dois tipos de método que podemos usar. A primeira será a distância euclidiana e a segunda será a distância de Manhattan Para a distância euclidiana, você deve encontrar a fórmula distância entre dois pontos Você tem que se lembrar da fórmula. Então, a fórmula será X dois menos X um, o quadrado inteiro mais Y dois menos Y um, o quadrado inteiro E a distância de Manhattan, você deve se lembrar da fórmula para Manhattan, X um menos Y um, X dois menos Y dois, X dois menos Y dois, então essa é a fórmula para a distância de Por fim, discutiremos sobre as vantagens e desvantagens do algoritmo KNN. Então, a primeira delas será a simplicidade. algoritmo KNN é um dos algoritmos mais fáceis de aprendizado de máquina E a segunda será a ausência de suposições. Portanto, com base na distância mínima, podemos prever nossa saída. Portanto, não pode haver nenhuma suposição em nossa saída. E então a terceira será a salidade. Portanto, a salidade não é nada, mas o algoritmo KNN pode ser usado tanto para regressão quanto E então as desvantagens serão sensíveis a características irrelevantes Portanto, recursos irrelevantes podem diminuir nossa precisão e, em seguida, a complexidade computacional. Portanto, o algoritmo KNN não pode ser usado para um conjunto de dados maior. Portanto, ele pode ser usado somente para o conjunto de dados menor. E então a última desvantagem será a maldita dimensionalidade. Portanto, o algoritmo KNN pode ser usado para diamantes e um D, dois D e depois três D, portanto, não pode ser usado para Então é isso. Na aula de hoje, discutimos sobre o algoritmo KNN. Portanto, o algoritmo KNN não é nada, mas temos que encontrar a distância mínima entre nosso próprio ponto de dados e nosso ponto de dados de destino 9. Aula 8: floresta aleatória: No entanto, na aula de hoje, discutiremos sobre o algoritmo de fusão aleatória no aprendizado de máquina Portanto, o algoritmo de fusão aleatória é um dos tipos de algoritmos de aprendizado supervisionado Portanto, ele pode ser usado tanto para classificação quanto para regressão e problema no aprendizado de máquina Portanto, o algoritmo de fusão aleatória é baseado no conceito de aprendizado em conjunto. Portanto, o aprendizado em conjunto não é nada, mas vamos usar dois ou mais classificadores para nosso projeto Então, os classificadores são classificadores dicentry ou K e não classificadores Portanto, dois ou mais classificadores são agrupados e denominados como Para o algoritmo de floresta aleatória, vamos construir dois ou mais classificadores de dicentrismo com base no Então esse é o conceito de floresta aleatória. Vamos construir três ou mais classificadores de diccenty. Portanto, nas técnicas de aprendizado em conjunto, existem três tipos de termos O primeiro é o ensacamento e o segundo é o reforço e o terceiro é o empilhamento Para o ensacamento, vamos discutir na floresta aleatória Portanto, o ensacamento é uma técnica fundamental usada na floresta aleatória Então, empacotar não é nada, mas vamos usar dois ou mais classificadores de decisão para o algoritmo para o Então, vamos discutir sobre como o algoritmo de floresta aleatória funciona? Então, no algoritmo de floresta aleatória, vamos construir três ou mais classificadores decisórios. Em cada classificador de decisão, forneceremos uma saída, seja sim ou não Portanto, se a entrada decisória der mais do que não, nossa saída da floresta aleatória será para o problema de classificação Para regressão, vamos encontrar a média e a média da saída do classificador de dicisentria Então, vamos discutir sobre as etapas envolvidas no algoritmo de floresta aleatória. Então, na primeira etapa, vamos encontrar os K pontos de dados aleatórios do nosso conjunto de dados de treinamento Depois disso, na segunda etapa, vamos construir uma árvore de decisão para esse conjunto Então, na terceira etapa, vamos encontrar o valor de cada árvore de decisão, se ela pode ser sim ou não. Então, na última etapa, vamos encontrar a saída majoritária da árvore de decisão. Então, se a saída S for maior do que a saída zero, nossa saída para a floresta aleatória será S. Então essas são as etapas para o algoritmo de floresta aleatória. Então, vamos ver um exemplo de classificador florestal aleatório Para isso, vamos criar um conjunto de dados de imagens de frutas. E então vamos encontrar a árvore de decisão e, em seguida, vamos prever o valor com base na votação da maioria. Então, na primeira etapa , vamos construir o conjunto de dados. Portanto, o conjunto de dados será composto por imagens de frutas. Na segunda etapa, vamos construir a árvore de decisão. Portanto, construímos uma árvore de decisão com base em algumas condições. Portanto, as condições são se a fruta é verde ou amarela. Então, com base nisso, construímos algumas das árvores de decisão. Na terceira etapa, vamos encontrar o valor de cada árvore de decisão. Assim, você pode ver na árvore de decisão da primeira etapa, maçã na segunda árvore de decisão, novamente, maçã. Então, na terceira árvore de decisão, é banana. Então essa é a terceira etapa. Na etapa final, encontraremos a saída majoritária ou a saída majoritária de nossa árvore de decisão Então, vamos encontrar a saída majoritária de nossa árvore de decisão. Portanto, a produção majoritária nada mais é do que maçã. Então essa é a saída do nosso algoritmo de fusão aleatória. Para o algoritmo de fusão aleatória, você deve se lembrar do algoritmo do classificador decisório, como encontrar a saída do classificador decisório Então, vamos discutir sobre as vantagens do algoritmo de fusão aleatória Portanto, nas vantagens, a primeira será a maior precisão. Portanto, no algoritmo de fusão aleatória, construímos dois ou mais classificadores de decisão Com base na votação majoritária do classificador de decisão, chegamos ao resultado de nossa aleatoriedade para Então, isso aumentará a precisão da nossa saída. E a segunda será a robustez em relação aos valores atípicos. Os valores discrepantes nada mais são do que valores indesejados em nosso conjunto de dados. Portanto, temos que remover os valores discrepantes. Para o algoritmo de fusão aleatória, ele é confiável para valores discrepantes Então essa é a robustez, dois valores atípicos. Mesmo que um valor indesejado entre em nosso conjunto de dados, nossa precisão de saída aumentará E a terceira vantagem da floresta aleatória é que ela pode lidar com dados diversos. Portanto, ele pode lidar com diferentes tipos de conjunto de dados, diferentes tipos de funções numéricas e categóricas E a última vantagem da floresta aleatória será a seleção automática de recursos. Portanto, a seleção automática de recursos não é nada, mas pode se adaptar a aplicativos em tempo real ou a conjuntos de dados em tempo real. Então, essas são todas as vantagens da floresta aleatória. 10. Projeto de aprendizado de máquina: Minha para a primeira aula. Na aula de hoje, vamos criar nosso projeto de classificação de categorias de produtos de comércio eletrônico usando regressão logística Para o nosso projeto, vamos usar o Google Collar, então precisamos criar um novo caderno Então, depois de criar o novo caderno, você precisa digitar o nome do seu projeto. Então, vou vincular a produtos de comércio eletrônico classificação da categoria de produtos de comércio eletrônico. Usando regressão logística. Vamos classificar a categoria do produto. Então, depois de digitar o nome do seu projeto, você precisa alterar seu tempo de execução Então, vou mudar para CPU. Se você quiser GPU, você também pode usá-la. Então, agora vamos discutir quais são todos os pacotes que precisamos inserir para nosso projeto. Então você precisa importar o pacote importante que é o Pandas Então, depois disso, precisamos importar a expressão regular e, em seguida, a string e, em seguida, o pacote NLTK, kit ferramentas de linguagem natural Depois disso, precisamos importar um modelo do pacote Sklearn para ti do modelo linear de pontos sklearn, Importar regressão logística Então, vamos usar a regressão logística para nosso projeto Todos vocês sabem que a regressão logística também pode ser usada para projetos de classificação Então, depois disso, precisamos inserir o pacote split de teste do trem. Para dividir o conjunto de dados em trem e teste, você deve inserir a divisão de teste do trem Então, depois disso, precisamos inserir o pacote de pontuação de precisão. Portanto, se quisermos encontrar a pontuação de precisão do seu projeto, você deve inserir a pontuação de precisão. Então, depois disso, precisamos importar o pacote vetorizador TF ID para converter nossos recursos em Para isso, precisamos importar o vetorizador. Esses dados numéricos podem ser úteis para treinar nosso conjunto de dados Então, a partir do pacote NLTK, você deve inserir Stop votes Portanto, palavras paradas não são nada, mas removerão as palavras desnecessárias do seu texto ou conjunto de dados. Para isso, basta importar um pacote, pare as palavras. Então, esses são todos os pacotes que você precisa importar. Na próxima aula, discutiremos sobre nosso conjunto de dados. Bem-vindos a todos. Na aula de hoje, discutiremos sobre nosso conjunto de dados, para a classificação de categorias de produtos de comércio eletrônico do nosso projeto usando regressão discutiremos sobre nosso conjunto de dados, para a classificação de categorias de produtos de comércio eletrônico do nosso projeto logística Para o conjunto de dados, usaremos o arquivo CSV. Portanto, você precisa baixar o arquivo CSV a partir da descrição Ele contém a coluna mais importante, título do produto e, em seguida, a categoria. Portanto, com base no título do produto, podemos nos classificar na categoria Ou com base na categoria, podemos classificar o produto Portanto, precisamos importar o conjunto de dados para nosso projeto. Então, como arrastar e soltar e, em seguida, vamos importar o conjunto de dados usando o Pandas Então você tem que digitar DF igual a t, pd dot, ler CSV Vamos ler nosso arquivo CSV e, em seguida, você deve digitar o nome do arquivo Então, depois disso, se você quiser visualizar os principais valores do seu conjunto de dados, você deve usar a função head Ele classificará os principais valores. Assim, você pode ver que os cinco principais valores estão presentes na saída. Portanto, a coluna mais importante, título do produto e, em seguida, a categoria. Então, se você quiser ver os valores inferiores, você deve usar a função tail. Portanto, ele imprimirá os valores inferiores. Assim, você pode ver os valores inferiores de saída. Portanto, há 23.000 valores presentes em nosso conjunto de dados. Então é isso, importamos nosso conjunto de dados com sucesso. todos bem-vindos. Na aula de hoje, discutiremos sobre o pré-processamento de dados Então, vamos remover as palavras desnecessárias do nosso conjunto e também precisamos limpar nosso conjunto Para isso, vamos usar palavras de parada usando o pacote NLTK, você precisa baixar as palavras de parada E então precisamos definir as palavras de parada para o idioma inglês. Para isso, você deve digitar palavras de parada e definir palavras de parada iguais ao idioma inglês. Precisamos remover as palavras desnecessárias no idioma inglês do nosso conjunto de Então, para executar o código, você pode ver as palavras de parada foram completamente importadas. Então, agora vamos pré-processar os dados. Então, para isso, precisamos remover os valores nulos dos nossos dados Nome da coluna, título do produto e, em seguida, categoria. Você deve digitar o nome da coluna com muito cuidado, pois se você digitar o nome incorreto, isso ocorrerá por engano. Portanto, você precisa alterar o título e digitar a categoria. Depois disso, precisamos remover os valores nulos usando a função dropna Então você tem que digitar D de drop nu. Isso removerá os valores nulos. Então, agora vamos limpar nosso conjunto de dados removendo os números de pontuação do nosso conjunto de Portanto, você precisa criar uma função def clean text of text. E então precisamos converter todo o texto em minúsculas E então precisamos remover as pontuações do nosso texto Fotografe um texto igual a R pontos abaixo. Precisamos remover e depois remover o Yotuty dark escape dos caracteres de escape e das pontuações das Precisamos remover as pontuações da nossa string. E então você precisa digitar a cotação dos valores substituídos. Vá lá, mande uma mensagem. Então, agora removemos com sucesso a pontuação da nossa string Então, depois disso, precisamos remover os números do nosso texto. Para isso, você precisa digitar um texto igual a R d subtrair de R D mais Isso removerá os números do nosso texto. Então, depois disso, precisamos remover as palavras desnecessárias do nosso conjunto de Para isso, precisamos criar um loop distante e depois verificar todas as palavras com as palavras paradas. Portanto, stop words contém todas as palavras desnecessárias. Para isso, precisamos remover as palavras desnecessárias. Então, temos que marcar, juntar palavra por palavra no texto, cada palavra, precisamos repetir e depois dividir. Se as palavras estiverem presentes em palavras irrelevantes, precisamos removê-las. Você tem que digitar a palavra if not in stop words. Então, depois disso, precisamos retornar a saída. Você precisa digitar um texto escrito. E então temos que criar uma nova coluna aplicando o texto limpo. Portanto, você precisa digitar Df do título limpo. Então essa é a nossa nova coluna para substituir o título do produto. Você precisa digitar o título do produto. Um jogo de texto limpo. Portanto, todo o pré-processamento será aplicado à nova coluna. Então é isso. Limpamos nosso texto com sucesso. Bem-vindos a todos. Na aula de hoje, vamos treinar nosso conjunto de dados usando regressão logística Então, primeiro, precisamos converter as características em dados numéricos Para isso, vamos usar vetor, vetorizador TF IDF. E então precisamos separar os recursos e, em seguida, a variável alvo. Portanto, você precisa digitar X igual à transformação de pontos do vetorizador Você precisa digitar a coluna, o título limpo. Portanto, um título mais limpo serão nossos recursos. Você precisa converter o título em RA. Depois disso, você precisa digitar a variável Y para o alvo. Portanto, nosso alvo será a categoria. Então, com base na categoria, podemos classificar. X será nosso recurso. Y será nossa variável alvo. Então, depois disso, precisamos dividir o conjunto de dados em treinar e testar. Portanto, você precisa digitar variáveis como trem X, teste X, trem y, teste branco, igual à divisão do teste de treinamento. Ele dividirá o conjunto de dados e, em seguida, você deverá digitar X Y e, em seguida, fornecer o tamanho do teste 0,2, 20 por cento para o teste e os 80 por cento restantes para o treinamento, e então você deve digitar o estado aleatório igual a 42. Então, agora dividimos com sucesso o conjunto de dados em treinamento Então, depois disso, podemos continuar treinando nosso modelo. Veja como digitar o modelo igual à regressão logística desativada. Então, ele treinará o modelo. Então, ele treinará o conjunto de dados. Então, como digitar o ajuste de pontos do modelo do trem X. Vamos treinar o conjunto de dados do trem. Portanto, você precisa executar o núcleo para ver se o modelo foi treinado com sucesso em nosso conjunto de dados. Então, na próxima aula, concluiremos nosso projeto. Bem-vindos a todos. Na aula de hoje, concluiremos nosso projeto de classificação de categorias de produtos de comércio eletrônico usando regressão logística Na aula anterior, treinamos nosso conjunto de dados. Então, se quisermos baixar seu conjunto de dados para esse tipo de Toto, o pacote pickle, usando o pacote pickle, podemos baixar ou usar nosso modelo de conjunto podemos baixar ou usar Então, precisamos abrir o modelo com open off, você tem que digitar o nome do seu arquivo pickle Então esse é o nosso modelo treinado. Sim, para digitar o modo de gravação. Ele será considerado como nosso arquivo de modelo. Então, dentro disso, precisamos despejar todos os valores do modelo treinado Você deve digitar pickle dot dump of model, model file. Vamos salvar o modelo no formato de arquivo dot pickle do produto Assim, você pode ver a saída, o produto em conserva. Então esse é o nosso modelo logístico treinado. Então, usando esse modelo de arquivo pickle, podemos criar um projeto em tempo real que pode classificar os produtos Então, depois disso, precisamos prever nossa saída para digitar predicate igual à previsão de pontos do teste X, e então você tem que imprimir a previsão. Além disso, se você quiser imprimir a pontuação de precisão, você também pode imprimir a pontuação de precisão. Você tem que digitar, prever, testar branco, aparecer, prever. Além disso, você pode imprimir a previsão. Então, como executar o código. Assim, você pode ver a CPU CPU e, em seguida, você pode ver a pontuação de precisão da previsão. Então é isso, pessoal, concluímos com sucesso nosso projeto classificação de categorias de produtos de comércio eletrônico usando regressão logística