Transcrições
1. Apresentação do curso: Vou discutir
sobre os algoritmos presentes no aprendizado perdido. Então, os algoritmos como regressão
linear, regressão
logística Este é classificador de entrada, classificador de floresta
aleatório, K e um algoritmo, K significa agrupamento, suporte Este curso é muito, muito útil para
aqueles estudantes que estão tentando
aprender o que falta de aprendizado
e ciência de dados com Python pela
primeira vez Somente para isso,
criei este curso
para esses alunos. Então, vamos começar.
2. Aula 1: regressão linear: Bem-vindos, pessoal.
Na aula de hoje, discutiremos sobre nosso primeiro algoritmo em aprendizado de
missões Portanto, nosso primeiro algoritmo
será a regressão linear. Portanto, a regressão linear é um
dos tipos de aprendizado supervisionado de
minas Portanto, o conceito principal de
regressão linear não é nada, mas ele encontra a relação
linear entre a variável dependente e
a variável independente Por exemplo, temos que ver
a relação entre salário e, portanto, trabalho
será considerado uma variável
independente. O salário será considerado
como variável dependente. Com base no trabalho, nosso
salário será aumentado. Então, com base no trabalho, nosso salário também diminuiu. Portanto, o trabalho pode ser considerado
como variável independente
e, em seguida, o salário será
considerado como variável dependente. Portanto, o conceito de regressão
linear
não é nada, mas temos que encontrar a relação entre a variável
dependente e a variável independente Assim, você pode ver o gráfico, para ver que o eixo X será a variável
independente
e, em seguida, o eixo Y será
a variável dependente. Depois disso, temos que encontrar
a linha de regressão. Portanto, a linha de regressão
nada mais é do que a separação da linha entre a variável
independente e a variável dependente Então, esses são todos os pontos
da variável dependente. E esses são todos os pontos
da nossa variável independente. Então, essa linha separa nossa variável dependente e, em
seguida, a variável independente Então essa é a linha de regressão. Portanto, na regressão linear
, existem dois tipos. Portanto, a primeira será uma regressão linear
simples. Portanto, a
regressão linear simples nada mais é apenas uma variável dependente e , em seguida, apenas uma variável
independente Por exemplo, podemos
ver o valor do salário. Ele será
considerado um
exemplo de regressão linear simples. Portanto, este é o gráfico de exemplo para regressão linear simples eixo X será a variável
independente
e, em seguida, o eixo Y será
a Portanto, essa linha separa
a variável independente e, em
seguida, a variável dependente E então o segundo tipo será a regressão linear
múltipla. Portanto, a
regressão linear múltipla nada mais é uma ou mais variáveis independentes que predizem o valor
da variável dependente Portanto, você pode ver o
exemplo de regressão linear múltipla. Então, você pode ver que há
muitas linhas de regressão
que separam a variável
independente
e a variável dependente Para encontrar a
linha de regressão, precisaremos da
ajuda da interceptação de trocadilhos de inclinação Para a interceptação da inclinação, você precisa se lembrar
da fórmula Y é igual a MX mais B ou beta
zero mais beta um nu X, Y é a variável dependente X é a variável independente. Então X será a variável
independente, beta zero será a interceptação e beta
um será a inclinação Assim, você pode ver o gráfico
da interceptação e, em seguida, da inclinação Então você pode ver o gráfico. Então, o eixo X será a variável
independente
e, em seguida, Vyxls será
a variável dependente Então essa é a linha
de recursão que separa a variável
independente
e depois a variável dependente Então a fórmula será
teta um mais teta dois X. Isso é MX mais B.
Então você tem que encontrar o valor
observado e
, em seguida, o valor previsto Portanto, com base na
linha de regressão, você precisa encontrar
o valor previsto e, em seguida, o valor observado Portanto, a distância entre
o valor previsto e valor
absurdo
será um erro aleatório Portanto, há três termos usados. primeiro será o
valor absurdo observado
e, em seguida, o segundo
será o valor previsto E então a distância entre
o valor observado e valor previsto
será um erro aleatório. Portanto, a inclinação e o intrastepo podem ser usados para encontrar
a linha Portanto, a linha de regressão é
usada para separar variável dependente e, em
seguida,
a variável independente Então, depois disso,
vamos discutir sobre como encontrar a melhor linha de recorscen que separa a variável dependente
e, em seguida,
a variável independente e, em seguida, Para isso, vamos usar o conceito de erro médio quadrado Para o erro médio quadrado, você precisa se lembrar
da fórmula Então, a fórmula será
um por N, soma, I igual a 12n e depois Y menos AX mais A
zero ao quadrado inteiro Então N será o
número total de observações. Y será o valor real
e, em seguida, A um X mais A noz
será o valor previsto. Portanto, o valor previsto
será A um X mais A noz, e então Y será
o valor observado. Então, usando o método do erro
quadrático médio, podemos encontrar a
linha de regressão Portanto, a linha de regressão desempenha um papel importante
na regressão linear Então, depois disso, temos que encontrar
a exatidão e a precisão
da nossa regressão linear Para encontrar o desempenho do
modelo, usaremos o método da
fórmula R ao quadrado Portanto, a fórmula para R
quadrado nada mais é variação
explicada dividida pela variação total. Portanto, R quadrado é muito, muito útil para encontrar o desempenho de
nossa recursão linear Portanto, mostra a força
da nossa relação entre a variável dependente e
a variável independente. Depois disso, o alto
valor de R determina a menor diferença entre valor
previsto e
o valor real. Portanto, representa um bom modelo. Portanto, nosso valor de R será grande. Se o valor de R for grande, nosso modelo está muito bem treinado. Portanto, o valor de R ao quadrado
varia de 0 a 1. Portanto, o quadrado R é muito, muito útil para encontrar
o desempenho do modelo. Portanto, quanto maior o valor de R, nosso modelo terá
maior desempenho. Por fim, discutiremos sobre as desvantagens da regressão
linear Portanto, a primeira
desvantagem será
que regressão linear não pode
ser usada para problemas complexos Ou seja, não podemos usar regressão
linear
para um conjunto de dados maior Só podemos usar para conjuntos de dados
menores. E então a segunda
desvantagem
será sensível aos valores discrepantes Os valores discrepantes nada mais são do que um valor
indesejado em nosso conjunto de dados. Portanto, os valores atípicos diminuem
nossa exatidão e precisão em nosso modelo Então, essas são todas as desvantagens
da regressão linear. Então, a regressão linear não é nada, mas vamos
encontrar a linha de
regressão usando a fórmula
Y igualdade mt mais B. Então, a linha de regressão separa variável dependente e
depois a variável independente
3. Aula 2: regressão logística: Bem-vindos a todos.
Na aula de hoje, discutiremos
sobre os rigores logísticos e o algoritmo no aprendizado
de máquina Portanto, a regressão logística é um dos tipos de algoritmos de aprendizado supervisionado. Então, na aula anterior, discutimos sobre
regressão linear e algoritmo Então, na regressão linear,
precisaremos da ajuda
da inclinação intra para encontrar a linha de
regressão que separa a variável independente e
a variável dependente Mas no caso da regressão
logística, vamos
criar o gráfico na forma de função sigmóide Então, no lado direito, você pode ver o gráfico de exemplo
para regressão logística Portanto, no exemplo do gráfico de regressão
logística,
você pode ver o gráfico Apd Então esse é o gráfico da
função sigmóide. Portanto, para a função sigmóide, haverá apenas duas
saídas possíveis, seja zero ou Portanto, se o gráfico S chegar a zero, a saída da
regressão logística será Se o gráfico SSAP for igual a um, nossa saída de
regressão logística será 1 Portanto, existem duas saídas possíveis na
regressão
logística, seja ela zero ou uma ou verdadeira
ou falsa ou Portanto, nossa saída
será de dois valores, seja zero ou um. Portanto, a regressão logística
só pode ser possível para problemas de
classificação Então, depois disso,
vamos discutir sobre os tipos de
regurescência logística Então, o primeiro
será o binômio. Portanto, no binômio,
haverá apenas duas saídas
possíveis, sejam elas zero ou uma,
aprovadas ou reprovadas, verdadeiras ou falsas Então, o multinomial, então
pode haver três ou mais resultados
possíveis, seja
gato, moreno ou Portanto, no ddinal, pode haver três ou mais
quantidades possíveis de saída, seja ela
baixa, média ou alta Assim, podemos ver a saída do modelo de regressão
logística. Portanto, há três conjuntos de dados
e, em seguida, vamos prever o valor, seja ele
feliz ou triste Portanto, na regressão logística, só pode
haver
duas saídas possíveis, seja sim ou não,
zero ou uma, feliz ou triste Então, na aula anterior,
discutimos sobre regressão
linear. Para regressão linear, temos que usar o conceito de inclinação e
interceptação para encontrar a linha
de regressão que
separa a variável independente
da variável dependente usar o conceito de inclinação e
interceptação para
encontrar a linha
de regressão que
separa a variável independente
da variável dependente. Mas no caso da regressão
logística, vamos converter
nosso gráfico de regressão linear
em gráfico de função sigmóide Para isso, você deve usar
a fórmula 1/1 mais E, que potência menos beta zero mais beta um X.
Então isso não é
nada além de MX mais B.
Então , a fórmula Então, vamos converter nosso gráfico de regressão linear
em gráfico de função sigmóide Para isso, apenas como lembrar a fórmula da conversão. Então, na primeira
linha, você pode ver, modelo de regressão
logística transforma as
funções de regressão linear em
saída categórico Então, na função sigmóide, valor pode ser dois, seja zero ou um, com base no S de
S. Então, os termos
beta zero serão a interceptação beta um, será a inclinação, X
será a variável independente,
e então Y será
a variável
dependente
ou coordenada X e, em seguida, a ou coordenada X Portanto, o conceito principal
será que teremos que converter o gráfico de regressão linear em gráfico função
sigmóide
com base nessa fórmula Então, depois disso, vamos
discutir sobre as diferenças entre regressão linear
e regressão logística Portanto, a regressão linear
pode ser usada para regressão e problemas e também para problemas de
classificação Mas a regressão logística
só pode ser usada Depois disso, as
regressões lineares são de natureza contínua porque a
linha é contínua Mas no
regresso logístico ele pode ser alterado, seja zero ou Na regressão linear
, ele cria o gráfico para a variável dependente e
depois para a variável independente Para a regressão logística
, ela se baseia no evento
específico, se ele pode ser verdadeiro ou falso E o verde linear é
tritano e, em seguida, o
goresceno logístico Na aula de hoje,
discutimos sobre logística de goresen no Portanto, o conceito de evolução logística
não é nada, mas temos que criar
um gráfico em forma de S. Nossa saída será
se pode ser zero ou um.
4. Aula 3: árvore de decisão: Bem-vindos, pessoal.
Na aula de hoje, discutiremos
sobre o algoritmo
classificador decisório no Portanto, o
classificador de tentativa de
decisão é um tipo de técnica de
aprendizado supervisionado Portanto, ele pode ser usado para problemas de
classificação e regressão Mas, principalmente, é preferido
para problemas de classificação. Portanto, no classificador decisório,
existem dois nós O primeiro nó que é o nó de
decisão ou nó raiz. E o segundo nó
será o nó da folha. Portanto, a saída principal do classificador
decisório não é nada, mas fornece se sim ou não Assim, você pode ver que o primeiro nó
será o nó de decisão, ou seja, o nó raiz. E então você pode ver os
nós s, como o nó de decisão, novamente
o nó de decisão no lado esquerdo e depois. Então, no lado esquerdo, você
pode ver a subárvore. Então, na árvore de decisão, você pode ver dois
nós separados. Isso é nó foliar. Então, a partir do nó da folha, podemos ver a saída, seja sim ou não. Portanto, há dois nós no classificador de
decisão. Portanto, o primeiro nó
será o nó de decisão. Do nó de decisão, nó da
folha será separado. Então, vamos
discutir sobre como funciona o
algoritmo classificador de decisão? Então, na primeira etapa, vamos encontrar o nó
raiz do nosso conjunto de Assim, o conjunto de dados, por exemplo, o conjunto de dados será fr, então fruit será o nó raiz do
nosso classificador de decisão. Para encontrar o nó raiz ou
encontrar o melhor atributo, precisaremos da ajuda da medida
de seleção de atributos. Então,
discutiremos sobre o que é medida de seleção de
atributos
no próximo slide. Então, depois de encontrar o nó raiz, vamos converter nosso nó
raiz em subnós Portanto, os subnós podem ser nó
folha ou nó de decisão. Portanto, o nó da folha pode ser encontrado com
base em algumas condições
do nó raiz. Então, fazendo isso, vamos
encontrar nosso valor de saída, seja sim ou não. Então essa é a saída final
do nosso nó foliar. Portanto, há três
etapas no nó de decisão. Primeiro, você deve encontrar o nó raiz usando a medida de seleção de
atributos. E a segunda etapa
será encontrar o nó da folha. E a terceira etapa
será encontrar nosso valor de saída, seja sim ou não. Então, vamos
ver um exemplo classificador
decisório com base no salário
do candidato Portanto, o salário está entre
$50.000 e $80.000. Então esse é nosso
nó de decisão, nosso nó raiz. Então, na segunda etapa, vamos
encontrar o nó da folha com base na condição
do nó raiz. Se o candidato aceitar
a condição do nó raiz, poderemos gerar o nó de
decisão novamente. Se o salário não for
aceito pelo candidato, podemos encontrar o nódulo foliar. Portanto, a oferta do nó foliar
será recusada. Portanto, o valor de saída do nó
foliar será não, portanto, se o candidato aceitar o salário entre
$50.000 e $80.000, então o segundo nó
de decisão Então, isso está desligado, está perto de casa. E então vamos
encontrar o nó da folha e o nó decisão novamente usando
o nó de decisão anterior. Portanto, se o candidato aceitar
que a folga está perto de casa, podemos gerar
o nó de decisão. Se o candidato não
aceitar a condição, podemos encontrar o valor
de saída, não. Então, ao fazer isso,
a última saída será se
pode ser sim ou não. Então essa é a saída
para o classificador de dissidência. Portanto, o classificador de dissidência não
é nada, mas nossa saída será
se pode ser sim ou não Apenas uma tendência
será aceita, seja não ou sim, então veremos a medida de seleção de
atributos Portanto, há dois tipos de medida de seleção de
atributos. Portanto, o primeiro
será o ganho de informações e o segundo
será a impureza do gene Com base nesses dois atributos
e na medição de seleção, podemos encontrar nosso
nó de decisão ou melhor Então, depois disso, veremos um termo importante no classificador de
decisão
que é entropia Portanto, a entropia não é nada molhada. É uma medida de incerteza
de uma variável aleatória. Portanto, não podemos descobrir se
o valor dá ou não. Então esse é o significado
da incerteza. Então esse é o
conceito de entropia. Para encontrar a entropia, você precisa usar os fóruns Então a fórmula
será menos P de S, log dois Pfs menos P de n log
dois P de n. Então essa é
a fórmula para entropia. Então você pode ver que os termos
serão o número total de amostras, P de S será a
probabilidade de S&P de não será a probabilidade de
não para encontrar a entropia, como lembrar a fórmula Então a fórmula é muito,
muito, muito simples. Portanto, a entropia não é nada, mas não podemos encontrar o valor,
seja sim ou Então, para a entropia, vamos ver um exemplo Então, criamos o conjunto de dados A, a, a B B B B
e, em seguida, o número total de
instâncias será oito. Então, há três A e depois cinco B. Depois disso,
vamos substituir os valores
pela fórmula da
entropia Portanto, a fórmula da entropia nada mais
é do que PFS, A dois PS menos P de
não la dois Pf não Então, depois de usar a fórmula, podemos encontrar o valor de
entropia 0,954 Então três por oito
não é nada além de P de s, L dois, cinco por oito não
é nada além de Pf não. Então, depois disso, veremos
sobre a fórmula de ganho de informação. Então, para o ganho de informação, temos que
lembrar a fórmula, ganho de S vírgula A igual à
entropia de S menos soma, S V dividido por S
e, em seguida, entropia de pontos de SV e Portanto, você precisa se lembrar da
fórmula para obter informações. E então vamos ver
a fórmula do índice da Guiné. Portanto, a fórmula do
índice da Guiné nada além um menos a soma P Essas são todas as duas medidas de seleção de
atribuições no classificador de
decisão para
encontrar o melhor nó Então, depois disso, discutiremos sobre as vantagens do classificador
decisório. Portanto, a primeira vantagem
será a interpretabilidade. A interpretabilidade não
é nada, mas
podemos entender o classificador
decisório Portanto, podemos usar o classificador
decisentry para encontrar as previsões do
modelo E a segunda
será a flexibilidade. Portanto, o classificador decisentr pode ser usado para todos os
tipos de dados,
todos os tipos de classificação, regressão
e tarefa E o terceiro
serão os robôs. Portanto, a robótica não é nada, mas podemos lidar com os
dados ausentes e lidar com aplicativos em tempo real
usando
o reclassificador de decisão Portanto, a última vantagem
será a não linearidade. Portanto, o reclassificador de decisão pode ser usado para dados de relacionamento complexos Então esse é o uso da não
linearidade. Então é isso. Na aula de hoje,
discutimos sobre o algoritmo classificador de
dicionário no Portanto, o conceito principal do classificador
decisentry não
é nada, mas vamos construir
a árvore com base em Portanto, o nó raiz será separado em nó de folha
e, em seguida, em nó de decisão. Portanto, a saída do
classificador de disenteria será sim ou não. Somente uma será a saída.
5. Aula 4: Bayes ingênuo: todos bem-vindos.
Na aula de hoje, discutiremos sobre o algoritmo
baseado em N no aprendizado de
mensagens Portanto, o algoritmo de base N é um
dos tipos de método de
aprendizado supervisionado Então, principalmente o algoritmo N
Bse usado para resolver problemas de
classificação Portanto, o conceito principal
da base N não é nada , mas a saída do valor
depende da probabilidade. Portanto, alguns dos exemplos algoritmo
N Base são a filtragem de
spam, se o homem é
spam ou não , portanto, análise
sentimental Então, se o texto é sentimental ou
não sentimental, último serão os artigos
classificatórios Então, esses são os exemplos
do algoritmo N Base. Portanto, a
formulação matemática da base
Na nada mais é do que P
de A sus B igual a P de B A no
P de A dividido por P de B. Você tem que lembrar
os termos
da formulação matemática da base Na Depois disso, veremos um exemplo do classificador de
base Na Para isso, vamos usar o conjunto de dados da condição
climática, e também nossa saída
será reproduzir ou não reproduzir. Então, vamos decidir
se a partida pode ser disputada ou não acordo com as condições
climáticas. Então, na primeira etapa, vamos converter nosso
conjunto de dados em tabela de frequência E então vamos encontrar
a tabela de verossimilhança
usando as probabilidades
das características fornecidas Então, depois disso, na última etapa, vamos usar
nossa formulação para algoritmo de base
Na para encontrar
nosso valor ou saída Portanto, este é o nosso conjunto de dados para encontrar nosso classificador
baseado em Nay Então, no conjunto de dados,
você pode ver 0213 e também pode ver
a perspectiva e jogar Então, as perspectivas parecem
chuvosas, ensolaradas e nubladas. E a peça será sim, sol, não. Portanto, este é o nosso conjunto de dados para encontrar o classificador
baseado em Nay Então, na primeira etapa, vamos converter nosso
conjunto de dados em tabela de frequência Então você tem que ver
a tabela de frequência. Então, na tabela de frequência, você pode ver as três colunas. Então, o primeiro será o clima e o
segundo será o sim, e o terceiro será o não. Portanto, você precisa encontrar as
condições meteorológicas em nosso conjunto de dados. Portanto, o tempo pode estar
nublado, chuvoso e ensolarado. Portanto, você deve descobrir
quantos para o tempo nublado e quantos não
para o tempo nublado E você também deve
descobrir quantos são para o tempo chuvoso e quantos
não para o tempo chuvoso. Por fim, você deve
descobrir quantos são para o clima ensolarado
e quantos não para o clima ensolarado
usando nosso conjunto Primeiro, vamos descobrir
quantos nublados estarão, então sim Então, no conjunto de dados,
você pode ver que uma nuvem
nublada aparece cinco vezes
. E também, você pode ver, uma vez, duas vezes, depois três, depois quatro e depois cinco. Portanto, há cinco para
nosso clima nublado. Então, na saída,
você pode ver cinco. E então não há nenhum nublado
com o valor de não. É por isso que o zero
aparece na coluna não. Então, depois disso,
vamos descobrir
quantos sim para o tempo chuvoso. Então, em nosso conjunto de dados, você pode ver a chuva. Então a chuva vem por volta de uma, duas, três, quatro
vezes a chuva E então vamos descobrir quantos sim e quantos não. Então você pode ver, sim,
sim, duas vezes. E então, não, duas vezes. Então, duas vezes e duas vezes não. Portanto, na saída, você pode ver
duas vezes e duas vezes não. Então, depois disso,
vamos descobrir quantos sim e quantos não
para o tempo ensolarado. Então, no sol surge
uma, duas, três, quatro, cinco
vezes o sol. E então vamos
encontrar e não. Então vem, vem uma, duas ,
três, três vezes. E então duas vezes não vem. Então, na saída, você pode ver três vezes e duas vezes não. Então você tem que descobrir
quantos números totais permitem encontrar o total de dez, e então você tem que encontrar o
total de não, que é cinco. Então, encontramos nossa tabela de frequência
para as condições climáticas. Então, depois disso,
na segunda etapa, vamos encontrar a condição
climática
da tabela de probabilidade. Para isso,
existem três colunas. O primeiro é o clima, o segundo é o não e o terceiro é o sim. No clima, você
pode ver que o tempo está nublado, chuvoso e ensolarado Para o clima, o não
chega em torno de zero vezes. Pois o tempo nublado chega
cinco vezes, e então você tem que
encontrar a probabilidade dos valores do
S P dividido por B, e então você tem que encontrar
o total do conjunto de No conjunto de dados, você
pode ver de zero a 13. Há 14 valores
presentes em nosso conjunto de dados. É por isso que, na saída, você pode ver cinco por 14. Pi nada mais é do que
o número total de S vem. Então eu tenho que encontrar
a probabilidade, então temos que ver
o valor 0,35 E então vamos
encontrar o NE,
então o não vem duas vezes
e vem duas vezes. Então, o total
será quatro e,
em seguida, dividido pelo número total
de valores do conjunto teta, que será 14 Então, igual a 0,29. Portanto, o
valor da probabilidade será 0,29. Então, um dia ensolarado, então o sol chega duas vezes não,
e depois três vezes. Portanto, o total será dividido pelo número
total do valor do
conjunto teta igual a 0,35 E então vamos
encontrar o, então você não tem que encontrar nenhum valor total de 4/14 do
conjunto de dados igual a 0,29, e então vamos
encontrar tudo para S, e então todo o total
será 10/14 O valor será 0,71. Portanto, encontramos a tabela de
frequência e a tabela de iluminação para nosso classificador de base
Na Então, duas etapas estão concluídas, vamos
encontrar nossa última etapa. Para a última etapa, usaremos a fórmula
da base N. Para isso, você tem que lembrar
a fórmula P de A sla B, igual P de B A, N t P de A dividido por P de B. Então, o P de A será Pfs Então P de B será Pf sol. E então você tem que
usar a fórmula para Pfs Pf sunny igual
a Pf SNE sla S, int Pfs dividido por Pf E então você tem que
usar os valores três divididos por t igual a 0,3. E então Pf Suny será 0,35
e, em seguida, Pfs será Somos encontrados na tabela de verossimilhança
e na tabela de frequência
anteriores . Portanto, na tabela ilihod de S, o valor será 0171 Então, vamos
substituir esse valor no P de S. Então,
vamos substituir nosso valor gerado no ilihod
e na tabela de frequência E então você tem que substituir
o valor na fórmula. Você precisa encontrar a
probabilidade de PFS. Portanto, o Pfs sunny
será o valor de 0,60. E então vamos encontrar
a probabilidade de P
de não haver uma barra ensolarada E então você tem que
usar a fórmula novamente, P de no sus sunny
igual a P de Suny
slasNo no P de n
dividido por E então você tem que
usar os valores para
o Pf sunny SluSNo igual
a 2/4, igual Portanto, esse valor vem
da nossa tabela de probabilidade. E então P de não será 0,29 e P de Sunny
será 0,35 Por fim, você precisa
substituir todos os valores
e, em seguida,
encontrar a probabilidade de P
de nenhum slas Sunny Portanto, o valor será 0,41. Portanto, você precisa encontrar
o valor máximo das probabilidades reais Portanto, nossa saída será calculada a
partir do valor de 0,60. Isso é P of s Sunny. Portanto, nossa produção
será no dia de domingo. O jogador pode jogar o jogo. Então é isso. Descobrimos que nosso
algoritmo classificador baseado em navegação usa as três etapas Então, na primeira
etapa, você precisa
converter o conjunto de dados
em tabela de frequência
e, em seguida,
encontrar a tabela de inclinação
usando as usando as Depois disso, você deve usar o teorema básico para
encontrar a probabilidade de o valor ser ensolarado ou
chuvoso
6. Aula 5: máquina vetorial de suporte: No entanto, todos,
na aula de hoje, discutiremos
sobre o suporte ou o algoritmo ausente
no aprendizado de máquina. Portanto, o algoritmo Support Wetter
Missing é um dos tipos de algoritmos de
aprendizado supervisionado Ele pode ser usado tanto para
classificação quanto
para regressão. Portanto, o conceito principal do algoritmo
tar de suporte não é nada, mas temos que encontrar
o hiperplano, que separa as
diferentes classes Então esse é o conceito de vetor de
suporte ausente. Então, temos que encontrar
o hiperplano. Portanto, na
regressão linear que
discutimos , temos que encontrar
a linha de regressão, que separa a variável
independente
e a variável dependente No vetor de suporte ausente, temos que encontrar o hiperplano, que separa as
duas classes diferentes Portanto, a primeira classe será gato e, em seguida, a segunda
classe será escura
, separada
por um hiperplano Então esse é o conceito de vetor de
suporte ausente. Temos que encontrar o hiperplano, que separa duas classes
diferentes, duas ou mais classes diferentes Então, os fundamentos das missões de vetores de
suporte
e, em seguida, discutiremos sobre os tipos de missões de vetores de suporte Portanto, o fundamental básico do vetor de suporte ausente é
que temos que encontrar o hiperplano, que separa as
duas classes diferentes Então, para isso, vamos ver um exemplo de mesano
do vetor de suporte Então, vou criar um gráfico. No meu gráfico, há
dois copos diferentes. Então, a primeira classe será gato e a segunda
classe será escura. Então, depois de criar o conjunto de dados, temos que encontrar o hiperplano, que separa as duas classes diferentes
em igual distância Portanto, não podemos criar
um hiperplano porque a distância entre o conjunto de dados CAD
e
o conjunto de dados do cão é maior Só para isso, não podemos usar isso, então você precisa
criar o hiperplano, que separa as
duas classes diferentes em igual distância Então você tem que criar
uma distância igual. Então, você pode ver que duas classes diferentes
são separadas por hiperplano; você pode ver, duas classes diferentes são
separadas por hiperplano na mesma distância
ou distância igual Então esse é o hiperplano. Então esse é o hiperplano. Então, depois de encontrar o hiperplano, temos que encontrar a margem
de duas classes diferentes Para encontrar a margem, você precisa criar uma
linha das entre dois conjuntos de dados. Então, temos que
criar uma linha de traço. Então essa é a margem entre
dois conjuntos de dados diferentes. Então, isso será considerado como margem
máxima ou margem
maximizada, margem
máxima para SAT, vou
chamá-la de margem máxima. Portanto, o centro será um hiperplano e a distância
entre duas margens será a margem máxima Então, esses são os dois termos envolvidos no apoio a Messine Por fim, vamos
discutir sobre o último termo no mecanismo de torção de suporte
que é vetor de suporte, para o suporte t para a torta de suporte, temos que encontrar os pontos mais próximos
da estrela de suporte, temos que encontrar o ponto de dados que está mais próximo da margem Portanto, você pode dizer que esse ponto de dados
está mais próximo da margem. Para isso, temos que considerar esse ponto de dados para
o suporte tor. E então, para isso, você deve considerar que
esse ponto de dados será o vetor de suporte
para o gato do conjunto de dados
e, em seguida, você terá que encontrar o vetor de suporte para
o cão de segunda classe Portanto, você precisa encontrar
a distância mínima entre o ponto de dados
e a margem. Portanto, você pode considerar
esse ponto como o vetor de suporte para o conjunto de dados. Então esse é o vetor de suporte. Então, esses são todos os três termos envolvidos na falta
do vetor de suporte. Portanto, o hiperplano não é nada, mas separa as duas classes diferentes
em igual distância E então maximizar a
margem não é nada, mas você precisa criar uma margem entre dois conjuntos de dados diferentes Portanto, o ponto central será
considerado como margem máxima. E então o terceiro termo
será vetor de suporte. Portanto, o vetor de suporte
nada mais é do que pontos próximos
entre a margem. Portanto, temos que considerar o ponto mais próximo
entre a margem. Então, esses são todos os termos envolvidos na falta
do vetor de suporte. Assim, podemos ver o hiperplano
ideal, que separa as
duas classes diferentes em igual distância E depois maximizou a margem. Maximizar a margem não é nada, mas precisamos criar uma
margem entre dois conjuntos de dados
e, em seguida, a distância
entre duas margens
será considerada como margem maximizada E o terceiro termo
será vetor de suporte, vetor suporte nada
mais é do que o ponto mais próximo da margem. Assim, você pode ver o ponto
mais próximo. Portanto, será
considerado um conjunto de dados de cães. Ele será considerado
como um conjunto de dados CAT. Portanto, ele será considerado um vetor de
suporte para
o conjunto de dados de cães Ele será considerado como vetor de
suporte para o conjunto de dados CAT. Então, depois disso,
vamos discutir sobre os tipos de missão de
vetores de suporte Então, a primeira será a missão do vetor de suporte
linear. Portanto, para o vetor de
suporte linear ausente, podemos separar os
dois conjuntos de dados diferentes usando o hiperplano Mas no caso de falta do vetor de
suporte não linear, não
podemos usar ou não
podemos separar dois conjuntos de dados diferentes usando o hiperplano com a
mesma distância Então, anteriormente, estamos indecisos
sobre como separar os dois conjuntos de dados diferentes para o tipo linear de mistura vetorial de
suporte Mas no caso de falta do vetor de
suporte não linear, todos
podemos separar os
dois conjuntos de dados diferentes com a mesma distância Para isso, temos que
converter os diamantes
dos aviões Por exemplo, se o diamante filho do plano é unidimensional, temos que converter os diamantes
em bidimensionais Para uma dimensão nula, você pode ver o exemplo Portanto, será
considerado unidimensional. Assim, você pode ver os pontos de dados. Portanto, será
considerado unidimensional. Para o
vetor de suporte não linear ausente, você precisa converter o
unidimensional em
bidimensional. Para duas dimensões, você pode
ver o eixo Xs e depois o eixo Y. Será
considerado bidimensional. Se seu conjunto de dados for
unidimensional, você deverá convertê-lo em bidimensional Se seu conjunto de dados for
bidimensional, você precisará converter o
bidimensional em
tridimensional Então esse é o conceito de vetor de suporte
não linear ausente. Ao fazer isso, podemos separar
os dois conjuntos de dados diferentes. Somente para isso, temos que
converter as diamensionais dos aviões. Portanto, na saída, podemos ver que podemos separar os dois
conjuntos de dados diferentes usando o hiperplano convertendo os dados
convertendo a dimensão de uma dimensão
em duas dimensões Depois disso, discutiremos sobre os
tipos de margem. Portanto, faltam dois tipos de margem no
vetor de suporte. Portanto, a primeira margem
será uma margem rígida. Portanto, na margem rígida, você não pode colocar
nenhum ponto dentro do hiperplano ou da margem
maximizada Mas no caso de margem flexível, você pode colocar
pontos teta dentro do hiperplano e, em
seguida, maximizar a Portanto, a margem flexível é
mais eficiente do que a margem rígida porque podemos prever nossa produção com
muita facilidade na margem flexível. Mas, no caso da margem rígida, não
podemos prever nossa produção. Então essa é a desvantagem entre a margem rígida
e a margem flexível Na margem flexível, podemos permitir pontos de
dados dentro
do hiperplano Ao fazer isso, podemos prever
nossa produção com muita facilidade. Na margem rígida, não
podemos permitir nenhum ponto
dentro do hiperplano Somente por isso, não podemos prever nossa produção com muita facilidade
no caso de margem rígida Por fim, discutiremos sobre as aplicações do vetor de
suporte ausente. Portanto, a primeira aplicação
será o reconhecimento de imagem. E a segunda será
a classificação do texto. Portanto, a classificação de texto nada mais
é do que
saber se o texto pode
ser spam ou não. E então a terceira aplicação
será a bioinformática. E então o quarto
será financeiro, e o último
será o diagnóstico médico. Então, esses são todos
os aplicativos que
podemos usar sem o
vetor de suporte.
7. Aula 6: K significa agrupamento: todos bem-vindos.
Na aula de hoje, discutiremos sobre K significa algoritmo de
agrupamento
em aprendizado ausente Então, K significa que o agrupamento
é um dos tipos de algoritmos de aprendizado ausente não supervisionados. Portanto, ele pode ser usado
para problemas de classificação e, em seguida, de recursão Portanto, o conceito principal de que K
significa agrupamento não é nada, mas vamos agrupar os pontos de dados semelhantes
em clusters distintos Então esse é o conceito
de K significa agrupamento. O clustering
nada mais é do que um grupo de dados. Então, vamos agrupar pontos
semelhantes em grupos. Então, no exemplo, você pode ver três clusters
diferentes
são criados a partir do nosso gráfico. Portanto, existem pontos de dados
semelhantes diferentes. Então, o primeiro será o
grupo de pontos de dados azuis. Então, o segundo serão os
clusters de pontos de dados verdes
e, em seguida, o terceiro
será o grupo de pontos de dados pretos do cluster. Portanto, o conceito principal de K
significa que agrupamento não é nada, mas vamos agrupar pontos de dados
semelhantes
em clusters distintos Então, no
lado direito, você pode ver os três grupos
diferentes. Então, o primeiro
será o grupo de pessoas. E o segundo
será o grupo de pontos de dados
semelhantes de guerreiros
de soma E o terceiro
será o grupo de grupos de pessoas gordas. Esses três são clusters
diferentes com pontos de dados semelhantes. Então, vamos
discutir sobre quais são todas as principais terminologias que
N K significa Primeiro, o primeiro
será o centróide. Centrid nada mais é do que o
ponto médio ou médio do cluster Então esse é o
ponto central do nosso cluster. Então esse é o centróide. E a segunda terminologia chave nada mais
é do que agrupamento. O cluster nada mais é do que
um grupo dos mesmos pontos de dados. E o terceiro
será o método Elbow. Vamos
discutir o método do cotovelo no próximo slide, então vamos usar o método do cotovelo para
encontrar o valor K. Então, vamos
discutir quais são todas as etapas envolvidas
em K significa agrupamento Então, no primeiro passo,
vamos encontrar o valor de K. Para
encontrar o valor de K, vamos usar a
fórmula do método Elbow Então, veremos um método de cotovelo no
próximo slide Então, na segunda etapa, vamos encontrar o
centróide dos nossos clusters Portanto, o centrod nada mais é ponto
central de nossos clusters de pontos
de dados semelhantes Então, depois de encontrar o
centróide de cada cluster,
vamos criar clusters vamos criar distintos com
base em pontos de dados semelhantes Então essa é a etapa final. Então, na primeira etapa, você precisa encontrar o valor K. Então, na segunda etapa, você precisa encontrar o
centróide de cada cluster Na terceira etapa,
usando o centróide, você precisa agrupar os clusters Para encontrar o valor de K, precisaremos da
ajuda do método Elbow Então, para o método do cotovelo, veremos quais
são todas as etapas envolvidas Para o método Ebo, você precisa criar um gráfico Para o excesso, você
precisa criar os clusters. Portanto, os clusters podem estar na
faixa de um, dois, dez. Para o eixo, você precisa
criar o valor WC SS. Portanto, para o valor do WCSS, você pode ver a fórmula
para encontrar o WCSS Portanto, você precisa usar a fórmula
para encontrar o valor do WCSS. Com base no valor do WCSS, podemos criar o eixo Depois disso, você precisa
criar o gráfico com base no valor do
cluster e, em seguida, no WCSS Portanto, no gráfico, você
pode ver que sempre que encontrar o valor da curvatura pela primeira vez, isso será considerado o
valor de K. Então, em nosso gráfico, com base no cluster três, nosso gráfico será dobrado Então, três será
considerado como o valor de K. Então esse é o
uso do método Elbow Então, o método Elbow é muito, muito útil para
encontrar o valor de K. Usando o valor K, podemos encontrar o centróide Usando o centróide, podemos agrupar os clusters Então, essa é a maneira de
K significar agrupamento. Portanto, na primeira etapa, você precisa encontrar o valor K
usando o método Elbow Portanto, no método Elbow, você precisa usar os
eixos Xs e V, pois os AAs
serão os clusters Então, no eixo Y,
será o WCSS. Então você tem que se
lembrar da fórmula. Então, na fórmula, você
precisa substituir os valores
e, em seguida,
encontrar o valor do WCSS Depois de encontrar o valor do WCSS, você deve apontar
o gráfico sempre que encontrar a primeira
curva para que essa seja considerada
o valor de K. Então, depois de encontrar
o valor de K, você deve usar o valor K
para encontrar o Portanto, você deve usar o
centrad para cada cluster. Depois de encontrar o centróide
de cada cluster,
você precisa agrupar os clusters você precisa agrupar os Então essa é a nossa
etapa final. É isso mesmo. Na aula de hoje,
discutimos
que K significa agrupamento no aprendizado
perdido
8. Aula 7: KNN: todos bem-vindos.
Na aula de hoje, discutiremos sobre o algoritmo
K do vizinho mais próximo. Portanto, o
algoritmo do
vizinho mais próximo K é um tipo de algoritmo de
aprendizado supervisionado Portanto, ele pode ser usado
tanto para classificação
quanto para regressão e problemas Portanto, o conceito principal do algoritmo
KNN não é nada, mas temos que encontrar
a distância entre nosso novo ponto de dados e
nosso próprio ponto de conjunto de dados, que é mínimo ou próximo Então esse é o conceito
do algoritmo KNN. Temos que encontrar a distância
mínima entre nosso próprio ponto de dados e
nosso novo ponto de dados. Depois disso, veremos um exemplo do algoritmo KNN. Por exemplo,
no valor de entrada, ele é desconhecido para o usuário, mas somos os
pontos de dados de dois animais. Então, o primeiro será o gato e o segundo
será o escuro. Com base em pontos de
dados semelhantes, nossa saída será gerada, seja ela felina ou escura. Depois disso,
veremos as etapas envolvidas
no K e no algoritmo. Então, na primeira etapa, você
tem que selecionar o número de K. Então K pode ser
seu próprio valor Você precisa selecionar o
valor de K, valor maior. Portanto, um valor maior pode ser como
cinco ou mais do que cinco. Na segunda etapa, você
precisa encontrar a distância. Para encontrar a distância, temos que usar o valor
euclidiano Então, depois de encontrar a distância, você deve verificar
a distância mínima entre nossos pontos de dados. Depois de encontrar a distância
mínima, podemos prever nossa saída. Então, vou
mostrar um exemplo de que
vou usar a tinta. Vamos ver um
exemplo de K e algoritmo. Primeiro, vamos
criar um gráfico. Então, em nosso gráfico, criamos dois conjuntos de dados. Portanto, o primeiro
ponto do conjunto de dados será cat. Então, criamos o
conjunto de dados para o gato. Então, isso é para o gato. Então, esses são todos os pontos de
dados do gato. E então criamos
o conjunto de dados para o cachorro. Então esse é o nosso segundo conjunto de dados. Então esse é o
ponto de referência de dados para o escuro. Vamos introduzir um novo ponto de
dados em nosso conjunto de dados. Portanto, não sabemos qual será a saída do ponto de
conjunto de dados. Para encontrar a saída, você precisa encontrar a distância
entre os pontos de dados. Portanto, você precisa encontrar a distância entre
esses dois conjuntos de dados. Então você tem que encontrar a distância entre esses dois pontos de dados, e então você tem que
encontrar a distância entre esses dois e então isso, e então você tem que encontrar
toda a distância entre
o novo ponto de dados e
nosso próprio ponto de conjunto de dados. Portanto, você precisa encontrar tudo o que
precisa para encontrar o conjunto de dados,
tanto o escuro quanto o CAT Então, depois de encontrar a distância, você precisa encontrar a distância
mínima entre os pontos de dados. Então, por exemplo, distância do
gato é mínima em
relação ao nosso novo ponto de dados. Portanto, o valor encontrado da distância CAT é mínimo em relação ao novo valor do ponto
de dados Então, nossa saída fará
com que seja cat. Então esse é o conceito
do algoritmo KNN. Em nosso gráfico,
há dois conjuntos de dados. primeiro será o gato e o segundo
será o escuro. E então
vamos introduzir novo ponto de dados em nosso conjunto de dados. Vamos encontrar o
valor do ponto de dados. Portanto, para encontrar o ponto de dados, você precisa calcular
toda a distância entre o novo ponto de dados e
os pontos de dados
antigos do conjunto de dados Então, depois de descobrir isso, você precisa encontrar a
distância mínima, a distância mínima. Com base na distância mínima, podemos prever a saída. Portanto, nossa
distância mínima de dados será CAT. Então, para isso, apenas nossa fonte
de saída AT. Então esse é o conceito
do algoritmo K e N. Então, na saída, podemos ver esse é o nosso novo ponto alvo. E então vamos encontrar
a distância de dados entre
todos os pontos de dados. Depois disso, estamos encontrando a distância mínima entre nosso novo ponto de dados e
nosso ponto de conjunto de dados. A partir dessa distância mínima, podemos prever nossa
saída. Então é isso. Então esse é o conceito
do algoritmo KN N. Para encontrar essa distância, existem dois tipos de algoritmo ou dois tipos
de método que podemos usar. A primeira será
a distância euclidiana
e a segunda
será a distância de Manhattan Para a distância euclidiana,
você deve encontrar a fórmula distância entre
dois pontos Você tem que se lembrar
da fórmula. Então, a fórmula
será X dois menos X um, o quadrado inteiro mais Y dois menos Y um,
o quadrado inteiro E a distância de Manhattan, você deve se lembrar da
fórmula para Manhattan, X um menos Y um,
X dois menos Y dois, X dois menos Y dois, então essa é a fórmula
para a distância de Por fim, discutiremos sobre as vantagens e
desvantagens do algoritmo KNN. Então, a primeira delas
será a simplicidade. algoritmo KNN é um
dos algoritmos mais fáceis de aprendizado
de máquina E a segunda
será a ausência de suposições. Portanto, com base na distância
mínima, podemos prever nossa saída. Portanto, não pode haver nenhuma
suposição em nossa saída. E então a terceira
será a salidade. Portanto, a salidade não é nada, mas o algoritmo KNN pode ser usado tanto
para regressão quanto E então as desvantagens serão sensíveis a características
irrelevantes Portanto, recursos irrelevantes podem
diminuir nossa precisão
e, em seguida, a complexidade computacional. Portanto, o algoritmo KNN não pode ser
usado para um conjunto de dados maior. Portanto, ele pode ser usado somente
para o conjunto de dados menor. E então a última desvantagem
será a maldita dimensionalidade. Portanto, o algoritmo KNN pode ser usado
para diamantes e um D,
dois D e depois três D,
portanto, não pode ser usado
para Então é isso. Na aula de hoje, discutimos sobre o algoritmo
KNN. Portanto, o algoritmo KNN não é nada, mas temos que encontrar a distância
mínima entre nosso próprio ponto de dados e
nosso ponto de dados de destino
9. Aula 8: floresta aleatória: No entanto, na aula de hoje, discutiremos sobre o algoritmo de
fusão aleatória no aprendizado
de máquina Portanto, o
algoritmo de fusão aleatória é um
dos tipos de algoritmos de
aprendizado supervisionado Portanto, ele pode ser usado
tanto para classificação quanto para regressão e problema no aprendizado de máquina Portanto, o algoritmo de fusão aleatória é baseado no conceito
de aprendizado em conjunto. Portanto, o aprendizado em conjunto não é nada, mas vamos usar dois ou mais classificadores para
nosso projeto Então, os classificadores são classificadores dicentry ou
K e não classificadores Portanto, dois ou mais classificadores são agrupados e denominados como Para o algoritmo de floresta aleatória, vamos construir dois ou mais classificadores de dicentrismo com base no Então esse é o conceito
de floresta aleatória. Vamos construir três ou mais classificadores de
diccenty. Portanto, nas técnicas de
aprendizado em conjunto, existem três tipos de termos O primeiro é o
ensacamento e o segundo
é o reforço e o
terceiro é o empilhamento Para o ensacamento, vamos discutir na floresta aleatória Portanto, o ensacamento é uma técnica
fundamental usada na floresta aleatória Então, empacotar não é nada, mas vamos usar dois ou mais
classificadores de decisão
para o algoritmo para o Então, vamos
discutir sobre como o
algoritmo de floresta aleatória funciona? Então, no algoritmo de
floresta aleatória, vamos construir três ou mais classificadores
decisórios. Em cada classificador de decisão, forneceremos uma saída, seja sim ou não Portanto, se a entrada
decisória der mais do que não, nossa saída da floresta
aleatória
será para o problema de
classificação Para regressão,
vamos encontrar a média e a média da saída do
classificador de
dicisentria Então, vamos discutir sobre as etapas envolvidas no algoritmo de floresta
aleatória. Então, na primeira etapa,
vamos encontrar os K pontos de dados aleatórios
do nosso conjunto de dados de treinamento Depois disso, na segunda etapa, vamos construir uma árvore de
decisão para esse conjunto Então, na terceira etapa, vamos encontrar o
valor de cada árvore de decisão, se ela pode ser sim ou não. Então, na última etapa, vamos encontrar
a saída majoritária da árvore de decisão. Então, se a saída S for
maior do que a saída zero, nossa saída para a floresta
aleatória será S. Então essas são as etapas para o algoritmo de floresta
aleatória. Então, vamos
ver um
exemplo de classificador florestal aleatório Para isso, vamos criar um conjunto de dados de imagens de frutas. E então vamos
encontrar a árvore de decisão
e, em seguida, vamos prever o valor com base na votação
da maioria. Então, na primeira
etapa , vamos
construir o conjunto de dados. Portanto, o conjunto de dados
será composto por imagens de frutas. Na segunda etapa, vamos construir
a árvore de decisão. Portanto, construímos uma árvore de decisão com
base em algumas condições. Portanto, as condições são se a fruta é verde ou amarela. Então, com base nisso,
construímos algumas
das árvores de decisão. Na terceira etapa,
vamos encontrar o valor de cada árvore de decisão. Assim, você pode ver na árvore de decisão da
primeira etapa, maçã na segunda
árvore de decisão, novamente, maçã. Então, na terceira
árvore de decisão, é banana. Então essa é a terceira etapa. Na etapa final, encontraremos a saída majoritária ou
a saída
majoritária de
nossa árvore de decisão Então, vamos encontrar
a saída majoritária
de nossa árvore de decisão. Portanto, a produção majoritária nada mais
é do que maçã. Então essa é a saída do
nosso algoritmo de fusão aleatória. Para o algoritmo de fusão aleatória, você deve se lembrar
do algoritmo
do classificador decisório,
como encontrar a saída do classificador decisório Então, vamos discutir sobre as vantagens
do algoritmo de
fusão aleatória Portanto, nas vantagens, a primeira será
a maior precisão. Portanto, no algoritmo de fusão aleatória, construímos dois ou
mais classificadores de decisão Com base na votação majoritária do classificador de decisão, chegamos ao resultado
de nossa aleatoriedade para Então, isso aumentará a
precisão da nossa saída. E a segunda será a
robustez em relação aos valores atípicos. Os valores discrepantes nada mais são do que valores
indesejados em nosso conjunto de dados. Portanto, temos que remover
os valores discrepantes. Para o algoritmo de fusão aleatória, ele é confiável para valores discrepantes Então essa é a robustez,
dois valores atípicos. Mesmo que um valor
indesejado entre em nosso conjunto de dados, nossa precisão de saída
aumentará E a terceira vantagem
da floresta
aleatória é que ela pode
lidar com dados diversos. Portanto, ele pode lidar com diferentes
tipos de conjunto de dados, diferentes tipos de funções numéricas
e categóricas E a última vantagem da floresta
aleatória será a seleção
automática de recursos. Portanto, a
seleção automática de recursos não é nada, mas pode se adaptar a aplicativos em tempo
real
ou a conjuntos de dados em tempo real. Então, essas são todas as
vantagens da floresta aleatória.
10. Projeto de aprendizado de máquina: Minha para a primeira aula. Na aula de hoje,
vamos criar nosso projeto de classificação de
categorias
de produtos de comércio eletrônico usando regressão logística Para o nosso projeto,
vamos usar o Google Collar, então precisamos criar um
novo caderno Então, depois de criar
o novo caderno, você precisa digitar o nome do
seu projeto. Então, vou vincular a produtos de
comércio eletrônico classificação da
categoria de produtos de
comércio eletrônico. Usando regressão logística. Vamos classificar a categoria
do produto. Então, depois de digitar
o nome do seu projeto, você precisa alterar seu tempo de execução Então, vou mudar para CPU. Se você quiser GPU, você também
pode usá-la. Então, agora vamos
discutir quais são todos os pacotes que precisamos inserir
para nosso projeto. Então você precisa importar o pacote importante
que é o Pandas Então, depois disso, precisamos importar a expressão
regular e, em seguida, a
string e, em seguida, o pacote NLTK, kit ferramentas de linguagem
natural Depois disso, precisamos
importar um modelo do pacote Sklearn para ti do modelo linear
de pontos sklearn, Importar regressão logística Então, vamos usar a regressão
logística
para nosso projeto Todos vocês sabem que a regressão
logística
também pode ser usada para projetos de
classificação Então, depois disso, precisamos inserir o pacote split de teste do
trem. Para dividir o
conjunto de dados em trem e teste, você deve inserir a divisão de teste do
trem Então, depois disso, precisamos
inserir o pacote de pontuação de precisão. Portanto, se quisermos encontrar a pontuação
de precisão do seu projeto, você deve inserir a pontuação de
precisão. Então, depois disso, precisamos importar o pacote vetorizador
TF ID para converter nossos recursos
em Para isso, precisamos
importar o vetorizador. Esses dados numéricos podem ser úteis para treinar nosso conjunto de dados Então, a partir do pacote NLTK, você deve inserir Stop votes Portanto, palavras paradas não são nada,
mas removerão as palavras desnecessárias do
seu texto ou conjunto de dados. Para isso, basta importar
um pacote, pare as palavras. Então, esses são todos os
pacotes que você precisa importar. Na próxima aula, discutiremos sobre nosso conjunto de dados.
Bem-vindos a todos. Na aula de hoje,
discutiremos sobre nosso conjunto de dados,
para a classificação de
categorias de produtos de
comércio eletrônico do nosso projeto
usando regressão discutiremos sobre nosso conjunto de dados, para a classificação de
categorias de produtos de
comércio eletrônico do nosso projeto logística Para o conjunto de dados,
usaremos o arquivo CSV. Portanto, você precisa baixar o arquivo
CSV a partir da descrição Ele contém a coluna mais
importante, título
do produto e, em
seguida, a categoria. Portanto, com base no título do produto, podemos nos classificar
na categoria Ou com base na categoria, podemos classificar o produto Portanto, precisamos importar o
conjunto de dados para nosso projeto. Então, como arrastar e soltar e, em seguida, vamos importar
o conjunto de dados usando o Pandas Então você tem que digitar DF igual a t, pd dot, ler CSV Vamos
ler nosso arquivo CSV
e, em seguida, você deve digitar
o nome do arquivo Então, depois disso, se você quiser visualizar os principais valores
do seu conjunto de dados, você deve usar a função head Ele classificará os principais valores. Assim, você pode ver que os cinco principais valores
estão presentes na saída. Portanto, a coluna mais importante, título
do produto e, em
seguida, a categoria. Então, se você quiser ver
os valores inferiores, você deve usar a função tail. Portanto, ele imprimirá os valores inferiores. Assim, você pode ver os valores inferiores
de saída. Portanto, há 23.000 valores
presentes em nosso conjunto de dados. Então é isso,
importamos nosso conjunto de dados com sucesso. todos bem-vindos.
Na aula de hoje, discutiremos
sobre o pré-processamento de dados Então, vamos remover as palavras desnecessárias
do nosso conjunto e também precisamos
limpar nosso conjunto Para isso, vamos usar palavras de parada usando
o pacote NLTK, você precisa baixar
as palavras de parada E então precisamos definir
as palavras de parada para o idioma
inglês. Para isso, você deve
digitar palavras de parada e
definir palavras de parada iguais
ao idioma inglês. Precisamos remover as palavras
desnecessárias no idioma inglês do nosso conjunto
de Então, para executar o código, você pode ver as palavras de parada foram
completamente importadas. Então, agora vamos
pré-processar os dados. Então, para isso, precisamos remover os valores nulos dos nossos dados Nome da coluna,
título do produto e, em seguida, categoria. Você deve digitar o
nome da coluna com
muito cuidado, pois se
você digitar o nome incorreto, isso ocorrerá por engano. Portanto, você precisa alterar o título e
digitar a categoria. Depois disso, precisamos remover
os valores nulos usando a função
dropna Então você tem que
digitar D de drop nu. Isso removerá os valores nulos. Então, agora vamos
limpar nosso conjunto de dados
removendo os
números de pontuação do nosso conjunto de Portanto, você precisa criar uma função
def clean text of text. E então precisamos converter todo o texto em minúsculas E então precisamos remover
as pontuações do nosso texto Fotografe um texto
igual a R pontos abaixo. Precisamos remover e
depois remover o Yotuty dark escape
dos caracteres de escape e das pontuações das Precisamos remover as
pontuações da nossa string. E então você precisa digitar a cotação dos valores
substituídos. Vá lá, mande uma mensagem. Então, agora removemos com sucesso a pontuação da nossa string Então, depois disso, precisamos
remover os números
do nosso texto. Para isso, você precisa digitar um
texto igual a R d subtrair de R D mais Isso removerá os
números do nosso texto. Então, depois disso, precisamos remover as palavras desnecessárias
do nosso conjunto
de Para isso, precisamos
criar um loop distante e depois verificar todas as palavras
com as palavras paradas. Portanto, stop words contém todas
as palavras desnecessárias. Para isso, precisamos remover
as palavras desnecessárias. Então, temos que marcar, juntar
palavra por palavra no texto, cada palavra, precisamos repetir e depois dividir. Se as palavras estiverem presentes em
palavras irrelevantes, precisamos removê-las. Você tem que digitar a
palavra if not in stop words. Então, depois disso, precisamos
retornar a saída. Você precisa digitar um texto escrito. E então temos que criar uma nova coluna aplicando
o texto limpo. Portanto, você precisa digitar
Df do título limpo. Então essa é a nossa nova coluna para
substituir o título do produto. Você precisa digitar
o título do produto. Um jogo de texto limpo. Portanto, todo o pré-processamento
será aplicado à nova coluna. Então é isso. Limpamos nosso texto
com sucesso. Bem-vindos a todos. Na aula de hoje,
vamos treinar nosso conjunto de dados usando regressão
logística Então, primeiro, precisamos converter as características em dados
numéricos Para isso, vamos usar
vetor, vetorizador TF IDF. E então precisamos separar
os recursos e, em seguida, a variável
alvo. Portanto, você precisa digitar X igual à transformação de pontos do
vetorizador Você precisa digitar a
coluna, o título limpo. Portanto, um título mais limpo
serão nossos recursos. Você precisa converter
o título em RA. Depois disso, você precisa digitar a variável Y para o alvo. Portanto, nosso alvo será a categoria. Então, com base na categoria,
podemos classificar. X será nosso recurso. Y será nossa variável alvo. Então, depois disso, precisamos dividir o conjunto de dados em
treinar e testar. Portanto, você precisa digitar
variáveis como trem X, teste
X, trem y, teste
branco, igual à divisão do teste de
treinamento. Ele dividirá o conjunto de dados
e, em seguida, você deverá digitar X Y
e, em seguida,
fornecer o tamanho do teste 0,2, 20 por cento para o teste e os 80 por cento restantes
para o treinamento, e então você deve digitar o estado
aleatório igual a 42. Então, agora dividimos
com sucesso o conjunto de dados em treinamento Então, depois disso, podemos
continuar treinando nosso modelo. Veja como digitar o modelo igual
à regressão logística desativada. Então, ele treinará o modelo. Então, ele treinará o conjunto de dados. Então, como digitar o
ajuste de pontos do modelo do trem X. Vamos treinar o conjunto de dados
do trem. Portanto, você precisa executar o núcleo para
ver se o modelo foi
treinado com sucesso em nosso conjunto de dados. Então, na próxima aula, concluiremos nosso
projeto. Bem-vindos a todos. Na aula de hoje,
concluiremos
nosso projeto de classificação de
categorias de produtos de comércio eletrônico usando regressão logística Na aula anterior,
treinamos nosso conjunto de dados. Então, se quisermos baixar seu conjunto de dados para esse tipo de Toto, o pacote pickle, usando
o pacote pickle,
podemos baixar ou usar
nosso modelo de conjunto podemos baixar ou usar Então, precisamos abrir o
modelo com open off, você tem que digitar o nome
do seu arquivo pickle Então esse é o nosso modelo treinado. Sim, para digitar o modo de gravação. Ele será considerado
como nosso arquivo de modelo. Então, dentro disso, precisamos
despejar todos os valores
do modelo treinado Você deve digitar pickle dot dump
of model, model file. Vamos
salvar o modelo no formato de arquivo dot
pickle do produto Assim, você pode ver a saída, o
produto em conserva. Então esse é o nosso modelo
logístico treinado. Então, usando esse modelo de arquivo pickle, podemos criar um projeto em tempo
real que pode classificar os produtos Então, depois disso, precisamos
prever nossa saída para
digitar predicate igual à previsão de
pontos do teste X, e então você tem que
imprimir a previsão. Além disso, se você quiser
imprimir a pontuação de precisão, você também pode imprimir
a pontuação de precisão. Você tem que digitar, prever, testar
branco, aparecer, prever. Além disso, você pode imprimir
a previsão. Então, como executar o código. Assim, você pode ver a CPU CPU
e, em seguida, você pode ver a pontuação de precisão da
previsão. Então é isso, pessoal, concluímos
com sucesso nosso projeto classificação de
categorias de produtos de comércio eletrônico usando regressão logística