Transcrições
1. Apresentação: Olá e bem-vindo ao treinamento de programação da
classe R para ciência de dados e aprendizado
de máquina. Nesta aula,
ensinarei a você a adicionar programação, que é a segunda
linguagem de programação mais popular usada no campo de aprendizado de máquina
e ciência de dados. O primeiro compartimento, Python. Então, se você quer aprender programação
R e quer se destacar em sua carreira em ciência de dados
e aprendizado de máquina
, essa é a aula
certa para você. Eu sou Sunil, seu
professor para esta aula. Tenho anos de experiência trabalhando em empresas de
desenvolvimento de software e analistas de tecnologia últimos 12 anos e, nos últimos seis
anos, venho ensinando pessoas sobre tópicos de ciência de dados e aprendizado
de máquina. Então, vou te ensinar
programação desde o básico até o
tópico mais avançado. E veremos como podemos usar nossa programação sem leis
para analisar os dados,
visualizar os dados e como
podemos usar a programação R para criar nossos modelos de ciência de dados e aprendizado de
máquina para serem usados no campo de aprendizado de máquina
e ciência de dados. Então, se você está interessado
em aprender e programar para ciência de dados
e aprendizado de máquina
, essa é a aula
certa para você. Então, se você estiver interessado em se
matricular nesta aula, vemos
na próxima palestra. Obrigada.
2. R Instalação: Olá e bem-vindo. Então, nesta palestra, vamos ver o processo de
instalação de arte. E no final desta palestra, poderemos executar nossos
programas dentro do nosso console. Então, vamos começar a
instalar o R em nossa máquina. Precisamos acessar o site. Os ductos da glândula Crane são projetos de
hífen. Observação sombria. Cnn dot são
projetos de hífen ou voltados para você, que é o
site oficial de nossa programação. E você pode ver o
abrangente R Archive. Quando você vem aqui, você pode
ver um ritmo diferente se
chegarmos em um
horário diferente depois de alguns meses. Mas, mais ou menos, você verá a Comprehensive R
Archive Network aqui. E aqui você
verá o download e a instalação do R. E
aqui você verá as diferentes
opções do sistema operacional para baixar o R4. Então, aqui estamos
na máquina Windows. Então, eu vou usar esse
download R para Windows. Se você estiver usando Linux ou
se estiver usando o macOS, poderá acessar os sistemas
operacionais correspondentes. Portanto, precisamos clicar
no download R para o respectivo
sistema operacional dos meus filhos. Estou clicando nas janelas. Aqui. Você pode selecionar instalar
R pela primeira vez. Ok? E aqui vamos com o download R para ponto
ou ponto para Windows. Clique nisso ou não. Ou o arquivo EXE com hífen quatro pontos 0, n2, hífen, ponto verde,
começará a ser baixado. É o arquivo de 83,6 MB. E minha internet está um pouco
lenta hoje, desde a manhã. Então, está demorando um pouco. Se você estiver em uma Internet de alta
velocidade, pode levar alguns minutos e o arquivo DOT EXE será baixado. Basta esperar que ele
seja baixado. E quando estiver pronto, começaremos o
estilo e o processo. Agora, o arquivo dot EXE
foi baixado. Precisamos clicar duas vezes nisso. E chegará o prompt
para instalar a arte. Só precisamos
clicar em Sim para permitir que o administrador acesse o processo
de instalação. E uma vez que você fizer isso, o prompt de escuta da histona
virá assim. E aqui precisamos selecionar o
idioma para que você possa selecionar o
seu idioma e clicar em. Ok. Agora precisamos conhecer a condição de
Thompson, como Contrato de
Licença Pública Geral
GNU. Então você tem que lê-lo e depois precisamos
clicar no botão Avançar. Agora você pode selecionar
o diretório. Estou mantendo-o no
arquivo C por diretório padrão. E precisamos clicar em Avançar. A coisa já existe
porque já estava lá. Então, basta clicar para
instalar de qualquer forma. Clique nele e você pode deixá-lo como está
e clicar em Avançar. Clique em Avançar. Aqui você pode, se quiser, selecioná-lo para não criar a pasta do Menu
Iniciar, ok? Se você quiser, eu
quero ser criado. Então, vou clicar em Avançar. E aqui você tem que selecionar, basta selecionar os dados. próximas gotas são atalhos
para que você possa iniciar a arte com facilidade. Sempre que você quiser
escrever um programa, basta clicar
nesse instinto extra da trama e ele pode começar. Clique em Avançar. E agora o estranho está sendo instalado
em nosso sistema. Isso pode levar alguns minutos. Dificilmente. Levará de dois
a 3 minutos no máximo. C aqui. Agora, a parte de trás, estamos dentro de casa para um ponto
ou ponto a conjunto de rígidos. E está dizendo que está acabado. Então, basta clicar no acabamento e o R está instalado
em sua máquina. Para verificar se o ímpar está
instalado ou não, você precisa clicar
no botão Iniciar do Windows
e
rolar para baixo para verificar se os
artistas não são. Veja aqui. Aí está a pasta de arte. E ao clicar nele, clique na pasta de arte, você verá que as duas
opções são I1, I3, T6 e adicione esse T4. Portanto, se você estiver usando sistemas
operacionais Windows 7 ou Windows 10 ou superior, você pode usar a versão
de quatro bits. Caso contrário, você pode
ir com o 386. Ok, então eu tenho menos de
64 bits, então vou clicar nela
e r será perdido. Então este é o R Do
Re, e este é o console R. E aqui podemos começar a
escrever o programa cardíaco. Suponha que eu ame quatro mais cinco
e isso me dê nove. Se você escrever o programa simples
Hello World para arte. Então, precisamos escrever em formato impresso. E então, na
citação simples hello world, e ele imprimirá Hello world. Então, até agora. Este é o programa Hello
World simples em R. Então é assim que nossos programas
podem ser executados no console. Mas, neste curso, não
vamos
usar a interface gráfica do nosso console. Em vez disso, vamos
usar o RStudio, que é um IDE
para R. E essa é opção
mais preferível
e melhor para prosseguir com
a programação R. Então, na próxima aula, começaremos a baixar
e instalar o RStudio. Você me verá na próxima palestra.
3. Instalar e explorar o RStudio: Na palestra anterior, baixamos e
instalamos em nossa máquina. E vimos como trabalhar
com o console de arte, certo? Sim. Mas não vamos
continuar com isso. Então, vamos baixar o
RStudio para este curso. E ao longo deste curso, usaremos o RStudio. O Rstudio é um IDE de
ambiente de desenvolvimento integrado para programação R. E com isso,
podemos fazer as coisas com facilidade e gerenciar as coisas de forma
organizada e o AD, eles ajudam muito na programação. Assim, podemos revestir com facilidade e ver os resultados com ele. Então, na próxima semana,
vamos com o RStudio. Então, primeiro de tudo, precisamos baixar o RStudio. Então, para baixar o RStudio, precisamos acessar
o artstudio.com. Este é o
site oficial do RStudio. E quando chegarmos ao site do
RStudio, você verá várias
opções, como produtos, soluções, clientes,
recursos e muitas coisas. E na parte superior você pode ver que
o download
não vai clicar nela. Antes disso, veremos
quais são
os produtos de
nível no RStudio. Então, há nosso estúdio, o principal IDE para R. Então servidor
RStudio é o
sinal deles que já está lá. E os pacotes RStudio também
estão lá. Então, vamos
usar o RStudio, o ID, e depois
usaremos pacotes R para vários usos quando exportarmos esse aprendizado de
máquina de ciência de dados, todas essas coisas então
usarão pacotes R. Ok, então vamos usar
os pacotes RStudio e R. Então, por favor, clique em RStudio. Portanto, o RStudio é um
ambiente de desenvolvimento integrado para arte. Ele inclui um
editor de destaque de
sintaxe do console que suporta execução
direta de código, bem
como ferramentas para plotagem, histórico, depuração
e gerenciamento de objetos. Ok, então todas essas coisas que
podemos fazer com o RStudio, vamos usar
a versão
mais recente do RStudio one dot three. E há duas
versões do RStudio no
nível RStudio, que são o RStudio
Desktop e o servidor RStudio. Portanto, não vamos
usar o servidor RStudio. Vamos usar o RStudio
em nossos deques, então clicaremos nele. E quando você vê
outro armazenamento extra, novamente, você verá
as duas opções, motivo de código
aberto, que
é basicamente gratuito, e RStudio Desktop pro, que é para uso comercial e para esse artista
ler extra pro, precisamos pagar $995 por corpo. Não vamos usar
esse comercial. Vamos usar
para este curso, a versão de código
aberto gratuita do RStudio, que é uma GPL versão
três, licenciamento gratuito. Então, vou clicar nisso. Baixe, RStudio
extra. Clique sobre isso. E quando você clicar nele, você chegará à fase difícil de
fazer o download. E aqui podemos escolher esta versão gratuita e
clicar em Baixar. E quando você clica em Baixar, você
será direcionado ao seu
respectivo sistema operacional. Nós terminamos. Então, aqui vou
baixar o RStudio para Windows. Se você estiver em outro sistema
operacional, você pode clicar nele. Como Coben para
macOS, Fedora, BBN, qualquer
sistema operacional que
você tenha, basta selecionar esse arquivo
e clicar em Download. Então, vou baixar o RStudio para
Windows e clicar nele. E artistas, o arquivo EXE do artist studio dot
será baixado. O download começará aqui. Então, vou esperar por isso. Portanto, esse
arquivo RStudio dot EXE foi baixado, então eu só preciso
clicar duas vezes nele. Então, o
assistente de redução de configuração dos artistas foi iniciado. Então, por que só precisa
clicar em Avançar? Você só precisará clicar em Avançar e pronto. Não há necessidade de fazer nada extra. Assim, clique em Avançar, Avançar. E isso será feito
em alguns minutos. Então, a
configuração do estúdio do artista foi concluída. Basta clicar em
Concluir e o RStudio parou completamente
em suas máquinas ou apenas agora o aplicativo de tarefas de interrupção está
lá, basta clicar em conduzir. Um estúdio de artistas
será lançado. Então, os celulares estão carregados. Rstudio, Bem, parece este ano você verá a
opção de escrever seu roteiro. E esse é o
console onde podemos ver os resultados
desses scripts. E então, neste canto superior
direito você pode ver o
ambiente, a história. Seja qual for o comando e descartado, estamos
executando o fluxo dorsal. Você pode ver então essa
conexão e, em seguida, o tutorial. Então, se você quiser
aprender sobre um
pacote específico ou algo assim, você pode ir aqui e
aprender sobre isso. E aqui você pode ver os arquivos no diretório de trabalho.
Os arquivos serão mostrados aqui. Depois, os gráficos, quando
usamos gráficos e todos os gráficos, e se executarmos
algo em paisagem para traçar algo
como algo gráfico, todos esses gráficos e
tudo estarão aqui em breve. Os pacotes que
usamos em nosso script. Esses pacotes
serão nosso nível aqui. Então, todos os pacotes que
estão instalados aqui. E você pode simplesmente selecionar, e se quiser
remover esse pacote, você pode removê-lo daqui. Se você quiser saber
mais sobre o pacote, clique
neste link e
saiba mais
sobre o pacote. Então, aqui você pode ver
o nome do pacote e , em seguida,
a descrição da classificação do pacote e o
texto do pacote
e, em seguida, explorar e
excluir o mob. A opção de pacote está lá. Se você quiser instalar
um novo pacote, basta
clicar em Instalar e nome do
novo pacote especificar o nome do
novo pacote e ele
será baixado. Ok, e
aqui está uma operação de ajuda e você quer aprender
sobre R e RStudio, ou você quer acessar os manuais são
grandes para fazer manuais, você pode ir aqui e obter
ajuda sobre qualquer assunto, ok,
então, vimos essas coisas vimos conexões e tutoriais
e tudo estará aqui. E a partir daqui, os três pontos. Você pode ver
que, ao clicar nele, você pode selecionar o diretório de
trabalho que deseja definir
para o seu RStudio. Então, suponha que selecione nosso 2020
como um diretório de trabalho. Então, vou apenas selecionar isso. E então precisamos
clicar nessa opção adicional e opção
Definir como
diretório de trabalho é que você só
precisa clicar nela. Então, sênior, WD disse que WE é o comando para
definir nosso diretório de trabalho. Então, beneficiário
impresso em C ou D com a arte do cólon. Essa árvore foi configurada para
o diretório de trabalho. Então, se você não quiser
fazer a partir daqui, você pode usar esse comando para definir o
diretório de trabalho, ok? E então aqui você pode criar uma nova pasta,
excluir, renomear todas essas opções em nosso nível aqui e aqui
podemos simplesmente escrever nosso script
até mais cinco. E nesta execução, você pode selecionar esta linha e
clicar em Executar e esse script ou
esta instrução
estará em execução e você
verá o resultado aqui, phi plus pipe, então
simplesmente você pode, se quiser imprimir algo, olá, RStudio e
quiser clicar em Executar, você verá que há
LTL hello, RStudio. Ok? E no histórico você
verá todos os comandos
que estão sendo calculados. Ok? Então, essas são as coisas e
esse arquivo que você pode salvar. Se você quiser salvar esse arquivo, clique em Salvar e ele será salvo em seu diretório de trabalho
atual. Então você pode dar uma
risada em qualquer nome. Nosso arquivo será salvo. Ok, da mesma forma, se
quisermos criar um novo arquivo, basta clicar aqui e você verá
o grupo do artista. Você criará nosso arquivo de script ou caderno
ou arquivo R markdown. Vamos ver o que é o arquivo
R markdown. Aprenderemos
sobre esse método ágil. Ok? E então, se você clicar, você pode criar um novo
projeto ou um novo diretório, ou você pode ir para o diretório
existente. E aqui você pode ver
o controle de versão. Ok? Então, essas são as
várias opções de nível. Se você clicar no arquivo novamente, você verá o
New File R Script. Mcdonald's, essas coisas
que você pode ver aqui. E parcelas de ouro que
vimos aqui. mesma coisa. As ferramentas de criação e depuração de
perfis não são. Então, exploraremos todas as opções de quando e onde for necessário. E vamos explorar todas
essas coisas por enquanto. Esta é a parte de escrever o roteiro, e aqui veremos isso como juiz, e aqui podemos ver diretório de trabalho
obscuro e os enredos e tudo mais. Se usarmos, você pode
ver que seus pacotes podem ser instalados e
são enormes a partir daqui. E aqui você pode ver
a história e tudo mais. Ok, então isso é
tudo sobre o RStudio. E agora estamos prontos
para começar com a programação R
com este RStudio Ib. Então, da próxima
palestra em diante, aprenderemos
nossa programação. Então Steven datilografou a próxima palestra.
4. Por que aprender R: Olá e bem-vindo.
Nesta palestra, aprenderemos por que estamos aprendendo a linguagem de programação
R? Então, para responder a essa pergunta, temos que
passar por duas coisas. A primeira coisa é: o que
é r e por que
devemos aprender se suas regiões estão por trás do aprendizado de nossa programação? Então, vamos começar
com o que é r? Portanto, r é a linguagem mais
popular no mundo da ciência de dados. A análise de dados é estática. Por isso, é muito usado
na análise de dados estruturados e
não estruturados por natureza. Atualmente, estamos
recebendo uma grande quantidade de dados chamados de big data, que geralmente não são estruturados. E se você quiser
analisar esses big data, você pode facilmente fazer com
a programação R ou ímpar. Estranho. Estranho. Odd é uma linguagem de programação, software
e aquecimento para
análises estatísticas e gráficos. A apresentação e
o relato do que foi criado por Eros yamaka e
Robert Jackson man e pela Universidade de
Auckland, Nova Zelândia. E atualmente
eles estão bloqueados pela nossa equipe principal de desenvolvimento. Então R é inventado por yamaka
e Robert Gentleman. E é por isso que seu nome é estranho porque no inverno o nome começa com nossos Roth e Robert e eles o
nomearam com base em seu nome. E isso é chamado de nossa
programação a partir deles. Regiões para aprender R. R é um software de código aberto e de código aberto
disponível gratuitamente ,
que você pode conectar e usar. E se quisermos contribuir com
a arte, você também pode fazer. E é a licença pública
geral GNU. Portanto, não há necessidade
de pagar nada gratuitamente. E esse é o melhor motivo
para usar nossa programação. Compatível com várias plataformas. Então, se você executa
nosso programa no Windows, Linux ou
macOS, não importa. Ele funcionará perfeitamente
e fornecerá o mesmo resultado em qualquer
uma dessas plataformas. Esses artistas altamente flexíveis
e em evolução são
flexíveis por natureza? E está evoluindo muito. E atualmente são
mais de 2 milhões muito mais de 2
milhões de usuários estão usando nossos
setores e domínios de programação. Amplamente utilizou nossa programação. Por exemplo, você nomeia o setor e encontrará o uso de
nossa programação no
domínio financeiro
que eles usam para detectar transações fraudulentas
no domínio das telecomunicações. Eles são usados na
programação artística. Também. Até agora, o perfil dos assinantes. No domínio da biologia, você encontrará a biologia
computacional para
realizar a ferramenta de análise do genoma. Muitos, muitos domínios. Eles estão usando R. E
é uma grande comunidade, como eu disse, 2 milhões de usuários e usam a comunidade de
desenvolvedores. E estranho é ter
mais de 10.000. Os últimos pacotes e carências de funções
embutidas atendem
a diversas necessidades. Então, se você deseja realizar uma
operação de soma simples ou
quer encontrar a média de algumas
funções, há alguns números. Ou você
quer fazer mais algumas
representações gráficas de seus dados. Você pode fazer isso facilmente com os pacotes de auditoria e
as funções integradas. E nossos pacotes são ótimos
para manipulação de
dados, visualização de
dados, aprendizado de
máquina , ciência de dados e modelagem
estatística, imputação e muitos outros pacotes
rotulados para serem usados. R é ótimo para visualização. E pacotes R, como GG
plot to Gibbs, criam visualizações para
que você possa visualizar dados facilmente com
nossa programação. E muitas grandes empresas,
como o Facebook e o Google, estão usando a arte para
suas diversas necessidades. parte ímpar é igual à
linguagem é que análise
estatística
e
a ciência de dados são amplamente utilizadas
em ciência de dados, aprendizado
de máquina, análise de
dados, mineração de dados, todas essas coisas. Então Deus é a linguagem preferida
para todas essas coisas. E se quisermos aprender, se você quiser
entrar nessa ciência de dados
e aprendizado de máquina, acho que você começa com
a programação. Porque se você conhece o
básico sobre programação, pode
aprender facilmente o conceito de ciência de dados e aprendizado de
máquina e implementar
facilmente esses conceitos, esses algoritmos com programação
estranha.
5. Primeiro Programa de R e operadores em R: Olá e bem vindo de volta. Então, nesta palestra,
escreveremos nosso primeiro arquivo de script R, ou primeiro nosso programa, e veremos alguma sintaxe
de nossa programação. Ok, então primeiro, precisamos criar nosso arquivo. Então eu criei na
aula anterior os primeiros dados, vou apenas fechá-los. E só precisamos clicar aqui. E selecionaremos nosso roteiro. Ou você pode, alternativamente, usar control shift e
criar nosso arquivo de script. E aqui, o que vou fazer, vou tentar salvar isso
clicando aqui. Você pode colocar controladores
e dar esse nome primeiro. Quebrou. Ok. Ponto. Ponto, ponto é o porquê das eleições
e quais programas. Ok, adicione um script. Então, vou clicar em Salvar. Então, agora nosso primeiro arquivo de
script de programas de arte está pronto. Agora, o que vou fazer é
começar com algumas variáveis. Suponha X, X 0s
e uma guerra valiosa. E eu quero atribuir o
valor sete ou oito. Então, aqui podemos atribuir um
valor usando um hífen menor que o
sinal, ou seja, x. E quando usamos menos de oito, isso significa que esse
objeto x em nossa programação, tudo é um objeto. Então, podemos chamar x como n variável, ou podemos chamá-lo como um objeto. Como um objeto ou variável. Então x é um objeto, e estamos atribuindo a
ele um valor oito. Como podemos verificar isso? Não tem valor oito agora? Então, ao
clicar em Executar aqui, você verá e verá aqui na guia Ambiente global do
ambiente aqui, você pode ver x valores x. Então, o objeto x está
recebendo um loop while. Isso. Podemos simplesmente usar o comando de impressão. E podemos colocar x dentro. E então, quando executarmos isso, obteremos o valor oito. Ok, estamos chegando lá. Agora, o que vou fazer simplesmente escrever um programa
para somar dois números. Então, usarei x igual a oito e atribuirei y igual a nove. E
então, veja aqui o que eu fiz. Eu atribuí a x, a y e depois usei outra variável ou objeto ainda. E eu atribuí x
mais y igual a jet. E o que eu fiz foi
imprimir detalhes para
que obtenhamos o x mais y no zero. Então, jato, vamos
carregar X mais Y, X mais Y mais 917. Então, estamos obtendo
o valor I, apenas 17. Da mesma forma, o que farei também
podemos usar uma string. Na varanda, eu perco minha primavera. E eu atribuirei algum valor de
string a ele. Suponha que eu saia da minha casa. Qualquer coisa, ok?
Essa é a string que estou atribuindo ao valor da
minha string. Então, agora o
objeto MyString
receberá o que é minha casa, certo? Então, o que
vou fazer
é tentar imprimir meu valor de string e tentar executar isso. Por que estão recebendo somadores? Porque eu não
executei esta linha e não estamos executando esta instrução de impressão. Então, precisamos executar
linha por linha, ok? E se quisermos
executar de uma só vez, basta
clicar na fonte. Então clique na fonte e tudo
será igual a 17 para esta impressão e, em seguida, minha página inicial para esse valor de string. Ok? Então, é assim que você quer. Mais uma vez. Suponha que eu esteja usando x. igual a 910. Imprima x aqui. E eu executo isso, vou pegar oito. Então, como essa declaração eu
tenho e você criou anteriormente, estou recebendo X4 oito. O novo valor, x igual a nove, x igual a dez, não é executado. Então, para executar isso, o que eu preciso fazer
é executar esta linha. E se eu executar essa
declaração, novamente, obterei o valor n, certo. Se eu executar toda essa fonte,
o que obterei primeiro, obterei x mais y
17 porque aqui, até aqui, o valor de x é oito. Mas quando prosseguimos
no programa, valor
X é reatribuído para dez. E é por isso que estamos obtendo
o valor X como dez aqui. Ok? Então, o valor myString
é uma variável de string, U e X, Y, j, os outros números, ok? E suponha que algo, se
você quiser apoiá-lo, eu não quero usar
x igual a dez. Eu posso comentar
isso usando o Hess. Ok, então agora essa declaração não
será executada. Então, agora, se eu executar todo
esse programa, todo o script, o que eu obterei, eu obterei x igual a oito. Ok? Eu não vou pegar
sol, o CEO. Agora estou obtendo o valor de x
é o valor de x em 818910. Se eu remover esse comentário, novamente, receberei dez. O valor de C x está caindo. Então, se você quiser
escrever alguma coisa, você pode usar Hess, essa afirmação
será comentada. Da mesma forma, podemos realizar todos os
operadores matemáticos nas variáveis. Então, suponha que eu queira
usar quatro em cinco. Vou pegar 25, 20. Se eu quiser, tipo, use 25/5 e obtemos cinco. Então, todas essas coisas que podemos fazer, podemos executar todos os operadores
matemáticos aqui. Suponha que eu queira usar
25/2, vou receber 12,5. Então, todas essas coisas que
podemos fazer aqui, também podemos usar nossas coisas
exponenciais. Suponha que eu queira usar três exponenciais na regra do
expoente. Teremos nove, certo? Então, execute isso e veja aqui que
teremos nove. Da mesma forma, se eu usar
25 exponencial 25, quanto obtemos? Vamos ver. Ok. Então esse é o grande valor. Eu não deveria ter usado. 25 exponenciais dois
obterão 625, eu acho. Sim, é x 25. Então, todos esses
operadores matemáticos podemos usar aqui. Se você quiser usar
seis exponenciais um, você ainda terá seis, certo? Se fizermos dois, obteremos 36. Então, todos esses
operadores e cálculos matemáticos podemos usar em R como de costume, ok? Da mesma forma, também podemos realizar
subtração. 78 menos três mais
seis obterá 22. Então, vimos como Edison a multiplicação por
subtração, exponencial, e temos um operador especial
que é módulo. Além disso. Suponha que eu use 45 e modelo, vamos usar duas vezes. Então, 45 modeladores. Suponha que eu use cinco. Então, 45 módulos phi
darão zero, certo? Sim. E se eu usar
45 módulo quatro, obterei um, z. Então, se eu usar 25, três
sem bordas, obterei 41. Ok? Portanto, o módulo
manterá o restante. Então, 3/20, 5/3 nos darão 13 em 824 e, em seguida,
receberemos aquele como lembrete. Ok, então quando
realizarmos
a divisão, o restante será
dado como um módulo. Então, esses são os
operadores que
vimos no sentido da
multiplicação exponencial de Jackson
e, em seguida, do módulo.
6. Tipos de dados em R: Olá e bem vindo de volta. Nesta palestra,
aprenderemos sobre os tipos de dados
na programação R. Então, ao contrário de outras
linguagens de programação como Java
ou C, ou C plus plus, onde
declaramos uma variável, declaramos a variável
sem tipo de dados, certo? Suponha que, se quisermos usar
uma variável de número inteiro, vamos declarar isso int x. Certo? Agora, diga por que nosso
personagem, o x, certo? Corda. Por que amarrar a
, amarrar assim, certo? Mas em nossa programação, não
declaramos variáveis
com tipo de dados, certo? Suponha que eu tenha apagado meu
provavelmente, como aqui, atribuí x ou dez, certo? Eu atribuí dez ao x. Então, a esse objeto é atribuído
um valor obtido. Então, o tipo de dados desse
objeto se tornará tipo de
dados, tipo de dados desse
número dez, certo? Então, essa variável ou essa, suponha que seja dez
como um número inteiro. Portanto, esse tipo de dados de objeto se
tornará número. Se eu atribuir x igual
a alguma string, isso se tornará a variável da cadeia de
caracteres. Portanto, não decidimos de
antemão o que atribuímos
à variável ou objeto; esse objeto
se tornará um tipo de objeto. Então, é quatro ou menos como luz do
nosso espelho dinâmico brilhante. Portanto, não colocamos o tipo
de dados de antemão. Será decidido que tipo de valor
será atribuído a esse objeto. E esse objeto
se tornará esse tipo de objeto valioso, certo? Então, deixe-me criar outro arquivo onde
veremos os tipos de dados aumentados. Então, deixe-me limpar essa borda. Bem, então existem basicamente
seis tipos de nossos objetos. E eles são tipo, Oh,
reto, inferior. Reto. Em seguida, listas. E então temos Alice. E então temos matrizes. E então temos fatores. Fatores e depois estudo. Ok? E então temos dataframes. Ok? Então, esses são os
outros seis tipos de objetos que temos em nossa programação. Então, deixe-me explicar isso. Tipos de dados um por um ou tipos de
objeto um por um. Ok? Então, a primeira coisa, veremos o vetor, ou
seja, objeto vetorial com o objeto mais simples
em nossa programação. E a morte, suponho
que tenha seis tipos de dados. Então, vamos ver, suponha que eu
use x igual a verdadeiro. E se eu imprimir x, o que quisermos, poderei
escrever e apoiar isso. Se eu quiser saber que tipo de dados é
esse x, o que posso fazer, posso usar impressão
e depois usar vidro dentro da classe de idade de
impressão X. Ok? E se eu executar isso, obtenho que a classe
de x é lógica, então esse é o tipo de dados
lógico de saída. Ok? Da mesma forma, temos suporte
numérico. Se eu atribuir x igual a 90, e deixe-me copiar isso para y. E vou colocar mais de y aqui. E se eu analisar toda a fonte, a classe de “Por que
swing nomadic”, certo? Então, agora não estamos
atribuindo otorréia, não declarando o tipo de dados de y. Qualquer valor que estejamos
atribuindo com base nisso. As variáveis são: o
tipo de dados está sendo decidido. Ok? Então ele teve que se reabilitar de
acordo com a lógica. Então, é lógico. E aqui nós demos nômade, então é noético. A próxima coisa é a Índia, certo? Suponha que 90,9. Então, qual será o C? Não é uma taxa nômade. Agora, a próxima coisa é um número inteiro
muito fino. Então, suponha D, e eu atribuirei
alguns valores, é claro 34. Ok? E então eu vou usar o gloss de
impressão Plaza de. Quando eu uso a classe de impressão, você
decide qual porta traseira? Veja, estou ficando nômade. Desculpe, estou recebendo o interior. Não, classifique esse número inteiro d é tipo de dados inteiro, certo? Da mesma forma, temos
complexo, suponha e declaramos um número complexo, três a mais cinco, alto. Certo? E quando coloco o cluster V, que gostamos, vejo que a classe de I é complexa, então esse V, cada
número complexo dois mais phi. Da mesma forma, suponha que o seno
C seja um programa ReLU. Se eu levantar o copo, veja o que seria aqui
ser personagem, certo? Então, deixe-me ver
toda a fonte C. Agora estou entendendo a personagem
Glass Up Sissi. A próxima coisa é que
, com todo suporte, usarei azul e
atribuirei a ele um novo caractere para desenhar e usar Java. E se eu imprimir a
classe do problema B, seria, vamos ver. É o cru. Ok? A próxima coisa é que os objetos estranhos
são chamados de vetores, ok? Então, esses são os tipos de vetores como vidro, e w
é uma haste próxima. C é a classe de caracteres de v é o número
complexo mais
ou p é inteiro, classe de y é numérica e o close-up x é lógico. Então, esses são os
tipos de dados ou tipos de objetos, você pode dizer em nossa programação. Então, deixe-me salvar
esse arquivo também. Tipos de dados. Na próxima palestra,
veremos como
podemos criar nosso vetor, ok?
7. Criar vetores em R: Olá e bem vindo de volta. Então, na
palestra anterior, vimos os diferentes
tipos de dados na programação R. Nesta palestra, aprenderemos
sobre vetores. Como podemos criar um vetor
com o elemento da maioria das pessoas, mais de um elemento
ou Controle N. Vou criar um novo arquivo de script R. E nisso, vamos
escrever nossas etapas para criar um vetor com
vários elementos, mais de um elemento. Ok? Então, o que
eu vou fazer é tentar criar
e reescrever o hóquei. Então, apoio. Quero criar um
vetor chamado g. E quero
atribuí-lo a vários valores. Então, em nossa programação, quando queremos criar um
vetor com vários elementos, temos que usar uma função
chamada função C, certo? Portanto, essa função C nos
permitirá
criar e reagir com
vários elementos. Ok? Então, quando você vê
e fecha o colchete e, em seguida, dentro dele, podemos
escrever nosso suporte de elementos. Quero criar o nome de
um país. Suponha Alport,
Austrália, Grã-Bretanha. Ok. África do Sul. Suporte elementos digitais. Estou criando dentro desse vetor. Ok, então podemos usar
a função para criar um vetor com
vários elementos. Certo? Agora, eu apenas uso
print e coloco Ci. Então, isso imprimirá os
valores dentro do diretor. Então, deixe-me fazer isso. Deixe-me salvar esse arquivo. E vou salvar esse
arquivo como Reitor Dot. Ok? E todos esses arquivos
estarão em nosso nível dentro do diretório de trabalho atual
que compactamos. E eu vou atestar esses arquivos. Então você já pode baixar
e seguir em frente. Ok, então deixe-me executar
esse arquivo fonte. Agora estamos, deixe-me limpar esse console,
executá-lo e executá-lo novamente. Então, veja aqui agora que estamos obtendo o valor
do vetor t como Austrália, Grã-Bretanha, América do Sul
e Rússia, certo? Então isso diz, um vetor com vários
elementos dentro dele. Nós podemos, já
vimos como classificar. Vimos como podemos
criar nosso vetor com um único elemento, como a Índia. E isso nos dará o
valor do cérebro. Isso nos dará na auditoria. Dessa forma, podemos
criar um vetor e objeto com um único
elemento e podemos usar a função c para criar um
vetor com vários elementos. E suponha que, se você deseja imprimir vidro de G, qual será a saída? Você consegue adivinhar? Vamos ver. Caractere C, os caracteres
nulos. Portanto, está nos dando o caractere S do vetor t do
cluster. Suponha que se eu mudar
isso para 0, desculpe, deixe-me primeiro imprimir essa classe de t. Então, o cluster, por favor,
caractere aqui. Agora, o que vou fazer é mudar 200, um valor numérico, ok? E eu vou tentar correr, tentei executar isso. E então eu vou tentar escrever esta última afirmação C. E agora estamos pegando
o copo. B tem um nômade. Da mesma forma, se eu mudar
aqui 120367900. E se eu executar esse arquivo fonte, o que obtemos,
obteremos o 12367900. E a classe de G
agora é alterada para numérica. Então, quaisquer dados que
você usará com
base nesse tipo de dados
do vetor serão decididos de forma não antecipada, como na
programação C ou Java, ok? Então essa é a diferença
entre C e Java n, certo? Então, o que quer que você
use com base
nisso, será decidido.
8. Sequência em R: Nesta palestra, aprenderemos
sobre sequência. Vamos aprender sobre
a função de sequência em r. Então, o que fazemos com a função de sequência
que veremos? Mas antes disso,
deixe-me dizer mais uma coisa
importante que esqueci de incluir
na palestra anterior, que é o apoio. Estou criando um vetor
e usando a função C. E se, como aqui, eu criei uma função
usando apenas valores numéricos. Portanto, a classe disso será numericamente porque todos
os elementos são numéricos. E se eu der um
caractere e depois fornecer um número, depois
passar por uma lógica e depois fornecer um número inteiro. E se eu executar isso, e se eu primeiro deixar
eu levar essa recta, veja, você sabe, olá, 67 através de tudo
até uma cotação. Por quê? Porque se criarmos uma função vetorial z e se um dos
elementos for caractere, todos os outros elementos com um número inteiro
numérico ou lógico, ele será
convertido em uma string. Então, se eu, deixe-me copiar isso, e se eu colocar um copo de água, ele
se tornará personagem. Portanto, todos os outros elementos serão
convertidos no personagem. Se qualquer elemento for caractere, todos os outros elementos numéricos, divinos, lógicos ou inteiros, todos os
outros elementos serão convertidos no caractere e a classe desse vetor
será caractere. Então lembre-se disso,
se tudo for numérico, será numérico. Se todas as classes inteiras
forem inteiras, mas se forem misturadas de
números inteiros e caracteres, o número inteiro será
convertido no caractere. Se alguém, qualquer elemento
for um personagem, tudo será
convertido no personagem. Ok, então isso é para esclarecer. O próximo passo é
criar um novo arquivo de script. Não sei por que isso não
está aumentando. Ok. Isso é algum tipo de erro. Eu não sei por quê. Então, agora vamos
aprender sobre a sequência. Então, em R, podemos
criar uma sequência de números, como se eu
quisesse criar de um a dez. Quero imprimir os
números de um a dez. Eu posso fazer isso em duas etapas. De duas maneiras. Eu posso fazer isso em duas etapas, mas de duas maneiras eu posso fazer isso. Posso usar um operador de dois pontos ou posso usar a função
de sequência. Então, a primeira coisa que vou fazer tentar criar uma
sequência de números. Vou atribuí-lo a algum valor. Suponha que eu queira
obter a sequência. Suponha que eu diga, veja,
estou criando um pronto, veremos que
teremos valor. Quero atribuir a ele um valor um a sete ou um para obter,
ou de um a cem. Então, como eu posso fazer isso? Um cólon, 100. Se eu fizer uma cor em
100 e eu, se eu executá-la, o que ela fará, ela
criará uma sequência de 1 a 100. Deixe-me ver. Veja aqui. 1200 números
foram geradores, então ele criará uma
sequência de números, de 1 a 100. Então, deixe-me colocar o
console à direita. Então, agora será fácil
entender e escrever o código aqui e a saída
estará aqui. E deixe-me, tudo bem. Agora, o que precisamos fazer
para criar qualquer sequência, precisamos fornecer o primeiro número de onde queremos começar. E então temos que
dar o número final. Suponha que se eu obtiver dez e
ela falhar nessa ferramenta, ela criará uma sequência de 1 a 10. Então, se quisermos
criar uma sequência, você pode usar esse operador de dois pontos e criar uma
sequência de números. Suponha que eu queira
criar números de 1 a 20 ou de dois a 20. Como podemos fazer isso? Se eu executar isso, o que veremos, obteremos 2468 até 20. Então, cada elemento. Uma sequência de números como
um será multiplicada por 22 será multiplicada
por dois. Assim. Nós vamos conseguir, certo. Da mesma forma, posso criar a sequência
dos pontos. Eu queria criar uma
sequência de 2,5 a quatro. Eu posso fazer isso. Se eu imprimir f c Aqui, obtenho 2,53, 0,5 porque o
próximo será para vale. Portanto, ele imprimirá a
sequência a partir de 2,52. E se eu usar aqui 40, vai dar o ecto 0,53, 0,5 até 39 pontos
para ele, certo? Da mesma forma, suponha
que eu queira criar uma sequência de dois pontos, 20 menos um. E se eu imprimir D, você
consegue adivinhar qual
será a resposta? Vamos ver. Agora estamos recebendo de um a 19. Por que está chegando de
um a 19, porque ninguém ficará menos
desse 1,20. Então, ele realmente gerará o número De um é
a 19, a menos 11 e menos 119. Então, as placas nos darão
o mesmo resultado aqui. Ok? A próxima coisa é que também podemos fazer isso de uma maneira
diferente. Eu posso usar, desculpe. Eu posso usar uma variável a, posso atribuir um valor oito. E então o que eu posso fazer, eu posso, eu quero
gerar números de 1 a 8. Então eu posso, se eu executar essa
ferramenta, o que eu obtenho, vou entrar na sequência
de números de 1 a 8, certo? Dessa forma, também
podemos atribuir um valor
à variável ou objeto
e, em seguida, podemos colocar um é
nele em vez de socar, podemos colocar um é em a. E isso também
nos dará o mesmo dígito. Fui gerado de um a oito números. Eu
também posso colocar um menos a e ver qual será o resultado de zero a sete,
porque
será gerada
uma sequência menos 172027. Se eu colocar um menos
um no colchete. E se eu tentar executar isso, agora eu tenho de um a sete porque isso será
executado primeiro, ok? Então, será 7,1, será um porque não estamos subtraindo
esse daqui. Porque se estiver entre colchetes para dentro e para dentro, o colchete receberá
as pré-impressões mais altas. Portanto, isso será executado primeiro. Um é para sete, significa. Isso gerará números de 1 a 7. Além disso, podemos usar sequência para criar uma
sequência de números para apoiar que fornecerá SEQ
finito e eu darei
uma vírgula, uma vírgula cinco. Qual resultado eu obterei? Vou obter a sequência
de números de 1 a 5, certo? Da mesma forma, se eu der
uma sequência de nove e qual sequência-alvo
digital de números de 1 a 9. Aqui, eu estou dando de um
a cinco, significa 1-5. E se eu não estiver dando
o quarto dígito, o que será necessário, ele
gerará de 1 a 9 por padrão, ok? Essa, essa é a
natureza padrão da sequência. Ok? próximo passo é que também podemos usar essa função de uma maneira
diferente. Posso usar de aquoso para supor 8,2 a 32. E se eu executá-lo,
o que ele fará, ele gerará números
a partir de 32, 32, ok? Da mesma forma, também podemos usar sequência, pois posso manter
o número da frente. Então eu posso dar os dois
números, suponha oito. E então eu posso dar o que
esses dois vão dar aqui. Será. Isso é conhecido como etapa. Então, deixe-me escrever isso aqui. Sequência alocada para coma,
suporte, vírgula de cascalho, passo para. Esse argumento é um passo. Então, deixe-me fazer isso primeiro
e depois vou explicar. Veja aqui o que estamos
recebendo. Estamos recebendo. 24681012. O que está fazendo, em vez de criar uma
sequência de 234 até 12, o que está fazendo,
está criando, está nos dando a
adição de dois a quatro. Há uma lacuna para a direita, porque atribuímos
o valor da etapa como dois. Então, dois mais 244
mais 266 mais 28, então faremos a diferença
entre essas duas sequências. Então esse é o argumento da etapa
do usuário, esse é o passo de
saída quando esse é o argumento da etapa, certo? Também podemos ver outro exemplo. Suponha que eu queira criar
uma sequência de dez, 10-25. E eu quero aumentar a
sequência com vinho, sete chamas. Então, deixe-me fazer isso. Saudi Cl, o que estamos
recebendo, obtendo, a sequência de números
está começando a partir de dez porque você deu
dez e ela vai até 25. E o que está fazendo, está adicionando 0,75 em cada valor ou
dez, começará, depois adicionará 0,75, depois 10,75, o que fará, adicionará mais
0,75, 0,5, 12,25. Portanto, esse byte, sete,
cinco minutos
, aumentará
o valor em 0,75. Suponha que se eu fizer isso por três, o que ele fará,
adicionará 101-316-1920, 2,25. Se eu aumentar isso
em valor para cinco, o que ele fará, será
1015, 2025 assim. Ok? Dessa forma, podemos
gerar a sequência. Há outra coisa
que se chama comprimento. Então, suponha que eu queira
criar números de 25 a 50 e manter o
comprimento igual a seis. O que ele fará aqui é nos dar a
partir do 25, depois 630, depois 35,40, 45 e depois 50. Portanto, ele gerará uma sequência
de seis números entre 25. E se eu conseguir, suponho, então o que ele fará, gerará os números 25, 27. Então, o que ele fará, 25-50, gerará dez
números com a igualdade, como 205-20-7303 pontos,
algo assim. Ok? Se eu der 100, ele gerará centenas
de sequências, certo? Se eu der para um, o que ele fará, ele
gerará apenas um número 25-50. Se eu der dois, isso gerará dois números. 25.50. Se eu ficar com três, será
dividi-lo por três, veja 2.537,5 e 50, ok? Assim. Então, ele tentará gerar
três sequências, 25-50.
9. Função de repetição: Nesta palestra,
aprenderemos sobre a função de
replicação. Então, o que a
função de replicação fará. Então, usaremos esse
termo de representação de aplicativo replicar e quando
quisermos replicar algo. Então, deixe-me
mostrar um exemplo. Então, suponha que eu queira criar uma sequência em que eu
queira repetir 58 vezes. Vou usar essa função e
darei cinco que quero repetir. E aqui vou dar três
vezes 28. Então, o que essa
função de replicação fará, ela se repetirá cinco vezes. Então, o que você vê
aqui, 5558 vezes. Ok? Portanto, essa função de replicação replicará o mesmo número. Replicar significa repetir, ele se
repetirá oito vezes. Da mesma forma, também podemos usar
personagens. Apoio que nos dará. E então vou especificar tempos
iguais a três ou dois. Ele imprimirá três
ds, ds, ds, ds. Ele criará uma sequência
de BSD SDS três vezes. Ok? Então lembre-se disso, o que quer que
estejamos dando aqui, será esgotado
várias vezes, ok? Da mesma forma que podemos usar even, podemos passar o objeto para a
outra função do aplicativo. Suponha que eu quisesse, eu criei para suportar a função de replicação de
arte. Eu quero criar uma variável R. Bem, eu quero
gerar a sequência 3-6. Então, quanto mais três a
três a seis, faremos de forma estranha. Se eu imprimir, será
criado o suporte 34568. Eu uso a
função de replicação aqui. E o que eu vou fazer passar que essa arte
pode ser replicada. E aqui você tem vezes duas vezes. O que ele fará isso repetirá essa sequência, 3-6 duas vezes. Ok? Então, se executarmos isso, o que ele dará, ele receberá 3456 e, novamente, 32562 vezes. Se eu fizer três, essa sequência será
repetida três vezes. Então 3456, novamente 3456
e novamente 3456. Então, quantas vezes
ela será repetida, toda
a sequência será repetida muitas vezes, certo? Da mesma forma que temos, desculpe, temos outra
discussão aqui. Nessa função de aplicativo. Ou seja, suponha que eu
use nosso mesmo objeto e queira aplicar cada um a ele. Se eu me inscrever todos os anos, eu me inscrevi vezes
iguais a três. Agora estou aplicando
cada um igual a dois. Então, o que ele vai fazer, vamos ver. Suponha que eu execute isso.
O que está fazendo. É o, cada elemento 3-6
será repetido duas vezes, e então passará para o
próximo número de meses, significa três, duas vezes 33, depois colocará 44, depois 55, depois 663-344-5566. Assim, cada elemento
será repetido e , em seguida, prosseguirá
para o próximo elemento. E mais cedo, cada elemento
será repetido. Aqui? Cada elemento
será repetido e depois passará
para o próximo elemento. E aqui toda a
sequência foi repetida. 3456, depois 3456 novamente. E ainda assim 3344 apoiou
nosso retrato. Três, o que ele fará, será, cada elemento
será o protetor, tempo 333444, depois 555666. Portanto, essa é a
diferença entre os tempos e cada um na função
de replicação. Na
função de replicação, há dois argumentos vezes e
cada vez repetirá toda
a sequência muitas vezes. E cada vontade, cada elemento
será repetido por isso muitas vezes. E então a sequência será criada como 333444, assim.
10. Acessando elementos de vetor: Olá e bem vindo de volta. Nesta palestra,
aprenderemos
sobre como acessar elementos vetoriais. Vimos como podemos criar vetores em R.
Agora, o que vou fazer, vou criar um vetor Henry para
tentar acessar o
elemento dos vetores. Veremos como podemos acessar
os elementos vetoriais em R. Então, para isso, preciso criar um arquivo e
dar um nome a ele. Ric Dot R. Ok? Agora, o que vou fazer criar um retângulo
com um nome, mês. E para o vetor do mês, que Alice é alta e baixa. Meses. Janeiro,
fevereiro, março, abril desse jeito. Ok? A função c, e vou
tentar armazenar os valores em janeiro. O que estou fazendo aqui, estou criando um vetor
e instalando
esse vetor no mês
do objeto, ok? E então quantos
armazenam os valores? Janeiro, fevereiro,
até dezembro. Ok. Agora, criamos e retratamos como acessaremos
os elementos do vetor. Então, para isso, o que vou fazer, deixe-me limpar o console aqui para que possamos
ver o resultado aqui. Então, se eu executar isso e correr de janeiro a dezembro, ok? E agora se eu quiser
acessar o app play? Agosto ou setembro desse jeito, ok, para isso,
o que precisamos fazer, eu posso criar,
posso criar outra ferramenta mensal de
suporte vetorial. E por isso, o que vou
fazer é um grande mês. E era o colchete maiúsculo
e você acabou de ver a função. E dentro da função C, manterei o índice para o
suporte em 1º de janeiro de 2344. Vírgula sete. Vírgula nove. Ok. Então, hum, eu quero acessar
o mês por 7,9 e uma ferramenta de impressão fray para o mês. Então, se eu executar esses dois, o que obtemos agora é abril, julho e setembro, porque
o índice é quatro, depois 567 para julho e para
setembro é nove. Dessa forma, podemos chamar nosso acesso de elementos
de uma função vetorial. Um vetor. Então, o objeto vetorial que podemos acessar
como o X seria se você quisesse acessar
um elemento específico. Você pode fazer isso. Se eu mudar para três, coloque uma camada e duas vezes. E se eu fizer essas
duas declarações, o que veremos, sim, teremos março e depois normal e as
inverteremos na segunda-feira, maio. Assim, podemos acessar
os elementos vetoriais. Também podemos x ser os elementos
vetoriais usando indexação
lógica usando indexação lógica. Como fazer isso. Então, suponha que eu crie
outro objeto, mês três e suporte qual mês eu quero
acessar a cada mês. E o colchete maiúsculo
e dentro da função C, o que eu farei, primeiro
darei suportes verdadeiros e depois darei falsos. E então eu vou ser falso. Então eu vou me tornar realidade. Então, suponha que eu esteja passando
esses quatro valores, verdadeiro, falso, falso, verdadeiro. E
se eu imprimir o terceiro mês,
o que acontecerá? Deixe-me fazer isso e
ver o resultado. O que estamos recebendo,
estamos recebendo janeiro. O primeiro mês
é verdadeiro para o prato de janeiro. Então, está imprimindo aqui. Em seguida, o próximo False, False. Então, fevereiro e março
serão falsos, significa que não serão, não
estamos acessando
fevereiro e março, certo? Portanto, esses dois valores também não
existirão. É fevereiro, março não
está impresso aqui. Então, para a quarta
, para essa verdade. Então, estamos chegando a quatro. E então o resto do
elemento que não fornecemos. Portanto, está chegando em maio,
agosto e setembro. Está se repetindo. Então, suponha o que está fazendo. É mais uma vez, fazendo a
mesma luta sobre isso. Janet Britain, prefeita,
vai em setembro e dezembro. Então, está repetindo a coisa. Ok. A próxima coisa é o que podemos fazer. Podemos usar indexação negativa. Então, suponha que eu crie
outro objeto, mês para e o que eu farei, atribuiremos o mês para o
mês do álcool
e, pelo menos, veremos a função. E aqui está um projétil com
menos duas vírgulas menos cinco. Então, o que isso fará e
apoiará a impressão no quarto mês. E se eu executar esses
dois, o que acontecerá? Estou recebendo janeiro a março
e talvez não Fevereiro e maio não são
impressos porque menos dois significa a segunda indexação
menos duas que a cada fevereiro,
fevereiro, não é não queremos acessar
menos dois e -5 minutos no segundo mês e
no mês que não queremos acessar, exceto que
todo o resto será impresso. Ok. Portanto, fevereiro e
maio não serão impressos. Veja aqui, fevereiro
e talvez não imprima. Aceite que todos os outros sejam impressos. Se eu colocar -12
, dezembro também não
será impresso. Então, agora a norma de
alguém não existe. Então, se você quiser acessar elementos e se quisermos
deixar alguns elementos, você pode usar dopamina para esse índice e ele não
será impresso.
11. Manipulação de vetor em R: Olá e bem vindo de volta. Então, nesta palestra,
vamos
aprender sobre manipulação vetorial. Então, veremos como podemos formar uma lesão dentro dos elementos
vetoriais. Como podemos adicionar dois vetores, como podemos subtrair dois vetores, como podemos realizar a divisão
dentro de dois atores. E veremos como
podemos fazer a multiplicação
dos vetores. Então, vamos começar. Então, criarei um
arquivo de script R e darei um nome a ele. Muitas manipulações tolas. Ok. Então, deixe-me limpar o console aqui para que
possamos ver corretamente. Ok, então,
primeiro, o que eu vou fazer é executar automaticamente, geralmente não está dentro de dois
com dois vetores. Então,
primeiro, o que faremos, criaremos dois vetores, criaremos apoiaremos
nosso vetor F1. E eu vou criar um
vetor, o vetor F1. E o que vou fazer atribuir alguns valores. Suponha que
ainda não tenham, 95 ou algo assim. Ok, então vou criar um vetor, F1, copiar e colar. E vou criar
outro vetor, F2. E chegaremos a algum lugar com
cargas como as dos tipos D e 20. Ok? Isso vai dar, ok. Então agora temos dois
vetores, F1 e F2. Eu quero realizar a adição. Ok? O que eu vou fazer é criar outro vetor,
outro objeto a. E o que eu vou fazer, vou atribuir F1, o F1 mais F2. Então,
o que estou fazendo aqui adicionar esses dois vetores, F1 e F2, e
atribuí-los ao objeto a. Ok, então agora o que vou
fazer, vou imprimir a. Então deixe-me executar esse n. Então você está pronto digitalmente. Veja, você sabe, o que estou recebendo? Estou obtendo o resultado 24, 24, y mais 212. O primeiro elemento
desses dois vetores será adicionado, 12 mais 214. Então 78 mais oito
é 690 mais 31, 25 mais 25, 30. Então, dessa forma, podemos
realizar uma região. Suponha que eu queira
tocar algumas faixas e o que
vou fazer é simplesmente copiar isso. Eu realmente doei com
os inquilinos naquele dia. Sim. E eu vou trazer lágrimas
e o que eu vou fazer, eu vou fazer F1 menos F2. Então F1 menos F2. Se eu fizer o que é bagageira? Veja, estou recebendo 107060
e -20 y novamente, 12 menos 21078 -70, 90 -30, 65 -25, 20. Dessa forma, podemos realizar a
subtração da mesma maneira. Se y for sua multiplicação, criarei mais de m e
o que são F1 e F2 baixos. E vou imprimir, se eu executar isso, o que obteremos será
12 quando dois a 24, 78 em 862490 em
3027005205125. Da mesma forma, podemos
realizar a divisão. Então, suponha que eu crie
um vetor d e o que farei F1 dividido por dois. E vou imprimir o acordo. E se eu executar isso, o que eu vou deixar você
doente em dois a 678/9, 0,759, 0,7, 5,90, 233 5/25 é 0,2. Ok? Dessa forma, podemos realizar uma subtração,
multiplicação e divisão decentes . Então, deixe-me escrever aqui, esta é uma aplicação múltipla. E então esta é a região. Dessa forma, podemos
realizar adição, subtração, multiplicação
e divisão no reto. E isso é chamado de manipulação
vetorial.
12. Reciclagem de elementos vetoriais: Olá e bem vindo de volta. Então, nesta palestra, vou lhe dizer algo
que eu não aprendi totalmente, você não lhe ensinou
na palestra anterior. E essa é uma pergunta muito
original que você pode ter feito se for uma aula física
ou offline. E você deve ter respondido, essa pergunta também pode ter
vindo à sua mente. Então, suponha que eu tenha dois
vetores, F1 e F2. E F1 está tendo quatro elementos, e F2 está tendo
apenas dois elementos. E se eu somar
esses dois vetores? Suponha que eu execute
as condições iniciais para F1 mais F2. Então, aqui quatro elementos e
aqui dois elementos, uma lista. Então, como isso vai funcionar. Então, em R, se tentarmos
executar F1 mais F2, se tentarmos adicionar dois vetores
desiguais, então o segundo vetor, que é de menor comprimento, significa que o tipo de
vetor será, elementos serão reciclados para torná-lo o comprimento escuro
do primeiro vetor. Então, nesse caso,
o que acontecerá? Vector ficará
assim. Internamente. O que? F2 será como
duas vírgulas oito. Vírgula dois, vírgula oito. Ok? Então, se dois se tornarem
algo assim, ok? Você também será
repetido até obter o número
de elementos na F1. Portanto, há quatro elementos, então ele se repetirá para ele, para ele. Então, isso se tornará
algo assim. E então ele executará
a operação automática. Deixe-me analisar esse solo manual com o qual
lidei para que você
tenha uma ideia melhor. Deixe-me esclarecer isso e
executar isso. Veja aqui. Agora o resultado é 14, 86, 90 a 13. Como mais quatro, desculpe, dois mais dois. Desculpe, 12 mais 214. E então 78 mais 886 e depois 90 mais dois. Porque os dois, isso
se repetirá. Então, 90 mais 292,5 mais 813. Então isso vai ficar assim. Se eu adicionar mais um elemento
aqui, suponha 80. E se eu executar isso,
o que acontecerá? Vamos ver. Veja aqui que estamos recebendo
um erro aqui. O comprimento maior do objeto não é um múltiplo do comprimento inicial do
objeto. Significa que agora você ainda precisa. Este elemento é um quarto até ter dois elementos.
Dois elementos. E F1 é
se divertir é ter
variáveis phi, certo? Estamos nos endividando. O segundo, o primeiro elemento disso é ter dois elementos
e isso é ter cinco. Então, cinco não é um
múltiplo de dois, certo? É por isso que estamos
chegando a porque dois, se você dividir cinco por dois, obterá o restante um. Nesse caso, essa
reputação não funcionará. Mas se eu adicionar mais um
elemento, suponha sete. E se eu tentar executar isso, isso funcionará desta vez. Agora estamos recebendo o gráfico porque agora o número
de elementos é seis aqui. E o segundo é
22268/2, certo? Seis é múltiplo
até o primeiro L. Elementos mais longos,
vetores mais longos teriam a marca. A mesma quantidade de números. O número de elementos
seria de vários aplicativos Certos elementos
gostam de seis, certo? Então seis é o multipolar
para essa função, essa multiplicação, divisão
ou adição que você pode realizar. Mas se for cinco, então dois não serão o phi não será
o múltiplo de dois, e gerará
um erro como esse. Ok? Então, espero que você tenha entendido. Da mesma forma, se você quiser
realizar a multiplicação, isso também pode ser feito. Aqui, estamos obtendo a divisão
de multiplicação, tudo será feito. Portanto, a reciclagem dos elementos só
acontecerá se macios
os elementos no vetor mais longo for o múltiplo dos elementos
no vetor classificado. Então, vetores mais longos, o número
de elementos seria o múltiplo desses
elementos, ok? Numere os elementos do tipo. Ok. Espero que
esteja claro para você.
13. Classificando elementos vetoriais: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre quem está classificando
vetores. Então, vamos ver como
podemos classificar vetores. Ok? Então,
o que vamos aprender é fazer a
classificação reta. Ok? Então, para isso, temos uma
função chamada sort. Então, vamos usar
a função de classificação. Então, primeiro, deixe-me criar uma
destruição do vetor 0. E para isso, darei um
número aleatório, 349-082-7543, alguns números aleatórios. Ok? E suponha que eu queira
classificar esses elementos vetoriais. Então, o que eu
posso fazer é simplesmente criar
outros objetos que estão destruídos. E o que eu vou fazer chamar as barras da função de classificação isso que é vetor nulo
para a função de classificação. E o que essa
função de classificação fará. Isso iniciará esse vetor. E então o que eu vou fazer é simplesmente começar a imprimir. Então, aqui estou imprimindo o vetor ordenado e este
é o recto adicional. E estou passando esse vetor
para a função de classificação
e, em seguida, imprimindo
o valor do vetor classificado. Vamos executar isso e ver se
definitivamente está limpando esse
terminal e executando-o novamente. Veja, você sabe, estamos
obtendo um vetor ordenado. Então 349, 273-043-6408. Portanto, ele é classificado em ordem
crescente. Portanto, por padrão, ele será classificado em
ordem crescente. Portanto, os elementos
mais baixos se moverão primeiro e depois
continuarão aumentando. Ok? Dessa forma, podemos
classificar e vetorizar em R. E se eu quiser
classificar essa casca? Eu quero em uma ordem decrescente. Então, para isso, o que posso fazer, posso usar a mesma função
de classificação. E aqui o que vou fazer é continuar
diminuindo, diminuindo. É a coisa lógica. E sim, vou dar a verdade. Então, diminuindo,
vou manter a desvantagem porque, por padrão, ela é falsa. E vai fazer isso. Aumentando a ordem,
certo? Ordem ascendente. Por padrão, ele será
classificado em ordem crescente. Então, o que
eu vou fazer é criar uma verdade
cultural que
classificará o vetor em ordem
decrescente. Então, vamos fazer isso e ver
agora essa classificação para a limpeza ou 98 primeiro,
depois 463-06-3420, 79,4. Dessa forma, podemos classificar
em ordem decrescente. A próxima coisa é que
vamos ver a classificação do personagem, do personagem, do reto do
personagem. Então, também podemos supor que
eu tenha um retângulo, um, que tem alguns valores como para algumas coisas aleatórias. E o país vermelho e
azul. Qualquer coisa em forma de personagem. Ok, então esse é o vetor de
caracteres. É ter valores
no caráter. E suponha que eu queira
classificar isso e
armazenar o valor do vetor classificado
no veterinário para funcionar. Vou chamar a
função de classificação e passarei essa reta para
a função de classificação. E se eu executar essas duas linhas, qual algoritmo?
Do que você gosta? Deixe-me trazer para esta ferramenta de impressão. Então, se eu seguir essa linha, o que nós gostamos
e você fica azul, depois país do que quatro,
depois afogado, dendrito. Por que é assim porque B, depois C,
depois F, depois r. Ok, então
será em ordem alfabética. E se eu quiser
classificar? Mas ele era mais difícil. Eu posso te dar uma ligação cada para desenhar e agora
ver o que mereço. Quando começamos a
lavar, temos f, depois C e
depois B.
Então D deve resolver o algodão da pobreza, será assim
que
poderemos classificar os vetores,
tanto o caractere quanto
o número, ok?
14. Tomada de decisão em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre
a
tomada de decisões
em nossas outras linguagens
de programação. Temos a declaração if, temos if else e temos a instrução switch. Com isso, podemos
realizar a tomada de decisões. Se uma declaração significa que
algo é verdadeiro
, a seguinte
declaração será executada. E sentida significa que, se
algo for verdadeiro e se você
estiver impondo uma condição
e essa condição não
for cumprida, a declaração else
será executada. Switch verá como a variável será
testada quanto à igualdade. Aqui está a lista de valores, então veremos se há alguma diferença. E então veremos o interruptor. Então, deixe-me criar nosso arquivo de
script aqui. E eu vou dar um nome a isso. Tomada de decisão, arte negra. Algas marinhas. Deixe-me limpar o console para
que possamos ver que é o gel. Então, primeiro o que veremos, veremos se desculpe, preciso digitar aqui primeiro. Vamos ver se a declaração é. Ok. Então, primeiro a realidade, se for uma afirmação. E se for, se
for água da chuva, é
consistente, consistente. Agora, expressão booleana
e seguinte declaração. Portanto, se a
expressão booleana for verdadeira, a
instrução a seguir será executada. Apoie o que vou fazer aqui. Criarei um objeto a e atribuirei um valor 67. Você pode escrever qualquer coisa, ok? E o que eu vou fazer escrever se a declaração, se for menor que 70, então o que eu vou fazer, vou tentar imprimir
for menor que 17. Ok? Suponha que isso seja o
que eu quero fazer. Então, se eu executar isso, o que vou receber? Veja, o resultado que estou
obtendo é menor que 70. Suponha que eu altere
esse valor para 75, 75. E se eu tentar executar
isso, o que acontecerá? Não obterei nenhuma
saída porque E é 75. E se eu entrar
nessa declaração if, será costurar
que menos de 70 é maior que 70. Portanto, não
entrará nessa declaração. Não atenderá à condição do
cão e esta declaração
não será impressa, certo? Então isso é chamado de
declaração IF, certo? Da mesma forma, posso escrever como um número inteiro de pontos. Então a outra parte é inteira, e então eu passarei E. E uma luz é. Então, deixe-me executar
isso porque é um número aqui. E o que estou testando ainda, se for um número inteiro, preciso imprimir
é um número inteiro, certo? Se eu colocar, faça disso um número inteiro, tendendo igual a 75
L. E se eu executar isso, veja, agora a é um número inteiro. Será pintura. Dessa forma. Se essa condição for
cumprida, ela imprimirá essa declaração
subsequente. Ok? Da mesma forma, podemos colocar
uma outra declaração aqui. Se cada número inteiro,
ele imprimirá isso. Eu posso imprimir outra coisa. O lago é nômade. Ok, então se eu correr, isso é um número inteiro. Se eu mudar isso para numérico, e se eu executar isso novamente, o que
obteremos é numérico. Deixe-me tentar. Se eu toquei ainda é numérico. E se eu executar isso, o que aconteceu? Ok, eu preciso colocar isso. E se eu executar isso, string é um número inteiro. Preciso mudar
a declaração aqui, New Relic e aqui o
número inteiro, certo? Agora. Como a é nômade, essa condição está se tornando realidade. Portanto, a impressão é nômade, taxa é numérica, é nômade. E essa afirmação não
é, não vai
para a outra parte. Então, dessa forma, podemos colocar um por enquanto, veremos a instrução
switch. A declaração do switch. Então, vamos supor que a instrução
switch suponha que eu tenha um vetor D e use switch. E depois insights
sobre o que vou fazer. Vou apoiar quatro vírgulas um. E eu vou dar 2345. E então eu vou fechar o interruptor. Então, se eu colocar em d, que valor obteremos. Vamos ver. Quando você conseguir quatro, porque estou ignorando o que a instrução
switch serve. Ele irá para o quarto valor e imprimirá esse valor. Então, um ano para é 1234, então ele imprimirá quatro. Suponha que eu esteja escrevendo
aqui outra coisa. Olá. Então esse olá
será impresso. Ok? Deixe-me mostrar esta
impressão, olá. E suponha que se eu fizer um ou dois, ele será impresso, ele irá para o
correspondente, por favor. Ok. Até agora, dois, ele
irá para o 12. Ele os imprimirá. Para três, vai
para o olá para quatro, vai para o olá. Cinco, ele imprimirá 55. Então, o que ela fará é que uma declaração switch
permite que um valor seja
testado quanto à igualdade em relação
à lista de valores. Então, essa é a lista de valores. E para eles,
a indexação é 1.234,5. Seja qual for o índice que você fornecer, esse valor do índice
será impresso. Suponha que eu tenha dado três. Portanto, o valor do índice
três será impresso. 3 min, 1233. Você vai comprar um presente para? Então, olá, será impresso. C. Então, dessa forma, podemos usar a declaração
switch no coração.
15. Controle de loop usando repetição e loop: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos sobre a declaração de loop em nosso, o que é um loop? Um loop é uma função. Você pode dizer um loop. Com um loop, podemos executar uma instrução ou grupo de instruções
várias vezes. Então, quando colocamos um loop, quando colocamos uma instrução
dentro do loop, ela será executada
várias vezes até que a condição
seja satisfeita, certo? Até que seja satisfatória,
a condição
continuará repetindo a mesma
declaração repetidamente. Portanto, uma instrução de loop nos
permite executar uma instrução ou grupo por grupo de instruções
várias vezes. E existem três tipos acima. Há três tipos
de declaração de loop em R. O primeiro é reputação, o segundo é um loop while. E então temos o
muito popular loop único. Então,
o que vou fazer começar com um loop de
repetição primeiro. Então, vamos ver o que é um loop de
repetição em R. Então, suponha que temos um
recto que faz com as ferrovias apoiem a Índia, Burton, ok? Assim. Então, eu vou dizer um pouco mais tarde. Portanto, temos um vetor que tem valores
na Índia, EUA e Grã-Bretanha. E suponha que eu esteja seguindo
outra rota, suponha que eu tenha dado a ela uma contagem de nomes. E eu estou dando um
apoio igual a Kant igual a quatro. E então o que vou fazer é que os pés sujos funcionam aqui. E eu quero imprimir o vetor de um determinado
número de tempo. Ok? Então, o que eu vou fazer é imprimir o relatório que eu dei. Se você contar aqui, se a contagem for menor que dez, o que
eu quero fazer é imprimir rec. Ok? Então eles dirão “Qual letra”. Então, se eu executar isso, o que acontecerá? Vamos ver. Te vejo. Continuará imprimindo isso porque a contagem é para e
qual condição eu dei. Eu sei que se a contagem
for menor que dez, então esse Ford sempre
será menor que dez, certo? Então,
o que eu vou fazer é usar aqui contar, contar mais um. Então, cada vestido e eu aumentaremos
o valor da contagem para um. Agora, deixe-me parar com isso. E deixe-me executar esse código novamente. Agora veja o que acontece. Ele imprime 123456
vezes y é o extremo. É a primeira vez que virá. A contagem é igual a quatro. Portanto, ele será impresso
sempre que você for novamente. Então, a contagem se tornará cinco. Então, novamente, ele imprimirá quatro. Em seguida, 54678 até nove. Em seguida, na extranet, a
contagem se tornará dez. Não
imprimirá, imprimirá 45. Ele imprimirá 445.678,9. Assim, como a corrente líquida se
tornará dez, ela sairá desse circuito. Então esse é o loop usual. Ok? Dessa forma, podemos usar
o loop de repetição, ok? Da mesma forma, tentaremos usar o loop while. Então, o que eu vou fazer é ser muito selvagem. E, novamente, a contagem de Waterloo
é menor do que eu suponho. Embora a contagem seja menor que
oito, o que eu farei imprimir condados
seniores e o que estou dando a você
uma contagem menor que oito, depois imprimirá uma
sequência e
aumentará a contagem
enquanto repete bem em um. Então, se fizermos isso, teremos Índia-EUA.
quatro vezes, certo? Porque imprimirá
44, imprimirá o perfil. Imprimirá para seis
, imprimirá 47. E assim que a contagem se
tornará oito. Sairá
desse ciclo inteiro. Ok? Dessa forma, podemos
usar o loop while.
16. Para loop e próxima declaração: Nesta palestra, aprenderemos
sobre o loop for em R. Então, suponha que eu esteja criando
um vetor d retal, que conterá
algo como dois a 20, ok? As placas, se eu
trouxer , me darão os números 2-20. Ok? Agora o que eu vou fazer, vou escrever aqui, eu farei. Vou usar uma variável i em D. Então,
para cada valor de I no vetor d, o que eu quero fazer, eu
quero imprimir, certo? E então eu quero
fazer I mais um. Eu igual a I mais um. Deixe-me, tudo bem. Eu direi com uma carta. Então, deixe-me fazer isso e
ver o que estamos recebendo. O que estou recebendo, estou
recebendo 234 até 20. Então, o que está fazendo, é verificar se esse I, no, para i, será 11 não está lá, então vai aumentá-lo em um. Então, ele virá e
verificará aqui também, se em D dois, depois será novamente, I igual a três, depois imprimirá três. Assim. Ele imprimirá 20 e depois
sairá do loop. Dessa forma, podemos usar
o for-loop, certo? Da mesma forma que eu posso fazer. Se eu colocar aqui uma coisa simples. Vou remover isso. E sim, o que mais fazer? Eu posso colocar muitas
condições aqui dentro. Se eu ligar também para Suporte 15, então eu vou, o que eu vou fazer, vou
imprimir, eu escrevo. Se eu for igual a 15, vou imprimir. Eu mudei aqui, vou colocar em seguida. E então eu vou imprimir. Imprima, certo. Então, até mais, o que vai acontecer? Deixe-me explicar por que estamos chegando lá. Fizemos isso de novo. O que, o que está acontecendo aqui? Eu quero cada valor e eu, ele está imprimindo isso, mas está verificando o valor. Se eu chamar dois aviões, eu ligo. O que fazer a seguir. Então aqui você vê
2345678 até 13, 14, está imprimindo corretamente
e então pensa, ok, eu igual a 15. Próximo, Avançar significa que ele
pulará essa titulação. Portanto, 15 não serão impressos aqui porque no próximo mês ele
pulará esse traçador. Então, ligo para uma pré-impressão
significa que esse endereço e nós
escaparemos e a pegada não
será impressa. E então ele
vai para a cisteína e depois 161-718-1920,
reimpresso. Então, no próximo mês
, não vou me vestir. Então, se eu usar aqui, suponha 17, então a 17ª
titulação será ignorada. impressões 16, 17 não serão
impressas e 18, ok.
Então, se você quiser pular um
nitrogênio, você pode usar a próxima. Espero que você tenha tido a ideia
de como usar a seguir. Nos vemos na próxima palestra.
17. Funções em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos funções em
R. Em R, existem dois
tipos de funções. Portanto, uma são funções
integradas, funções integradas e a outra são funções
definidas pelo usuário. Definido. Ok? Portanto, há dois
tipos de funções, funções integradas e funções
definidas pelo usuário. Então, primeiro, deixe-me
dizer o que é uma função. Função é, na verdade, como
se quiséssemos executar algum grupo de instruções e realizar
alguns cálculos, queremos fazer alguma coisa. Então, é basicamente como se uma
função fosse uma palavra-chave. E em
V funcional, basicamente para um grupo
divertido de declarações, ok? Nosso grupo de funções de cálculos de
agrupamento. Faremos
algum cálculo ou faremos algo
que seja uma função. Ok? Então, deixe-me explicar a
estrutura básica de uma função. Então, suponha que nossa função aceite, suponha que essa seja uma palavra-chave de
função em R. E o que ela exige, ela
precisa de argumentos, certo? Portanto, ele precisa de argumentos, então pode aceitar qualquer número de aumentos aumentados,
um, vírgula dois. Então isso será uma
função, ok? E nessa função podemos fazer qualquer coisa com esses
argumentos, certo? Suponha que esses argumentos
possam ter alguns valores, para que eu possa apoiar, posso usar alguns
deles para aumentar, que eu possa realizar
o aumento um mais dois. E eu posso imprimir alguns desses
12 meses três. Então, essa é uma função
em que, o que estou fazendo, executando algumas
delas para
aumentar, aumentar e aumentar, e estou encontrando algumas delas para aumentar a ferramenta One
plus Segment. Portanto, essa é uma função
e eu posso
chamá-la passando o argumento. Então, suponha que eu dê algum
nome a essa função, alguma função, e atribua
isso, toda essa função. E eu lhe darei um
nome, alguma função. Ok? Agora, o que eu posso fazer? Eu posso chamar essa função, certo? Dominando os dois argumentos, argumento um, argumento dois. Então eu posso me divertir. E aqui eu posso executar três
vírgulas seis. Eu posso passar. Se eu executar isso, deixe-me fazer o primeiro
com um pouco de diversão. E então eu executo isso, vejo, Ok, sim,
Hawks One, é. Então, deixe-me executá-lo novamente. E se eu chamar a
função de passagem,
ok, isso também é errado
na Arábia Saudita para esse erro. E se eu chamar essa função passando
esses dois argumentos, 3.6, obterei o
resultado como nove, porque três mais seis a nove. Portanto, esta é uma função
definida pelo usuário, à
direita, já
vimos a função embutida. Então, quais são as
funções embutidas que vimos?
Vimos uma sequência como a
sequência um, vírgula oito. E isso nos dará a
sequência de números de 1 a 8. Portanto, essa função de sequência é uma função embutida
que temos em nossa, então essa é uma
função embutida que a executa. Não precisamos escrever um programa
para imprimir os números de 1 a 8. Isso será feito
automaticamente porque nessa sequência a função
foi escrita por trás, como na coda,
ela foi definida
que, quando usamos sequência,
fornecerá dois argumentos. Uma é ajudar, ela
gerará os números de 1 a 8. Então isso já foi
definido e é por isso que
elas são conhecidas como funções
integradas enormes, desculpe, certo? Portanto, essas são
funções integradas da mesma forma
que vimos em algum verão. Um é 28. E isso nos dará a soma
dos números de um a ele. Isso nos dará as
estatísticas dos resultados da mesma maneira. Nós temos a função principal. Então eu estou digitando, sim, quero dizer, suponha que eu chegue ao
número 23, vírgula 90, 87. E se eu não
me vi e leremos 23 também pode significar duas vírgulas nove. E o dentista gratuito,
eu receberei 5,5. Portanto, podemos usar doc mean some sequence de todas essas funções
integradas. Então, vimos que esses anúncios são uma
função definida pelo usuário, definida pelo usuário. E essa sequência
e um pouco de água. Funções integradas. Ok? Agora, o que vou fazer, podemos ver como podemos chamar
essa função de soma. Ok? Então, deixe-me copiar essa soma. Portanto, podemos chamar essa função fornecendo os argumentos aqui. E também podemos chamar isso de x, uma a quatro vírgula de dois a nove. Agora eu também estou obtendo 13
dessa forma, podemos, esta é a posição y e
isso é variar o argumento, nome, argumento, o
argumento um igual a. Para um argumento igual
a nove, como este, podemos fornecer. Então essa é outra forma de
chamar a função, ok? Agora,
o que vou fazer escrever
nossa função para descobrir
que as cidades quadradas
não têm nenhuma série de números. Então, o que eu vou fazer aqui, eu vou te matar. Função silenciosa. E o que eu vou passar para isso
e passar um número por mão. O que eu vou fazer é criar
uma sequência de números, então vou usar o loop for aqui. E o que eu farei
por eu em um a dez, ok, então qualquer que seja esse número,
será desse número até dez. Quero criar uma
sequência numérica de números. E então o que eu quero fazer, eu quero atribuir, eu saio. Quero elevar ao quadrado o
valor I e atribuí-lo a b. E depois quero
elevar ao valor b, ok? Então, esta é a função raiz
quadrada da função que estou definindo aqui. E agora, o que vou fazer, chamarei essa função
quadrada passando um suporte numérico
para o que ela fará. Primeiro, ele criará
números de 4 a 10
e, em seguida, exigirá
45678 até dez e imprimirá os números. Ok, então deixe-me fazer isso. Veja aqui que estamos recebendo cisteína. O primeiro número
será 44 quadrado 16, depois imprimirá cisteína. Então, o próximo número
será cinco. Ele imprimirá 2055 ao quadrado 25
e, em seguida, 630-67-4097 ao quadrado. 409849 é quadráticamente
1,10 centena quadrada. Dessa forma, podemos criar uma função simples que
encontrará essa
série silenciosa de números. Então, o número Syriza é de quatro a dez e estamos chegando aqui de
quatro a dez quadrados. Cada número será elevado ao quadrado
e obteremos a próxima coisa
que vou fazer. Eu vou encontrar a
soma do número par. Então, vou escrever
um programa para encontrar alguns números pares
entre dois números. Ok? Então, o que eu vou fazer, suponha de um a dez. Primeiro eu quero encontrar
um para um número par, 1-10, soma de números pares, ok? Não é uma soma quadrada
dos números pares. Ok? Então,
o que eu vou fazer escrever uma função
soma de uma função par. E o que eu vou fazer,
vou escrever aqui, primeiro, vou gerar
o número par. E como gerar um número par. E você vê um número par de alginato de
um a dez. Então,
o que vou fazer multiplicar o número por dois. Então, será a soma
dos números de 1 a 10. E então o que eu vou fazer imprimir e imprimir o que eu faço a soma
desses números pares,
então, e fomentar o número par, essa sequência de números para somar, função de
soma e depois ela torce. Então, antes disso, deixe-me
trazer para o número fornecido. Ok? E então eu saio e
chamarei a função par. Ok? Então, deixe-me fazer isso. Ok, esta é a letra minúscula c. C. Você
obtém pela primeira vez 246810, soma dos números pares de 1 a 10. Então, muitas vezes, esses são os números
pares de 1 a 20, ok? Porque estou multiplicando por dois. Se eu fizer cinco, será o mais cedo
que escrevemos. Não seria isso, ok. 246810. Ok. Dessa
forma, podemos apresentar a soma dos números pares, a soma dos números. E então, quando você
terminar com essa função, algumas de número par. Então, ele resumirá tudo e nos
dará o resultado. Ok? Então, quando você soma esses
números chegará a 110. Então, dessa forma, estamos
obtendo alguns dos números pares de 2-2001 a 20. Ok? Então, dessa forma, podemos fazer isso. A próxima coisa é que vou
fazer a função de chamada
sem documento. Isso é muito simples, chamando a função
sem argumentos. Então,
o que vou fazer aqui simplesmente criar uma palavra-chave function, hello, h function aqui. E dentro da palavra-chave da função, o que eu vejo aqui também nos
chamamos de algumas funções pares, algumas de até mesmo sem
passar nenhum argumento. Ok? A mesma coisa
que vamos fazer aqui também. O que vou fazer aqui é simplesmente usar uma impressão digital e dizer olá. Como você está? Então? Oh,
locação. Diga olá. Eu acabei de ligar. Ok. Então, antes disso, eu
tenho que executar isso. Então, deixe-me fazer isso
e ver, sim, vamos receber olá e como você está dessa forma podemos chamar uma
função sem aumento.
18. Matrizes em R: Olá e bem vindo de volta. Nesta palestra,
aprenderemos sobre métricas em nossa análise
matricial, conceito
muito importante e
que precisamos entendê-lo. Porque quando vamos
além dessa aula, quando você tenta
implementar o conceito
de arte para analisar os dados,
você tenta usar a você tenta usar manipulação de dados R4,
a visualização de dados
ou até mesmo a mineração de dados, análise de dados e em projetos de ciência de
dados
em aprendizado de máquina. Portanto, as matrizes estarão muito cheias e vamos
usá-las em muitos lugares. Em nossa matriz. É um objeto ou um objeto. Na arte, tudo é um objeto. E dessa forma, as
matrizes também são
nossos objetos, certo? Portanto, as matrizes são
os objetos de arte nos quais os elementos do
mesmo tipo atômico se organizam. Então, em matriz, matriz,
vamos adicionar o mesmo
tipo de elementos, os mesmos tipos atômicos de elementos em um layout
retangular bidimensional. O mesmo acontecerá com matrizes retangulares de
pedra diamantada. Matrix é uma função. Então, como vamos
criar a matriz? Vamos usar a
função matricial que está embutida em R. Crie métricas e arte. A sintaxe seria matriz. E então nós fornecemos os dados, determinamos os elementos da matriz que vamos fornecer aqui. E então vamos
fornecer o número de linhas e rho é o número de linhas na
matriz e, em seguida, n colunas, número de colunas na matriz. E então vamos
dizer por linha, queremos adicionar
os elementos por linha, por coluna que vamos
definir por esse argumento. E então vamos dar
aos diamantes um filho
chamado Means. Vamos manter o
nome das dimensões. Ok? Portanto, os dados são vetores de entrada, que se tornam os elementos de
dados matriz que você pode desenhar é
o número de linhas a serem criadas e o
número coletivo de colunas a serem criadas por rho é uma pista
lógica. Se verdadeiro, os elementos do vetor
de entrada
são organizados por linha. Então, se você quiser
criar uma matriz atribuindo os
elementos por linha, temos que dar por
rho igual a true. Caso contrário,
será, por padrão
, em forma de
coluna, ok? Valores colunares, como
se recebêssemos os elementos de um a dez, serão 12 ou três. Em termos de coluna, se você der verdade
, será chamado de hóquei viral. E o nome dim é o nome atribuído às linhas
e colunas. Ok? Portanto, esse é o fundamental
que devemos conhecer. E agora o que vou fazer, vou desviar a matriz. Ok? Então, para isso, eu
já criei nosso arquivo onde
escrevi alguns programas, existem poucas funções para
criar métricas para que não
percamos nosso tempo escrevendo o código e de
novo e de novo. E, ao escrever,
leva muito tempo. Então, eu já criei essas duas matrizes
pontilhadas em nossos arquivos. Explique o que vou
fazer em cada etapa. Ok? Então, primeiro,
vamos criar uma matriz que os elementos são organizados sequencialmente por
coluna, por padrão. Ok? Então, suponha que eu esteja criando uma matriz e
dando a ela o nome M1. Então, um será um
objeto no NADH
que conterá essa matriz. Então, vou usar a função
matricial. E aqui o que estou passando, esses são os dados
que estou passando. 12 a 35 significa que ele
criará números 12-351213, 14 até 35. Então, isso será feito com dados e , em seguida,
o que vou dar a seguir, Andrew, número de linhas seis. Então, estou apenas passando os dados e fornecendo o
número de linhas da linha. Eu quero criar
uma matriz que
tenha o número de Rogers seis. É isso. Não estou dando nenhum valor de
coluna nem nada. Estou apenas passando
a unidade de dados para 35 números e o número
de Rogers seis. Não estou dando esse argumento por linha ou
coluna. Não vou passar por aqui. Então, estou apenas criando uma
matriz que está tendo, que será criada com
as seis linhas e
será recarregada com os dados até 35. Então, deixe-me
criá-lo. Se eu executar isso. Veja, M1 é um é para seis, então um é para 412 a 36
dados serão fornecidos. E se eu imprimir essa matriz
M1 C aqui, agora temos seis linhas, 123456 linhas totalizam seis estradas. E nessas seis linhas
estão os dados 12, 13, 14. Veja aqui primeiro que a
coluna um reabastecerá a coluna do ano
112, 131-415-1617. Em seguida, ele irá para a coluna até 24 a 29 e depois 30 a 35. Dessa forma, os dados estão sendo
preenchidos por coluna, certo? Para lavar a coluna um, coluna dois e depois coluna três. Ok? Porque eu não
dei nada, sim, eu não especifiquei por rho
igual a algo aqui. Ok? A próxima coisa é que, se eu usar por rho igual a false, o que ele fará, ele
fará a mesma coisa. Então, se eu executar isso também, novamente, obterei a mesma saída, mesma matriz
será impressa novamente. Mas se eu fornecer aqui o mesmo
código por rho igual a true, agora a matriz será criada
preenchendo as linhas primeiro. Então, liberado 12131415, a
primeira linha falhará. Então 16, 17, 18, segunda linha, depois 2021, 22, 24ª
linha, assim. Ok, tão rápido, as
regras serão repreenchidas. E depois a segunda linha, depois a terceira linha como esta. E aqui estava a primeira
linha, depois a segunda linha, primeira coluna, a segunda coluna, terceira coluna, como aquela
que estava preenchendo aqui. Primeira linha, segunda linha, terceira linha em linha ou
em coluna ou linha. Então, se você quiser
preencher os dados por linha, você tem que dar por
rho igual a verdadeiro. Ok? Entendido. O próximo passo é fornecer os nomes das
colunas e linhas. Suponha que eu queira dar
o nome da coluna aqui e também queira dar
esse nome à linha. Como eu posso fazer isso. Eu posso usar a função C e posso dar nome
às linhas da coluna. Então, suponha que eu
queira então seis linhas. Quero dar nome a cada
linha linha linha um, linha duas linha, linha seis. Então, usarei a função c e criarei um
objeto com nomes de linha, e criarei outros nomes de colunas de
objetos em vez de manter a coluna um, coluna dois, coluna
três, coluna quatro, qualquer nome que você queira
dar, você pode lhe dar. Então, ao criar a matriz, ao criar a
matriz, o que farei é primeiro transmitir a matriz de
dados dentro da matriz
funcional da floresta, pássaro dos dados. E então eu vou dar
o número de linhas, seis. Então eu vou explicar isso por
linha, você pode dar verdadeiro ou falso
o que quiser, ok? E aqui, o próximo argumento será considerado nome
da dimensão. E aqui o que vou fazer, vou criar uma lista. E dentro da
lista, o que vou fazer passar os nomes das linhas e as colunas das linhas
como dois argumentos. Então, isso criará as
dimensões da matriz. nomes das linhas e das colunas
serão obtidos aqui e passados para a lista deles. E isso criará a linha e a coluna
nomeadas para a matriz. Então, deixe-me executar essas duas linhas. Ok, desculpe, eu preciso
executar tudo isso. Veja aqui. Agora estamos obtendo uma matriz com o nome da
coluna, coluna um, coluna dois, coluna três, coluna quatro. E nomes de
linhas como linha um, linha dois, linha três, linha quatro, linha cinco, linhas seis. Dessa forma, primeiro
precisamos criar uma lista de colunas com o nome da
coluna e os nomes das linhas da coluna e o nome das colunas. E precisamos fornecer esses argumentos
para obscurecer nomes, ok, por meio de nossa lista, ok? E então será criada uma linha e os nomes das colunas
serão fornecidos nessa matriz. O próximo passo é acessar os
elementos da matriz. Então, suponha que eu queira acessar
o elemento do M5, essa matriz, primeira
coluna e terceira linha. Então, como posso fazer isso? A terceira linha, três vírgulas um, m phi, e depois o colchete
e três vírgulas um. Isso significa que eu quero
buscar a terceira coluna, terceira linha e primeira coluna. O primeiro argumento é para a linha e o segundo é
qual coluna? Terceira linha, o primeiro elemento
será impresso. A terceira linha significa
esta e a coluna
um mês, bastante. Então, se eu executar isso, eu
entendo, eu deveria ter 20 anos, 32. Vou ver aqui que estamos recebendo 20. Então m5 é a matriz. E eu quero terminar
a terceira coluna, terceira linha, primeira coluna, terceira linha, primeira coluna. Da mesma forma, quero primeiro
folhear o valor da quinta linha e da
segunda coluna. Esta é a inversão do
antecedente da segunda coluna, então a 29ª seria impressa aqui. Sim, estamos recebendo 29. Da mesma forma, suponha
que eu queira a primeira fila seis. Ok? Então eu posso dar m phi e
rho seis e o valor da coluna. Vou deixar isso. Então, se você der
assim, o que vai receber? Você obterá o
valor c da linha seis aqui, 323-033-4305. Então, esta é a linha seis.
Você vai conseguir isso. Ok? Da mesma forma, se eu
quiser acessar a segunda coluna, posso dar, posso deixar a linha e posso dar o valor da coluna de
um litro. E se eu publicar isso, vou pegar a coluna
para ver você. 13, 17. Esta é a coluna 213-17-2120, 5,20, 9,33, 29, 30. Dessa forma, podemos
destacar o valor da coluna. A próxima coisa é
adição e subtração de matrizes. Podemos fazer multiplicação,
adição, subtração e
divisão com matriz de pato. Então, suponha que eu tenha a matriz M1, deixe-me imprimir isso. Veja que esta é a M1 e eu tenho
outra matriz que é M2. Então, ambas são a mesma matriz, mas quais são as métricas
diferentes, mas
os valores são os mesmos. Ok? Então, suporte, eu
quero adicionar m1 e m2, então eu posso simplesmente fazer m1 mais m2. E vou atribuir esse
valor a algum objeto. Então, se eu executar isso e imprimir o valor da
soma c aqui, obterei a garantia 36, como se estivessem
armazenados 2012 +12, 241-313-2614 mais
14, 20º assim. Ok, da mesma forma,
podemos fazer m1 menos m2 e obteremos 000 porque
as duas métricas são iguais, certo? M1 em m2. Podemos fazer a multiplicação,
desculpe por isso. 12 em 12, 24, 30 e divirta-se
quando vira assim. Ok? E da mesma
forma, podemos realizar a multiplicação matricial
onde o, cada elemento será dividido
por cada elemento, ok? Bem, por volta de 121, desse jeito. Ok? Dessa forma, podemos
usar a matriz e fazer com que não seja
subtração e podemos acessar os elementos da matriz.
19. Fatores em R: Olá e bem-vindo. Nesta palestra,
aprenderemos sobre Dustin R. Então, o que
influencia? Os fatores são os objetos de dados, como aprendemos até agora
que tudo é um objeto. Portanto, os fatores
também são objetos de dados em R que são usados para
categorizar os dados. Então, basicamente,
os fatores são usados para categorizar os dados e depois armazená-los, categorizar os dados em níveis. Então, primeiro, ele
categorizará os dados
e, em seguida, criará os dados rotulados como Spot, Dodge e categorize. E então ele armazenará
esses rótulos, ok? Ele armazenará esses dados
nesses níveis, certo? E os fatores são usados para
representar os dados categóricos. E eles podem armazenar
sequências de caracteres e números inteiros. E eles fizeram um
vetor inteiro com um nível. Suponha que o vetor inteiro tenha um nível, algo assim. Ok? Então, basicamente, suponha que
tenhamos dados, suponha um homem ou uma mulher. Então, podemos armazenar isso. É melhor armazenar
isso como 0,1, certo? Então, o que
ele fará é supor que temos dados em que homens e mulheres, alguma população de dados em
que temos nossos dados para homens
e mulheres, ambos. Quais fatores
farão isso criará uma categoria de dados
com homens e mulheres e armazenará esses dados na categoria
de homens e mulheres. E então você pode facilmente descobrir quantos homens existem e quantas mulheres existem,
algo assim. Ok. Deixe-me abrir o arquivo em que
criei quatro vetores. Então, eu já criei
um fator de arquivo em R ponto R. E aqui também vou
como criar um fator em R. O primeiro passo para
criar um fator em R é criar um vetor. Então, aqui o que estou fazendo, estou criando um vetor
para a profissão facial. E aqui dentro do
vetor da profissão, haverá o Dr. Engenheiro Carpenter,
Dr. mecânico, piloto, DR. carpinteiro
no Quênia, assim. Ok. Então, existem algumas profissões
que eu criei aqui. Então esse é o vetor do professor onde eu mantive o
professor das pessoas. Ok? Então, se eu executar essas duas
linhas, o que ela fará é criar um vetor
para a França e para a direita. E terá o Dr. Engenheiro Carpenter, Dr. então veja o adotante é
repetido à direita. Dr., muitos médicos
estão lá, certo? Então, suponha que esse seja um
vetor que eu criei. Se eu quiser verificar se esse vetor é nosso
fator ou não, posso usar uma função
aqui chamada de cada fator. Então, qualquer coisa, se quisermos
verificar se é um fator ou não, você pode usar cada função de
fator e passar esse vetor ou objeto para a função de cada fator
e isso
lhe dará que é um fator ou não. Ok, então vamos fazer isso. Veja aqui que está nos mostrando falsos. Isso significa que esse vetor não
é um fator. Isso é um vetor, não um fator. Então, como converter esse professor e
vetor em um fator? Isso é o que vamos fazer. O próximo passo. O próximo passo é
aplicar a função de fator. Então, apoio. Agora eu quero converter esse
proficiente em um fator. Então, estou criando outro, criando outro objeto cujo sublinhado
é fatorado. Professora. Ok, agora vou usar
a função fatorial e passarei esse vetor de
profissão para a função fatorial para que esse vetor de profissão
seja convertido em fator. Ok? Agora, se eu executar isso, e se eu executar isso, qual alocação, veja aqui. Agora, nesta etapa, criaremos o fator a partir desse vetor do
professor. Então agora esse fator, fator nasal do
professor, então eu posso verificar aqui é fator. Aqui está nos mostrando o que aconteceu. E quando estou imprimindo
esse fator profissional, que é um fator, o que estou obtendo estou obtendo,
estou obtendo o mesmo resultado. Dr. carpinteiro de interiores, dr. Assim, os mesmos dados. Mas aqui estou recebendo outra
saída que é rótulos. E as etiquetas são
carpintaria, professora, Dr. então todas essas coisas não
serão etiquetas, certo? Os outros níveis são carpinteiro,
Dr., motorista no júnior, mecânico, piloto e professor. Se eu usar a função de tabela
e passar esse fator, a função de tabela,
o que ela fará, ela nos dará a mesma
coisa, rótulos, ok? E se eu usar o resumo,
o que nós gostamos. Se você usar alguém, obterá
quantos carpinteiros existem nesses dados? Então, para carpinteiro, três médicos, um motorista, para engenheiro, para mecânico, para piloto
e para professores. Ok? Dessa forma, podemos criar
e vetorizar o fator. Factor verá que
criou um fator, Dr.
carpinteiro, e
está nos dando os dados de que
existem dois médicos. Há dois carpinteiros, três médicos, um
motorista assim. Portanto, ele categorizará os dados. Agora, o fator, qual
fator fez? Ele categorizou esses dados,
esses dados na categoria
de profissão, como carpinteiro, Dr. e está
nos dando números como esses muitos carpinteiros ou seus principais médicos quando os
engenheiros estão presentes em nossos dados. Portanto, o fator será útil ao analisar os dados que são dados categóricos, certo? Então, veremos como podemos fazer análises
categóricas
usando fatores em R. Então, por enquanto, basta
entender como criar um fator em R a partir
do vetor, ok? Assim, podemos aplicar a função
fatorial
ao vetor e esse vetor será
convertido no fator. E a condição
é que esses
vetores do professor tenham
alguns dados categóricos. Ok? E então podemos verificar
cada função de fator. Com a função, cada fator, podemos verificar se um vetor
é um fator ou não, ok? E podemos usar a tabela para ver os níveis do
fator e podemos usar a função de resumo
para verificar quais são os números, como quantos são Dr. Quantos
engenheiros existem? Então, alguém acima do
fator será visto usando a
função de resumo, ok?
20. Quadros de dados em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos
sobre DataFrames em nossa programação e como
podemos usar DataFrames. Esse é o tópico
desta palestra. Então, deixe-me primeiro
dizer o que é DataFrame. Dataframe é uma tabela ou uma
estrutura bidimensional semelhante a uma matriz na qual cada coluna contém
valores de uma variável e cada linha contém um conjunto
de valores de cada coluna. Você entende o que eu disse. Dataframe é uma estrutura semelhante a uma tabela ou matriz
bidimensional, você pode dizer, na qual cada coluna contém
valores de uma variável. Cada coluna
conterá valores de valores de uma variável e cada linha conterá o conjunto
de valores de cada coluna. Ok? E é um
caso especial de lista em que cada componente de cada componente terá
o mesmo comprimento e cada componente formará a coluna e o conteúdo dos
componentes na estrada. Entendido. Cada componente forma a coluna. Cada componente
formará a coluna e o conteúdo do componente
formará as estradas. Você entenderá que, quando
fizermos o trabalho prático, você entenderá melhor. Portanto, um DataFrame em R
terá os seguintes recursos. A primeira coisa é que
os nomes das linhas devem ser exclusivos. Portanto, o nome da linha deve ser
sempre exclusivo. Então, nomes de linhas, então seria único. Você não pode ter os mesmos
nomes de linha em um DataFrame, ok? Portanto, cada nome de linha deve
ser exclusivo e, em seguida, o nome
da coluna não deve estar vazio. Portanto, nome da coluna, não fique vazio. Deveria estar vazio. Então, todos os nomes das colunas
teriam entradas, ok? E os dados armazenados em
um DataFrame podem estar fora do fator
numérico em tipos de caracteres. Portanto, qualquer um desses tipos de dados
pode ser armazenado em DataFrame, fator
numérico ou tipo de
caractere. E cada coluna, então ela
contém o mesmo número
de itens de dados. Portanto, cada coluna contém o
mesmo número de itens de dados. Portanto, DataFrame como uma tabela ou uma estrutura bidimensional
semelhante a uma matriz
em R, na qual cada coluna contém o valor de uma variável e cada linha contém
o conjunto de valores de cada coluna. Ok? Então, vamos começar
com a prática. Ok, então o que eu fiz, eu já escrevi o
programa e o nome do arquivo
é DataFrame dot r. O que estou fazendo aqui, estou criando um DataFrame. Portanto, o DataFrame pode ser criado da seguinte forma:
como criamos um DataFrame. Nós usamos. Data.frame. A função Data.frame será
usada para criar um quadro de dados. E esse aluno é um objeto ao qual
atribuirei esse DataFrame. Ok? Então data.frame. E então, o que estou fazendo aqui, primeiro, estou criando
um número de série. Ok? Então, número de série,
estou criando 1-5. E então oito, eu estou dando, eu estou usando a função c para
criar a idade, ok? Estou criando um vetor aqui,
veja 201-15-1030, 5.45. Então, A's terá essas entradas. Então eu estou criando um nome. O nome terá muitas entradas. Ok. Então, cinco entradas, shaggy, Ronnie é John e Tom de hoje, e então eu vou encerrar isso. Ok? Dessa forma, podemos
criar um DataFrame. Então, deixe-me executar esta linha primeiro
para obter um DataFrame. Veja aqui. Então deixe-me imprimir isso. CEO estudantil. Agora, o aluno é
um DataFrame, certo? E o que está contendo, está contendo uma linha ou
coluna com o número de série, idade e nome, porque
fornecemos o número de série, depois oito e depois o nome. E cada coluna. O número de série e o nome
conterão os valores. Qual número de série
conterá o valor de um a cinco, então 12345 números de série e
, em seguida, idades 201-15-1030, 5,40. E o nome terá
esses valores, ok? Portanto, cada coluna terá os valores de nome,
nome e variável. Isso é o que aprendemos
na parte teórica. Dessa forma, podemos criar
nosso aluno do DataFrame, que terá o número de
série da coluna, um nome e os valores da linha. Do número de série 1-5, com 21 anos. E esses cinco são, nós demos um nome, temos um especificado
na variável de nome. Então, esses valores variáveis se
tornarão a
entrada nessa tabela, certo? Portanto, é uma estrutura semelhante a uma mesa. Ok? Então, isso é conhecido
como DataFrame em R. E podemos ver a estrutura
do nosso DataFrame
usando a função STR. Podemos usar STR e depois passar o DataFrame. Isso nos dará a
estrutura do DataFrame. O DataFrame tinha estrutura
e diremos dataframe. E tem cinco
linhas de três valiosas. Veja aqui 12345. Então, cinco objetos, ou cinco
linhas e três variáveis. Três variáveis são seriais, número é um nome. Essas são as três variáveis. Os nomes das colunas são
conhecidos como variáveis. Então, três variáveis
e cinco linhas, cinco objetos de três variáveis. E essas variáveis são número
de série, é e nome. Portanto, o número de série é
inteiro, é numérico e marinhas de caráter,
tipo e sênior, cada variável ou
cada coluna
terá o mesmo número de itens,
como o número de série
é de um a cinco. Idade também é ter
cinco entradas e nome também tem
cinco entradas, certo? Então, todos devem ter o mesmo
número de entradas, certo? Ok. Suponha que se eu der seis
anos, o que acontecerá? Deixe-me executar esse DataFrame de
edição. Porque o
número de série tem de um a 6,8 tem apenas cinco entradas, e o nome também tem
cinco entradas, certo? Então, aqui, qual erro
estamos recebendo erro no dataframe
e se o uso de argumentos implica um
número diferente de linhas seis e 6,5. Portanto, uma variável
tem seis linhas, seis itens e todas as outras
têm 51 folhas. É por isso que está nos
mostrando o erro. Portanto, deve ser 55 para cada um. Ok, então aqui você pode colocar
cinco e, quando o
executarmos, não
receberemos nenhum erro. E será executado
com sucesso. Com o STR. Podemos obter a estrutura
do DataFrame. A seguir,
aprenderemos que componentes do
DataFrame podem ser acessados como uma lista
ou como uma matriz. Então, primeiro veremos como
acessar a lista da Leica. Portanto, podemos usar, se você quiser
acessar listas semelhantes, podemos usar qualquer uma
dessas três. Podemos usar nosso operador dólar ou podemos usar o colchete
duplo, ou podemos usar o colchete
simples, ok? Para acessar os dados
do DataFrame. Ok, então suponha que
eu queira acessar o nome do DataFrame
é estudante, um dos nomes. Então, se eu puder fazer isso
com esse aluno
e, em seguida, dentro da coluna, posso passar o nome da variável ou o
nome da coluna. Ok? E se eu executar isso, obterei todos os nomes
do DataFrame. Da mesma forma, posso fazer
a mesma coisa com esse símbolo do dólar, certo? Estudante de operadores de dólar,
que é o nome do DataFrame, depois dólar
e, em seguida, o nome da coluna ou o nome de uma variável. Então, aqui, se eu executar isso, obterei o mesmo resultado: nome em dólares de estudante
sênior. Ele lhe dará o nome de todos
os alunos. Ok? E da mesma forma, podemos fazer
isso também, é alugar. E no colchete. Novamente, dentro do colchete,
podemos passar o nome. Essas três coisas
lhe darão o mesmo resultado. Ok? Agora, podemos fazer como se
tivéssemos dado o nome. O nome é a terceira coluna
logo dentro deste DataFrame. Assim, podemos passar o número da
coluna também, aluno três, para que
você tenha a terceira coluna. O nome. nome é a
terceira, terceira coluna neste DataFrame. Veja, se eu conseguir, isso nos dará a idade. Ca, isso nos dará os Is. Dessa forma, podemos passar o número da coluna e buscar
os dados do DataFrame. Agora, o próximo passo é modificar
os elementos do DataFrame. Podemos modificar o DataFrame também como C você
dará a esse aluno, que é um nome de DataFrame. E aqui vamos manter
o 11 significa a primeira linha, e então eu darei
H. E eu quero
modificar que a primeira linha é 291. Ok? Então, deixe-me fazer isso e
deixar eu imprimir o aluno. Veja aqui. Agora, a primeira linha é, foi modificada para 91. Antes era 21, agora é 91. Então, dessa forma, podemos. Modifique os elementos
do quadro DataFrame. Podemos adicionar linhas ao
componente Roche ao DataFrame. Suponha que eu queira
adicionar outra linha. Suponha que aqui
estejam cinco linhas, certo? Eu quero adicionar mais uma linha
ao DataFrame Halloween, eu posso fazer, eu posso usar
a função rbind. Nossa função é usada para adicionar
uma linha ao DataFrame. Dentro do rbind, preciso passar o nome do DataFrame e
depois usar uma lista. E dentro da lista
eu tenho que passar o número de série seis,
depois a idade de um
e vinte anos, e então os nomes
seriam “há uma variedade”, então nada deve ficar vazio. Tudo o que temos para dar, há três colunas, então
temos que dar três colunas aqui. O número de série é n, nome. E se eu executar isso, mais
uma linha, linha,
linha será adicionada. remédio da apreensão seis, um e vinte foi adicionado ao DataFrame do aluno. Da mesma forma, também podemos adicionar
um componente coluna
ao componente de coluna no DataFrame. E como podemos fazer isso, podemos fazer isso com o C1. C1 significa que Columbine são
vitaminas que se ligam. Ok, então a função cbind, costumávamos adicionar uma coluna
ao DataFrame. Então, dentro da mesma coisa, precisamos passar o nome do
DataFrame. E então temos que supor uma coluna que eu
queira adicionar como país. Então, eu tenho que dar o nome da
coluna country e depois usar a função c e passar o número de países do país. Então, aqui eu preciso passar pelos
seis países que estão neles, certo? 12345, tudo bem? E se eu executar isso, porque o sexto valor, não nos
comprometemos. Portanto, não está chegando o ano. Ou em um DataFrame é
ter apenas cinco linhas, é adicionar a Phi, ok? Dessa forma, podemos
adicionar outra coluna, ao
contrário do nosso DataFrame. A próxima coisa é que
podemos atribuir o país de uma
maneira semelhante a uma lista, como listas como tarefas, podemos usar o país do
dólar estudantil. Isso significa que, no DataFrame, vamos adicionar
outra coluna. Ou seja, esse
será um nome de país. E vamos
adicionar entradas como esses países, ok? Seis na Índia, neutros
e EUA, Japão e China. Ok? E se eu fizer essas
duas declarações, perceberei que o país foi adicionado aqui e os nomes dos
países estão aqui. Dessa forma, podemos adicionar uma coluna
em uma lista, como tarefa. Ok? A próxima coisa é que podemos excluir um componente
do DataFrame. Assim, podemos excluir uma
coluna inteira usando essa coisa. Ok, estudante, esse
é o nome do DataFrame, dólar aqui,
nome da coluna , nome, e eu posso atribuir nulo. Então, se eu atribuir null, a coluna inteira
será excluída. Então, deixe-me ver isso e ver você. Agora. O número de série é e os países em que
sua coluna de nome foi excluída porque tornamos
a coluna de nome nula. Ok, então, dessa forma, podemos
excluir a coluna inteira. Da mesma forma, podemos
excluir uma linha inteira. Então, para excluir a
linha inteira, o que
podemos fazer, podemos usar student
e menos dois, e então podemos excluir
a linha inteira. Então, deixe-me fazer isso. Aqui. A linha dois foi excluída. Duas são duas pegadas
da Nova Zelândia que foram excluídas. Portanto, se você quiser excluir
uma linha específica, você pode fornecer aqui menos
dois meios para que a segunda linha seja excluída
do DataFrame do aluno. Dessa forma, podemos excluir uma linha
inteira de um DataFrame. Então, é assim que podemos criar um DataFrame
usando data.frame. E podemos fornecer o número de colunas ou o número de variáveis. E então temos que fornecer
o número de valores para essas variáveis que
deve ser chamado de número de
itens aqui cinco. Portanto, todos os A's e
nomes seriam 55, só
então ele
criaria um DataFrame. Então, podemos obter a estrutura de um DataFrame
usando a função STR. Em seguida, podemos fasear a coluna
específica usando
o nome da coluna usando esse colchete ou
o símbolo do dólar. E podemos comprar o número da coluna. Podemos modificar o
DataFrame assim, elementos do
DataFrame como
esse e todas essas coisas, cbind, Irvine, todas essas
coisas que vimos, certo? Então, espero que você tenha entendido
melhor
os DataFrames em R. E espero fazer você
entender o que é DataFrame e como podemos lidar
com os DataFrames. Nos vemos na próxima palestra.
21. Combinando quadros de dados: Olá e bem vindo de volta. Nesta palestra,
aprenderemos como
podemos combinar vetores
em DataFrames. Isso significa que supomos que temos
três ou quatro vetores. E eu quero criar um
DataFrame a partir desses vetores. Então, como podemos fazer isso? E, em segundo lugar,
o que
tentaremos fazer é também combinar
os DataFrames. Ok, então vamos começar. Então, primeiro, para combinar os vetores, precisamos criar o vetor. Então, aqui o que estou fazendo, estou criando para vetores, nomes, cidade,
código postal e salário. Então, esses quatro serão os quatro vetores que estou criando e são quatro
objetos que estou criando. E eu vou, o que eu vou fazer, vou combinar esses quatro
para criar um DataFrame. Então, esses quatro vetores
criarão um DataFrame para mim. Ok, então o primeiro reitor são os nomes. E no vetor de nomes o que estou dando no
vetor de nomes que estou dando, estou usando a
função C e estou dando os nomes da lactamase de
Parsons, Rockies, Henry e macaco. E então o segundo
vetor é o vetor da cidade. E dentro disso, estou dando esse particular suas
respectivas cidades chamadas de Bangalore, Londres, Nova York e Mumbai. Ok, e então eu estou dando o código de presente para essas
cidades no terceiro vetor. E então o quarto
vetor é o salário, no qual estou instalando
seu respectivo salário. Então, isso terá
o salário da derme, o salário raquete e, recentemente, a
mantissa. Salário de Mantissa. Podemos
criar com isso esses quatro vetores, que
aprendemos no capítulo de vetores
na aula de vetores. Então, deixe-me fazer isso. Então isso criará esses
quatro vetores, ok? Agora eu quero combinar esses quatro vetores e
criar um DataFrame. Eu quero criar um DataFrame usando esses quatro vetores. Então, eu quero combinar esses quatro vetores e
criar um DataFrame. Então, para isso, o que estou fazendo, estou dando um
nome de DataFrame aqui, detalhes implícitos. Portanto, os detalhes do ponto EMP
serão o nome do DataFrame. O que vou
fazer é usar a função
cbind para
combinar esses vetores. Ok? Então, como esse nome será o código profundo
da cidade, essa será a equipe de colunas. Então, naturalmente, estou usando
C bind aqui para combinar os nomes das colunas,
cidade e código postal. E, infelizmente, essas são as quatro, essas serão as quatro
colunas no DataFrame. Então, estou usando c wine e estou
fornecendo o nome das colunas, como nomes, vetor,
vetor da cidade, código postal e salário. Ok? Então, deixe-me fazer isso. Ok. Agora deixe-me imprimir os detalhes do
funcionário. Ok. Então, deixe-me ver os
detalhes dos empregadores. Veja aqui. Agora, o
detalhe do funcionário é DataFrame. E podemos ver as colunas nome,
cidade, CEP e salário. E as entradas são manequins, carga
bancária, código postal e salário, Rockies City, Londres, você
tem isso e o salário. Então Henry. Veja aqui, a partir desses quatro
vetores para os quais criamos, começando com esses
quatro vetores, criamos um
DataFrames, certo? Suponha que se eu colocar os nomes e usar
esse nome, o que eu
obterei é um líder com o mesmo
nome, cidade e beco das correntes. Então, eu combinei os
vetores em um quadro de dados. Então, agora temos uma estrutura
semelhante a uma tabela aqui que é um DataFrame. Então, agora temos um DataFrame. Da mesma forma, o que vou fazer? Vou ler, você pode usar a função C-A-T cat
para imprimir algo. Ok, então aqui estou apenas imprimindo o arquivo DataFrame
a partir de quatro vetores. E isso, então
virá assim. Ok, então o primeiro
DataFrame de quatro vetores é isso implicar
detalhes, detalhes de pontos EMP. Ok? Então, se você
quiser imprimir um título, você pode usar a
função de bate-papo, ok? E depois imprima os detalhes do
funcionário que eu já imprimi aqui. E você também pode
imprimi-lo aqui. E então o que estou fazendo agora, próxima tarefa é
combinar dois
DataFrames em um. Portanto, temos um DataFrame que
implica detalhes que
criamos a partir dos quatro
vetores. Agora o que vou fazer. Crie outro vetor, desculpe, vou criar outro DataFrame, detalhes de
funcionários e detalhes de pontos
EMP também, com a função Hale-Bopp
DataFrame. E aqui, manualmente. Dentro do DataFrame, darei o nome vetor c t
vetor, código postal, salário. Ok? Então, dessa forma,
também podemos criar, na primeira etapa, o que fizemos. Criamos o
nome cidade, código postal vetor
salarial separadamente
e, em seguida, pausamos a função cbind
para criar um DataFrame. E o que estamos fazendo agora, estamos
passando diretamente esses vetores. Estamos criando os vetores dentro da função DataFrame. Não estamos envelhecendo C Y, e aqui estamos
usando data.frame, função
DataFrame para
criar um DataFrame. E dentro da
função DataFrame que estamos passando, estamos criando nomes. Vetor, vetor de densidade, depois vetor de
código postal e entradas que
também estamos fornecendo
aqui apenas, ok? Salário e um forte fator de
vantagem falsos. Ok? E então, se
executarmos isso, criaremos
um DataFrame. Esses também são detalhes dos funcionários. Ok? E se eu executar essa ferramenta, o que acontecerá, obteremos o segundo DataFrame
que é empregado. Ele tende a nomear código
estratégico e tem 3,2
RAM em minúsculas e push pop. E o código postal da cidade e respectivos salários
impressos aqui. Agora temos os dois DataFrames, detalhes
dos funcionários e
detalhes implícitos do que eu queria fazer. Quero combinar as linhas de ambos os DataFrames e criar outro DataFrame que
contenha todos os detalhes implícitos de um
e empregado
no DataFrame. Então, estou criando outro objeto, todos os detalhes do ponto do funcionário. Ok, esse será o DataFrame que combinará as linhas
do DataFrame do funcionário, DataFrame e dos
detalhes implícitos do DataFrame. Então, para isso, o que
eu vou usar é
comprar fora de banda porque queremos
combinar as estradas aqui,
três filas e aqui quatro
fileiras com essas quatro fileiras. E essas três linhas, eu quero combinar e
criar outro DataFrame. É por isso que estou usando out-of-band
para combinar as linhas. E então, dentro do Audubon, fornecerei o primeiro DataFrame e depois o segundo DataFrame. E então podemos usar
a função de bate-papo para imprimir as manchetes que
combinam detalhes implícitos. E então eu posso imprimir. Ok, então deixe-me fazer isso. vejo. Agora temos todos os detalhes
implícitos do DataFrame, que conterá
todas as sete linhas,
as quatro do
primeiro DataFrame e o último terço é
do segundo DataFrame. Dessa forma, podemos
combinar dois DataFrames. Ok? Então, quais são as coisas que
aprendemos? Primeiro,
aprendemos como criar um DataFrame a partir de vetores. E então vimos
como podemos combinar os dois DataFrames
em um quadro de dados. Ok, dessa forma, podemos combinar os DataFrames e também
criar um DataFrame
a partir dos vetores. Nos vemos na próxima palestra.
22. Analisando dados em R do arquivo CSV: Olá e bem vindo de volta. Então, nesta palestra, vamos aprender um conceito muito
importante,
que é a análise de dados em R. Então, o que vamos
fazer nesta palestra,
primeiro, vamos
tentar ler um arquivo CSV, arquivos
CSV separados por vírgula. E é como um
assento real que você pode imaginar. E conterá a
soma dos detalhes implícitos. E então o que
faremos é tentar ler esse
arquivo CSV com nossa programação. E depois de lermos os dados, tentaremos analisar os dados que estão dentro do arquivo CSV de detalhes do
funcionário. E tentaremos obter alguns
insights a partir desses dados. Ok, então
deixe-me mostrar primeiro o arquivo CSV. Então esse é o arquivo CSV
que eu criei. E veremos aqui que este
é o arquivo CSV com
pontos de detalhes do funcionário e é
um arquivo separado por vírgula. Então, a primeira identificação do
funcionário, nome do funcionário, salário, dados
de ingresso e departamento. Essas são as quatro colunas. Estas serão a coluna da tabela ou
a
sede do Excel, você pode ver. E então essa
será a primeira linha. Os valores separados por vírgula. será o ID do funcionário e,
em seguida, a lista será
o nome do funcionário. O salário será de 3.000. Eles escolheram se juntar a isso. E então o departamento
será CSE ou algo assim. Ok. Então, esses são alguns dados que mantive
dentro desse arquivo CSV. E agora,
o que vou fazer tentar buscar esses dados, essas colunas e valores de linha
por meio de nossa programação. E então tentaremos
analisar os dados. Então, o primeiro tipo é ler
um arquivo CSV por meio do nosso, ok, então deixe-me ver o código. A primeira coisa que precisamos fazer definir nosso diretório
de trabalho. Portanto, para definir o diretório de trabalho, você precisa acessar os
arquivos aqui, nesta seção, e ver se você clicar
nesses três pontos aqui, você poderá navegar pelos
arquivos em seu computador. E aqui o que vou fazer, vou para o Art
2020 porque este é meu diretório de trabalho
e quero
definir esse local como nosso diretório de
trabalho. Vou selecionar isso. E agora estamos dentro
desse diretório art 2020. Agora eu quero fazer com que essa
alíquota tenha um diretório de trabalho, para que eu possa fazer isso. Eu posso ir a isso com mais frequência. E ano de aptidões, Definir
como diretório de trabalho, então vou clicar em Definir
como diretório de trabalho. Ok, então, dessa forma, podemos tornar este nosso diretório de 2020
como nosso diretório de trabalho. Como alternativa, você pode simplesmente
usar o conjunto de comandos WD. Set WD é uma função que
definirá o diretório de trabalho. Wd significa diretório de trabalho e segmentos configurando
o diretório de trabalho. Portanto, definindo o conjunto de trabalho, WD é a função
interna na qual você pode fornecer o caminho
para seu diretório. E esse caminho
será seu diretório de trabalho
quando você executar isso. Ok? Então, agora definimos
o diretório de trabalho. O que eu fiz foi manter o arquivo CSV de
detalhes do funcionário aqui para que seja fácil
para nós que o lemos. Não precisamos passar o caminho completo aqui,
pois temos o interior, estamos dentro do diretório de
trabalho e o arquivo CSV til dot do
nosso funcionário também
está no mesmo
diretório, ok? E se não estiver lá, então temos que fornecer
o caminho completo aqui e a parte completa para esse arquivo. Ok? Portanto, o primeiro passo é
ler o arquivo CSV por completo. Então,
o que vou fazer primeiro criar uma variável que
você pode dizer ou objetar em nossos dados de emprego, dados de pontos EMP. Esta é uma invariável
em que eu quero armazenar tudo o que vou
ler desse arquivo CSV. Para ler o que precisamos em um arquivo CSV, precisamos de uma função
chamada read.csv. Portanto, o read.csv será usado
para ler o arquivo CSV. E dentro dessa
função, read.csv, precisamos fornecer
o nome do arquivo dot CSV para
que nosso nome de arquivo seja detalhes do
funcionário dot CSV. É isso. Quando executamos
essa função, ela lê os dados
desse
CSV de pontos do funcionário e os
armazena dentro desses dados do funcionário. Então, deixe-me fazer isso primeiro. Veja aqui. Agora, quando você vê aqui, está nos mostrando dados de pontos EMP
dos funcionários, oito
objetos de cinco variáveis. Isso significa que há oito linhas e cinco colunas
no arquivo CSV. ID do funcionário, um a
oito significa nome. Este é o nome implícito, aumento da taxa salarial. E tem, você pode
ver os detalhes aqui. Agora lemos o arquivo CSV e armazenamos os dados
dentro desses dados de pontos EMP. Agora posso imprimir esses dados de
pontos EMP e ver quais
detalhes eles contêm. Basta executá-lo e ver você. Deixe-me fazer isso de novo. Agora estamos recebendo a estrutura da mesa
que eu gosto, certo? ID do funcionário, nome do funcionário, salário, data de ingresso
e departamento. Esses são os
nomes das colunas e esses são os valores, certo? Linhas. Para as
colunas correspondentes, certo? Há oito linhas
e cinco colunas. Cinco variáveis
significam cinco colunas. Então, você pode relacionar que tipo
de dado isso é na arte? Isso é chamado de DataFrame. O Dataframe terá uma estrutura
semelhante a uma tabela, certo? Portanto, tudo o que lermos
do arquivo CSV, ele será armazenado como
um quadro de dados em R. E podemos verificar se isso é um DataFrame ou não
usando cada dado. Cada função dot data.frame, à direita, é a função dot
data.frame. E podemos passar esse objeto de dados
do funcionário. Então, deixe-me fazer isso. Veja aqui que está dando
o resultado como verdadeiro. Isso significa que os dados de
pontos EMP desse funcionário são nosso DataFrame. Seja o que for que lermos sobre isso, o read.csv obterá um quadro de dados. Então, agora temos um DataFrame aqui. A próxima coisa é que agora
temos nossa estrutura
semelhante a uma tabela DataFrame aqui. Agora posso encontrar o número de colunas usando uma função
chamada. Então eu posso usar um carvão e então eu
posso passar o nome do
DataFrame aqui. E isso
nos dará o número de colunas no DataFrame. Portanto, esse arquivo CSV
tem cinco colunas. Da mesma forma, podemos usar e rho, e rho é o número de linhas. Quando executarmos isso,
obteremos o número de linhas, oito linhas neste DataFrame. Veja aqui a facilidade com que lemos o arquivo CSV e
criamos uma tabela ou um DataFrame em R. E
agora estamos encontrando com n dois pontos e linha o
número de colunas e o número de linhas
neste DataFrame. Agora, vamos obter algumas
informações interessantes com R. Então, agora eu quero encontrar
o salário máximo. Qual é o
salário máximo de um funcionário? Assim, posso usar a função max e passar os dados do funcionário. Salário em dólares. Isso significa que eu quero passar
a coluna de salário,
essa coluna de salário
para a função máxima, a coluna de salário, os dados de pontos EMP. Salário em dólar significa esta coluna que estou buscando e a estou passando
para a função máxima. Portanto, essa função máxima
funcionará internamente e encontrará o máximo
desses salários. Então, isso nos dará, nos dará o resultado 95.200. Deixe-me imprimir esse salário máximo. Veja aqui que estamos recebendo o salário máximo de
um funcionário é 95.200. Ok? Dessa forma, podemos encontrar
o salário máximo. Também podemos encontrar o salário médio
usando a função média. Portanto, dentro da função principal, o que faremos
fornecerá essa coluna salarial. E isso nos dará o
salário médio dos funcionários. Seu salário médio
da praça. Cada salário dele
coloca 53.009, 24. E se usarmos soma de todos os
salários dos funcionários e dividirmos por oito, porque há
oito funcionários receberão a mesma taxa que o CEO. Dessa forma, podemos encontrar o salário médio
dos funcionários. Da mesma forma,
podemos encontrar o máximo. Podemos encontrar o
detalhe do funcionário com salário máximo, descobrimos que 95.200
é o salário máximo. Uma implica obter. Agora podemos encontrar esse
funcionário com esse detalhe. Portanto, podemos usar a função de subconjunto e transmitir dados implícitos. E então podemos colocar
outro argumento aqui, salário igual ao salário máximo. Então,
o que vamos fazer é encontrar aquele funcionário que tem o
salário máximo. Portanto, isso nos dará os detalhes do
funcionário que está recebendo o salário
máximo do implícito. Deixe-me fazer isso. Veja aqui que esse funcionário
diz que está recebendo o salário máximo
e esses são os detalhes dele. Dessa forma, podemos dizer que o ponto pode ser detalhe salarial
mais ensolarado do funcionário que está recebendo o salário máximo. Dessa forma, podemos encontrar o funcionário que está
recebendo o salário máximo, o salário mais alto. Da mesma forma. Também podemos executar isso. Faça com que todos os funcionários
trabalhem em finanças, trabalhem no departamento financeiro e recebam salários de
mais de 85.000. Veja aqui, este é
o departamento, então esse é o
departamento financeiro. Há dois funcionários e ambos estão vendendo
mais de 85.000. Então, qual condição estamos dando? Estamos chamando a função de subconjunto e
fornecendo os dados do funcionário. E então estamos
dando uma condição departamento
igual a finanças e salários
estaria acima de 85.000. Portanto, isso nos dará a todos os funcionários detalhados
cujo departamento é financeiro e salários,
mais de 85.000. Deixe-me imprimir isso.
Deixe-me executar isso. Aqui. Estamos ficando implícitos. Deixe-me executá-lo novamente.
Então, aqui estamos obtendo o ID
de funcionário 3.8 para funcionar. Esses são os dois
funcionários que pertencem
ao departamento financeiro e seu salário é
superior a 85.000. Então, esses dois funcionários
contratam departamento, finanças, departamento financeiro e seus salários são mais de 85.000. A próxima coisa é que eu quero encontrar os implicantes de quem se juntou
em ou depois de 2000. Então, temos uma data para nos
juntarmos aqui também, certo? Então, eu quero encontrar todos os funcionários que
ingressaram depois de 2000. Honor, depois de 2000. Assim, posso fornecer os dados do funcionário e fornecer a data de Ashdod. E dentro disso eu darei
a data de adesão. Então, estou
fornecendo dados sobre afogamento para esta função de data. E isso deve ser maior
do que adicionar data ao login. Primeiro de janeiro de 2000. Ok. Portanto, todos os funcionários
cujos dados sobre Joanne são maiores do que este tutorial, Primeira Geração de Tarjan obterão
os detalhes desses funcionários aqui. Então, deixe-me fazer isso. Espere novamente, veja aqui. Então, agora estamos recebendo as
implicações de Priyanka Mahesh. Então, eles nos encontram quando esses
cinco implicam que
ingressaram em 2000 e depois
disso ou não depois de 2000, eles ingressaram na
empresa e estamos recebendo os detalhes dos funcionários. Quem se juntou a nós geralmente são da década de 2000. Dessa forma, podemos
analisar o arquivo CSV e os dados que temos dentro
do arquivo CSV no Excel. Portanto, essa é uma análise muito
legal que podemos realizar com funções
simples. Certo? Agora, o que eu quero fazer que
lemos um arquivo CSV, certo? Lemos o
arquivo CSV e
realizamos todas essas análises. Agora, o que
eu quero fazer é escrever um arquivo CSV. Quero obter alguns dados. Quero gerar alguns dados e quero que esses dados sejam
publicados em um arquivo CSV. Como eu posso fazer isso? Eu posso fazer isso com isso. Write.csv. Read.csv está lendo
o arquivo CSV. E write.csv significa ler
ou escrever um arquivo CSV. Queremos escrever um arquivo CSV. Quaisquer que sejam
os dados, esses dados
que encontrei indicam quem ingressou
depois de 2000, certo? Então, eu quero escrever essa tabela ou esses dados em um arquivo CSV. Então, vou passar esse
objeto unido depois 2000 para este write.csv. E aqui vou dar
o nome do arquivo CSV. Então, recebo o nome do arquivo CSV como ponto de
funcionário entrelaçado após ponto de origem
do dente csv. Portanto, todos esses dados serão
gravados nesse arquivo CSV. Um novo arquivo CSP será criado. Ok, então
deixe-me ver se
esse arquivo já está, veja aqui, esse arquivo já
está lá. Então, o que eu vou fazer é
deletar isso. Ok? E então eu vou voltar
e depois executar isso. Ok, então deixe-me fazer isso. E deixe-me ir até
a pasta aqui. Veja aqui agora que temos
um novo arquivo criado. Deixe-me mostrar os dados. Aqui. Temos 12345 linhas. Me disse que, por meio de
Eddie, os dados de até n são 2000, 2018, 2.914.2018. Todas essas implicações
se juntaram após 2000. Portanto, dados semelhantes estão aqui. E agora que os dados foram
inseridos dentro desse novo arquivo CSP, junção de pontos e
vemos como é fácil
obter o resultado
aqui e gravá-lo em um arquivo CSV que
criamos há pouco, podemos gravar os resultados em um arquivo CSV
que
criamos
há pouco
tempo vemos como é fácil
obter o resultado
aqui e gravá-lo em um arquivo CSV que
criamos há pouco, podemos gravar os resultados em um arquivo a junção de pontos e
vemos como é fácil
obter o resultado
aqui e gravá-lo em um arquivo CSV que
criamos há pouco, podemos gravar os resultados em um arquivo CSV
que
criamos
há pouco
tempo, também podemos gravar os resultados
em um arquivo CSV. E agora eu posso ler, usar o read dot csv para ler esse arquivo CSV
novamente e imprimir. Então, deixe-me fazer isso. Aqui. Também estamos obtendo o mesmo
resultado aqui. Dessa forma, podemos nos escrever via arquivo
CSV e
ler um arquivo CSV. E podemos realizar todas essas análises, como
encontrar o salário máximo, encontrar o funcionário
que está tendo, quem está recebendo o
maior salário. Podemos encontrar os funcionários ingressando após uma data específica. Podemos encontrar o
salário médio dos funcionários. Podemos encontrar a
média do salário. Podemos encontrar muitas outras coisas, o que for necessário para sua
empresa. Se você quiser. Chegue a uma conclusão específica
ampliando os dados, você pode fazer
com as funções ímpares e
analisar seus dados. Então, espero que você conheça
a força da nossa
programação e como
destacar os dados
na programação R e ler,
ler e escrever, ler e escrever um arquivo CSV. Nos vemos na próxima palestra.
23. Criar gráfico de pie em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos
sobre gráficos circulares. Então, deixe-me primeiro anotar esses consoles
e objetos e fechar esse arquivo. E eu criei um arquivo chamado
byte char Tatar. Então, eu escrevi o programa, escrevi as
funções para criar um gráfico
circular usando dados. Então, supomos
que temos alguns dados e queremos representar graficamente
esses dados em um gráfico circular. E queremos analisar
os dados para que
possamos fazer com que, com muita facilidade, um anúncio também seja popular por
esse recurso, porque podemos visualizar os
dados usando vários gráficos. Então, um dos violões é gráfico
circular e isso vamos
aprender nesta palestra. Então, primeiro, primeiro, precisamos criar
os dados para o gráfico. Então, estou criando um
vetor n e dando valores como
307-82-3309, algo assim. Você pode dar o que quiser. E então estou criando rótulos a, B, C, D para esse valor. Portanto, o valor será 30, 78, c, 23 e D 39, assim. Ok? Agora posso obter o nome do
arquivo de dados para o bate-papo Qualquer gráfico que eu esteja criando, posso dar a ele um nome como abc dot PNG ou um gráfico
circular com pontos PNG. Então, suponha que eu lhe dê um
nome com Jarred dot PNG. Qualquer coisa que você possa dar. Ok. Então, estou dando um nome a ele. Eu posso usar a função PMT e
posso dar um arquivo igual
ao nome do arquivo. Então, eu quero criar um arquivo de imagem PNG de pontos de
gráfico circular. O que quer que seja capturado que for criado, será armazenado em um formato de imagem de arquivo
PNG. Ok, então isso também pode ser
feito com essa linha. Então, opcionalmente, se você quiser um arquivo PNG
em um arquivo de imagem, poderá criar com isso. Caso contrário, você pode
vir aqui diretamente e usar a função pie e
transmitir os dados. E então isso vai para os dados e então você pode passar os rótulos.
Esses são os níveis. Então, quando um gráfico circular será
criado com esses dados, e esses dados
serão rotulados com a, B, C, D. Ok, então dev.off
significa que esse arquivo
será gravado
no, no sistema. Ok? Então, deixe-me executar esse código aqui. Então, deixe-me correr. Ok. Então, CEO, agora temos, mas
não estamos vendo esse gráfico aqui. Eu não sei por quê. Então,
deixe-me executar essa parte novamente. Veja aqui. Agora temos um gráfico circular
com os rótulos a, B, C, D. Então E está atrasado. V é o mais parecido com 78. Isso mesmo, a maior
área para b e depois d e C. Dessa forma, com esses dados simples, criamos essa representação
gráfica. E deixe-me falar com o
bolsista de arte e CEO, deve
haver um arquivo criado. Veja aqui o gráfico circular. Esse arquivo PNG foi criado com essa
representação gráfica. Então veja aqui, esse arquivo de
imagem também criado e veja
aqui o a, B, C, D. Esses são os rótulos e
esse é o valor dos dados
é 78, é algo que fornecemos. Um valor é 30 e C10 é 23, 29 assim. Ok, então veja,
acreditamos que criamos uma representação gráfica de nossos dados e podemos
apresentá-los assim. Ok, então deixe-me
voltar ao núcleo. Então esse é o comando, essa é a função
PNG para criar um arquivo PNG a partir do nosso gráfico. Ok, então este é o
nosso gráfico e este é o nosso arquivo PNG para esse gráfico. Ok? Então, se você quiser enviar
através do gráfico, você pode criar um arquivo PNG
e enviá-lo por e-mail. Ok? Dessa forma, podemos
criar um gráfico circular. Ok, a próxima coisa é agora eu quero criar
outro gráfico circular. E para isso eu estou criando coisas
semelhantes e seu salário. Então, estou criando um vetor
salarial e atribuindo esses salários
impulsivamente a ele e ele sustenta
apenas nosso salário e os nomes dos funcionários, cada doente, exceto um encontro e
todas essas coisas. Ok? Então, esses são os dois vetores que estou criando: o
salário e os nomes. Então, obviamente,
essa elite se perguntará isso, mas foram 800 assim. Ok? E o mesmo acontece com
B e D. Estou tentando criar um arquivo PNG, ponto de
salário PNG para o gráfico
que vou desenhar e por salário e nomes que estou passando
e passando o salário como um dado e nome
, como rótulos. Então, o próximo gráfico circular que
vamos criar, ele será criado com base no salário e os nomes
serão rótulos como aqui, ABCD fez nesses níveis,
estará lá e será salvo. Mas BUN e essas coisas. Ok, então deixe-me criar
esse acordo aqui. Deixe-me fazer isso. Ok? Isso de novo. Veja aqui. Agora temos um gráfico circular com nomes como, obviamente,
o parque j tan. E qual é o uso de dados
gráficos na plotagem. Porque com isso,
podemos ver que, ok, titin é Aaron, menos salário de música é ter menos salário, mas um N far oak está
tendo um salário bastante bom. O dinheiro e Ellen é
Erin em cada salário. Então, com esses gráficos, podemos analisar facilmente os dados sem
analisá-los mais profundamente.
Podemos ver isso e
chegar à conclusão de que a
música está recebendo
menos salário depois disso, Satanás está recebendo pouco
mais do que todos os doentes. E então o dinheiro e Ellen, e então a bobina, o tecido e o
tecido estão tendo a maioria, a maioria dos
elementos celulares de nosso Lucas, com fotocópias recebendo o maior
salário, rs1.000 propriedades. Portanto, podemos fazer essa análise vendo o gráfico
circular e ver aqui, deve
haver um arquivo
salarial criado aqui, veja aqui. Então você pode enviar isso por e-mail e colocar assim. Ok. Então esse é o enorme gráfico circular. E com essa função simples de
tubulação, podemos criar um
gráfico circular e
temos que escrever os dados e fornecer os rótulos. Esse nome é um rótulo de que
somos bons. Obrigada. Ok. Veremos o resto
das coisas, como analisar os detalhes do arquivo CSV,
na próxima aula. Então, te
vejo na próxima.
24. Analisando dados de funcionários: Olá e bem vindo de volta. Então, nesta palestra,
analisaremos
o arquivo
CSV de pontos de detalhes dos funcionários que vimos
nas palestras anteriores. E vamos obter os
dados desse arquivo CSV. Leia os dados do arquivo CSV e
criaremos um gráfico circular. E veremos quais são as coisas que podemos fazer
com o gráfico circular. Quais são as coisas gráficas que podemos analisar com
o gráfico circular? Como podemos esclarecer
os detalhes dos funcionários. Do gráfico circular. Para ler um arquivo CSV, usamos o read.csv e
passamos o arquivo CSV aqui. E vou armazenar isso
nos dados de pontos do EMP. Isso nós já vimos. Então eu executo isso e colocamos os dados no objeto de dados de pontos
EMP. Agora, essa será uma
taxa de DataFrame. Lembra, certo? Então, se eu imprimir esses dados de
funcionários, dados pontos
EMP, eles também
obterão um quadro de dados. Eles vão gostar
da estrutura aqui. Esses dados que estamos obtendo
desse arquivo CSV. Agora, eu quero desenhar, quero obter um gráfico circular como este, pois isso
implica, ok? Então, para fazer isso, posso usar a função pipe
e criar um gráfico circular. Então, eu quero criar um
gráfico circular com base no salário. Então,
o que vou fazer usar dados de pontos EMP, salada
de dólares, todos
esses elementos. Coloque a coluna
de salário neste DataFrame. E isso criará um gráfico circular
e rotulará o que eu darei, darei o rótulo
como nome do funcionário. Portanto, dados de pontos EMP, dólar, nome sublinhado do E&P,
nome do funcionário. Então, ele criará um gráfico
circular como este, e esse será o salário do funcionário e os níveis que
implicarão o nome. Então, deixe-me fazer isso
e ver aqui que estamos obtendo um gráfico circular onde esses blocos representarão o tema salário e os
níveis de implicações. Então, com esse gráfico circular, podemos ver
isso claramente. Veja isso. Então D está secando o salário deste
mês. Randolph estava recebendo
esse salário obrigatório, certo? Taxa máxima de salários tão altos. E vemos aqui, salários
tão altos no máximo 95.200. E meu cabelo está
secando quanto menos salário, certo? Então, se virmos o
salário, 7.800, tudo bem. Dessa forma, podemos obter um gráfico circular com base no salário,
no
nome do funcionário e nos rótulos. Ok, a próxima coisa é
que eu quero traçar o gráfico, título e a paleta de cores do arco-íris, então eu quero
torná-la mais colorida. Então, aqui o que vou fazer, vou usar a função pipe. Passe o salário e,
em seguida, indique o nome. Então, esses são os dados, então esse é o rótulo e a média, média igual ao salário do funcionário. Este será o
título deste gráfico. Ok? Portanto, esse será o
título deste gráfico. E então o que eu vou usar, vou usar chamada igual à
cor do arco-íris é chamada de arco-íris. E para isso, o que vou dar aos funcionários: tamanho dos dados de pontos, ok? Em seguida, toque nos dados do funcionário. Ok, então deixe-me fazer isso. Agora. Estamos obtendo um gráfico muito colorido
ou um gráfico circular em que o título é o salário do
funcionário e os nomes são os
rótulos e o salário. Esses blocos estão
representando o. Implica salário. Ok? Dessa forma, podemos criar
um gráfico circular colorido, que parece muito melhor
do que o anterior, para que você também possa usá-lo. A próxima coisa é que eu
quero criar os rótulos. Então, o que vou fazer, veja, sim, estamos dando
os níveis de empregá-los que já existem neste
DataFrame, certo? Agora eu quero criar
meus próprios níveis. Então, o que estou fazendo aqui, vou criar uma porcentagem do salário,
outros rótulos, ok? Então,
o que estou fazendo aqui criar um
objeto de cinco por cento e estou usando a função
redonda. E o que estou fazendo aqui, cem em salários de funcionários divididos por alguns desses
salários de todos os funcionários. Ok. Então, basicamente,
o que estou fazendo encontrar a porcentagem
do
salário de nascimentos e mortes de cada funcionário
com base no salário total. O salário total somará
todos os salários. E então vamos
tentar descobrir o quanto Susanna está ganhando. Qual é o
salário da Susanna em porcentagem? O salário total. Ok. Então, estamos obtendo esse valor percentual do
tubo. E então o que eu vou fazer traçar o salário do
dentista em um gráfico circular. Então, para isso, vou usar
a função pipe. E aqui os dados serão o
mesmo salário dos funcionários, esta coluna, coluna salarial. E então os rótulos
serão a porcentagem do tubo. Então, o rótulo, em vez do nome, agora estou fornecendo cinco
por cento, ok? Então, será 1%, 2% assim. Ok? E então o título principal, eu estou dando, analisando esse
salário por chat, ok? E então a Collette, eu estou mantendo o mesmo
esquema, arco-íris. E aqui estou fornecendo as lentes e
os dados, os dados dos funcionários, o salário, o salário
e fornecendo como um comprimento. Ok. Então, deixe-me, e outra
coisa que estou dando, estou dando os ligantes,
ligantes ou algo assim
será impresso aqui para especificar
o que isso significa, R, qual cor será
OXO, o que implica. Então, ele será postado
no canto superior direito. E aqui estou
fornecendo dados de funcionários. Dollar, nome do funcionário
significa o nome do funcionário. E então eu estou dando que o cex significa que será o valor do comprimento ou da
largura dessa coisa. Uma vez que eu desenhe isso, você será entendido. Então deixe-me, você entenderá que um gráfico estelar está chegando C aqui. Ok? Então, deixe-me fazer isso também. E agora deixe-me ver. Sim, agora inventamos o nome. Estamos recebendo números
percentuais como a soma dos
salários totais de todos os funcionários. Essa pessoa, a verde
que é tão profunda, que está recebendo 22,1%
do salário total. E então corra nossos olhos
para obter 19 pontas. Então, essa legião, isso é chamado de lesões. Essa, essa é a lealdade. E com base nos blocos de
cor verde, esses são os pães
pertencentes ao príon. Então, com esse gráfico, você pode entender
que os salários de Priyanka renderam 0,6%
do salário total, certo? Da mesma forma que isso
pertence ao Michael, a célula de
Michael é 25,6. E o salário mais baixo
dessa pessoa que é riba que você está vendo é ter
menos salário, 0,2 por cento. Dessa forma, podemos criar nossos próprios rótulos e colocar
as lendas para cada nível. E isso é mais específico, como quanto 1% está recebendo em
porcentagem, porcentagem de salário. A próxima coisa é que podemos
desenhar o gráfico circular 3D. E para isso, precisamos
baixar essa matriz de plotagem
da biblioteca. Ok? Então, se não estivermos, se não estiver lá
para o seu RStudio, você pode acessar o arquivo. Você pode acessar os pacotes e clicar nos pacotes de
instalação. Aqui você pode fornecer seu nome, nome da biblioteca
iniciada,
que deseja baixar e
clicar na instalação. Uma festa não está lá. Você pode clicar em Instalar
e essa biblioteca
será instalada em sua máquina, RStudio dentro do Data Studio,
e você poderá usá-la. Então, precisamos dessa biblioteca, truques de
trama para
criar um gráfico circular 3D. E dentro dessa biblioteca
temos a função Pie 3D. E com isso
podemos passar os dados, ou
seja, o salário do funcionário. As etiquetas fornecerão
o nome do funcionário. E então explorado o
ponto principal é o
salário da placenta em 3D. Ok, deixe-me fazer isso para ver, e agora estamos
obtendo um gráfico circular 3D. Aqui mesmo. Estamos recebendo um gráfico circular 3D como este é o
resumo do Sudão. Isso certamente é o
anticorpo de carne Michael atravessando C, muito menos salário por menos
coisas ou uma massa como essa. Então, essa é a representação 3D dos salários dos funcionários. E, como podemos ver aqui, isso parecerá muito
melhor do que o gráfico circular 2D. Dessa forma, podemos
criar um gráfico circular e analisar os dados na arte. Ok? Portanto, você também pode tentar
com seus próprios dados. Você tenta criar seus próprios vetores e depois
tenta desenhar o gráfico circular. Você pode analisar os
dados de um arquivo CSV, criar seu próprio arquivo CSV e fazer todas essas coisas. Então, eu quero que vocês criem
seu próprio projeto assim, e esses gráficos e esses gráficos circulares na seção de
projetos desta classe. E veremos que podemos fornecer nossos feedbacks e tudo mais. Então, será compartilhado entre nós, todos os estudantes
e comigo também. Então, você tenta criar ou criar
seus próprios dados dessa forma, e tentar visualizar seu
banco de dados criando gráfico circular ou um gráfico circular 3D é como encontrar a média, encontrar o
salário médio, todas essas coisas. Ok. Então, ingressei
nos projetos de forma excelente.
25. Leitura de arquivo de Excel em R: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos como
podemos ler um
arquivo do Excel por meio da arte. É muito simples e
precisamos instalar um pacote e depois
carregar esse pacote. E então precisamos ler o arquivo
do Excel por meio de
um código simples de uma linha
e, em seguida, podemos imprimir os dados. Então, vamos ver como podemos fazer isso. Então, o que
eu fiz foi criar o mesmo detalhe
empregado, arquivo
Excel, os mesmos
detalhes que mantive neste arquivo Excel que
tínhamos em nosso arquivo CSV. Portanto, são os mesmos dados, mas eu criei um
arquivo Excel por meio desse arquivo CSV. E o que eu fiz para isso, os aplicativos simplesmente abrem
esse arquivo CSV. O que vou fazer é não ter
o Microsoft Excel aqui. Então,
o que vou fazer é ir até o arquivo CSV e aqui temos
os detalhes dos funcionários, certo? Vou abrir isso
aqui no Google Seat. E veremos que ele
será criado em x. E se eu ver sim, agora
temos a placa de identificação da coluna, ID do
funcionário, nome do funcionário, salário, data de ingresso
e departamento, e todos os detalhes
no formato Excel. Agora,
o que vou fazer é baixar esse arquivo no formato de
ética do Excel. Então clique no formato do Microsoft
Excel e faça o download. Então, agora ele foi baixado
e eu o guardei. Eu mantive esse arquivo aqui em
nosso diretório de trabalho. Então, a próxima coisa é que agora temos os detalhes
desse funcionário,
pontilhando o Excel como x, y, zero. Isso significa que o arquivo
Microsoft Excel está aqui em nosso diretório de trabalho, ou seja, nosso 2020. Então, o que eu preciso fazer primeira coisa que precisamos fazer é
instalar este pacote. E o nome do pacote é XLSX. Portanto, para instalar um pacote em R, podemos usar essa sintaxe
install.packages e fornecer o nome do pacote que
queremos instalar. Quando você executa esse comando, ele instalará o colchete de ética
do Excel. Como alternativa, também podemos
acessar esta guia do pacote aqui. E precisamos clicar
no botão Instalar. E aqui precisamos
fornecer X como X, ok? E você pode clicar aqui Instalar
e ele será instalado. Portanto, podemos fazer de qualquer maneira, e os empacotadores XLSX
serão instalados. Esse pacote é necessário
porque precisamos
ler esse arquivo do Excel
por meio de nossa programação. E precisamos das
bibliotecas que estão embutidas no pacote excel. Então, basta clicar em Executar
e isso será feito. Ok. Então, o que eu vou fazer é simplesmente
cancelá-lo porque eu
já instalei este pacote. Basta clicar nele e
ele será instalado, ok? E você pode ir aqui e
fazer isso também. demorará quase
um minuto Seu tempo demorará quase
um minuto e este pacote
será instalado. A próxima coisa é uma ópera de
que precisamos mover essa coisa porque ela
ainda não está em nosso arquivo de script. Depois de instalar a
biblioteca ou o back-end, você precisa excluir essa linha. Ainda não vai para a luta de
bebidas alcoólicas Other Script. Então, a próxima coisa é que queremos
ler nossos arquivos de ética do Excel. E há uma função
nessa biblioteca. Então, precisamos carregar a biblioteca, precisamos carregar o pacote,
então usaremos a biblioteca e, em seguida manteremos o nome da
biblioteca XLSX. E então o que eu preciso, eu preciso usar a
função v dot XLSX. Isso significa que queremos ler um arquivo do Excel, um arquivo do
Microsoft Excel. E aqui, primeiro argumento, precisamos dar dinheiro
para dar o nome do arquivo. Então, na imagem final, os detalhes
do funcionário, pontilham XLSX. Ok? E então precisamos
dar o índice do assento,
índice igual a um. Ok? E isso, o que quer que estejamos lendo aqui através
deste Excel de ponto vermelho, estamos armazenando à vista ou
objeto dentro de um objeto. Dados de sublinhamento de funcionários, dados de sublinhamento de
E&P. Então, isso terá
todos os dados que estamos lendo
desse arquivo do Excel. E então nós
simplesmente imprimiremos isso. Então, deixe-me executar este arquivo e ver se estamos obtendo
o resultado aqui, ID do
funcionário, nome do funcionário,
salário, eles acabam
ingressando em um departamento. Então, esse caminho é bem simples. Podemos ler o,
podemos fazer com que os mais antigos acessem, podemos ler isso, certo? Então, muito simples. Carregue a biblioteca. Primeiro instale o pacote e,
em seguida, carregue a biblioteca. Em seguida, temos que ler o arquivo do Excel simplesmente
fornecendo o nome do arquivo do Excel. E temos que armazenar esses dados
em um objeto em um objeto. E então simplesmente
imprimimos esse objeto para ver o que esse
objeto está armazenando. Basicamente, ele armazena todos os detalhes
da planilha do Excel. Ok, espero que você saiba como podemos ler um arquivo do Excel. Assim, podemos ler um arquivo
do Excel usando função
read dot XLSX. E precisamos fornecer o nome
do arquivo do Excel. E então simplesmente obteremos todos os dados dentro
do arquivo do Excel. Portanto, o pacote é XLSX
que precisamos instalar. E precisamos carregar
a biblioteca XLSX antes de usarmos a função XLSX. Portanto, é assim que
podemos ler um arquivo do Excel, o arquivo do
Microsoft Excel, por meio de nossa programação. Você está dentro da próxima palestra.
26. Leitura de arquivo xml em R: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos como
podemos ler um arquivo XML
por meio de nossa programação. Então, escreveremos um código e através do qual
leremos o arquivo XML. Então, primeiro, deixe-me dizer qual peça. Arquivo Xml. Portanto, um
arquivo XML é um XML. Xml significa XML Extensible
Markup Language e
insere nós a chamamos de XML
Extensive Markup Language. E é
semelhante a reescrever HTML, linguagem de marcação de
hipertexto, você sabe, para escrever páginas da web
e tudo da mesma forma, XML Extensible Markup Language. É um arquivo de dados. E nesse arquivo, mantemos
os dados como um banco de dados, como também armazenamos dados
na planilha do Excel. Também armazenamos dados em um arquivo de
texto
e também no banco de dados. Da mesma forma,
armazenamos dados em arquivos XML, ou
seja, Extensible
Markup Language. É formatado como
um documento HTML, como em um documento HTML, usamos as marcações e tudo para armazenar o documento
da mesma forma. Xml também, usamos a marcação para manter os dados
dentro do arquivo. Mas aqui usamos tags personalizadas. Em HTML, tudo
é predefinido. Mas em XML, podemos criar
nossas próprias tags, como HTML. Temos que usar o antigo imposto de
idioma predefinido que é específico para o HTML, mas em XML podemos escrever nosso
próprio imposto, o que quisermos. Podemos criar uma tag para isso. E é por isso que você seleciona idioma
personalizado baseado em tags ou uma extensão de arquivo
naquele fim de semana. Vou arquivar uma
linguagem de marcação que podemos usar aqui tags personalizadas para definir objetos e os
dados dentro de cada objeto. Assim, podemos definir
o objeto personalizado e colocar os dados de
acordo com isso,
quaisquer dados que quisermos
portar para as tags, podemos fazer. Os arquivos Xml podem ser considerados como
um
banco de dados baseado em texto, como o MySQL. Usamos a juventude para manter os dados em formato de tabela e
bruto e decidimos que tipo de coluna queremos inserir da mesma forma.
É um banco de dados baseado em texto. Então,
agora o que vou fazer é não criar um arquivo
XML do zero. E eu quero usar os
mesmos nossos detalhes, os mesmos detalhes que
tínhamos em nosso arquivo CSV, detalhes do
funcionário ponto CSV
e, em seguida, limpamos o arquivo Excel com
pontos de detalhes do funcionário. Então, eu quero ter o
mesmo tipo de dados, os mesmos dados em XML ágil. Então, para isso, podemos
criar manualmente um arquivo XML. Caso contrário, também podemos usar este site de ferramentas de conversão
dot IO, onde podemos simplesmente navegar
pelo arquivo Excel e
convertê-lo em um arquivo XML. Então, deixe-me te mostrar. Então, quando você acessa este
site, ferramentas de conversão dot edu slash convert
slash Excel em XML. Então, nesta fase, quando
você vem aqui e nós, quando você navega e simplesmente coloca o arquivo Excel de
detalhes do seu funcionário aqui. Agora estou usando esse
arquivo XLSX de detalhes do
funcionário para criar um arquivo XML
com base nos dados desse arquivo. Então, você só precisa
selecionar o arquivo. E então temos que clicar
no botão Executar convergência para este arquivo do Excel seja
convertido em um arquivo XML. E isso levará alguns segundos e seu arquivo XML ficará pronto
automaticamente. Então, o que eu fiz, eu já baixei
esse arquivo XML aqui, arquivo xml pontos de detalhes do
funcionário. E vamos tentar
ler esse arquivo XML. É ter os
mesmos detalhes dos funcionários, certo? Então, tudo bem, então o que
eu fiz, eu o modifiquei e
guardei apenas para registros aqui. E se você ver o arquivo que acabei de criar dentro de
downloads e esse arquivo XML, você verá dados. Oito funcionários
identificaram isso. Está tudo bem? Então, assim, podemos fazer isso. Então, deixe-me copiar e colar
essas duas horas. Sim. Ok. Então, a Lake Rehab instalou o pacote XL XX
para leitura do arquivo Excel. Da mesma forma para
ler o arquivo XML, precisamos instalar
o pacote XML. E para isso, precisamos usar install.packages e fornecer o nome do pacote XML. Como alternativa, podemos
acessar o pacote de instalação e aqui podemos fornecer
o nome do pacote XML. E precisamos clicar em Instalar
e ele será instalado. Portanto, não vou
reinstalá-lo porque já o
instalei. E se você ainda não o instalou,
basta executar esta
linha ou você pode vir aqui e fornecer o XML aqui, e você pode clicar em Instalar, e levará alguns segundos
para instalar o pacote, ou quase um minuto para
instalar o pacote. Depois que o pacote estiver instalado, precisamos remover essa linha porque o pacote
já está instalado. A próxima coisa é que precisamos carregar
o pacote ou biblioteca XML. Então, precisamos usar o comando ou precisamos usar a biblioteca de
scripts. E precisamos fornecer
o nome do pacote. Então, precisamos carregar o
pacote, ok, então biblioteca. E precisamos fornecer o nome
do pacote XML. Portanto, todas
as funções necessárias para
ler o arquivo XML serão gravadas
dentro dessa biblioteca XML. E que todas as funções
embutidas serão nosso nível para nós. A próxima coisa é que precisamos e também
os métodos da biblioteca. Isso é necessário para
esse pacote XML. Ok, e a próxima coisa
que precisamos fazer, precisamos usar a
função XML parse. Arquivos XML são uma função
necessária para ler ler um arquivo XML. Então, usaremos o XML
parse e precisamos fornecer o
nome do arquivo XML. Portanto, arquivo igual ao nome do arquivo. Então, nossa imagem final, detalhes do
funcionário dot xml. E precisamos, o que quer que ele obtenha
desse arquivo XML, precisamos armazená-lo
dentro desse objeto de
detalhes do funcionário. Porque em R precisamos
armazenar tudo dentro de um objeto, como
variáveis, você pode dizer. Então, simplesmente detalhes, variáveis ou objetos manterão
o que somos. Obtemos desse arquivo, arquivo XML por meio dessa função de análise
XML. Portanto, agora todos os detalhes
desse arquivo xml de
pontos de detalhes implícitos serão armazenados nesse objeto. Agora precisamos
imprimir esse objeto. Então, deixe-me correr até aqui. Ok, deixe-me ver aqui. Ele está imprimindo o
arquivo XML como um acordeão. Bly implica ID1 e Glassdoor data
salarial de
ingresso no departamento. Ok, então veja aqui essas são as tags definidas pelo usuário que criamos
para nosso arquivo XML. Ok, vejo todos
os detalhes que estamos obtendo para que possamos ler
o arquivo XML desta forma. Xml analisa a função para ler o arquivo XML em C. Ou podemos usar a
função XML food node, o nó raiz do arquivo XML. Portanto, estamos solicitando o nó
raiz e passando
os detalhes do
funcionário, o objeto de detalhes de sublinhado do
E&P para o nó raiz e, em seguida,
imprimiremos esse nó raiz. Então, deixe-me executar essas duas linhas. Se eu colocar o nó raiz um, ele me dará a rede de
detalhes do primeiro nó implícita em ID1. Se eu colocar um dos dois, ele me dará o nome. A primeira fila para ver você empregar o nome Priyanka
Rostow do primeiro nó. Se eu adicionar dois
ao que vou receber,
obterei o nome
do segundo
que implica que é a identificação do funcionário. O nome do funcionário é. Assim,
podemos acessar cada nó. Eu posso colocar três de um. Suponha que três em cada três recebam o salário do jogo
com alcatrão, certo. E da mesma forma que podemos
descobrir quantos nós existem, quantos Norths existem
em nosso arquivo XML para isso, podemos usar o tamanho do XML
e fornecer o objeto do nó raiz que
obtivemos da raiz do XML. Então, quando
executarmos isso, concluiremos o número do norte. Então, deixe-me imprimir isso. Número quatro porque
esse arquivo do Excel que
eu guardei apenas
para o empregador é. Então, está nos mostrando que
existem quatro Nortes. Temos quatro nós quando implícitos, um em brilhante para empregar
D3 e ID de funcionário. Então, ele está nos dando o que está
ao norte no arquivo XML. Agora, o principal é que,
quando obtemos esses dados, podemos ler dados
XML através R. Precisamos convertê-los
para o DataFrame porque é muito fácil ler ou manipular dados quando estão no formato
DataFrame, certo? Então, em Are, há uma função
chamada XML to DataFrame. Isso significa que tudo o que temos
neste arquivo xml de
pontos de detalhes do funcionário, podemos convertê-lo
diretamente em DataFrame de trabalho
usando a
função XML para DataFrame e todos os detalhes. Nós o armazenaremos no
DataFrame de sublinhado do
funcionário e, em seguida,
poderemos imprimi-lo e veremos que ele
virá como o DataFrame. Então, deixe-me fazer isso e ver
agora todos os detalhes estão em tabular ou em
formato DataFrame em
nosso departamento e
planejamento de dados salariais de funcionários seniores, nome do
funcionário e dados salariais. Então, com isso, com essa
única linha de código, podemos converter um arquivo XML em DataFrame
na programação R. E isso é muito
útil quando fazemos nossa análise exploratória de dados aprendizado de máquina
e ciência de dados. Assim, podemos converter facilmente arquivo
XML em um DataFrame
e, em seguida, podemos prosseguir com
a análise dos dados ou a maneira como queremos criar gráficos
, toda a plotagem e tudo mais. Então, todos esses tipos de análise que
podemos fazer neste DataFrame. Portanto, é muito fácil fazer todas essas coisas em
nossa programação. Espero que você tenha entendido
como podemos ler um arquivo XML. Como descobrimos que, como, quantos nós existem
com esse tamanho de XML? E então, como podemos
converter um arquivo XML nosso DataFrame em R usando
XML para DataFrame, certo? Então é isso para esta palestra. Nos vemos na próxima.
27. Leitura de arquivo JSON em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos como
ler arquivos JSON em
nossa programação. Então, o que
faremos, aprenderemos o que é arquivo JSON e criaremos um arquivo JSON. E, finalmente, tentaremos ler esse arquivo JSON
por meio de nossa programação. Então, vamos começar. Então, primeiro devemos
saber o que é um sulfito. Portanto, Jason significa
JavaScript Object Notation e é um formato de arquivo
padrão de código aberto. Portanto, é um formato de arquivo
padrão aberto e um formato
de intercâmbio de dados. Então, basicamente,
o formato de arquivo de Páscoa também e o
formato de intercâmbio de dados também. Isso significa que podemos armazenar os dados e usá-los para a
troca de dados. Além disso, você é apenas um texto
legível por humanos. Nesse caso, escrevemos texto
legível por humanos para armazenar e
transmitir objetos de dados que consistem em pares de valores de
atributos. Isso significa que será como se fôssemos primeiros pares de valores-chave,
todas essas coisas do site. Se você conhece o MongoDB ou
qualquer banco de dados sem sequências, deve saber
que há um banco de dados de documentos
onde mantemos armazenamos dados na
forma de pares de valores-chave. Portanto, haverá uma chave
e, para essa chave, haverá um valor
correspondente da mesma forma, apenas nos pares de valores do
atributo. Isso significa que haverá um
atributo e esse atributo, haverá um atributo, pares de
valores e tipos de dados
adicionados. Basicamente, também quaisquer outros
valores, e basicamente editei esse tipo. Então, espero que você saiba o
que é Jason em teoria, me
diga como podemos
criar um arquivo JSON. Então, até breve. O arquivo é muito simples. Precisamos colocar dados dentro
desses colchetes. E dentro dos colchetes, o que faremos é usar esse par de
valores-chave para armazenar dados. Então, suponha que o que
eu faça é armazenar os mesmos dados desses
funcionários apenas. Vimos como armazenamos
isso em um arquivo CSV como aqui. E então vimos
como podemos
armazená-lo em um arquivo do Excel. E então vimos como podemos armazenar isso em um arquivo XML. E agora veremos
como podemos armazenar os mesmos
detalhes do funcionário em um arquivo JSON. Então, como eu disse, você viu o melhor truque de formato de
arquivo. Aqui, ID de funcionário. Todos os IDs de funcionários, vou armazenar em uma
matriz de um a oito. Então, todas as
identificações de funcionários de uma a outra, como se tivéssemos oito carteiras de funcionário. Então nós temos, nós
restauramos todos aqueles que estavam lá dentro. E atribuímos que o
nome do atributo é ID do funcionário, e os valores são de
um a oito, certo? E esse cólon é o lado
esquerdo do cólon. Esses colonos que separam a chave e o valor são
atributo e valor. Portanto, o lado esquerdo das colônias, ID do
funcionário e o
lado direito são o valor correspondente. Da mesma forma que temos o nome sublinhado do
funcionário, que é um atributo e
todos os nomes dos funcionários, essa Priyanka
corresponderá a isso, implicando qualquer um ou, para
os dois últimos, se eu gosto do React ainda
existem as partes
um a quatro, para minha pressa, para o que você
está vendo assim. Ok, então estamos armazenando
a matriz salarial, depois armazenando
o treinamento
de dados nela e depois o departamento nela. Dessa forma, no departamento, podemos colocar dados
no arquivo JSON e eu salvei esse ponto JSON de
detalhes de funcionários do Azure. Agora sabemos como armazenamos
dados no arquivo JSON. Então, a próxima coisa é que
vamos tentar ler isso, obter dados de arquivos
por meio de nossa programação. Então, vamos fazer isso. Então vou abrir,
já escrevi o código. Então, vou abrir o
arquivo JSON de leitura que escrevi. E para isso, precisamos
instalar o pacote. Nossos convidados sobre isso, sobre esse back-end que o
Ministro instalou. Ou você pode instalá-lo
executando essa linha de código. E você pode acessar
o pacote de instalação. E você pode colocar
aqui ou este. E você pode clicar em Instalar e ele
será instalado. Portanto, você também pode usar esse script de
comando. Então precisamos usar a
biblioteca ou o axônio. E então precisamos fornecer
o nome do arquivo JSON. E o nome do arquivo JSON são
os detalhes do funcionário em relação à Sun. E aqui vamos usar uma função desta
biblioteca que é Jason, que é de Jason. Isso significa que vamos ler os objetos a
partir de nossos detalhes, dos detalhes
do funcionário,
ponto js neste arquivo JSON, arquivo igual ao
nome final que você precisa fornecer. E isso da função JSON
lerá os dados
desse arquivo JSON e tudo o que ele lê
realmente armazenado
neste objeto, os detalhes do
sublinhado E&P. Então, vamos simplesmente imprimi-lo. Então, deixe-me te mostrar aqui. Deixe-me fazer isso e ver aqui está lendo os
dados, como ID do funcionário, nomes de
um a oito funcionários. Esses são os funcionários com o
nome do salário
e, em seguida, vem a data de ingresso e depois
os departamentos. Então veja aqui como vivemos com uma linha de código de
apenas uma função simples. E estamos apenas
fornecendo o nome do arquivo e ele está lendo todos
os dados do arquivo JSON. A próxima coisa é agora
com este fim de semana. Imprima os dados. Então, podemos ver aqui que ele está imprimindo os dados
do arquivo JSON. Agora, como sabemos em nosso, é muito fácil e
é muito recomendável obter os dados no
formato DataFrame. Portanto, podemos simplesmente agora os dados do arquivo JSON estão
neste objeto nos detalhes de
sublinhado do E&P Podemos convertê-los
no DataFrame
usando um quadro de pontos de dados escuro ágil. Então, quando usamos essa função as.data.frame e
passamos esse objeto apenas obtendo
documentos de arquivo mais antigos ou os dados. Esse objeto está obtendo todos os detalhes
desse arquivo JSON. E quando passarmos esse objeto de varejo do funcionário
para o as.data.frame, ele converterá esses dados. Agora, o formato é assim. Ele pegará esses dados
e os converterá em um DataFrame em R. E estamos restaurando esses
detalhes de nosso DataFrame no quadro de sublinhado de dados de
sublinhado do E&P. E quando imprimirmos isso obterá os dados em formato DataFrame. Então, deixe-me fazer isso. Veja aqui que agora estamos
obtendo dados em nosso formato DataFrame
em R. Portanto, é muito simples que
possamos ler esse arquivo
JSON com a função
from JSON. E então simplesmente
passamos esse objeto, que está obtendo todos
os detalhes
dos detalhes do funcionário ou do
sol, e
o convertemos no DataFrame usando essa função simples
as.data.frame e passando esse objeto. O que esse objeto JSON, ou um objeto Python que
carrega os dados
do arquivo JSON, é carrega os dados
do arquivo JSON, um DataFrame em R. E simplesmente
podemos imprimir essa mão CEO, como é lindo se
transformar em um DataFrame. Dessa forma,
podemos ler nosso
arquivo JSON e converter os dados
desse arquivo JSON em um
DataFrame na programação R. E para isso, podemos
usar esse DataFrame para analisar os dados e
fazer processamento adicional, criar gráficos e
tudo o que você quiser
fazer , você pode fazer com
esse DataFrame. Então é assim que podemos ler o arquivo JSON usando
nossa programação. Nos vemos na próxima palestra.
28. Criando gráfico de barras: Olá e bem vindo de volta. Então, nesta aula,
aprenderemos sobre outro gráfico ou
gráfico de visualização que podemos
criar usando R. E isso é gráfico de barras
ou gráfico de barras, como você pode ver, gráfico de barras. gráfico de barras, um gráfico de barras ou um gráfico de barras é um
dos tipos mais comuns de visualização
gráfica
que você deve ter visto em seu escritório ou em
seus projetos e tudo mais. Sempre que tentamos visualizar
uma previsão de algo, usamos o gráfico de barras. E quando você vê esse gráfico, ele é um gráfico de barras. E você perceberá
que deve tê-lo usado muitas e
muitas vezes, certo? Também poderíamos obter o mesmo tipo de gráfico de barras em nosso
Microsoft Excel. E quando tentamos
visualizar algo, mesmo quando desenhamos algo
em papel e caneta. Para visualizar algo,
provavelmente desenhamos um gráfico de barras. Portanto, o barplot é um
dos tipos mais comuns de visualização
gráfica. E é em relação à
relação entre uma variável numérica e
categórica. Então, o que isso significa? Isso significa que o CEO, o a, B, C, D, esse eixo x será como algo
muito categórico. Agora, o que são
semanas ou dias em uma semana? Como domingo, segunda,
terça, nosso mês de janeiro, fevereiro, março, abril,
maio, junho, assim. E esse eixo y será a representação numérica desses
meses, como a receita de uma organização
ou o salário dos funcionários. Então, nesse eixo x, ABC,
serão os funcionários, e esse será
seu respectivo salário. Então esse excesso lerá a parte numérica
e essa será a parte categórica, certo? Portanto, cada entidade
da variável de categoria é
representada como uma barra. Então esse é o bar. E é por isso que é
chamado de gráfico de barras, porque o valor numérico
está sendo mostrado como uma barra. Então isso é ótimo, é conhecido como gráfico de barras e
o tamanho da bateria
apresenta o valor numérico. Portanto, esse tamanho é representado como se estivesse
em algum lugar ao virar. Isso é algo em torno de 13, isso é algo em torno de sete, e isso é algo sozinho, nove, e isso é uma decisão. Portanto, o valor E é 15, o valor
b é sete, valor
c é nove, o valor é oito. E esse valor e é 13. Então, assim. Esse tamanho do corpo representará esse valor
numérico. Se ABC ou funcionário, esses são seus respectivos
salários, certo? Dessa forma, podemos usar
o gráfico de barras e em R
podemos desenhar o gráfico de barras simplesmente
usando a função de gráfico de barras. Então, função de gráfico de barras. E dentro da função,
forneceremos apenas alguns, mas amadores e nossos dados. E ele criará o gráfico de barras,
esse gráfico de barras de função
para criar gráficos de barras. Podem ser barras verticais
e horizontais. E a sintaxe é barplot e
usará o argumento th. Essas bordas serão o
vetor, o vetor de dados. O vetor que
conterá todos os dados. E esse xlab é o eixo X, Y é o eixo y, assim, , B, B, C, D será o eixo x, xlab e y serão o
eixo y, esse principal. E então o nome
boi será o, vai ver o que é isso? Ou seja, esse será o
mesmo nome desse tipo. 123, tipo, deixe-me dizer isso. Esses zero a 14, como o
salário do funcionário, serão os dados. E esses nomes que são
serão o nome dos implícitos. Ok? Então, essa borda
e esse nome ambos os vetores tenham fazem com que
ambos os vetores tenham o mesmo número
de dados, certo? O mesmo número de operadores de
número de dados
seria o mesmo na borda chamada start. Ok, OK. Veremos esse HE, o vetor ou matriz que contém o valor numérico
do gráfico de barras. Como eu disse, xlab é
o nível do eixo x. Por que o amor está no nível do eixo y? E principalmente o título do ônibus. Então, aqui com isso,
daremos o título
do gráfico de barras, como o salário do
funcionário. E então chamado start argumenta um vetor de nomes que
aparecem em cada parte, como eu disse, para essa barra, essa barra b como aquela. Ok? E a chamada
é usada para manter as cores nas barras como aqui recebemos cores
diferentes. Então, se você quiser criar
um gráfico colorido, usamos a chamada. Argumento, Ok,
Henry, passe isso. Ok. Então, aqui está um exemplo
simples. O que estou fazendo
aqui. Estou criando um novo vetor e ele
conterá isso, esses
muitos números. Ok? Então esse vetor conterá esses muitos
números, ok? E eu quero criar
um gráfico para isso. Então,
o que vou fazer simplesmente
criar esse vetor Q
e passar essa função de plotagem de
duas barras do vetor Q. E isso criará
o gráfico de barras para nós. E este,
arquivo PNG igual a b, não um PNG igual
ao nome do arquivo. Você pode criar um arquivo
de imagem no gráfico ou no gráfico de barras e
salvá-lo em seu sistema. E para isso, usamos
a função PNG. E dentro disso,
usaremos o arquivo Col2 e qualquer nome do arquivo você queira dar e que
você possa dar aqui. Portanto, com base nesses dados,
ou carta será criada e os dados do gráfico serão salvos
neste arquivo de imagem. E então usaremos a função de gráfico de
barras para desenhar o gráfico por barras para nós. E então dev.off
significa que salvaremos o arquivo e ele será
gravado em nossa máquina local. Então, vamos ao RStudio
e executar esse código. Então, aqui estou criando um
vetor para entrada de dados. Portanto, com base nesses dados, o gráfico de barras será criado. Agora estou criando um arquivo para
escrever o gráfico de barras nele. Estou dando um arquivo PNG igual a e aqui você
pode dar qualquer nome. Você pode dar abc, abcd, não PNG, qualquer nome que
você quiser, você pode, ok? Então eu vou dar um gráfico de barras a, b, c ,
d, ok? E então vamos usar o
gráfico de barras para criar um gráfico de barras, e então vamos salvá-lo, certo, dev.off, salve o arquivo. Agora vou analisar tudo e ver se, por algum motivo estranho, o terreno não
está sendo vendido aqui. Mas, como você vê aqui, agora, nosso gráfico de barras
foi criado. O arquivo foi criado aqui. vejo. Então, tudo bem, 12345678 entradas, certo? E aqui temos 12345678. O mais longo é
9.001,99 mil. Dessa forma, podemos fornecer um
gráfico de barras duplas. Então, esse é um gráfico de
barras simples que
criamos com base
nesses dados, certo? A próxima coisa que podemos fazer ir um pouco
mais longe e
tentar criar algo
mais interessante. Eu vou ter, então
o que fiz aqui foi criar dados como B, um vetor ou
um dado
que contém os bebês nascidos em
cada mês, como B conterá o vetor V
conterá os bebês nascidos em meses como
janeiro de 5.600, fevereiro a março, 7.800 bebês nascidos
assim até o verão. Ok. Portanto, esses são os dados de 12 meses para os bebês nascidos em
um determinado mês. E então, esse é
o valor numérico. E, e o que estou fazendo, estou criando outro vetor M, que conterá o nome do
mês, certo, para cada valor, o vetor correspondente do nome do
mês estou criando, que é janeiro, fevereiro, dezembro,
ele conterá, ok, então isso está claro. Estou criando o
valor numérico aqui e o nome cada barra que estou criando aqui para janeiro,
fatorial 600 desse tipo. Ok? Então eu estou criando um arquivo, baby born dot PNG. E estou passando esse
objetivo final para a função PNG de pontos. Ok, coletando o
gráfico do duto, o nome do arquivo de imagem. E então,
o que estou fazendo simplesmente traçar o
gráfico de barras com base nesses dados. Ok? Então, o que eu estou fazendo é forçar a usar o valor V. Então, estou inserindo os dados
como, com base nesses dados, quero criar um gráfico de
barras, ok? E então names.org significa que, para nomear cada barra, estou
passando esse vetor m. O vetor M está se espalhando
em janeiro e fevereiro. Portanto, o eixo x será
janeiro, fevereiro e o eixo y será o número de bebês nascidos
em um determinado mês. Então xlab, vou lhes
dar um mês. E no meu laboratório, vou dar fiança a
bebês nesse mês. Então, a cor que estou dando é verde. E principal significa
atingir o gráfico. Estou dando um gráfico de títulos para bebês. E depois para cada barra. Estou dando um mínimo, ok, e depois estou salvando o arquivo. Então, deixe-me fazer isso. Ok, então eu
fiz isso corretamente. Vamos ver isso, o sênior, agora temos outro arquivo. O bebê nasce ponto PNG. Agora. Temos isso em janeiro, fevereiro, março, abril,
maio, junho e julho. Foi assim. E aqui temos os dados de
talvez títulos do lago de janeiro, algo
em torno de 5.000 bebês nascidos
em fevereiro em algum lugar para diluir,
algo assim. Ok. Portanto, a maioria dos bebês nascem
em novembro e depois em julho. Ou seja, ao ver
esse gráfico de barras, podemos conhecer essa norma. Qual é o mês em que nasce o
maior número de bebês e depois disso? julho. Então julho e número, primeiro número e
depois segundo é julho. Veja aqui o dia 7 de julho de 304. Agora, amigo 9.800. Comecei em 9 de julho
e chego a 9.800. Então, dessa forma, podemos me
dar o apoio. Eu quero mudar
essa cor para vermelho. E se eu executar isso, veja como nosso gráfico é
convertido para leitura, certo? Você pode ver que há uma pequena
borda com cor amarela. Deixe-me mudá-lo para
verde para que possamos ver se pode ser cedo ou
limpá-lo e executá-lo novamente. Esse arquivo, veja, agora
está ficando limpo. O Barnard é verde. Dessa forma, podemos criar um gráfico de barras ou um
gráfico de barras usando ímpar. Então, espero que esteja claro para o número e para
o nome, name.org. Estou passando esse vetor m,
esse vetor m e B e destacando
outro vetor de entrada principal. E então xlab, mês. E por que bebês de laboratório nascidos e
coloridos de vermelho podem ficar sem carga. Batendo no mapa do bebê
e a mamadeira é verde. Em seguida, dev.off salvará o
arquivo em nossa máquina local. Então, espero que esteja claro como podemos criar um gráfico de
barras simples e como
podemos criar esse
tipo de gráfico de barras. Então, vimos como se
tivéssemos criado isso. E então temos o de
James para ler, escrever, e também criamos
esse gráfico de barras simples. Dessa forma, podemos criar
um gráfico de barras, certo? Nos vemos na próxima palestra.
29. Gráfico de barras empilhado em R: Olá e bem vindo de volta. Então, nesta palestra
que vamos desenhar, vamos visualizar um gráfico de barras muito interessante que nos dará uma riqueza real
muito boa. O que está acontecendo em uma
organização como a trimestral, que eles cobram por região? Como podemos traçar usando o gráfico de barras. Isso é o que vamos ver. Então, para fazer isso, o que eu fiz,
trimestralmente, a criança, o que cada mês na verdade, o que eu fiz, eu
criei uma matriz, ok? Então, eu tenho toda essa receita que não mantive
dentro da matriz. Então, criei uma matriz com a receita por quatro meses. um, trimestre, dois, trimestre três trimestre quarto, trimestre, um trimestre, dois, trimestre, três, quarto quarto. Então, esses nichos são o que cada trimestre e quatro
trimestres existem, certo? Então, para cada trimestre, essas são as receitas. Ok? Então eu criei uma matriz,
e o que vou fazer passar essa matriz como um dado
de entrada para o nosso gráfico de barras. Então, estou passando o M aqui e depois a receita total
principal. E então chamado de início a
trimestre, estou passando de trimestre. Trimestre. Trimestre é um vetor
que contém o valor Q1, Q2, Q3, Q4. Ok? Então, essas barras L também, names.org, e então
xlab será quarter, o nome e as pernas brancas. A vida selvagem será a receita. E depois colorido. Vou passar. Outro vetor. Cores para as quais eu quero desenhar. A parte inferior
ficará colorida. Depois de desenhado, vou
explicar quatro cores. Eu criei um vetor e
ele é de valor contínuo, azul, rosa, amarelo e verde. E depois o trimestre.
E então, o que eu fiz, eu criei as regiões, regiões como leste,
oeste, sul, norte. Ok? Então eu também tenho tudo bem, e a matriz, que tipo criou quatro linhas
e quatro colunas. E estou fazendo um arranjo desenvolvido por
rock e descobrindo o que
estou fazendo pela legião. Estou adicionando a legenda
também no canto superior esquerdo. E o que eu sou muito tolerante, estou dando à região deles
são cores preenchidas. região vê esta região ao sul, leste, oeste, sul, norte. Ok. E estou sentindo com as cores, cada
cor também. Sim. Ok. Então, deixe-me fazer isso primeiro. Então veja aqui, essa
é a matriz e veja qual é a receita trimestral. Então, esse tipo de gráfico de barras ou gráfico que estamos recebendo aqui
para o primeiro trimestre. Este é o trimestre TO, este é o resultado ou driver novo quadrado três isso
e quarto quatro, essa coisa aqui, esse
azul, rosa, amarelo e verde para essas cores, eu criei um
teorema da lenda e dizendo que azul é para a região sul, amarelado para cada região. E verde é para a
região oeste e não para a região rosa. E o sul é azul, esse amarelo
é assim? Ok, então, vendo este
gráfico ou o gráfico de barras, podemos encontrar
facilmente os resultados trimestrais digitais para cada região. Sul. Essa é a
receita do primeiro
trimestre da mesma
forma para o Norte, essa é a receita
para o leste. Essa é a
receita do segundo trimestre, trimestre, três, trimestre,
quatro, assim. Portanto, é muito fácil encontrar e visualizar coisas
usando o gráfico de barras, certo? E como nós, primeiro, criamos
nosso vetor de cores, depois um quarto vetor, e
depois vetores de região e depois reagentes que
usei na legenda. E as métricas foram atualizadas
quatro por quatro. Ok. E aqui estou criando um arquivo PNG de pontos de receita
trimestral. E aqui estou passando
o trimestre, este trimestre como um
nome e depois Novo, e estou preenchendo as cores
ignorando o vetor de cores. Dessa forma, podemos
obtê-lo Placa quais camadas e usando nosso gráfico de barras. Ok? Assim, você também pode brincar
com seus dados e tentar criar um gráfico de barras
bonito, bonito e colorido. Stevens citou a próxima palestra.
30. Boxplot em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos
sobre o enredo de caixas. O gráfico de caixa é um método para representar
graficamente
grupos de dados numéricos
por meio de seus blocos silenciosos. Eu vou te dizer quais
são esses quartis? Então, é basicamente um
filho gráfico de dados numéricos. Agrupe
dados numéricos como fazemos em um gráfico de barras e
tudo da mesma forma. O Boxplot também está lá. Mas nisso, representamos
um grupo de dados em uma caixa. Então, será tropical, mas será uma caixa enquanto
você gosta do gráfico de barras. Temos barras de
dados e agrupamos uma versão beta. Aqui. Teremos o laboratório, a caixa dos
dados do Grubhub e os boxplots medem o quão bem distribuídos nos
dados, no conjunto de dados. Então, será
como um grande quatro. O problema é como os dados
serão distribuídos nesse
conjunto de dados, certo? Então, veremos quando
desenharmos o boxplot. Deixa eu te dizer mais uma coisa. Os boxplots medem o quão bem distribuídos os
dados no conjunto de dividem os dados
em três quartis. Então, quais são esses quartis? Como você pode ver nesta foto, existem três quartis. Um é quartil um
e quartil dois, e esse é quartil três. E essa é a faixa
interquartil. Este gráfico
representa os quartis mínimo, máximo, primeiro
quartil e terceiro quartis. Então essa parte C, essa é a caixa de dados do SAP, ok? E esses ventos são
discrepantes neste ponto, e esse ponto é
que eles são de classe, esse é o mínimo discrepante. E isso é o máximo
de brilho, certo? E entre essa caixa e a linha azul,
aqui está a mediana. Essa é a mediana de todo
o conjunto de dados. Portanto, esse é o valor mediano e
mediano de todo
o conjunto de dados. E esses são o valor mínimo
e o valor máximo da
classe antiga . E essa linha azul
é a mediana. E esse é o máximo de dados
que está próximo da mediana. Então, esses são outros dados
úteis, na verdade. Então isso é mínimo,
isso é máximo. E esse é o
intervalo de ano para ano, esses dados interquartis, e
este é conhecido como Q1. Quartil Q1, primeiro quartil, e isso é conhecido
como terceiro quartil. O primeiro quartil, o terceiro quartil
e o primeiro quartil, eu beneficiário, percentil e terceiro quartil,
ou 75º quartil. E em R, usamos
a função
boxplot para desenhar ou desenhar nosso gráfico de caixa. E, dessa forma, forneça
aumentos semelhantes, como dados X, não com nomes e Maine. Então eu vou te dizer o que
são essas coisas? Então X é um vetor ou fórmula. Então, aqui x é um
vetor de fórmulas. Então, veremos que
basicamente mantemos Bu, coisas para liberar que
são fórmulas relacionais na qual o gráfico da caixa será desenhado. E então os dados,
obviamente os dados a partir dos quais vamos desenhar
essa relação, edX, escrevem a fórmula x. Então, essa é a fórmula ou relação na
qual vamos desenhar os dados e
desenhar o gráfico. E esses são os dados, dados
reais dos quais
obteremos essa
fórmula ou um vetor. E o entalhe é um valor lógico. Definido como verdadeiro para desenhar, nada
verá o que não é daqui a pouco. Primeiro, deixe-me dizer
o significado disso. Aprimoramentos. O que é. Os valores lógicos definem S2 para desenhar a
largura da caixa proporcional
ao tamanho da amostra. Então, água com, se for configurada
através dessa caixa, o tamanho
será proporcional a todo
o conjunto de dados, tamanho de todo o conjunto de dados, ok? Portanto, se não for verdade, não será proporcional
a todo o conjunto de dados. Ok? O próximo é o nome. Os nomes são o grupo de etiquetas que serão impressas
sob cada boxplot. Então, este é um boxplot. E para isso, se você
quiser dar algum nome, você pode dar isso por meio
do argumento dos nomes. E Maine obviamente
é o nome do Graph. Ok, então o título do gráfico
que podemos dar com a média. Agora vem o que não é. Os entalhes nas laterais
do gráfico de caixas podem
ser interpretados como uma empresa e depois um intervalo
em torno do valor médio. E a altura da mediana idiota dos
nazistas mais ou -1,7 em IQR dividida
pela raiz quadrada de n, onde IQR é a faixa
interquartil. Vimos o que é intervalo
interquartil. Portanto, esse é o intervalo
interquartil entre o 25º e o 75º percentil. Essa é a faixa
interquartil. Então, basicamente,
esse é o valor n, ok? Onde IQR é a faixa
interquartil definida pelo 25º
e 75º percentil. E Yan é o número dos pontos de
dados no conjunto de dados. número total de
pontos de dados no conjunto de dados é N. E você pode ver aqui este é o gráfico da caixa e esta é a saída
máxima e discrepante. Esse é o valor mínimo, e esse é o valor
médio, certo? E esse é o 25º
percentil ou Q1, e esse é o 75º
percentil, que é Q3. E esse valor, essa coisa, o nono e o não, isso é conhecido como “
não”. Esse valor
daqui para cá é conhecido como entalhe. Notch é o
intervalo de confiança de 795 da mediana. Ok? Então, da mediana, essa é
a mediana e isso, e esse valor
será conhecido como entalhe. Ok? Então, quando você coloca
não igual a verdadeiro, você pode ver essa
curva nessa coisa. Se você colocar um
entalhe diferente de dois, verá uma linha
reta aqui. Isso não, não estará lá. Ok? Então, dessa forma, ver aqui
neste entalhe é falso. Então você verá
como esse boxplot, e se você colocar “não
igual a verdadeiro”, você obterá esse entalhe. Bem, isso significa que a maioria
dos dados aqui estará, estará próxima da
mediana e
será um intervalo muito confiante dos dados, como o valor
mediano é esse e esse mais e menos
deles médio, como aqui. Os
pontos de dados concentrados estarão próximos da mediana e
representarão esses dados verdadeiros, certo? Então, agora temos a compreensão básica
do que é boxplot, o que é um título silencioso,
o que é outliers? E qual é o quartil mínimo e o que são quartis máximos? O que é intervalo interquartil? E o que é Q1? 25º percentil, e Q3 é
o 75º quartil, ok? E esse é o valor médio. Então, veremos na próxima
palestra como podemos desenhar um boxplot com base
nos dados que temos
em nossa Estelle Blake.
Vamos usar mt cars, Vamos usar mt cars, que é um conjunto de dados real
que está disponível dentro da embalagem
do carro ou o ADA dentro da
placa de arte para se reinicializar. E usaremos esse conjunto de dados de
carros vazio para desenhar o gráfico da caixa com base
no MPT e no
número de cilindros. Então, nos vemos
na próxima palestra.
31. Boxlot usando conjunto de dados de mtcars: Olá e bem vindo de volta.
Nesta palestra, vamos desenhar um gráfico de caixas, ok? E vamos usar conjunto de dados de carros
vazio que já
está disponível
em nossa distribuição. Portanto, sabemos que precisamos
baixar esse conjunto de dados. Ele já está embutido em nosso ambiente
ou em nossa distribuição. Então, podemos
usar isso diretamente e
tentar apresentar os dados dos
carros vazios em um boxplot. Ok, então vamos ver
como podemos fazer isso. Então, primeiro, deixe-me mostrar
o que há naquela caixa. O que é isso nos carros vazios. Então, primeiro, deixe-me pagar para
acessar o. No entanto, criarei uma entrada de dados e carros
vazios que já uma entrada de dados e carros
vazios que já
estão disponíveis
no interior. Estranho e um malvado. E o que eu vou fazer tentar executar isso
e ver o que está lá. Deixe-me imprimi-lo. Aqui. O carro vazio, nosso conjunto de dados e doenças, como
um laptop, proteções que Martha exporta o traço
1017 ordenado para Dr. Riley e a equipe de
pesquisa de desktop devem cidades e todos esses cartões, detalhes estão lá, como
milhas por galão. O que é a mielina? Cada
carro, milhas por galão. E então o número
de cilindros,
os motores do motor terão
o número de cilindros, como se tivesse 2468, número de
cilindros no motor. E depois deslocamento, HP. Qual é o ponto de acesso e o peso de
arrasto dos carros? Todos esses parâmetros
são fornecidos aqui nesses dados que são carros vazios. Então, o que vou usar, não
vou usar
o conjunto de dados inteiro. Vou usar C, D e E. Eu recebo uma milhas Lee por galão
e número de cilindros. Ok. Então, para isso, o que eu vou fazer. Ok, então vamos usar esses 2 mi por galão
n de cilindro. Ok? E o que eu vou fazer imprimir e depois
vou imprimir uma cabeça enorme. E então eu passo essas entradas de
dados para que
possamos ver o que vem. Deixe-me percorrer essas
duas linhas e ver. Agora estamos colocando os
carros e sua quilometragem, milhas por galão e número
de cilindros nisso. Eles estão na cadeia. Então, esses dois detalhes que estou
obtendo com
isso, ok, agora vou
usar essa entrada de dados, que transportará as milhas por galão e cilindro numérico. E vou tentar
desenhar nosso gráfico de caixas. Ok, então a primeira
coisa que vou fazer criar um arquivo PNG
para armazenar o gráfico em um arquivo e fazer com que um arquivo enorme
igual a Allen desse algum nome, como carros vazios, box plot dot PNG. Ok. Então, vou dar o nome do arquivo como caixa de carros
vazia plot dot PNG. E agora o que vou fazer, vou tentar desenhar o boxplot e fazer
dieta e perder o boxplot. E aqui o que vou fazer, darei duas milhas MPG por galão com o
número de cilindros. Ok. Então, eu vou
desenhar, vou
criar um gráfico de caixa entre esses mpg e o número
de cilindros. Ok? E então o que eu vou dar, vou dar dados de
acordo com essa entrada de dados,
nossos carros vazios. Então, vou manter os dados
iguais aos carros vazios. Certo? Então. O que precisamos para manter o Next, precisamos obter o xlab. O que isso será feito?
O que queremos escrever? Escreverá o
número de cilindros do X Lab. E por que o laboratório será branco? O laboratório será de mpg
milhas por galão. Ok. Então, a próxima coisa,
o que manteremos, manteremos o principal igual
aos meus pequenos dados. Dados. Mais difícil dará
cartas mielinizadas. Ok. Em seguida, salvaremos o arquivo. Ok, dev.off. Ok. Então,
o que estamos
fazendo aqui é criar um gráfico de caixa, mpg e número
épsilon n para o carro, e estamos usando o
conjunto de dados carros vazios e o eixo x serão numerados cilindro e o eixo y
será milhas por galão. E o nome do gráfico
será carros, dados de quilometragem. Ok? E deixe-me fazer isso. Ok. Ok. Então este é o nosso gráfico, o gráfico de caixa que desenhamos. Ele virá aqui. Agora, o título é o nome do gráfico e
os dados de quilometragem do carro. E esse é o número
de esbeltos 468, e isso é milhas por galão. E o gráfico da caixa de dados. Ok? Então, dessa forma, podemos desenhar, podemos fazer gráficos de caixas. Se você quiser entender
mais uma vez, eu vou te dizer. O que fizemos é simples. Nós temos, estamos usando dados de carros
vazios, que já
estão disponíveis em
nossa distribuição, então não
precisamos criá-los ou baixá-los. Ele já está
embutido no ambiente. Então, estamos usando isso, eles pegam ou dois
carros vazios significa que
vamos usar esse conjunto de dados de carros
vazios, que contém todas
essas informações sobre os carros, carros diferentes. E então, o que eu estou fazendo, eu estou usando um boxplot e eu estou
desenhando o gráfico entre esse número de cilindros e quilometragem por galão
para cada carro. Ok? E estou usando dados
e pré-composições. E para x, x é, eu estou usando o número épsilon
lá e o eixo y mpg, ok? E, em seguida, o nome
do gráfico que estou fornecendo aos meus dados ao vivo
e, em seguida, estou escrevendo esse arquivo devido a algumas
dificuldades em minhas auditorias. Não consigo ver as
tramas aqui. E é por isso que eu fiz. Eu o escrevi no arquivo carro
vazio, boxplot dot PNG. E podemos ver o arquivo aqui. Então esse é o boxplot
e essa é a mediana. Essa é a mediana, certo? E essa é a saída mínima. E isso é o
máximo ou o mínimo. E é Adam. Nenhum valor médio para
o número de vendedores. Então, motor de quatro cilindros. Minhas lentes aqui e a
quilometragem média são algo de aproximadamente 26, 27 milhas por galão ou
número de cilindros seis. Está chegando em torno de 20, 20 milhas por galão e
número de cilindros, se for oito,
a mielina em torno 15 galões por 15 milhas
por galão, certo? Dessa forma, podemos desenhar um
boxplot a partir dos carros vazios. Nos vemos na próxima palestra.
32. Boxplot com entalhe: Olá e bem vindo de volta. Então, na palestra anterior,
vimos como podemos desenhar nosso gráfico de caixas usando um conjunto de dados de carros
vazios. E com base nesse
número, aumente o cilindro e a quilometragem por galão. Portanto, com base nesses dois parâmetros não
existem duas características
deste conjunto de dados. Desenhamos o boxplot e vimos
a aparência do boxplot. Então, carros, dados de quilometragem aqui, mpg e cilindro
numérico 46 8 milhas por galão. Sim, 15 de 2025. E essa linha preta é
a mediana de cada grupo. Ok? Então, carros de quatro cilindros, carros seis cilindros
e carros de um cilindro. Agora, podemos realmente desenhar
o mesmo gráfico de caixas sem. Então, vimos o que não é. Agora. Veremos como não. Se colocarmos um entalhe chamado
verdadeiro, como esse boxplot
mudará e o NADH será usado para desenhar, como se ele mostrasse
como a mediana de cada grupo está
relacionada entre si, certo? Como as medianas são diferentes,
os grupos se igualam. Ok, então vamos fazer isso. E também veremos, também
tentaremos
colocar algumas cores nesse diagrama gráfico para que
fique bem, ok? E também tentaremos
nomear esse eixo x. Ok, então vamos fazer isso. Então,
primeiro, o que vou fazer é mudar esse nome
para largura do boxplot.
Não. Ok. E então,
o que vou fazer simplesmente dizer que não é igual a, desculpe, não é igual a verdadeiro. E agora, deixe-me fazer isso. Agora deixe-me ir aqui. Veja aqui, nós temos, então nosso gráfico era assim. Agora, quando coloco
não igual a verdadeiro, nosso gráfico mudou para este. E veja, você sabe, essa é a mediana de
cada gráfico, certo? Cada um dos conjuntos de dados
em cada grupo, como quatro cilindros,
seis cilindros. E a forma como essas medianas estão relacionadas é
diferente uma da outra, como elas coincidem umas com as outras. Mas veja a mediana. Como essas
coisas estão chegando, os nazistas vindo para
cada um desses grupos. Agora, deixe-me colocar um pouco de
cor nas dívidas. Então, o que eu vou fazer é enorme. E então eu coloco reitor e
ouço qual algoritmo você fornece. Vermelho, verde, amarelo. Agora estou dando três cores. Vermelho, verde, amarelo, amarelo. E deixe-me fazer isso. Deixe-me colocar um nome de
Maria Callas de hóquei. Então, isso terá gráficos e imagens
diferentes e diferentes. Agora podemos ter cores
diferentes para
diferentes grupos ou caixas. E antes era assim, sem cor e
sem cores de largura de entalhe, entalhe, largura de entalhe. Ok. Agora, deixe-me dar
alguns nomes aqui. Ok. Então, aqui, as quilometragens. Alta tarifa para carros de quatro
cilindros, quilometragem é alta
para seis cilindros, médios e, para o cilindro, essa lei dará os nomes
alta, média e baixa. Então, quando vermos agora o
boxplot, entendemos,
entenderemos que esse é o carro de alta média esse é o médio e esse
é o combustível de baixa quilometragem. Ok? Então, isso é legal. Os nomes que os hotéis dão são altos, médios e baixos. Ok. Deixe-me fazer isso. Então, vejo você e agora,
em vez de 46,8, temos alto, médio e baixo. Então, dessa forma, podemos, certo? E se você
quiser ser mais específico, pode colocar uma
porcelana tão alta, algo assim para
que fique mais claro. Excelente, médio, baixo, assim. Ok. Ok. Então, desta forma, você
também pode colocá-lo. Então, espero que você tenha entendido
como colocar boxplots. Então você também tenta ver
você na próxima palestra.
33. Histograma e distribuição de Histograma: Olá e bem vindo de volta. Nesta palestra, aprenderemos
sobre histogramas. Então, veremos qual
é o nosso histograma. E também veremos os tipos de histogramas e como podemos usar como podemos colocar o histograma com base em nossos
dados em nossa temporada tática. Ok, então aqui veremos a parte teórica e
aprenderemos o que é histograma. Então, deixe-me te contar. Um histograma não é uma apresentação
apropriada da distribuição
de dados numéricos. Portanto, é basicamente um gráfico como gráfico de barras ou
gráfico de barras que vimos. Parecia que o tipo de distribuição representa essa distribuição
de dados numéricos. Então, basicamente, se você
tiver dados numéricos, você pode desenhar um
gráfico ou Brad e o histograma é uma
representação muito apropriada da distribuição
de dados numéricos. Então, basicamente, é usado o quê? Dados numéricos, e esses dados
numéricos devem ser natureza
contínua na
maioria das vezes, foram introduzidos
pela primeira vez por Karl Pearson. Então, Karl Pearson
apresentou o histograma. Outra forma de dizer histograma, como outra definição
de histograma, é uma exibição gráfica de Brita usando partes de
diferentes alturas. Em um gráfico de barras, vimos o ônibus morrer da mesma forma. histograma também é uma exibição
gráfica de dados usando barras de alturas
subdiferentes. É semelhante a um gráfico de barras ou histograma que agrupa
números em intervalos. Portanto, se você ver um gráfico de barras, os dados não estão agrupados
no intervalo, como dez
a 2020 a 30. Não vai arrumar. Ele não agrupará os dados, mas no histograma
, agrupará os
dados nos intervalos. E então ele
colocará o gráfico de
barras, gráfico de barras com números
nos intervalos. agrupamento de números
nos intervalos
fornecerá um histograma. Então, espero que a imagem
esteja ficando clara. Também veremos as imagens. Veremos a
representação real de como o gráfico de barras é
diferente do histograma. Portanto, aqui é bom
observar que o gráfico de barras mais o agrupamento de
dados numéricos em intervalos, como se você tivesse dados de 10 a 100. Então, isso criará as barras. E com isso, também
organizará os dados de 10 a 2020 a
30 nos grupos. E isso criará caminhos. Então, será um histograma, a altura de cada barra vendida, quantas se enquadram nessa faixa. Então, basicamente,
você terá uma ideia de que 10-20, quantos números existem? Quantos apoios? Se você está analisando o
salário das pessoas. Então, vai
te dizer, entre dez e 20, quantas pessoas existem? Quantas pessoas
existem assim? Ok. Criando um sol histórico, criação de um histograma fornece uma representação visual
da distribuição de dados. O histograma pode exibir
uma grande quantidade de dados e a frequência
dos valores dos dados. Então, da mesma forma que ele faz, ele agrupará os
dados em intervalos. Então, ele lhe dará uma
frequência de dez a 20. Quantos? Portanto, ele também fornecerá
a frequência suportará um valor de dados específico. Ele dirá quantas
vezes isso está ocorrendo, a frequência dos valores
dos dados, a mediana e a
distribuição dos dados podem ser determinadas
pelo seu histograma. Portanto, a mediana e a
distribuição dos dados também podem ser
determinadas pelo histograma. Além disso, ele pode resolver quaisquer discrepâncias ou lacunas
nos suportes de dados. Temos os dados 10-140 a 50. Não temos nenhum valor. Então, ele
dirá que 40 a 50
, não mostrará a barra. Então, com a
representação gráfica, você pode encontrá-la, ok ,
40 a 50, não
temos funcionários. Portanto, ele mostrará
a lacuna nos dados e também
o outlier. Suponha que você tenha
entre dez e 100 e depois tenha outra barra
vindo de 17180. Portanto, todos os
blocos de dados tenderão a 100 e outro
gráfico estará distante. Ele está mostrando intervalos de 171-81-7180 e um valor atípico que
podemos identificar facilmente observando o histograma. Então, o histograma, ou uma ótima maneira de
resolver isso, contém dados contínuos e
contínuos que
eu lhe disse anteriormente, como altura e
peso, se você quiser. Portanto, o histograma é
mais adequado para esse tipo de radar. Então, aqui estou eu. Então, estou apenas mostrando
como você pode diferenciar o gráfico de
barras e os histogramas. Então, vejo você no
histograma, não há lacuna. É muito contínuo, como 468 até 24. O bar começa a entrar imediatamente. Aqui você pode ver a diferença entre
histogramas e gráficos de barras. Então aqui você pode
ver o histograma, é muito contínuo assim. Ignore
as lacunas entre as barras aqui, o gráfico de barras, você pode ver , mostra as
diferenças, como janeiro, fevereiro, março, e
há uma lacuna entre as barras. Portanto, essa é a principal diferença
de como em um histograma. As barras estarão em que não
haverá espaço
entre as barras e o gráfico de barras terá
algumas lacunas entre as barras. Ok? Então, essa é uma
diferença pictórica que você pode encontrar entre os
histogramas e os gráficos de barras. Agora vem o histograma de
distribuição ou quantos tipos de
histogramas existem? Distribuição normal,
você pode ver assim. Então, em uma distribuição normal, provável que os
pontos em um lado da
média ocorram como no outro lado
da evidência para
ver seus dados deste lado, do lado
esquerdo e do
lado direito serem quase iguais, certo? Então essa é a distribuição
normal. E se formos para a distribuição
bimodal, isso o colocará em uma distribuição
bimodal. Há dois picos, C-O, há um pico e há outro pico. Há dois picos nos dados. Portanto, isso será bimodal em dados de distribuição
bimodal. Então, separamos e analisamos como distribuição
normal separada. Portanto, essa é uma distribuição
normal e essa será outra distribuição
normal. E quando duas
distribuições normais se juntam, isso criará uma distribuição
bimodal. Essa é a
distribuição normal e essa é a distribuição bimodal. O terceiro tipo de
distribuição ou histograma é uma distribuição
inclinada à direita. O que é
distribuição distorcida à direita ou histograma, ou
distribuição inclinada à direita também é chamada de distribuição com
inclinação positiva. Por que é chamada de distribuição com
inclinação positiva porque veja que os valores distorcidos estão vindo do lado direito, zero ao infinito, certo? Então, esses são os valores
positivos. Então, quando está do lado direito, os dois valores de empurrão são distorcidos. Será, chamamos de distribuição
distorcida à direita. Em uma distribuição inclinada para a direita, um grande número de valores de dados
ocorre no lado esquerdo, com um número
menor de valores de dados
no lado direito. Veja aqui, no lado esquerdo, há
mais valores de dados, e no lado direito, o número está diminuindo, ok? Tudo bem, é uma distribuição
distorcida maneira uniforme quando os dados têm um limite de alcance
no lado esquerdo
do histograma, por exemplo, limite de G. E o próximo é a distribuição
distorcida à esquerda. Aqui. A distribuição inclinada para a esquerda também
é chamada de negativamente. Por que negativamente? Porque, do lado negativo,
está ficando distorcido. Em uma
distribuição inclinada para a esquerda são grandes. O número de valores de dados
ocorre no lado direito. Portanto, o número está aumentando
da esquerda para a direita. Então, quando estamos nos movendo para a direita, o número está aumentando, certo? E menos valores de
dados abaixo lado
esquerdo ou esquerdo é
menor do que no lado direito. Mais valores é uma distribuição
inclinada para a esquerda. E uma
distribuição inclinada para a direita geralmente ocorre quando os dados
têm um limite de alcance. No lado direito
deste diagrama, por exemplo ,
limite, como
centenas. Ok? Então, esses são os quatro
tipos de histogramas. Uma é a distribuição distorcida à esquerda, depois vimos a distribuição
distorcida à direita, depois a distribuição bimodal
e, em seguida, a primeira
é a distribuição normal. Histograma. Agora, você está apenas hist
na função JIST hist
para criar um histograma. E serão necessários
alguns parâmetros ou argumentos para desenhar um histograma. Ok, então, o que é X? X é um vetor de valores para
o qual o histograma é um gráfico. Então esse x é um vetor
para o qual queremos desenhar o histograma, o main, xlab e ylab. Principal. Principal. Main é o título
do histograma, e xlab são os rótulos dos
eixos, ok. Como frequência ou
qualquer outra coisa, se você quiser portar. E então x, lima e wildly são
os intervalos dos valores de X e Y. Ok? E, em seguida, quebra o vetor único do
Brexit ,
fornecendo que
os pontos de interrupção entre as células do histograma
são função dos pontos de interrupção do vetor do
computador em um único número, fornecendo
as vendas de um histograma. Ok, veremos o que
isso quebra em detalhes. Então temos o carvão que é colorido e depois temos
a borda que você conhece. Então, na próxima aula, veremos o exemplo de como podemos usar a função hist para
desenhar nosso histograma. Então, desenharemos um histograma usando a função hash
na próxima aula.
34. Histograma de desenho usando a função hist: Olá e bem vindo de volta. Então, nesta palestra,
vamos
escrever nosso primeiro
programa para histograma. Então, o que
faremos é criar um vetor
que conterá nossos dados. E então, com esse vetor, vamos
fazer um histograma. Vamos representar graficamente esses
dados em um histograma. Então, vamos começar com isso. Então, o que eu fiz, eu já criei um arquivo de ponto R que é histograma ponto R. E eu
escrevi o código. Então eu vou te mostrar
qual é o curso. Então, eu já escrevi o
código para que
possamos economizar tempo
escrevendo, ok, assim por diante. O que estou fazendo é criar dados
vetoriais para o gráfico. Então, estou criando os dados aqui. Então, estou criando, estou criando um vetor e atribuindo
esse vetor a x. Então x é n vetor que
contém dados, lago para impressões e 17.000, 3.006 mais suporte externo. O salário poucos implica que estou
armazenando nesse vetor x. Então, esse vetor X são nossos dados e
contém suporte, o salário dos funcionários. Ok? Então esse é o salário do propano implícito
Tao Qian, desse jeito. Ok, então em alguns intervalos,
como preppy até 2050 a 60, 20 a 30, 40 P2P assim. Ok, agora o que vem a seguir, o que será exemplo muito simples de
histograma. Ok, agora temos os dados. Eu quero traçar um histograma. Então,
o que vou fazer criar um arquivo de imagem do
histograma Foster. Então, vou usar a
função PNG e
daremos um arquivo igual ao ponto do
histograma PNG. E então, o que
vou fazer é usar a
função hist
que eu disse na palestra
anterior. Então aqui estou criando
o histograma, ok? Então, usarei a função hist
e passarei esse x. O que é x? X são
os dados para os quais vamos
traçar o histograma. Ok, então esses valores
aparecerão aqui com X. Então X é um
vetor de dados, dados vetoriais. Então, o que estou dando ao xlab
é igual ao salário e , em seguida, a cor que estou dando como verde e a borda
amarela. Portanto, ainda não estou fornecendo
muitos parâmetros. Não estou passando
muitos parâmetros. Sim. Só uma placa que
eu dou salário, depois a cor, eu dou verde e a borda,
eu darei à Eslováquia. E então vou salvar esse arquivo de imagem gráfica em
nosso sistema que
está com pontos de profundidade desativados. Ok, então antes de avançarmos, deixe-me definir nosso diretório
de trabalho. Então, para fazer isso, o que eu vou fazer, e ainda assim o que eu vou
fazer, eu vou guardar isso. Vá para esse diretório. E a próxima coisa que vou
fazer, vou fazer mais. E, no entanto, o que vou fazer é definir o diretório de trabalho. Ok, então agora vou
salvar esse arquivo. Então, espero que as etapas
sejam bem simples. Estou criando um vetor
X com os dados. Em seguida, estou usando a função
PNG para criar um arquivo de imagem para
todo o nosso gráfico, que
possamos ver e utilizar. E então eu estou armazenando isso em nosso arquivo local de Deborah off. Ok. E eu estou usando a
função hist para o rim fazer histograma com os dados e passando o vetor x aqui
e depois o laboratório x, estou dando o nome
salário e a cor verde e trocada
será a cor amarela. Então agora eu salvei, agora eu fiz isso todo esse arquivo fonte. Clique em Fonte
e pronto. Em seguida, preciso
ir até o D Drive, ir até o nosso 20 e ver aqui nosso firewall
com a histona. Deixe-me verificar o nome do arquivo. A imagem final, este ponto gráfico
superior PNG. E se ele também estiver, acho que esse é o
nome do arquivo, gráfico de histograma PNG. Ok, então é assim que
eu excluo todos os outros
que eu criei anteriormente. Agora temos o
histograma de x. E aqui o que estamos criando, eu estou dando o,
deixe-me remover isso, excluir isso. Deixe-me executar o programa novamente. Deixe-me mudar isso para vermelho. E a borda
será de hóquei amarelo. Deixe-me fazer isso de novo. Deixe-me ver se
o arquivo em geral deve ver seu histograma. Isso é salário e
aqui frequência. E aqui estão os
intervalos de dez a 2020 a 30.030 a 40.040,
2050 a 60.000. Agora você pode ver como o
histograma está ficando escuro. Então, dez a 20.000, quantos inscritos estão
tentando o salário 10-2123. Vamos verificar isso com os dados. Ok. Então, vamos
até aqui, vá aqui. 22 tendem a 2010 a 23, então dez a 2012. E então temos outro, você tem uma vantagem dois. White está fazendo. Ok.
E então temos $20 ou 2.000.017.000,15
mil. Então, essas são as três
implicações de desenhar tristemente 10-20. Portanto, está mostrando uma tendência de
2310 a 23 funcionários. Dessa forma, ele dividirá
os dados em intervalos e os tornará nossos grupos
ou dez a 23 funcionários, então 20 a 32 também implicará menos
25 dados. 20 a 31. Eles começaram a ver de 20 a 30. Temos dois funcionários. Ok. 25.020, 2000. Isso também é verdade. Totalmente. Depois, 30 a 42. Novamente, 30 a 42, 34, t1 e t2 um. Ok. 30 a 40 também
para os próximos são 40 a 50, apenas um funcionário lá. Então, vamos ver para T2, T4, T5. E veja que isso está
mais do que perfeitamente correto. Portanto, 40 a 50, apenas uma implica
durante a próxima é a última, T2s t Temos quatro implicações. Vamos ver isso mais de 5012, depois três e depois quatro. Então, temos quatro, certo? Veja, se você tem que confiar na
cidade, temos quatro implicações. Dessa forma, ele agrupará os dados e
informará a frequência. se você ver isso, você pode facilmente dizer que o
criptosistema tem mais de 50.000 salários para funcionários ou
atrai de dez a 23 funcionários, 20 a 32 implica e 40 a 50, apenas um que
está recebendo salário por P2P. Dessa forma, o histograma será desenhado e agrupará os
dados com base na frequência. Ok? Ele definirá
um intervalo ou Beta e, em seguida,
informará a frequência de ocorrência dos
dados nesse intervalo. Então, ocorrem dez a 23, 20 a 32 trabalhadores, 30 a 42 trabalhadores, 40 a 52 ocorrências e, em seguida coloque a placa de Petri t como agonista. Então, o que fará,
agrupará os dados em
alguns intervalos e, em seguida, informará a ocorrência
de dados nessa tendência. Então, dez a 20, há três dados, 310 a 20 e é
Jacqueline três vezes. Ok? Dessa forma, dessa forma,
podemos dizer que três funcionários
estão secando, infelizmente 10-20. Portanto, esse é o
significado do histograma. Ok. A seguir está o que eu fiz. Eu pego nossos dados
diferentes aqui. Eu sou o que estou usando,
114-567-8910. Ok. Então, a mesma coisa, estou dando um gráfico de programa
embelezado a um arquivo diferente, PNG de
um ponto. E aqui o que eu estou usando, x sin x, estou passando um ano. Somente os pontos de dados
são diferentes. Os valores dos dados são diferentes aqui. Ok. E muito simples
mais tarde, 114-567-8910. Ok. E então eu estou
guardando para tudo bem. Vamos fazer isso e ver
o que estamos recebendo. Então, deixe-me encontrar o
gráfico 1 do histograma aqui. Agora. Está definindo os dados. Eu gosto de zero a dois. forma como está definindo
o intervalo é de zero a 22 a 44 a 64.628,8 a dez. Então, g rho 22,
quantas ocorrências? Duas ocorrências em
que G linha 2 a 11, essas duas unidades são
menores que duas, certo? Então, zero a dois para corrigir. A próxima coisa é dois por um. Então, dois a quatro. Apenas quatro Existe um. Em seguida, quatro a seis a quatro a 65,6 para escrever do que seis para 8782 novamente
e, em seguida, 9108 a dez até 9,10. Dessa forma, ele está dividindo
os dados em dois intervalos, zero a dois ou dois a
44 a 66 a 8,8 a dez. E então está nos dando
a frequência de ocorrência
dos dados 0-22 duas vezes dois a quatro, uma vez quatro a seis. Preço repetido, ok? À ocorrência dos
valores 4-6, certo? Sim, 5,6. Dessa forma,
você também pode mudar a
cor a partir daqui. Você pode torná-lo preto. E saiba que o gráfico
estará em preto. Dessa forma, podemos mudar
a cor do histograma. Te vejo
na próxima palestra. Veremos alguns outros
exemplos de histograma.
35. Usando pausas de ylim xlim no histograma: Olá e bem vindo de volta. Então, na palestra anterior, vimos como
desenhar um histograma. Vimos dois exemplos,
dois dados diferentes. Então, pegamos um vetor. E então, no segundo exemplo, pegamos dados
muito simples. E agora, o que vamos fazer, vamos aprender
como usar break,
como usar limites, y,
limites e quebras,
esses três parâmetros
da função hist para desenhar um histograma
com break e limite x. Ok, então eu
escrevi o código. Então, primeiro, vou usar o mesmo vetor em que
temos a leitura sutil de suas persianas desde a origem da
pré-impressão até 60.000. Então, estou criando um vetor x que fizemos
na aula anterior. E então eu estou criando um arquivo de destino onde
eu armazeno esse histograma. Estou usando a função p e g
e finalmente estou dando Mises para Brex dot PNG To
com Brex dot PNG. Esse será o nome final
que será criado no nome
do
arquivo que será criado no qual
nosso gráfico estará, nosso histograma
será desenhado, ok, e aqui com
a função hist, estou criando o histograma. Então, estou passando o
vetor x aqui nos dados. E então eu estou dando o
nome xlab para adicionar peso e cor. Estou dando azul,
entregue a borda. Estou dando aquele verde. E então o limite x que estou dando. Aqui, estou usando um argumento
que é excelente. Os limites x. Para o eixo x, estou dando
o limite de zero a 40.000. E veja que nossos dados contêm os valores de
tolerância de 15 a 60 cobertos. Os dados vão além de t, mas aqui estou fazendo um loop, limitando os
valores do eixo x a zero a 40.000. Ok? E por que o membro
é GTO a dez. Ok, tudo bem, por que o eixo y será a frequência
de ocorrência
dos dados como zero a dez ou zero a 20, o que quer que criemos. Nossa abertura implica um
sorteio de salário de 0
a 2020 a 30 ou 30 a 40, assim. Ok. Para que eu esteja levantando o dedo do pé. Então, eu estou usando
outro parâmetro aqui, quebras iguais a dois. Então, deixe-me primeiro fazer um. Ok? Então, o que estou fazendo é
dar ao Brexit igual a um. Veremos o impacto que
esse Brexit igual a um está causando
em nosso histograma. E então eu estou salvando o arquivo. O histograma que será
gerado salvará neste dedo do pé com o arquivo PNG Brex dot
para salvá-lo em nosso local, vendo-os usando db dot off. Com isso, ele será
salvo em nossa máquina. Então, agora esse é o código, um código
simples de uma linha para o qual estamos passando alguns parâmetros
com blocos. Slim. Xlim, xlim está limitando os valores de
dados no eixo x, os limites
y para o
eixo y e break entenderão quando
eu executar esse código. Assim, você
entenderá melhor ao ver o resultado. E com essa visualização, entenderemos o que o
Brexit realmente está fazendo. Ok? Então, deixe-me executar essa
fonte, segure a fonte,
clique na fonte
e pronto
, então deixe-me abrir os arquivos de saída. Então, aqui estão dois com o
arquivo Brexit criado. Deixe-o abrir. Agora o arquivo, nossos números
históricos. Então você verá aqui, como eu
dei intervalos iguais a um, estamos vendo apenas
uma barra grande, certo? zero a 40, e mostra que 0248 empregadores estão testando
salários entre 40 e 40. Deixe-me verificar isso. Veja aqui, temos um total de 10,12 3456, 1234, 5670, 2408. Mas temos uma lista, 702, 40, acho que 123.456,7. Todos os outros são mais de 40, certo? 1234. Ok, agora podemos
ver esse gráfico. Deixe-me mudar os tijolos para dois. Então, agora você verá
que haverá duas partições. Ok? Então, deixe-me, quando o arquivo estiver novamente, veja aqui agora que temos de zero a 40. O salário de 40 foi
dividido em duas partes, zero a 20,22, 40 e, em seguida, 42 status
exibido separadamente, certo? Então, agora todo o conjunto de dados
foi dividido em três, mas de zero a 40 desde aqui. Desde aqui,
começamos de zero a 40. Então, zero a 40 dados, zero a 40 dados foram
divididos em duas partes. Cheeto até 20,0 a 60, c, zero a 20,0 a 22 400.220,02, 400.223,22, 44
dados e 40 a 65. Ok. Então, deixe-me
mostrar a diferença. Se eu colocar t zero em t
aqui, o que acontecerá? Os dados de zero a 60 serão
divididos em duas partes. Deixe-me abrir
o arquivo novamente. Agora, G zero a 60
foi dividido em três partes porque não
temos dados além da segurança. Não está mostrando a outra, mas
uma dívida na web de zero a 60%. Nós temos dados. Portanto, os dados de toxicidade de Quito
foram divididos em três partes. Então, neste estágio, o que quebra,
faz com que x lim de zero a 60. Se eu fizer 50,
o que acontecerá? Os dados de zero a 50 serão
divididos em duas partes. Ok, deixe-me fazer isso. E então você viu que pode, deixe-me clicar em Fonte e
deixe-me ir até o arquivo
e abri-lo novamente. Agora, os poucos pré-dados do J22 foram
divididos em três partes. Ok. Entendi. De zero a 2020 a 40, depois de 40 a 60 se
juntam, certo? Então, está aparecendo até 50. Ok. Se eu fizer três,
o que acontecerá? Vamos ver. Deixe-me abri-lo novamente. Vejo que você atenda
de 2020 a 40,40 a 60. Deixe-me. Vamos
continuar experimentando. Se eu fizer quatro,
o que acontecerá? Veja, agora está mostrando
dez a 2020 a 30,
30 a 40, 40 a 50
e, em seguida, 50 a 60
serão separados. Então, os dados de 12340250 foram
divididos em quatro, certo? Isso é o que
pedimos para o R2P, então o dividimos em quatro. Se eu fizer zero para supor 32, 30.000 dados serão
divididos em quatro partes. Então, deixe-me abrir o arquivo novamente. Dez a 20,20 a 30, porque não temos
muitos dados, certo? Então, dez
a 2020 a 30 e depois 30 e
além foram divididos. Porque nós, se eu conseguir
também, vamos ver. 30 dados foram
divididos em duas partes. O primeiro é 0220 e depois
20 a 40 e além, certo? Então, deixe-me pegar meu retrato
como G zero para T e deixá-lo fazer para ver. A saída. A segurança do portão A2 foi
dividida em 1234 partes. Deixe-me abrir o
arquivo novamente para ver o arquivo objeto C e G, zero a 6110 a 2020 a 30, 30 a 40, 40 a 50 a 60. Ok, então isso é o que
fazemos com os intervalos. Ok? Então é isso que x Lim
e toupeiras selvagens, selvagens. Então você pode, nosso CEO, enquanto a imagem
está restringindo a
frequência do eixo y a zero a dez. Então, suponha que se eu mudar isso, se eu mudar isso para apoiar seus únicos seis, o que acontecerá? Deixe-me executar isso e
abrir o arquivo atual. Veja aqui agora que estamos vendo a
frequência de zero a seis. Ok? Dessa forma, podemos
restringir os eixos x e y, onde o xilema
é amplamente suportado. Se eu fizer isso, o
que vai acontecer. É bom experimentar
o código para ver a saída. E quando você ver a saída, você saberá o uso real do parâmetro C.
Você obtém dois para, um pouco para ele, tudo bem. Se eu fizer suportes, farei com que seja zero a
dois. O que vai acontecer? Agora estou mudando o
eixo y, a frequência. Eu vou ver, você sabe, está
indo como este. ocorrência
total da frequência alélica está indo para a direita. Dessa forma, podemos
brincar com o código em qualquer linguagem de
programação, bit R ou Python ou qualquer outra coisa. Se você quiser aprender, precisa começar a brincar com o código e começar a brincar
com os parâmetros. E se você alterar o parâmetro, verá o
impacto exato desse parâmetro. E nesse sentido, você aprenderá melhor e
obterá as implicações, o impacto
exato desse argumento
específico, parâmetro
específico em
uma função específica. Como em sua função, sabemos o que é x, o que é x lab, o que é cor, o que é borda? O que é x Lim. Vimos como o xlim está
impactando o histograma, como o parâmetro do membro selvagem está
impactando o histograma e como os tijolos estão impactando o histograma,
impactando o histograma. Portanto, ao experimentar, ao brincar com
o código e seus dados, você obterá melhores insights e uma melhor compreensão
do código. Então, espero que você
entenda o que é ligado ao X, ao Y e às quebras e como
elas afetam nosso histograma. Então, com isso, vamos nos
ver na próxima palestra.
36. Gráfico de linha básico para séries temporais com ggplot2: Olá e bem vindo de volta. Então, na
palestra anterior,
vimos como desenhar um histograma. Agora estamos passando para um gráfico
muito interessante. Você pode ver nosso gráfico de linhas
básico. E isso é muito importante porque será importante quando você aprender mais
sobre séries temporais ou problemas em sua jornada de
ciência de dados. E isto é, nesta palestra,
vamos ver como podemos desenhar um gráfico de linhas simples
para nossa série temporal
usando o gráfico GG, que é um pacote em R.
Então, o que é tempo desde ele? Primeiro, precisamos
entender isso. Então, deixe-me levá-lo às definições básicas e muito básicas da
Wikipedia sobre séries temporais. Uma série temporal é uma
série de pontos de dados. Então, basicamente, seus pontos
de dados de trabalho em CD indexados
são listados ou capturados. Portanto, pode ser a indexação
da série de pontos de dados, ou pode ser uma
série elevada de pontos de dados, ou pode ser uma série
de
representações gráficas de pontos de dados em ordem temporal. Portanto, pode ser qualquer coisa
, menos nossa ordem de tempo. Portanto, uma série de pontos de dados
indexados em ordem temporal. Isso significa que os pontos de dados
são baseados no tempo,
portanto, devem ser
construídos com o tempo. Então, quando temos dados
baseados em, que são baseados no tempo um determinado período
de tempo ou horário
específico
em Teach com base
na hora, então essa
série é Brita. Podemos, quando
traçamos, obter um gráfico de séries temporais. Então, o Lee mais comum, ou série temporal e sequência
tomadas em um ponto sucessivo e
igualmente espaçado no tempo. O que isso significa? Significa que série
temporal é uma sequência
que bloqueamos, certo? Série temporal ou sequência de
pontos de dados indexados em ordem temporal. E, mais comumente,
em séries temporais, é uma sequência feita em
compromissos sucessivos e
igualmente espaçados em um horário. Suponha que, em nossa linha do tempo, vamos pegar pontos sucessivos e
igualmente espaçados em
tempos de todas as 0220 4 h, então levaremos de zero a
3 h do que três a 6 h 32, 9 h nove a 12. Sucesso inicial, dois pontos igualmente
espaçados, como três, 3 horas de intervalo que estamos tomando. Então, isso será um dado de 0,326, 6299 a 12, assim. Ok. Então, estou dando um exemplo. Não é a coisa exata. Mas dá para entender
qual cronograma, zero a 24 horas e poucas coisas
que estão acontecendo a cada segundo, a
cada minuto, certo? Então, quando documentamos
esses pontos de dados, como em algo de quatro estrelas, esses são os dados
da segunda hora. Esses são os dados do
tada. Esses são os dados. Portanto, quando definimos esses dados sucessivamente igualmente
espaçados em pontos no tempo, eles fornecerão
a série temporal, sequência das séries temporais. Portanto, é uma sequência
de dados de tempo discretos. Não é contínuo, é
de natureza discreta
porque estamos retirando pontos de
tempo igualmente espaçados desses dados. Então, estamos fazendo um discreto. Então essa é a definição. Agora, o que
faremos, tentaremos entender
isso traçando. Quando planejarmos,
entenderemos mais sobre isso. Ok, então, antes de
traçarmos, pedimos para instalar a
biblioteca GG plot two, para que você
possa acessar o pacote e instalar o GG plot two. Ok? Então, para isso, precisamos gráfico dois da
Biblioteca GG
e do player, ok? Portanto, essas duas bibliotecas
são necessárias. E então, o que
fazemos, criaremos dados fictícios. Então,
o que eu vou fazer criar um DataFrame
que conterá o dia. Eles ficarão agitados como um ponto. Isso significa que ele coletará dados nesse formato, como o total de 15 da
primeira geração. E então o que eu vou fazer, eu quero daqui até zero também. Pesquise até 4 min, 365 dias. Então, daqui
até 365 dias, cada dia como primeira geração e depois 31
de dezembro de 2014 desse jeito, vou levar de três a cinco dias. E para uma data específica em
que estou considerando o valor, estou usando a função runif. Você sabe, o que é executar uma função
executando fox e ela
criará o que, o que ela fará. Isso criará uma sequência
de números retos, 4365. Então, isso criará uma
sequência de números. Então, o que a
função de execução fará? Ele gera os desvios
aleatórios da distribuição
uniforme e
é escrito como runif. Então, o que ele fará é gerar facilmente
o gênero n de
números aleatórios que renderizará. Então, o que estamos fazendo
aqui para gerar valor é gerar pesquisas de
iniciativa para eliminar números
aleatórios de cada dia. Então, atribuiremos o primeiro número
aleatório do gerador até o momento, um, como este. E então o segundo número gerado
aleatoriamente será atribuído à segunda data. Ok? Portanto, não estamos apenas usando os números gerados
aleatoriamente a partir dessa função padrão. Ok? Mas também estamos
adicionando isso por, também
somos uma sequência genética
de menos 142 a 40. E nessa sequência nós
somos o que estamos fazendo. Estamos tirando uma raiz
quadrada disso e depois dividindo
com esses 10.000. Ok? Então, basicamente, queremos
a saída disso. Vamos adicionar o que obtemos
dessa função runif. Ok? Portanto, runif
fornecerá desvios aleatórios e distribuição
uniforme. Ok? Então, o que
obtemos com a data, dia e o valor que
armazenaremos neste DataFrame, estamos criando um
DataFrame
que conterá dois valores, t e um valor
específico dessas duas funções
que obteremos, veremos como temos, quais são os valores que
estamos obtendo, ok? E então, o que
faremos é imprimir os dados para mostrar quais dados
estamos obtendo. E então, com esses dados do
DataFrame, o que farei, usarei o gráfico
GG para plotar esses dados. Então, vou passar esse quadro de dados. E então, o que isso fará, fornecerei o eixo x como eixo
t e y como um valor. Mais. Vou usar a linha geom, função dois e depois os valores
xlab, ok? E depois vou imprimir a impressão, vou imprimir o produto. Ok. Em seguida, o que vou fazer, o que essa
função de linha geométrica fará aqui. Você pode ver suas nove
fontes do Zoom sobre o que ela fará. Ele conectará os pontos na ordem da variável
no eixo x e G. E
, na verdade,
criará poeira
como um gráfico de degraus de escada. Ok, então basicamente
o que ele fará, juntará os pontos e
criará o gráfico. Ok? Então, aqui usaremos alguns
símbolos como porcentagem, d é d como um número de zero a 31. porcentagem será criada
como uma porcentagem de um dia da semana maiúscula, como um
dia da semana abreviado, como segunda-feira. E isso será turbulência
e porcentagem de pijamas. mês zero a 12 e apresentado
b e o maiúsculo B serão abreviados e um
mês abreviado como janeiro
será abreviado e janeiro completo não
será agravado. E então a porcentagem Y e porcentagem de capital
Y serão Tool, porcentagem de vitaminas com
dois dígitos ainda, e as porcentagens
maiúsculas Y serão ainda quatro dígitos. Ok? Portanto, essa é a
abreviatura básica que vamos usar. Então, vamos ao RStudio
e tentar executar esse código. Então, estamos usando o gráfico GG e
a biblioteca do jogador aqui. E então o que estou fazendo
aqui é usar dados. Estou criando um DataFrame aqui, dados
fictícios com acetato semelhante. E então estamos criando um valor
aleatório usando esse
runif e sequência. E então estou imprimindo o, o que quer que estejamos obtendo
do runif,
mostrarei o que
obtemos da função runif
e o que obtemos como dados. Ok? Então, deixe-me executar esse código aqui. Ok? Então, deixe-me seguir esse exemplo aqui. Então, agora vou te mostrar
o que estamos recebendo. Ok? Então veja aqui, para
a função runif, estamos obtendo esse
valor, ok, 0,3, 44,4. Assim, ele gerará 365. Ventos. Ok, e então, para
os dados que estamos obtendo, d, como 1º de janeiro, John, total e distante entre si, e
estamos obtendo esse valor. Ok. E então, para a proteína de
31, 3
e 4 de dezembro, estamos recebendo, então estamos obtendo esses dados
e valores em nosso quadro de dados. E agora o que vou fazer passar o quadro de dados para os dados do gráfico GG e , em seguida, sair da chamada hoje
Y igual ao valor. E vou usar a
linha geométrica para traçar os dados e , em seguida, o que estará lá
ou o que estou usando aqui. Estou usando a escala de
desvio médio, sublinhado, data do sublinhado. E aqui estou dando os níveis de
dívida que x v. Ok? Então, deixe-me executar o código inteiro. Clique na fonte
e veja o enredo aqui. Então, deixe-me imprimir o chão. Veja aqui. Agora, estamos recebendo dados
de séries temporais de janeiro de
2014, julho de 2014, outubro de
2014 e janeiro de 2015. Ok. E se eu executar isso, obteremos que seremos
abreviados de janeiro, julho para o n. Então
fica assim. Se eu usar Y maiúsculo, b, b e d minúsculos, o que
obtemos, teremos o
ano inteiro como 2014, depois o primeiro de janeiro faz uma turnê com 14
roupas como esta. Ok. E esta é
a semana, certo? Então, mostrará
as semanas, os atrasos. 13ª, semana, 26ª,
semana 3093 e assim por diante. Ok. Se é uma montanha enorme, por que ela nos dará o mês, por quê? Mês e YC. janeiro tão sombrio, totalizando 14 aprovações para uma
proteína de túnel como essa. Então, este é o mês aqui que estamos
vendo no eixo x. Aqui estamos vendo a
montanha juntos. Estamos vendo o
valor específico naquele momento. Ok? Então, é assim que podemos desenhar uma série temporal simples. Aqui. Podemos modificar
isso um pouco. E aqui estou usando o SLB, nossa biblioteca de equipes, na qual
você pode, se não tiver ,
acessar os Pacotes,
clicar em Pacote, clicar em Instalar e instalá-lo e usá-lo. Então, estou usando os mesmos dados que criamos
no passado. Agora mesmo. E aqui
o que eu estou fazendo, tudo, eu estou usando o
tema na linha geom. Estou fornecendo a
cor verde. Hesíodo é a linha preta. Por enquanto, estou mudando
isso para verde. Então, aqui, geom line, vou fornecer cor,
a cor para verde. Então, será que o gráfico
estará na cor verde. E então o tema ressalta Ipsum, estou usando o blast para a equipe. O que eu recebo x dx t ponto x elemento ponto TXT
sublinhado t Na verdade, ângulo. Estou dando 45 e
só estou dando um. Então, o que esse ângulo 45 fará, ele girará esse
gráfico em 45 graus. Então, deixe-me executar todo esse código. Veja aqui. Agora, o gráfico
está vindo assim. E os 45 graus, então ele é convertido em 45 graus. Então, dessa forma, podemos usar esse
ângulo igual a 45 antes de eu suponho que t. Vamos ver
a diferença que estamos obtendo. Um artista mudou um pouco. Deixe-me alterá-lo para suportar 160. Você pode ver alguma
diferença se eu colocar 45? E agora eu vou mudar isso. Doe 145. Vamos ver se estamos
fazendo alguma diferença. Agora está chegando janeiro de 2020, outubro de 2019. Assim.
O gráfico está mudando a taxa. Se eu fizer isso 45. Está vindo assim. E quando eu estiver fazendo isso
, suponho que 90 graus, ele virá de
uma maneira diferente. É. Essa representação
está mudando, certo? Janeiro. Isso, essa coisa
está mudando, certo? Se eu fizer dez graus. E se eu traçar e ver aqui como isso é o que
estamos escrevendo aqui, janeiro de 2019, esse ângulo
está mudando, certo? Se eu conseguir, suponha
que ele veja TDD, vamos ver como esse gênero não muda. Deixe-me torná-la uma entidade. Quando você
brinca com os dados, continue. Você pode dar para entender
o que realmente é diferente? Você está
acertando. A orelha. É meio,
final de janeiro de 2019. Agora está aparecendo como uma
imagem espelhada de janeiro de 2019. Então essa é a diferença. Ok. Então, dessa forma, podemos
nesse nível, ok? Então, orientação no nível do eixo x, cadeias
de fim de semana como essa, ok? Se você colocar 90 graus, ele virá em um diploma de TI. Então, espero que agora você tenha certeza diferença
que esse
ângulo está fazendo, certo? Agora está nos 90 graus. Dessa forma, podemos
usar o elemento textos e podemos mudar
a orientação
dos textos como
janeiro, assim. Ok? Então, dessa forma
, podemos fazer isso.
37. Plot de dispersão e matrizes de enredo em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre
o gráfico de dispersão. Então, o que é gráfico de dispersão? Um gráfico de dispersão é um tipo de gráfico. Nosso diagrama matemático
usando coordenadas cartesianas para exibir valores: quais normalmente duas variáveis configuram melhor? Então isso significa que é simples. Se você pegar nosso plano x, y, precisamos colocar pontos
no plano, x e y,
x vírgula y, o ponto que precisamos traçar
para que
não desenhemos linhas sejam
seguras nem nada, mas apenas os pontos onde
vamos portar para apoiar o Majlis e o número
de cilindros, assim por diante. Cilindro. O número épsilon no eixo x e minha legenda o eixo y. Então, será como quatro vírgulas. O número de
cilindros é quatro e a mielina está
triplicando ainda quatro. Imprima um ponto
no plano cartesiano que colocaremos. Portanto, é bem simples. Se os pontos estiverem codificados, um, ainda valioso,
poderá ser exibido. Ok, então o que estou fazendo aqui, vou desenhar um
conjunto de dados que são carros vazios, que são os dados de entrada. Conjunto. Nosso nível com o que
já usamos em
nossos exemplos anteriores. Então, vou usar um conjunto de dados de carros
vazio que está prontamente
disponível em nosso ambiente. Então, o que esses carros vazios, Laboratório da
OMS terá. Ele terá dados
sobre os carros,
como número épsilon, mielina
escura e peso
do carro e outras coisas. Ok, então, a partir desse
conjunto de dados, o que
estou fazendo, vou pegar o número
cilindro e a mielina, e isso significa o número
de cilindros e o
Majlis do custo específico que vou obter desse conjunto
de dados. Então, estou usando recta. Veja mielina cilíndrica. Mielina, isso significa mielina
cilíndrica. E estou armazenando isso
nesse objeto. Ok? Então, se eu executar esses dois, o que vou conseguir aqui? Então, estou recebendo detalhes de
vários carros, como Mazda, Datsun, e estou recebendo
o número Epsilon, seja, seis, exportação
de formaldeído. E a quilometragem é de um para um. Da mesma forma, Lotus
Europa, número épsilon, ou
seja, comida e mielina
é 34 para Bandera. É um cilindro, e a
mielina é para apontar, enquanto o número de cilindros
de Woof 142 é quatro
e a mielina é 21. Dessa forma, estamos obtendo
as histórias de muitos carros, vários carros e sua quilometragem. Ok. Agora,
o que vou fazer criar um gráfico de dispersão mostrando os deuses
e depois minha lista. Então, para isso, o que estou usando, estou usando uma
função PNG e estou dando o nome do arquivo do gráfico de dispersão
como meu PNG de pontos do gráfico de lista. E então eu estou usando
a função de plotagem. função de plotagem simples
será usada para desenhar
esse gráfico de dispersão. E ainda assim estou fornecendo
esse x igual à entrada. Então x é basicamente
o vetor de entrada. Então você obtém x igual ao
que estou fornecendo. Estou fornecendo informações como
um número de cilindros. O eixo X, x será o cilindro
de entrada. Significa que estou recebendo o
número de cilindros, ok? E o eixo y será importante. Mpg input dollar mpg significa que estou recebendo esses dados mpg, mpg. Então, essa é a minha lista eixo x será o
número do cilindro do cilindro e o eixo y será a
quilometragem, milhas por galão. Ok. E xlab, estou dando o nível
do eixo x. Recebi um
cilindro numérico porque estou colocando o número
de cilindros lá. E para o eixo y, estou dando o nome mielina e o limite x estou dando quatro a oito porque
o número de cilindros está lendo 4-8 ou dez. Ok? Então, estou dando de quatro a
oito para o limite do eixo x. E o limite do eixo y, estou dando de dez a 35. Ok? E o nome do gráfico
ou o nome do gráfico de dispersão, estou dando o número cilindro,
cilindro versus irracional. Meu laser Dot custou, ok. E então eu estou usando Keep dark
or off para salvar a luta. Portanto, está bem claro aqui. Agora, vamos salvar esse arquivo e usar esse nome como carros vazios. Ca vai cilindar menos ok. E depois salve-o. Ok, agora vamos executar isso. Então, vamos executar esse arquivo fonte. Então, agora é
bem-sucedido mais tarde. Agora, veja se o arquivo
de saída deve ser espalhado, plote minha lista de produtos. Então veja o nome que demos. Recebemos o ponto PNG do
gráfico de milhas. Então esse é o enredo. Ok? Então, veja, o nome da equipe do gráfico de dispersão é o número de cilindros para
essa mielina e eixo x, estou costurando um
cilindro numérico em que cada 45678 e eixo y é mielina,
10, 152-025-3035. Ok? E aqui com cada ponto, suponha que esse seja o ponto. Esse ponto é para o número
épsilon, ou seja, quatro, porque o valor do eixo x é quatro e valor do eixo
y está em
torno de 21 ou 22. Então, quatro cilindros e
cilindro mielogênico Frontier 14, outro ponto 4,23 ou 2023, depois 2044, vírgula 24 e depois
quatro vírgulas 26, 27, assim para cerca de
30143034 vírgula quatro. Então, o número de cilindros para, e essas são as quilometragens
dos carros de quatro cilindros. E vejo você logo como um ponto, x vírgula y ponto
neste plano cartesiano no plano x-y
bidimensional. E estamos colocando pontos
como o número do cilindro quatro e meu
ponto religioso de 21 pontos, ok? Da mesma forma, o eixo X seis
significa número de cilindros, seis pontos esse número seis. Os carros que
não tinham cilindros eram seis, tinham
tantas bainhas de mielina. Essa mielina parece uma pegada, marco de
16171516 a 2021. Assim, podemos saber que
os guardas de seis cilindros começam a dar menos quilometragem em comparação com os carros de quatro cilindros e
chegam aos carros com cilindro de ar. São minhas lentes
para esse laço. Portanto, os
carros de oito cilindros estão dando a menor quantidade de mielina. Portanto, a melhor mielina é dar a Garza o
número de cilindros, quatro e depois seis verdes. Com esse gráfico de dispersão, podemos
chegar à conclusão de que o número de cilindros está decidindo a
quilometragem do carro, quanto menor
o número de
cilindros no carro, maior será a mielina. Isso significa que se o número
de cilindros está aumentando, a quilometragem está diminuindo. A convulsão pela quilometragem é
mais seis mielina, reduzindo. O número de cilindros
está chegando a oito. A mielina está
ainda mais reduzida e mais baixa entre os carros de
46,8 cilindros. Então, número a, bainha de mielina. Inversamente proporcional
ao número de cilindros, o
cilindro, o número de cilindros
no motor do carro é menor, quilometragem será maior e o número de cilindros
no carro será maior, a quilometragem será menor. Ok? Então, com esse tipo
de gráfico de dispersão, podemos facilmente chegar
à conclusão apenas
olhando para
o gráfico, ok? E é um dos gráficos
mais simples que você pode ver e é muito fácil analisar e obter os detalhes
do próprio gráfico. Em seguida, darei o nome
do arquivo como carros
vazios e
discutirei o gráfico de dispersão, o crepúsculo ou o colchão. Então,
o que vou fazer aqui usar
a função par
em R. E com
essa função de par podemos criar
colchões semelhantes no gráfico. E como podemos fazer isso. Podemos pegar os pontos
de dados do conjunto de dados de carros vazio. E em cada ritmo. Quilometragem por cilindro de
deslocamento de galão. A partir desse conjunto de dados, dados de carros
vazios, estou obtendo dados iguais
a m pré-moldados, o que significa que estamos usando esse conjunto de dados de carros
vazio. E a partir disso, estamos usando essas quatro variáveis
: quatro colunas, como Espera, MPG,
milhas por galão, deslocamento e
número de cilindros. E coluna F4. Esses quatro parâmetros
serão usados para criar gráficos, como peso
, e o gráfico de dispersão será
desenhado com base no peso. E minha lista, peso
e deslocamento, peso e número
épsilon. Da mesma forma, a mielina será obtida e, em seguida os gráficos não serão como o peso do
Mileage Plus menos, deslocamento e depois o cilindro
Mileage Plus. Então quilometragem versus cilindro, quilometragem versus deslocamento,
quilometragem versus peso. Dessa forma, uma
variável será obtida e o gráfico será desenhado em relação
às três variáveis. Aqui estou dando a matriz de
dispersão de carros vazios como nome. Então, primeiro, deixe-me
elogiar o principal. E primeiro vou usar, vou começar com o simples. Vou tentar desenhar o MP. Minha lista era esse diagrama numérico de
Epsilon que
desenhamos aqui sem par. Então, o que
eu faço, vou tentar desenhar uma cerveja escura usando apenas
MPG e cilindro. E vamos ver qual
será a saída. Ok? Então, vamos executar isso. E o nome do arquivo é
esse C aqui. Te vejo. Portanto, a mesma saída. Mas aqui o que estamos vendo, estamos vendo em forma de matriz. Então, aqui está jogando MPG milhas por galão e nadando
número epsilon doc. Então você pode ver aqui milhas
MPG por galão e
aqui o número de cilindros. Então você pode, o número épsilon que é para todos os carros de quatro
cilindros ser seu 46,8. Eles estão agrupados aqui para respectivas quilometragens ou curam a mielina de quatro cilindros aqui, depois a mielite de seis cilindros, e agora é o cilindro da minha lista. Então, se você combinar esses dois,
obterá esse gráfico de dispersão. Se combinarmos esses dois, obteremos esse. CEO, não estamos
recebendo o mais cedo, estamos colocando esse número
de cilindros na minha lista. Este gráfico que estamos obtendo, estou subindo o
cilindro da minha lista. Agora estamos vendo
a antipatia do eixo y. Este será o da quilometragem. Ok. E o número de cilindros sendo Sonia
e a mielina é ser Sonya separadamente
em forma de matriz, certo? A mesma coisa, mas em representações
diferentes. Ok. Agora, deixe-me ir até o código e deixe-me
comentar esta linha e depois descomentar esta linha. Agora estou usando DUF para variáveis. E deixe-me fazer isso. E agora veja no gráfico
como isso está acontecendo. Então abra isso. Agora veja as quatro variáveis, peso, MPG, deslocamento
e cilindro. Então aqui está o peso, o deslocamento de Majlis e o
cilindro ajudando Sonya. Tudo bem. Então, esse desperdício é fino. 123 456-789-1011, 12,4 cisteína foi extraída. Ok, deixe-me planejar, na verdade. E com essas quatro coisas,
então, marido matricial quatro por quatro, certo? Dessa forma, podemos usar
essas cervejas para criar
a matriz de plotagem
para esse conjunto de dados. Então, isso criará a matriz
do gráfico de
dispersão que podemos usar para
criar matrizes de blocos. Ok. Nos vemos na próxima palestra.
38. Encontrando média em R: Olá e bem vindo de volta. Nas próximas palestras, aprenderemos sobre estatística em R. Então,
veremos quais são as funções embutidas em nossa programação
que podemos usar para análise
estatística em R. E isso será muito
útil em nosso corpo. Isso será muito útil
em aprendizado de máquina, inteligência
artificial, aprendizado
profundo e todas essas coisas. Portanto, as estatísticas são a principal coisa se quisermos obter
informações dos dados. E a análise de artigos
é fundamental para os
algoritmos de aprendizado de máquina. Portanto, devemos saber quais são
as análises estatísticas e os dormitórios. Então, nas próximas palestras, aprenderemos
sobre essas coisas, a análise
estatística
em nossa programação. Então, vamos começar. Existem muitas
funções embutidas por meio das quais
podemos fazer análises estatísticas. E essas funções são ferramentas
muito úteis e apenas uma unidade para usar o nome da
função e você precisa passar o vetor de dados, pegá-lo com alguns argumentos e seu trabalho estará concluído. Portanto, é muito fácil fazer todas as análises em
nossa programação. Então, agora vamos
ver o que é média e como podemos
calcular a média. Então também veremos
o que é mediana. E então veremos mais. Então, basicamente, vamos
aprender nesta palestra, média, mediana e modo. Ok, então vamos começar. Então, em primeiro lugar, o que significa? A média é
calculada tomando a soma de todos os valores dividida
pelo número de valores. Então, é como se fosse normal. Então você sabe como
calcular a média. Eu apoio que você tenha números 12345 e queira
obter a média disso. Então você fará um mais dois
mais três mais quatro mais cinco dividido pelo
número de valores. Então, número de setas, amarelo, 5/5, então você obterá a média. Portanto, a média é mesquinha. Média também é média é
equivalente à média. Portanto, a média é a soma dos valores
em um vetor, nossos dados, alguns valores nos dados
divididos pelo número de dados. Ok, então deixe-me mostrar
como podemos fazer isso em R. E para calcular a média, há uma função em R
chamada função principal. Ok? Então, deixe-me escrever um
programa para isso. Primeiro, deixe-me dizer o
que significa a parte da
sintaxe e depois escreveremos isso. Para mim. Usamos essa função mean e quais são as coisas
que vamos pegar, pegaremos x e esse
será o vetor de dados. E então será necessário
outro argumento que seja igual a zero. E depois escuro. Então, o que isso fará
e o que é o stream, veremos quando
fizermos nossos treinos. Então é justo e, em seguida, o
ponto RM é igual a falso. E é isso. Ok? Portanto, essa é a função
principal básica na arte, onde x é o corte
do vetor de dados
e, em seguida, um automático. Então, o que é x? X é o vetor de entrada. Então, deixe-me dizer aqui, x é o vetor de entrada, que conterá
os dados da data. E então nosso sonho aqui em
que estamos usando o acabamento aqui é usado para retirar alguns
valores de ambas as extremidades. Então, se você der um sonho
igual a zero, ele não reduzirá nenhum valor. Mas se você der um, ele eliminará um
valor de cada lado. Então é se você deseja
eliminar valores de ambas as extremidades, ambas as extremidades desse vetor x. Ok, veremos e
entenderemos melhor. E o Dark Adam fará
o que ele fará. Isso apenas removerá
os valores que faltam. Portanto, é para remover
os valores que faltam. Então x é o
vetor de entrada, vetor de dados. Trim são os valores de seca dos exércitos extremistas e do NMDA. E remova isso. Valores ausentes. Suponha que você tenha um conjunto de dados e faltem
valores maiores. Então, se você quiser
remover esses valores, você pode usar qualquer um que
não seja igual a verdadeiro. Então, quando essa
imagem acabou sendo chamada de falsa, significa que ela não removerá as cargas que
não estão contendo nenhuma. Isso não removerá os índices que não têm valores. Quando você usa isso como verdadeiro, ele removerá todos
os valores ausentes. Ok, entendi. Você pode dizer que é verdadeiro ou falso
com base em sua exigência. Então, deixe-me comentar isso. Agora, o que faremos criar um vetor simples. Então, o que estou fazendo aqui, vou criar um retângulo que é vetor
de entrada. Ok? Então, vou criar
um vetor de entrada. Então, o que eu vou fazer, vou
usar esses dados. Suponha um grande
como vetor de entrada, ou simplesmente um enorme. E eu vou, eu vou dar
alguns valores aleatórios aqui. Ok? Suponha que eu tenha 789, 671-250-6304 a 405-80-9907, menos dois, -34, 32 -21,
todos esses, todos os moradores. Portanto, temos nosso vetor de entrada que contém os valores. Ok? E agora, suponha que eu
queira encontrar a maldade. Então, o que eu posso fazer simplesmente usar suponha a média de a para criar
uma variável aqui. Significa sublinhado a,
isso significa média de a. Ok? E eu simplesmente usarei a função média e
passarei esta a, vou passar o EBITDA aqui. Então, o que essa função média
fará, ela pegará isso, fez esse vetor como
entrada e
calculará a média desses valores. Então,
deixe-me dizer sublinhado. Então, isso nos dará a
média desses valores. Ok? Deixe-me fazer isso. Aqui. Estamos obtendo
o valor médio de 33,7, 8571. Então, essa é a média
desses valores e a média
desses valores. Ok? Então é assim que podemos encontrá-los. Média do vetor de entrada a partir da
média dos dados de entrada. Portanto, a média
desses dados é 33,78. Ok? Então, a próxima coisa que
vamos aprender é como aplicar
e deduzir átomos. Então, suponha que eu crie
outro vetor aqui. Deixe-me colocar este terminal
ou console à esquerda, que será EG. Então eu vou até as tintas e
vou colocar isso à direita para que possamos ver
isso aqui. Ok. Então, a maldade está aqui, ok. Agora, o que eu vou fazer, eu vou, desculpe. Vamos remover os valores
que faltam. Ok? Então, suponha que eu tenha o mesmo vetor com alguns valores
ausentes, ok? Então, esses são os valores que faltam. Suponha que um esteja aqui. Ok? Portanto, para eles, não temos
Beta, se NA não se aplica. Ok? Então, como remover
esses valores ausentes? Então, podemos simplesmente, se eu usar mean,
sublinhar um, desculpe. E vou usar a média ou como
obtemos o resultado. Vamos ver. Então, deixe-me. Veja, não estamos vendo
nenhum resultado porque ele tem os valores de NA. Ok? Agora, se eu colocar a
média de uma vírgula e escurecê-las como
verdadeiras, o que acontecerá? Isso nos dará, vamos ver. Desculpe, eu usei
e isso está errado. Então, deixe-me fazer isso de novo. Veja que estamos obtendo
o valor agora. Ok? Se eu remover qualquer um que
esteja alterado daqui e se eu o executar novamente,
o que acontecerá? Para ver? Veja, não estamos recebendo nenhum. Ok? Então, se você quiser obter a média desse vetor
diminuindo o valor de NA, então você tem que usar qualquer um
que o outono seja chamado de verdadeiro e isso lhe dará a aprovação. Então, a próxima coisa que
eu vou fazer usar a função trim, então usando a opção Trim aqui, ok? Então, o que
eu fiz foi criar um vetor C, que tem ReLU, valores
simples, 1234567. Ok? E se eu executar isso
e descobrir a média
disso , obterei algum valor médio. Isso é quatro. Ok? Então, e como estamos obtendo quatro, porque um +2, 361-015-2120
8/7 é igual a quatro. Essa é a
média simples. Ok? Agora, o que eu vou fazer simplesmente por sete aqui. Então. Vou colocar um aqui, coloco quatro aqui e três aqui. Então, simplesmente, estou apenas colocando os valores
em um lugar aleatório. Ok? Portanto, essa não é uma matriz
ordenada, certo? Então, se eu descobrir o significado disso, novamente, vou pegar a foto. Ok, temos o
mesmo valor, certo? Se eu perder o acabamento igual a
zero, o que acontecerá? Vamos ver. Vamos pegar os quatro, certo? Agora, se eu usar 0,13 igual a 0,1, o que ele
fará é classificar essa Addie. Ele classificará isso
em ordem crescente
e, em seguida, eliminará aquele em que um valor
de cada lado. Então, vamos ver o que significa que
estamos chegando aqui. Estamos obtendo Y porque cairá 1,7
e o resto do valor para dois mais 244 mais
36 mais 399 mais 514, e depois mais 62020/5
é quatro, certo? Se eu sonhar com
Coulter com o que ela fará, isso deixará as duas
Alice do lado dele. E, novamente, estamos recebendo. Então, deixe-me colocar isso como o
original, o classificado. Então, vou apenas comentar aqui
e colocar 123.456,7. Então, o que isso igual a
zero a 0,2 fará, removerá 1,2 desse
lado e 67 desse lado. Então, o que vai levar? 345. Portanto, ele recairá com o C igual a três vírgula quatro vírgula cinco. Então, sete mais três mais 47 mais 51212 dividido
por três quartos. Então é aí que estamos
recebendo quatro novamente. O que acontecerá se eu colocar dez? Chamamos 2.3 e executamos isso. Ele classificará e removerá
três valores de cada lado. E, novamente, obteremos y, chamamos se removermos 123 deste lado e
cinco sextos de n deste lado, novamente, obteremos que 41
dos quatro ficarão à esquerda, certo? Restarão apenas quatro e a
média de quatro será quatro. Ok? Então é assim que funciona. Deixe-me, vou colocar mais alguns
valores aqui, 910910 aqui. E vamos executar isso. Veja agora que estamos obtendo
a média como phi y porque ela
removerá três valores, 1.234,78, 7910 desta pesquisa. Então, o que nos resta
, resta com 45,6. Então, 4561, qual será a média? Serão 15, certo? Alguns deles para 5 s por 15/3. Isso significa número de
valores três agora, então a pegada dividida por três, obtemos, obteremos cinco. Então é assim que podemos
usar a função trim. Então, primeiro, o que ele vai fazer é classificar isso em um resort, esse vetor, e
vai fazer com que seja assim. E então removerá três
que eu perco do lado leste, do, dos três
primeiros e dos três finais. E o restante lhe
dará a média. Ok, então é assim que
esse sonho funciona. Ok? Então, se você quiser remover os valores do
início e do fim, tanto do final quanto do final,
queremos encontrar a média, ou você pode usar o corte e
o valor apenas Texas 0.1. Você não quer
um meio sem fio do lado dele. 0,2 significa duas letras minhas, digamos 0,3 min, três
valores de cada lado. Ok? Então é assim que funciona. E se você quiser remover
os valores que faltam, você pode usar qualquer ponto
árabe igual a verdadeiro. Ele removerá esses
valores de NA do conjunto e
fornecerá os valores restantes e encontrará a média
desses valores
restantes. Ok? Então é assim que funciona o nn
dot autumn and trim. vemos na próxima palestra onde aprenderemos sobre mediana e como
encontrar a mediana na arte.
39. Encontrando mediana e modo em R: Olá e bem vindo de volta. Nesta palestra, veremos como podemos
calcular a mediana
dos dados, ok? Então, como podemos encontrar
o valor médio? Então, primeiro de tudo, saberemos
qual é a mediana. Portanto, a mediana é o
valor médio em uma série de dados. Então, suponha que tenhamos
essa série de dados. Então, queremos encontrar o
valor médio dessa série de dados. Então, vamos começar. Ok, então medial,
o mais relevante, o valor que
vem no meio, não
é como eu, que é o
valor médio da série de dados. Mas essa é a média, se plotarmos
esses dados em alguns x
, qual valor
virá no meio? Ou seja, o valor que vamos
encontrar, a mediana. Portanto, a mediana é o
valor médio em um conjunto de dados, tudo bem. E para encontrar a mediana, usamos a função mediana em r. Então, usaremos a
função mediana na arte. Então, não eu, DNA, é mediano. Então, vamos usar essa
função, mediana, ok? Use a mediana DIN para
encontrar a mediana. O conjunto de dados. Portanto, esse é o conjunto de dados que
criei e essa é
a função mediana. E quais são os
valores que isso exigirá. Ele pegará o E
e o vetor de entrada. E então,
qualquer chamado
sombrio do outono será falso ou verdadeiro, o que você quiser,
você pode dar. Ok? Se quisermos remover valores, você pode colocar o ponto Adam. Se você quiser remover
os valores N A, você pode colocá-los em
Aram iguais a false. Vimos como usar o NADH na
palestra anterior, onde
discutimos sobre a média. Portanto, com a mesma funcionalidade
e também com qualquer item de dados. De acordo com false
, isso não removerá os valores ausentes. E se n não for igual a verdadeiro, ele removerá os valores
ausentes. Ok? Agora, se eu executar isso,
o que quisermos , eu obterei a mediana dessa série. Vou colocar sua mediana sublinhada a e atribuir
essa mediana a isso. Mas **** entendeu
bem essa variável, a idade média do sublinhado. Então, deixe-me imprimir isso. Então, se
executarmos isso, obteremos a mediana como um valor
médio desses dados. A série Seizes é nove, certo? Suponha que eu use, vou colocar mais
alguns
valores aleatórios como 6745, 2245, 4722, 9979. E agora, se eu tentar
encontrar, obteremos 33. Ok? Da mesma forma, ele tentará encontrar o valor
médio do conjunto de dados. Eu vou fazer isso de graça e
isso vai dar 44, ok? Portanto, ele tentará descobrir se o valor médio
do conjunto de dados está bem. É assim que encontramos a mediana de uma
série de dados, nosso conjunto de dados. Agora, a próxima coisa é que vamos aprender que é
encontrar o modo. Ok? Então, agora vamos usar para
tentar encontrar o modo. O que aprendemos aqui não
encontramos a mediana. Então, agora aprenderemos
como descobrir mais. Então, qual é a moda? Modo é o valor que tem o maior número de
álcalis no centro da cidade. Suponha que tenhamos isso. Deixe-me copiar isso. E deixe-me criar o conjunto de dados para esse problema de encontrar
mais problemas, ok? E este é o nosso conjunto de dados onde
temos suporte de que 45, 45 está ocorrendo muitas vezes, então 45 do que o seu, vou remover esse pseudo 45, e então obterei para diversos. Então t Aqui, 45 está se repetindo
1234 vezes, certo? Suporte. Portanto, esse modo de descoberta
significa mod Easter. Número de encontrar
o número máximo de ocorrências ou
por valor, certo? Portanto, modo é o valor que tem maior número de
documentos em nosso conjunto de dados. Ao contrário do modo médio e mediano, pode ter números e caracteres. Então, primeiro veremos como
encontrar o modo desse conjunto de dados
numérico. E então diremos que tente
encontrar também o
conjunto de dados do personagem. Então, se eu usar mod porque não
há uma
função embutida para encontrar mais em R. Ok? Então, o que
faremos é criar nossa própria função
personalizada para encontrar
o número máximo de
ocorrência do valor de dados em um conjunto de dados. Ok, então, para isso, o que vou fazer, vou
criar uma função. Então, o que eu posso aqui, você receberá pela quantia, ok? Então, vou criar o modo de
função de região, ok? E o que eu vou fazer é dar esse nome
como eles fizeram. Vamos mais.
Ok. E para isso, o que vou fazer é usar a
função e depois passar isso. Ok, então qual é
o conjunto de dados? Ok? E abaixo disso, o que vou usar, encontrar uma idade de sublinhado
única e única. Um valor tão único
é o que eu quero encontrar. Então, para isso, o que vou usar, vou usar uma
função única que está na arte. E o que eu vou fazer é
passar isso aqui. Portanto, essa
função exclusiva me dará o valor exclusivo
neste conjunto de dados. Ok? Então, deixe-me simplesmente levar isso para a escola. Eles sabem o que eu vou fazer. Vou simplesmente usar
mais do que isso é chamado de a. E o que eu vou fazer é chamar isso de “ Modo
Concluído” de falso e “ok”, então eu vou passar um líquido sobre isso. Ok? Então, deixe-me elogiar isso e eu
preciso colocar no modo,
modo, e isso é chamado de a. Ok, então deixe-me executar isso novamente. Então veja aqui o que
estou recebendo agora. Estou recebendo o mesmo conjunto
de dados, certo? Agora. O que eu preciso fazer, eu preciso fazer alguns
cálculos aqui. Preciso escrever alguma
lógica aqui para encontrar o valor exclusivo do número de
ocorrência de um determinado. Descobriremos
assim o número 45, o número
mais
frequente nesta série. Ok? Então, para isso, o que vou fazer usar um sublinhado exclusivo a. E o que vou aplicar aqui adoro jogar rich, dark max. E então eu vou usar
tablet, tablet, tablet. E então o que vou usar
é a função match. E o que eu vou fazer é usar macarrão, um coma, único e
faz um bom dia. Ok. E agora, se eu receber a devolução, se eu executar isso, vou
pegar o modo, ok? Sim, 45, estou
terminando de digitalizar 45. Então é assim que podemos. Para criar uma
função definida pelo usuário para o modo de busca. Então, aqui estamos criando nossa própria função,
retorne mais sublinhado, que é pegar esse vetor como vetor de entrada ou os dados de entrada que estamos fornecendo aos dados aqui. Então, isso acontecerá, esse conjunto de dados
entrará nessa função. E aqui o que estou fazendo, estou criando outro valioso sublinhado
exclusivo j. E aqui estou usando a função embutida em R
que é única, única. Portanto, isso proporcionará
um bem-estar único. E então, o que estou usando
para essa descoberta, esse sublinhado exclusivo a, hum, você não o
atribuiu ao ponto máximo, que é o, que está ocorrendo o número
máximo de vezes. Então, estou combinando esse e, esse conjunto de dados original com
esse conjunto de dados exclusivo e descobrindo qual número está acontecendo na maioria das vezes
e estou obtendo o resultado. Então, aqui estou criando
outro modo de sublinhado j, e estou apenas chamando essa
função e ela nos dará o maior número de ocorrências, número
mais ocorrido
desse conjunto de dados. Isso é 45. Se eu suponho que um bom 76, na maioria das vezes. E se eu tentar executar
isso, o que acontecerá? Vamos ver. Agora estamos recebendo 76 como o número
mais difícil. Dessa forma, podemos usar isso, podemos desfazer a mesma coisa com o texto do seu suporte de MBA. Quero criar um caractere
sublinhado em algum conjunto de dados. E aqui o que vou fazer, vou colocar alguns valores de string. Suponha que eu coloque o
nome do país como Índia, EUA, África
do Sul,
Austrália assim. E o que vou fazer,
vou apoiar isso. Eles venceram essa
Austrália algumas vezes. Ok. Repita essa Austrália duas vezes, ok. E repita esse fingimento duas vezes. Ok. Então agora este é o, este é o conjunto de dados em
que escrevemos duas vezes
e a Austrália duas vezes. Ok? E eu quero desligar o modo. Isso se chama atraso. Então, o que eu
posso fazer é chamar esse modo de
retorno de sublinhado. E eu posso simplesmente colocar
esse conjunto de dados aqui no modo de
escrita de funções, ok? E se eu imprimir isso, ficarei com a Austrália
como resultado. Então, deixe-me fazer isso. Ok, então eu esqueci de colocar C aqui, erro
tolo que eu cometi. Então, deixe-me colocar isso aqui. Ok. Então, vamos parar
, a coisa está bem. Então, estávamos melhorando
porque não colocamos C aqui. É aí que você
está entrando. E eu estava tão ignorando isso que não
vi isso. Ok. Sinto muito por isso. Deixe-me fazer isso de
novo e ver você. Agora estamos colocando a
Austrália no digital, então as hostilidades se reportam
duas vezes e a Grã-Bretanha duas vezes. Então, vamos pegar a Austrália. Deixe-me tentar algo. Como eu disse, a Austrália provavelmente também
envia tudo duas vezes. Ambas as coisas foram duas vezes. Deixe-me ver o que temos. Nós temos a Grã-Bretanha. Então, quando você recebe as primeiras
doações de ações primeiro, tudo bem, então finja que virá
primeiro e depois a Austrália. E suponha que produza Índia também
produza. Duas vezes vemos o que obtemos. Em C, temos a
Índia, como k. E suponha que a saída seja,
finja primeiro, Curtis. E eu o coloquei aqui. E se eu executar isso, vamos ver, vamos
pegar a Grã-Bretanha. Então, qual é o
primeiro documento que receberá a
maior preferência? Portanto, embora o meridiano, Índia e a Austrália
estejam ocorrendo duas vezes, isso está nos dando o resultado,
pois a Grã-Bretanha que chamamos de fingir que é flush TO hockey. E se eu colocar a Austrália, deixe-me colocar a Austrália novamente. E se eu executar isso agora, chegaremos à Austrália e, de alguma forma
, nos apegaremos a eles. Dessa forma, podemos descobrir o modo de nossos dados mais a partir de nossos dados. A maior parte
do valor de marketing do nosso conjunto de dados. Nós nos comemos. Conjunto de dados de caracteres ou conjunto de dados
numéricos. Ok, então podemos criar nossa
própria função que eu não modifiquei, onde perdemos
uma função única e então aludiremos
qual ponto máximo. E vamos tabular isso
e vamos comparar e encontrar o número máximo de ocorrências
de um determinado valor. Ok, então, dessa forma,
podemos usar mais. Então, vimos encontro
na palestra anterior e mediana
e modo nesta palestra. Então, agora sabemos como fazer
o básico dessas coisas,
média, mediana e modo
em nossa programação, mesmo que Morty não
tenha uma função embutida. Para saber mais, criamos nossa própria função de usuário para
encontrar o modo de um conjunto de dados. Espero que você tenha que
entender como fazer isso. Nos vemos na próxima palestra.
40. O que é regressão linear: Olá e bem vindo de volta. Então, nas palestras anteriores, vimos como podemos fazer análises
estatísticas em R para aprendizado de máquina
ou ciência de dados. Então, essas são as coisas que são muito úteis e
devemos conhecer todas essas estatísticas para
prosseguir em aprendizado de máquina e inteligência artificial
ou aprendizado profundo, o que você quiser
aprender mais. Neste curso, estamos
aprendendo ciência de dados
e aprendizado de máquina
por meio de nossa programação. Portanto, temos média,
mediana e modo do gramado, onde vimos essa função inversa para
encontrar a média e a mediana, enquanto não tem
função embutida para encontrar o modo. Então, o que
fizemos foi criar uma função
definida pelo usuário criar
fontes personalizadas e, para encontrá-las, calculá-las mais. E então calculamos o modo que fizemos
na aula anterior. Então você pode ir e ver isso
se ainda não viu. Então, o que mais? Agora, vamos aprender um conceito muito importante que é chamado de regressão
linear. A regressão linear é muito importante e é
amplamente usada em aprendizado
de máquina e inteligência
artificial. Então, se você quiser
prosseguir, você precisa saber o que é regressão
linear e como você pode usá-la para prever. Portanto, a regressão linear é um modelo
de aprendizado de máquina. Com isso, podemos prever
os valores com base em, suponha que tenhamos dados, suponha que tenhamos dados aqui, altura e peso, onde temos o peso da proporção. E com base no
peso da proporção, estamos calculando a altura
ou a largura e a altura. Queremos calcular o
peso da proporção. Então, qualquer coisa que você
queira estabelecer a relação entre
essas duas variáveis, altura e peso. Podemos fazer isso e prever, suponha que esses sejam os dados de
amostra que temos, que coletamos
por meio de nossos experimentos. Agora temos a
altura e o peso dos dados. E com base nesses dados, supomos que temos essas discrepâncias de
até 19 conjuntos de dados aqui. E com base nesse conjunto de dados, queremos treinar nosso modelo, modelo
de aprendizado de máquina, em modelo de regressão
linear. E suponha que eu queira
atingir uma nova altura de uma pessoa, darei uma nova alta tecnologia que não está presente nesta
coluna e
quero prever o
peso esperado dessa pessoa. Então,
o que eu faço treinar meu modelo com esses dados. E sempre que eu forneço a nova
altura de uma pessoa, o sistema prediz o peso da pessoa, o peso esperado da pessoa com base no
cálculo e funciona. Dessa forma, podemos prever o peso de uma
pessoa com base em sua altura. Então, vamos treinar com
esses dados e quaisquer dados, quaisquer novos dados que possamos dar altura. E vai prever o
peso esperado dessa pessoa. Ok, então é isso que
vamos fazer por meio de regressão
linear. Então, o que é regressão linear? A regressão linear é método estatístico
tático usado em finanças, investimentos ou qualquer
outra disciplina que tenta determinar a força e
o caráter da relação entre
uma variável dependente, geralmente denotada por Y, e uma série de outras variáveis conhecidas como variável
independente. Então, o que você
entendeu? Esse modelo, se algum método para encontrar a relação
entre duas variáveis, uma é independente,
Hannah, que é dependente. Então, o que depende do
que é independente? Suponha que, com base na altura, eu queira encontrar
o peso da porção aqui,
a altura, que estamos fornecendo como entrada, será chamada de variáveis
independentes. Então, aqui a altura será uma variável
independente
e o peso
será a variável dependente
porque, com base na altura, estamos prevendo o peso. Então, com base na altura, a entrada
que
temos como altura, isso se baseará no valor que
queremos prever. Com base na altura que
queremos prever. altura será a variável
independente e o peso será
a variável dependente. Porque dependendo da altura, estamos prevendo que o peso, a altura passarão por uma variável
independente, e o peso será a variável
dependente. Ok? Então você tem que saber
o que é variável dependente e independente, certo? Portanto, a variável dependente
é denotada por Y. E as variáveis independentes são a série de outras variáveis. Então, haverá uma folha. Suponha que você tenha uma
empresa e
queira prever a receita
da empresa. Portanto, a receita da empresa
pode ser apenas uma variável. Para que possamos prever com base em várias outras coisas,
como
o desempenho de sua empresa
, o que é apropriado,
qual é a perda? Ei, quantos clientes você tem, quantos clientes você perdeu e como, como você está dando
Salish às nossas implicações. Então, todo esse componente salarial, lucro, perda, condição de mercado, todas essas são as variáveis
independentes que
definirão sua receita. Portanto, a receita aqui é uma variável
dependente e todas as outras coisas
que
afetarão sua receita são chamadas de variáveis dependentes. Então, pode haver muitas variáveis
dependentes e haverá apenas uma variável
independente que vamos prever. Ok? Portanto, a análise de regressão é um processo estatístico configurado para estimar a
relação entre uma variável dependente,
geralmente chamada de resultados. Então, o resultado que vamos
obter é chamado de variável
dependente. E uma ou mais variáveis
independentes. Portanto, uma ou mais variáveis
independentes implicam salário, lucro, perda, condição de
mercado, todas
essas coisas geralmente chamadas preditores,
covariáveis ou características. Portanto, esses também são
chamados de recursos com base nos recursos
que vamos prever algum valor. Vou estourar uma coisa em particular, ok? E esses também são chamados de preditores
porque nos ajudarão na receita ou
no peso de uma pessoa. A forma mais comum de análise de
regressão, análise é a regressão linear. Ok? Então, aqui está uma análise de
regressão
múltipla, como múltipla, ou
eles enviariam uma análise de regressão
linear simples, regressão linear,
todas essas coisas. Ok? Portanto, na
regressão linear que fazemos, descobrimos que o pesquisador
descobre que as linhas são combinações lineares
mais complexas que
melhor se ajustam aos dados de acordo com o critério
matemático específico. Ok, então o que significa mar? Esses são os dados de
peso de Nick no eixo x e Altura no eixo y. Ok? Então, com base na altura, vamos prever
o peso da proporção. Então, aqui, se você ver
esses são os pontos. Esses pontos são como 64, 64, R1, 77 kg, 177, altura. O peso é de 64 pontos,
certo? Então, esse ponto, esses são os pontos de
dados que temos. Então, o que fazemos com a regressão
linear, tentamos encontrar uma linha aqui. Tente encontrar aqui uma linha que
represente os dados, que os preparará. Dados de resultados, como suporte, você encontra aqui qualquer ponto, como 65. E quando você traça uma linha aqui, ela cruza ali, você ganha um ponto
e aumenta esse peso. Você obterá que a
altura é melhor do que esse valor de altura y, você obterá o valor X, certo? Portanto, esse ponto fornecerá
a combinação x e y, ou dados de altura e largura, certo? Então, quando você traça uma linha aqui, você obterá aquela. Suponha que recebamos 65,8 ou estamos dando
162 como o valor mais alto. Então, quando chegarmos aqui, obteremos o valor de x aqui. Ou seja, esse será o
peso da pessoa. Então, vamos tentar encontrar
uma linha que represente
corretamente a linha, ok? E dados, certo? Dados de acordo com os critérios
matemáticos específicos. Ok? Então, regressão linear, essas duas variáveis ou
por meio de uma equação. Na regressão linear,
essas duas variáveis, variáveis dependentes e
independentes, desgastarão a potência expoente de
ambos os níveis digitais em um. Porque o que vamos usar
nessa equação linear simples escreva y é igual a m x mais
c. Y é igual a m x mais c, onde m é a inclinação e o valor
constante, certo? Então, é uma constante, certo? Então, aqui m x m é inclinação. Então, com base nisso, podemos
desenhar qualquer linha, certo? Então essa é a equação
linear simples, certo? equação em linha reta y
é igual a mx mais c. Então, com base nesses X e Y, tentamos encontrar essa linha que realmente
representará esses dados de dados, altura e peso. E como eles são chamados
de potência é um, y ao quadrado m x mais c. A
potência de x e y é um. É chamada de equação
de linha simples. E se a potência deles não
for igual a um, formará um carro. Não será uma linha reta. Será uma linha curva, como função
sigmóide ou
algo assim, certo? Então, com base nessa equação,
tentarei descobrir, ok, então y é a variável de
resposta, certo? Como o valor y, vamos
prever com base no valor x. E x é o valor preditor,
valor ou variável independente. A e b são chamados de coeficientes. Então, quando realizarmos a regressão
linear, tentaremos descobrir isso. valores A e b, Os valores A e b,
chamados de coeficientes, são coeficientes de regressão. E com base nesses dois valores, a e b, encontramos
o valor y, ok? E com isso,
obteremos esses pontos, esses pontos na linha. E quando desenhamos uma linha, unir esses pontos obterá uma linha reta ou
uma diminuição na linha. E essa linha
fornecerá a verdadeira previsão
dos dados. Ok? Onde é usado? Bem, usamos a regressão
linear. Portanto, a análise de regressão é usada
principalmente para duas forças
conceituais distintas. A análise é amplamente usada para
previsão ou previsão. Suponha que tenhamos dados de altura
e peso. Queremos aumentar a altura. Queremos prever a
altura de uma pessoa lá. Podemos usar nossa previsão. Suponha que
amanhã chova ou não, casos
verdadeiros ou falsos. Ok? Então, esse tipo de
previsão que podemos fazer, como se o tempo
fosse como um dia ensolarado. Vou sair em um
dia ensolarado. Não vai chover. Previsão, podemos fazer isso
na situação de previsão e
previsão, usamos a regressão linear
no aprendizado de máquina. E a segunda é que a análise rigorosa da
situação pode ser usada para que o relacionamento
casual entre as variáveis independentes e
dependentes ajude você quando você tem duas variáveis dependente
e independente, você deseja descobrir como
elas estão relacionadas. Eles são, podemos usar essa regressão
linear para encontrar a relação entre
a variável dependente e a
independente. Então, agora, como
estabelecer a
regressão ou regressão linear. Exemplo simples que
vamos fazer em nossas mãos, pôr do sol, que
prediz o peso de uma pessoa
com base na altura. Portanto, se soubermos a
altura de uma pessoa, podemos prever o peso com essa análise de regressão linear. Então, para fazer isso, precisamos ter uma relação entre altura e peso de uma pessoa
e como fazemos isso, porque temos a
altura e a largura dos dados aqui que vamos usar
em nosso exemplo. Então,
o que eu faço primeiro coletar
os dados para os quais queremos estabelecer
esse relacionamento. Então, teremos esses
dados e, em seguida, faremos o que faremos quando
tivermos os dados. A verdade é que, uma vez que tenhamos os
dados,
realizaremos análise exploratória de dados para limpar os dados se
faltarem alguns valores, como podemos remover, o que, como podemos sentir esses dados. Então, esse tipo de coisa que
fazemos na vida real. Mas aqui, o que
faremos, teremos classificado muitos dados de
personagens aqui. Portanto, sabemos que não devemos
fazer todo esse tipo de coisa que veremos
na última parte do curso. Mas, por enquanto, aqui temos
os dados muito limpos. Então, o que faremos,
faremos isso. Usaremos a função lm
e tentaremos
estabelecer a relação
entre altura e peso. Altura e largura,
y e x, certo? Altura e peso
tentarão funcionar. O locador tentará criar um modelo de regressão linear
usando a função lm. função Lm é a
função inversa em R que
fará todo o
cálculo matemático em segundo plano. E isso nos dará a
relação entre x e y. Escreva y e x são
elevados molhados. Isso criará a verdadeira
essência da função IF. E quando obtemos, quando usamos o resumo
dessa essência real, se podemos encontrar os coeficientes a e b e como
eles estão relacionados. Então, com base nisso, podemos traçar
a linha regular de insulina. E também podemos prever
o peso de uma pessoa. Você não previu a função. Existe outra
função chamada predicar, qual usaremos essa relação
que é a função lm. Ok, então ele usará
a regressão linear, nosso relacionamento que
estabelecemos nesta etapa. E ele usará esses valores
x e y e essa relação e tentará
traçar a linha de regressão para nós. Traçaremos a linha
de regressão aqui, mas aqui com a função de
previsão. E a função de previsão
usará internamente aquela função ou relacionamento que obtemos por meio do modelo de regressão
linear. E ele usará esse
modelo para prever a altura com base no peso. Então, veremos como podemos
fazer isso na próxima palestra. Então, espero que você tenha
entendido o que é regressão
linear. A regressão linear é
algo como apoiar você. Temos os pontos
aqui e queremos prever com
base nos novos dados. Queremos prever que,
com base na altura, eu quero, suponho, com base na altura de 230, qual será o
peso que eu quero encontrar? Então, aqui, se tivermos apenas os
pontos de dados, não podemos fazer isso. Então, o que o
modelo de regressão linear fará? Isso criará uma linha
reta que
realmente representará esses pontos de dados. Então, será feito até 30 se você desenhar uma linha
aqui e aqui, o ponto de interseção aqui, isso lhe dará algo como qual será
a altura dessa pessoa. Então, ele lhe dará
uma linha de regressão. Com base nisso, você pode prever
o valor preditor de R, prever o peso de uma
pessoa com base na altura. Ok? Então nos vemos
na próxima palestra.
41. Previsão usando modelo de regressão linear: Olá e bem vindo de volta. Então, na aula anterior, aprendemos o que é regressão e o que
aprendemos, o que é a regressão linear e como podemos usá-la
e onde ela está. Você está certo. Então esse é
o sistema prático. E aqui tentaremos escrever nosso código para implementar regressão linear
simples, onde usaremos
um dos dois vetores, x e y, onde x contém o peso
das porções. X cada um contendo a altura
da altura
do paciente ou a altura parcial de
poucas pessoas, ok? E então y
conterá o peso. Então x é altura e y contém o peso
correspondente a esse x. Ok? Então, com base em nenhuma altura
construída sobre o x, queremos encontrar o y, certo? Então esse é o nosso conjunto de dados, certo? Então, com base em X, na altura de uma pessoa, queremos prever a altura de um saudita parcial
feito na altura. Queremos prever o peso
da pessoa, certo? Então, com base em x, queremos
prever o y, e é aqui
que estamos
considerando o porquê de outro peso. Então x é altura e peso. E é muito simples
estabelecer a relação entre x e y em R. E
como R tem oh, função
lm, função lm
é função de regressão
linear ou modelo linear. função Lm criará essa relação
entre x e y. Então, aqui a primeira variável, os primeiros dados
vetoriais de dados que
definiremos aqui, que são as variáveis
dependentes. É por isso que queremos
prever com base no x. Então, quando escrevemos assim,
significa que, com base no x, vamos prever y.
Então y não é o valor preditivo e x é o preditor. X é a
variável independente e y é a variável dependente.
Y. Y é dependente porque o valor de
y depende
do X fornecido, certo? Então, qualquer que seja o valor de x que
forneça com base nisso, nosso modelo preverá o valor y, seja, o peso, certo? Então, forneceremos X que
é a altura da proporção. E com base nisso, ele vai prever a
variável dependente Y, que é peso e altura. Vamos prever o
peso da proporção. Portanto, essa função lm é simples, não
vamos fazer as contas de fundo porque função
lm a
implementará, encontrará o
coeficiente e tudo que
estabelecerá essa relação. Mas em R, como
estamos usando in vitro em bibliotecas construídas
da função lm, ele criará automaticamente a relação
entre x e y. E com base nisso,
podemos prever. Então, a primeira coisa, o primeiro passo
é tentar estabelecer a relação linear
entre x e y, ok? Portanto, o preditor estará aqui ou a variável dependente
estará aqui. E essa é a variável
independente. Então, com base na altura,
vamos prever x. Por que isso é, espere
até a porção. Então, aqui estou simplesmente
dando um nome de arquivo, W, altura, peso, um
ponto PNG, qualquer arquivo. Deixe-me, você pode dar a eles
aqui o que estou fazendo. Estou apenas representando valores de y, x, y, valores de x
no plano xy. E eu estou dando a ele uma cor azul. Você pode dar verde. E podemos escrever aqui a
altura, o peso das aulas. Se você pode imprimir as lições, a regressão,
o que quiser, você pode colocar aqui, ok, e então eu estou usando a linha AB. Cada linha criará
a linha de regressão, mas estou fornecendo o LM. Ok? E então, com isso, veremos como podemos
mudar e o que é isso? É como haha, como você quer colocar os pontos
de dados no gráfico. E então, no eixo x, gaiola de
espera e eixo y,
altura em centímetros. Ok? Então é assim
que vamos traçar isso. E então o que estou fazendo aqui. Eu fornecerei 170 centímetros
de alto toque. Então, aqui estou fornecendo X
igual a 170 centímetros. E com base nesse valor de x, eu quero prever o
peso previsto da pessoa Y. Então, X eu estou fornecendo aqui. Então, estou criando um DataFrame e estou plotando x igual a 170. Ou seja, estou dando a
essa variável o nome de uma nova borda, nova altura. Ok? E então,
o que estou fazendo simplesmente prever um
museu, a função de previsão, prever e estou usando essa relação que
estabelecemos. E eu estou fornecendo. A
variável independente que é x. Então esse valor de x
está aqui. Novo molhado. Estou fornecendo um novo,
mas é um anos 70, um fornecendo o que estou desenhando x aqui e quero
prever o Y. Então, quando executarmos isso, obteremos o valor y. Então, para 170 centímetros de altura, qual será o peso
da pessoa que vai prever com
base na relação que estabelecemos
no modelo linear, modelo de
regressão linear. Então, deixe-me executar isso
e ver a saída z. Saída que estamos obtendo como 67,33. Então, para 170 centímetros, a altura de uma pessoa é ter a altura
de um centímetro de 70. Nosso sistema está prevendo
que ele deve ter o topo máximo de 67,33. CEO. Se você ver 170
, será sobre isso. Ok, eu vejo 167. É. Nosso sistema está
prevendo para um, 70s, 67. Ok? Então, ele fará o
cálculo matemático dentro da lição anterior estabelecida
e concluímos que, com base nesse modelo, aquele
modelo de regressão linear que criamos, ele preverá o peso da pessoa que está
chegando por volta de 67,33. Deixe-me mostrar o gráfico. Bem, então este é o gráfico
que imprimimos aqui. Certifique-se de ver
aqui esses pontos,
os pontos de dados estão
vindo em verde porque
fornecemos aqui em verde. Se eu fizer com que seja lido, os pontos de dados serão
convertidos em certo, certo. Ok, então deixe-me abrir
o arquivo novamente. Os pontos de dados estão em vermelho. E mais uma coisa que eu
queria te dizer, veja, esse valor de CX
definirá se eu fizer com que ele suporte 2,5 e se eu executá-lo, os pontos de dados serão maiores. Ok? Então, veja bem, agora os pontos de dados estão
chegando em uma forma maior. Ok? Dessa forma, esse
é o valor de x para aumentar ou diminuir os lados
dos pontos de dados. Ok? E essa peça aqui, cisteína, deixe-me mudar para 26 e ver qual é o
impacto da votação. Agora está vindo assim. Então, é basicamente assim
que você deseja colocar seus dados. Então agora está chegando agora. Maneira retangular, reta. Se eu colocá-lo no projeto, ele virá em um diamante igual. Então, é basicamente assim
que você quer colocar sua agulha, como você quer
fazer com que ela tenha uma cor sólida. Então, basicamente, o valor do PC mudará a forma
dos pontos de dados, certo? Retrato de cisteína, ela
virá em círculos mais ou menos circulares. Ok? Então, agora e xlab é o que colocamos no eixo x e o nome no eixo x e
depois na altura do eixo y. Então, essa é a altura e
esse peso da borda. E isso é o principal
que, se tivermos usado, gerencie
altura, peso e zíper. Então, isso virá
aqui e verá, sim, essa é a linha de regressão
que nosso modelo desenhou. Então isso vai te dar. Se você quiser prever um valor, basta colocar aqui 67 e isso fornecerá esse sistema de
valores que predirá. Então veja seu processo T7, a altura é, deixe-me aprofundar um
pouco mais na coisa. Então, procurei 67, a altura é uma. Tal T7. Eu não
queria prepará-lo. E vamos ver o que nosso sistema está prevendo
para 150, ok? Essa é minha porta 165. Então você pode ver
esse T7, este também. Mas nosso sistema está
prevendo cinco. Portanto, é semelhante a
67,25, 1321 a T7. E nosso sistema está prevendo um que colocará
o posto de controle e C. Então, isso é como
brincar com o código. Se eu derramar isso, vamos ver o que obtemos. C, obtemos 65,44. Em nosso conjunto de dados, o que é isso? Chegando por volta dos 67. Então é assim que nosso sistema está prevendo. É muito preciso, ok? E isso diz a
linha de regressão que ele desenhou. Então, aqui estamos prevendo, ok? A próxima coisa que podemos fazer
é definir meu estado ideal. Ok? O que eu queria te dizer mais que podemos tirar alguém aula e veremos o que
isso nos dá. Então, se eu colocar peso apenas
nisso, CEO, devemos obter
todos os resíduos como mínimo, mediana de um
quartil, valores máximos do
terceiro quartil
e, em seguida, os valores do
coeficiente de cópia m e c m e c
m x mais c m e c estão
saindo como interceptação aqui. E aí está chegando esse valor t
e o valor de P está vindo assim. Então, essas são as coisas, essas são a
cooperação que é calculada pela função lm. E com base
nisso, está prevendo o clima. E com base
nisso, está testando a linha celular
específica. E os vários
valores de R quadrado do CEO estão chegando assim. O R-quadrado ajustado
está vindo assim. E as estatísticas F
estão chegando aqui. Ok? E os valores de p aqui, veremos da mesma forma, que
estão além do
escopo deste curso. Quando aprendermos, quando você aprender algoritmos de aprendizado de
máquina em profundidade, você saberá
o que são essas cópias e como elas são usadas. Isso está além do escopo
deste curso porque estamos apenas aprendendo nossa parte de programação para aprendizado
de máquina. Você deve saber
que agora a função lm usará internamente
esses
coeficientes de custo do mundo 3D e o erro
padrão que
ocorrerá porque nenhum modelo
preverá o botão Connect, então haverá um erro. Portanto, o
erro padrão residual está em torno desse valor R quadrado de 17 graus de
liberdade. Então, o que eu quero são os valores previstos
e o valor esperado, os valores previstos e
o que quer que seja. Então esse será o erro. O que quer
que estejamos procurando e o sistema que está oferecendo,
haverá uma edição. E se o fizermos for um dia muito ruim, obteremos os que estão
descritos aqui. Ok? Portanto, esses são os
valores que serão usados internamente
pelo modelo de
regressão linear de aprendizado de máquina e para prever a variável
dependente. Ok, então espero que você
tenha entendido pouco de um modelo de
regressão linear e como você pode usar a função lm para
prever e desenhar essa linha de
regressão linear. Ok, então Stephen site,
a próxima palestra.
42. Leitura de CSV que cria modelo de LR e previsão: Ei pessoal, bem-vindos de volta. Então, na aula anterior,
vimos como podemos usar modelo de regressão
linear
e como podemos criar a relação entre
a variável dependente
e a variável independente, e como podemos prever e como podemos até mesmo traçar
a linha de regressão linear. Eu quis dizer linha de regressão. Ok, e vimos quais são os coeficientes quando usamos o resumo e como o modelo
linear para pixels, e vimos como
podemos prever os dados. Mas no
exemplo anterior, o que fizemos,
pegamos o vetor r,
pegamos esse vetor de dados para altura e peso. E então criamos o
modelo de regressão linear para x
e y. E depois previmos que, agora, no mundo real, não
teremos os
dados nesse formato, no formato vetorial. Em vez disso, nós, na maioria das
vezes, teremos os dados em nossos bancos de dados
nos arquivos Excel ou CSV. Na maioria dos casos,
será um arquivo CSV de pontos, arquivos separados por
vírgula,
certo? Você sabe. Então, neste exemplo, o que vou
fazer, vou te dizer, como já
vimos como podemos ler o arquivo CSV nas palestras
anteriores. E esse conhecimento que
vamos usar
nesta palestra para
criar um modelo linear. E leremos os dados
do arquivo CSV. Então, para isso, criei com os mesmos dados de altura
e peso que usamos na aula
anterior, criei um arquivo CSV
com peso e altura. Portanto, essa coluna é o peso
e essa coluna é a altura. Ok? Portanto, este é o arquivo CSV, altura, largura e ponto do arquivo CSV. E o que vou fazer, a primeira etapa é ler
os dados do arquivo CSV, tratar
o arquivo CSV. Então, para isso, estou
usando metadados e estou usando a
função read.csv para ler o arquivo CSV. Então, com esse read.csv, ele lerá o arquivo CSV e colocará os
dados nesse vetor, esse objeto, objeto de dados. Assim, podemos ver com nosso arquivo read.csv que está lendo
os dados corretamente ou não. Então, para isso, podemos usar a função de visualização e fornecer
o objeto dentro dela. Então, quando essa visualização pular e
obtivermos esse objeto de dados, ela
aparecerá aqui e lerá o arquivo CSV. E então, com a BYU, podemos
obter a visualização dos dados. Então, deixe-me executar essas
duas linhas para você. Veja aqui, estamos
obtendo a visualização
dos dados TO em nosso
peso e altura. Então, o mesmo, desculpe. Veja os mesmos dados que podemos ver
no RStudio agora com
a função de visualização, função de onda verá
os dados dessa maneira. Então, agora temos certeza de
que nosso arquivo de
dados, dados que lemos
do arquivo CSV. Agora, o que podemos fazer na próxima etapa é criar o
modelo de regressão linear para previsão. Então, queremos prever o
peso e a altura. Queremos prever o
peso da pessoa. Então, para isso, criaremos
o modelo de regressão linear. Então, usaremos a
função lm e w aqui, peso será o
peso será a
variável dependente e altura será a variável
independente. Então, com base na altura, queremos prever o peso. Aqui, os dados são chamados de dados. Dados significam que estamos
usando esses dados. Você pode dar qualquer
nome a ele. Você pode. Agora, podemos modificar isso com,
desculpe, altura, peso, desculpe,
na verdade, dados W, dados de
altura e peso. E então estamos comendo
seu arquivo CSP. Vamos colocar isso aqui. E então os dados são que o CO2
aumentará a altura dos dados, ok? Dessa forma, a fonte de dados
são os dados de altura e peso que obtivemos
do arquivo CSV. E aqui estamos criando o modelo de regressão linear
usando a função LM. E estamos fornecendo a
variável dependente ou independente aqui, espere, e a variável independente
é altura e os dados iguais à nossa fonte de dados
serão esses DOIS dados. E deixe-me comentar isso para que isso
não nos perturbe. E agora temos, agora esse modelo. Eu dei um nome e um modelo. E usaremos o resumo do nosso
modelo para obter os detalhes. Então, deixe-me executar essas
duas linhas são, deixe-me correr até aqui
porque nós modificamos. Então, deixe-me fazer isso. Então, veja aqui, agora
estamos obtendo o
resumo do nosso modelo linear, modelo regressão
linear
como os níveis de colesterol ou este, a mediana quartil. Coeficiente máximo do terceiro quartil, interceptação
estreita, todos esses
valores que estamos obtendo aqui. E então estamos recebendo
o erro padrão. Erro padrão como 1,21, 0,789, 17 graus de liberdade múltiplo de R ao quadrado, valor R quadrado
ajustado,
valor de p. E também estamos obtendo
estatísticas, ok? Então, agora nosso modelo, isso significa que um modelo de
regressão linear está pronto. Agora estamos prontos para prever
com base nos novos dados. Então,
o que estou fazendo aqui fornecer uma nova
altura que é 152,21. Ok, deixe-me modificar
isso para 16485. Ok? E para essa altura, eu quero prever o peso, o que é essa altura de 165,85
centímetros, eu quero prever o
peso da pessoa. Então, esse DataFrame divertido, porque tudo o que
lermos do arquivo CSV, ele virá como um DataFrame. Então, estou criando um DataFrame aqui e com altura igual a 174,85 e estou dando a ele um nome que sabia que objeto mais recente de
ontem
conterá o site azure 164.85. Agora, os últimos dias
estão prevendo o peso
usando um modelo. E para isso, estamos
usando a função de previsão. E dentro da função de previsão, estamos fornecendo dois argumentos. Um é nosso modelo, nosso modelo que
criamos aqui. Então, este modelo de LM que
estou fornecendo aqui, para que, com base nessa relação, ele
preveja e o que prediz. E estamos fornecendo os
dados que são altura. Portanto, estamos fornecendo uma
altura de 164,85 anos. Portanto, estamos fornecendo
o objeto de dados aqui que é a nova borda. Portanto, ele tomará
isso como uma entrada. Ele vai para este modelo. E com base nessa
essência real da altura e largura, ele colocará a altura 174,85 e
preverá o novo
peso, peso dessa pessoa. Ok, então agora isso
prevê algum valor. Estou mantendo o
peso previsto porque
nós somos os pesos. Então, eu dei wet predicted
como nome desse objeto. Agora, a próxima coisa é que temos o novo peso desse
peso repetido nesse objeto. Precisamos imprimir isso. Então você pode usar a impressão aqui. Mas como eu queria
imprimir uma linha múltipla, estou usando a função cat. Ok? Então, como a função
printf imprime apenas 11
linhas por vez, eu queria concatenar ou
duas frases. Para altura. Esse peso previsto é esse. Ok? Portanto, isso
só pode ser possível com a função cat. Não podemos fazer isso com a função de impressão
porque a função de impressão tem a limitação de
imprimir apenas os objetos, valores dos
objetos. Só ele pode imprimir, não
pode imprimir a declaração. Então, para isso, estou usando cat. Se você quiser imprimir
algo assim, você pode usar a função cat. Agora estou usando cat e
estou usando para altura igual para modificar
este para vento. Se cinco pesos previstos são, estou imprimindo agora
onde está previsto aqui. Então, deixe-me executar o código
inteiro aqui, então eu clicarei em Fonte
e CEO para ver a altura 164,85. O
peso previsto é 661794. Agora, com isso, podemos prever, agora nosso modelo, esse modelo de regressão linear, está prevendo o peso como 66,79. Deixe-me mostrar este modelo e o modelo anterior estão
dando o mesmo resultado ou não. Então, o que vou fazer, em vez de um PIP2 no exemplo
anterior, colocarei 164,85 e
tentarei correr neste
último ano também, estamos obtendo o mesmo
resultado, 66,7, 9465. De qualquer forma, como
os dados são os mesmos aqui, nós os mantivemos na forma vetorial Here e aqui os estamos lendo do
arquivo CSV, mas os dados são os mesmos. É por isso que estamos obtendo
os mesmos resultados dos dois modelos. Dessa forma, você pode ler o arquivo CSV e criar um modelo de regressão
linear. E então, com base nisso, você pode prever o valor, o que quiser.
Você pode fazer isso. Você pode tentar esse problema com qualquer outro ponto de dados
que possa ter. exemplo, com base na idade, você pode detectar o
peso ou, com
base em dados
categóricos, seus dados podem ser coletados
e colocados
no arquivo CSV e prever um valor mas por outro, criando
o modelo de regressão linear. Portanto, espero que, com este exemplo, estejamos bastante confiantes
sobre a regressão linear, como podemos criar um modelo de regressão
linear
para prever os valores. E espero que você
pratique mais com isso. E você pode fazer muito
melhor do que isso, certo? Então, ao praticar, você ficará melhor com nossa programação e com as coisas
de aprendizado de máquina. Espero que você tenha entendido o modelo de regressão
linear. E isso é tudo para esta palestra. Então, vamos ver o que
podemos aprender mais.
43. Regressão múltipla: Na palestra anterior, vimos como podemos
usar a regressão linear. O que vimos como regressão
linear usando dois vetores são dois
objetos de dados, como peso e altura. E criamos essa
marca licenciada, depois temos o hóquei. E então temos esse arquivo
CSV aterrissado ou
criamos nosso modelo LM, a relação linear entre o peso e a altura e
, em seguida, o encontro e a altura. Previmos o correspondente
menos produtivo. Ótimo até a parcial. Ok? Agora, isso foi o linear
ou a colisão, certo? Agora, nossa regressão
linear simples, agora temos outro
problema em que
somos a variável de resposta
em nossa variável dependente, ou o valor que
vamos prever vai para ela. Pode, como na
regressão linear, o que vimos, a variável dependente e as variáveis
independentes. Variável dependente,
dependendo de apenas uma variável, uma taxa variável independente. Mas em situações da vida real, na
maioria das vezes a produção ou o valor que
vamos prever. Não
dependerá necessariamente de apenas uma variável
dependente. Mas pode haver muitas, muitas
variáveis independentes
que serão definidas afetarão
a variável independente. Portanto, não é como na situação sempre obteremos , pois sempre obteremos
a regressão
linear simples. Podemos ter várias variáveis
independentes que
afetarão a saída. Como no caso de suporte, a
forma como essa previsão, o clima. A previsão pode depender muitas situações, como
se é um dia chuvoso, que região está, que tipo de nuvens existem? E muitas outras coisas, certo? Suponha que você tenha um
negócio e preveja sua receita
com base em alguns fatores. Portanto, deve
haver, pode haver muitos fatores, como eu disse anteriormente, por exemplo, você deve ter o
número de funcionários, como vamos
elogiar seus funcionários, isso também
afetará sua receita. Como estão seus lucros e perdas? Se você tiver lucro, sua receita será maior. Se você estiver perdido, suas receitas diminuirão. E se você não quiser, suponha que você tenha alguns dos nossos impostos, mais impostos, então a receita
vai afetá-los. Portanto, há muitos
fatores que
decidirão ou definirão sua receita. Então, aqui, esse problema não pode ser tratado com
a regressão linear. Temos que usar a regressão
linear múltipla porque o valor da saída ou a receita
dependem de muitos fatores. Então, aqui os fatores são que as
características serão independentes. As características são os fatores que
determinarão a receita. Então, nesse caso, teremos como a, B X1, X2 mais assim por diante
e assim por diante, bn XN. Isso significa que, b1, b2, bn e E, todos os coeficientes que vimos
posteriormente em nós, y igual a mx mais c aqui, apenas um eixo ali. Mas na regressão múltipla
haverá b1, b2, b3 antes de nós até Vn, certo? Que pode haver uma
série de fatores
que afetarão esse y.
Ok ? Então, essa é a regressão linear
simples. E essa equação é para regressão linear
múltipla
porque você é B1, B2. Pode haver vários
fatores que afetarão
o resultado. Portanto, a regressão linear múltipla, também conhecida simplesmente como regressão
múltipla, é uma técnica estatística
que usa apenas várias variáveis
explicativas para prever o resultado de nossa variável de
resposta. Ok, então o que vou fazer, deixe-me mostrar um conjunto de dados. Então, o que vou usar, vou usar em dados
reais que
estão disponíveis com o R, ou
seja, carros vazios. Portanto, dados empíricos, esse conjunto de dados está disponível
com o próprio pacote R. Então, quando você baixar o R, ele virá
construído com o pacote R. Ok? Então, carros vazios, para
que você possa usar a visualização. Visualização. Os gatilhos
fornecerão uma visão do conjunto de dados. Então veja, este é o conjunto de dados de vários deuses como
Martha Jackson, Hornet. Isso é incomparável, tudo bem. Portanto, existem muitos carros e
são como milhas por galão, cilindrada,
potência, peso. Ok. Então, existem muitos carros
importantes de vários anos. Ok. Portanto, todos esses
fatores definirão
as milhas por galão ou alguns fatores podem não
estar afetando muito. E os vetores de
campo afetarão mais. exemplo, se você considerar milhas por galão como a
saída que deseja obter, você deseja prever
as milhas por galão com base
na cilindrada, potência e peso do carro. Além disso, talvez o número
de cilindros não afete muito
a partida abaixo, tenha muito efeito nas milhas por
galão ou, em alguns casos, possa ter muito Lexi, sim, quatro cilindros têm -33, 30, 26 a mais. E se você ver que oito cilindros
têm menos dois, esse número de cilindros
no motor afetará
a mielina. Então, esse é um fator. Então. deslocamento também pode afetar a média
da quilometragem do carro. E então leia mais:
o carro também afetará. Veja aqui que
existem várias características, são as variáveis independentes, o número de
cilindros, peso e o número de marchas. Então, essas são as
coisas que afetarão a mielina. Então, aqui temos que usar a regressão
múltipla se
você quiser prever
a quilometragem ou por carro com base
no número de cilindros,
cilindrada, peso. Todos esses fatores, se
você quiser considerar, então temos que usar essa regressão
múltipla. E se você, se você ver essa equação
de regressão múltipla, isso b0, b1, b2, x2 e x1. Então esse X pode ser
o peso do carro, mais pode ser a
cilindrada do carro. E o X3 pode ser
o outro fator, como o número de
cilindros no carro. Então, e esse b1, b2, b3 be, para todos
esses coeficientes, decidirá
com base em como,
como X1 ou o peso do
carro
estão afetando o Majlis geral ou a
média do carro. Então, com base nesses valores, como isso está afetando isso,
será decidido se for a, b1 é mais do que esse peso do
X1, será mais certo? Dessa forma, podemos usar
a regressão múltipla. Então, o que eu farei
na próxima palestra que
vamos colocar em prática esse
conjunto de dados que são carros vazios. E tentaremos usar linear
múltipla
ou regressão múltipla para prever milhas por galão ou calcular a média
de um carro com base
nas características que dependem disso,
então aqui, o deslocamento do cilindro, o
peso do carro. Todas essas serão variáveis dependentes
ou independentes. E milhas por galão
serão as variáveis dependentes. Significa que esses valores serão peso do
cilindro
do carro, o número do peso do cilindro do carro, cilindrada do carro, o
número de anos no carro. Esses serão os preditores e as milhas por galão
serão o valor previsto. Ou esses serão os recursos ou os recursos independentes, variáveis
independentes. E essa será a variável de
resposta, ou a variável de saída, ou o valor da predição. Então, isso que vamos fazer em uma aula prática
na próxima aula. Nos vemos na próxima palestra.
44. Prevendo quilometragem de carro usando regressão múltipla em R: Olá e bem vindo de volta. Então, agora faremos algo
com a regressão múltipla. Portanto, este é um sistema prático
sob regressão múltipla. Então, vamos usar um conjunto de dados de carros
vazio. E para isso,
não vamos usar todas as colunas, são todas as
coisas que estão lá fora. Mas vamos usar MPG, deslocamento, SP
e esperar até Deus, ok, potência e
peso do carro. Ok. Então, com base nesses três, vamos prever a quilometragem do carro ou
a média do carro, milhas por galão acima do carro. Ok, então vamos
usar esses três recursos, esses quatro recursos
em nosso conjunto de dados. E três serão as, essas três serão as variáveis
independentes e esse NPD será a variável dependente
ou o valor previsto. E esses três serão o
preditor previsto. Ok? Então, a primeira coisa é que precisamos
criar o modelo de relacionamento, o modelo de regressão linear,
nosso modelo de regressão múltipla. Da mesma forma, vamos
usar a função lm
que temos aqui dois em regressão
linear simples. A função lm do tema que
vamos usar, mas com uma fórmula ligeiramente
diferente. Então, o que quer que dermos, ouça essa chamada fórmula. E a segunda entrada é que o segundo argumento são os dados. Ok? Então, aqui, deixe-me
colocar esses dados de custo. Isso tem um custo. Ok? Então, agora isso é o, são nossos dados. Isso conterá esses
quatro recursos, ok? E seus valores correspondentes. Ok? Então, dados, estamos usando dados de
custo de hóquei que estamos
obtendo dos carros vazios. Ok? Vamos
criar o modelo. Ok? Deixe-me torná-lo modelo de
regressão linear, modelo regressão linear
múltipla,
modelo MLR. Estou dando o nome a ele. Então deixe-me, tudo bem. Então, agora aqui, nossa
camada, o que fazemos? Tínhamos apenas um valor previsto
e um preditor, certo? Então costumávamos dar assim,
ok, casados em situação de
deslocamento, encontrar o Majlis. Mas agora temos três
variáveis independentes que afetarão a
mielina no carro. Então, temos que dar, esse será o valor previsto ou a variável dependente. E aqui esses três, podemos dar o deslocamento
mais esse p mais o peso. Essas três serão as variáveis
independentes que afetarão a mielina. Dessa forma, podemos usar
a função lm para regressão
múltipla e regressão porque estamos usando vários recursos para
prever um valor. Um valor previsto
virá com base em mais, uma ou mais
variáveis independentes, ok? E dados iguais a cos theta. Então, deixe-me correr até aqui. Vamos imprimir o modelo. Ok, vamos ver quais são
os coeficientes e tudo que estamos obtendo de sódio. Então, veja aqui agora que nosso
modelo está dando a interceptação como 37 e deslocamento como vento urogenital 97 no coeficiente b
está vindo assim. E o coeficiente de nosso coeficiente
está chegando aqui. Então aqui está a interceptação. Esse valor de interceptação é 37. Ou seja, isso é a. Se você observar esta fórmula, y é igual a a mais b1 x1 mais x2 mais beta três x três. Ok? Então aqui temos três, então chegará a ser três. X d. Aqui está 37. Esse valor de interceptação
será a
e, em seguida, B1 será
o deslocamento. B2 será o HP, o coeficiente
HP e B3 será o
peso das cópias, seja, -3,8. Ok? Então, agora temos os valores dos
coeficientes aqui. Podemos simplesmente imprimir
o valor do coeficiente. Se eu colocar x. Isso, obterei o
coeficiente de deslocamento. O mesmo valor que estou
recebendo aqui, certo? Então, o que
eu posso fazer agora é colocar esses
valores de coeficiente nessa equação para obter nosso valor previsto
y. Y será o MPG. Nesse caso, nossos
pilotos, nesse caso, temos essa interceptação e
temos o B1 como esse, B2. Nós temos isso e
esse será o V3. Agora, se tivermos um carro
com cilindrada 324 e HP e 110
e peso de 2,5. Podemos prever a
média colocando esses valores com
o coeficiente e as coisas estão
separando essa fórmula. Então o que eu vou fazer, y igual a um mais, então a será esse
valor 37, ok? E x será a interceptação
do deslocamento, esta. E então vou multiplicar isso
pelo valor de deslocamento 324. Então x é p será o
coeficiente de HP, este. E vou multiplicar
isso pelo 110. Essa será a
parte mais quente do carro. E então x t será o coeficiente de peso que
estamos obtendo aqui, -3,8. E vou multiplicar isso
pelo peso do carro. Então, veja, simplesmente colocando essa equação, esses valores, podemos prever a saída, qualquer que seja essa
equação, a saída do presente, será a
quilometragem prevista do carro. Então, deixe-me executar isso,
deixe-me executar essas duas linhas. Agora, as milhas previstas
do cartão são 23,87. Então, com base na pergunta aqui, com base nessa equação, porque aqui o valor E
será 37 -0,00, 0937. E todos esses valores. E se colocarmos isso, obteremos o valor y. Y é o mpg milhas acima do carro. Então, o carro com
324 de cilindrada, HP cem e 10,2, 0,5, nosso sistema está
prevendo a mielina como 23,8 7247. Então 23,8 será a
média desse carro. Da mesma forma, você pode dar outro valor para
a cilindrada em B e o peso do carro. Então, com base nessas três variáveis
independentes, estamos prevendo uma variável
dependente que é y. Então, veja aqui que temos
os coeficientes e interceptamos nesta equação para
obter a quilometragem do carro. Isso é bem simples
e bem real, certo? Estamos obtendo a saída real, estamos obtendo a saída. , isso é por meio um
modelo de regressão múltipla que
criamos por meio desse relacionamento,
por meio dessa fórmula. Aqui, a fórmula é que você
altera apenas todas as outras coisas que são bastante semelhantes
à regressão linear. Mas aqui, se quisermos
colocar mais recursos ainda, você pode colocar essa variável mais
independente aqui. E haverá uma variável dependente
ou a variável de saída. Ok? Então, com base nisso, estamos obtendo a
saída como 23,87. Dessa forma, podemos usar a regressão linear múltipla
e a regressão múltipla
para prever o valor. Portanto, preveja um valor com base
nas muitas características de muitas variáveis
independentes. Temos que usar regressão
linear múltipla.
45. Regressão logística: Olá e bem vindo de volta. Nesta palestra,
aprenderemos regressão
logística
e veremos um exemplo simples de regressão
logística e
como podemos usá-la. Ok, então, primeiro, vamos entender o que
é regressão logística. Modelo de regressão logística. modelo logístico, também
conhecido como modelo lógico, é usado para modelar a
probabilidade de uma determinada classe. Por exemplo, suponha que se você quiser, se você tiver alguns dados de Watson que eu sou como um rótulo de diabético, rotule todas essas coisas. E com base nisso, você
quer prever
se o sol está apto ou não, certo? Então, aqui a pessoa
está em forma ou não. Então, sim, os dados são a saída que queremos prever que é
de natureza binária,
ali mesmo. Há duas coisas que se encaixam, não se encaixam, em uma pessoa em forma ou em uma pessoa
não adequada, certo? Portanto, o modelo logístico é usado
para modelar a probabilidade de uma determinada classe ou
evento existir, como a pílula contra chefes, se você estiver escrevendo algo errado, você terá uma taxa de
aprovação ou reprovação. Se você estiver
participando de acompanhamentos e ganhará ou perderá. Portanto, há uma
saída binária certa, pálida, ganha-perde, viva, morta,
saudável ou doente. Isso pode ser estendido para modelar várias classes de eventos
, como determinar se uma imagem contém
um gato ou um cachorro, um leão, certo? Assim, você pode colocar nossos e-mails e treinar um sistema
que os encontre, sejam imagens de gato, cachorro
ou linha, certo? Então, gato ou cachorro, tipo
leão, certo? Cada objeto detectado
na imagem teria uma probabilidade de 0 a 1, certo? Então pode ser um gato
ou um cachorro, certo? Então, ser gato, um ser cachorro. E se você apresentar
qualquer imagem, ela atribuirá
o valor zero ou um, ou uma probabilidade
entre zero ou um. Pode ser 0,05 ou
1,65, desse jeito, certo? Então, a probabilidade será
0-1 e toda a soma de todas as probabilidades
será igual a um porque na ocorrência de eventos, probabilidade
de ocorrência de eventos
seria sempre uma, certo? Dessa forma, usamos nossa regressão
logística e regressão logística, certo? equação para
regressão logística é y igual a 1/1 mais e potência a mais b 1X1 mais b2 x2
mais B3 X3 e assim por diante. Então essa é a equação
matemática da regressão logística. Em Python, usamos
a função GLM para a função GLM para regressão
logística. Então, a função GLM para ela também é conhecida como modelo
logístico generalizado, certo? Glm. E conterá a fórmula como fizemos na regressão
linear. Então, escreveremos a fórmula When com a variável dependente e a variável
independente, certo? E então temos que
fornecer os dados
nos quais queremos executar
a função GLM. E então temos que fornecer a família
da fonte. Como uma família. Aqui, usaremos o
binômio em nossos exemplos. Então,
o que eu vou fazer usar os dados de carros
temáticos, dados carros
vazios
que usamos anteriormente, certo? Portanto, dados de custo que também usamos no exemplo
anterior. E eu vou usar o AIM. O objetivo é como um sistema de transmissão automática ou
manual. Então, HP, potência, peso e número de cilindros
no motor, certo? E esse EM é
automático ou manual. Portanto, nos dados dos carros vazios, ele contém zero ou um. Então, deixe-me mostrar, deixe-me executar essas duas
linhas e ver os dados. Veja aqui, para todos os carros, HP, peso e cilindro, m
é zero ou um. É um
valor binário, zero ou um. Ou é automático
ou manual, certo? Ok. Para todos os carros,
temos dados para m, que é zero ou um, então é um ou zero para toda a combinação de peso e
cilindro de HP. Então, o que eu vou fazer aqui
neste problema, nesta palestra, o que vamos fazer com a função GLM ou função de
regressão logística. Com base no que faremos, existem quatro coisas. Quatro colunas, braço, HP,
peso e cilindro. Então, vamos tentar encontrar isso. Vamos fazer com que esse HP, peso e cilindro sejam variáveis
independentes. E m será a variável
dependente. Meios. Vamos prever. Não, eu estou bem, tudo bem, então o que
faremos é apoiar que você
esteja criando um modelo. Devemos saber quais
são os fatores ou quais são
as características que
afetarão os valores previstos. Mais suporte. Se criarmos um modelo de
regressão logística com todas essas três variáveis de
resposta ou variáveis independentes ou o
modelo pode não estar correto porque nesses três
HP de peso e cilindro, todos os três não afetarão os carros sendo manuais ou automáticos da
mesma forma, certo? Talvez o número do
cilindro do endocast
decida ter mais impacto na escultura
considerada uma empregada doméstica, um carro automático, manual ou pesado tem mais
peso ou HP. A potência está
decidindo o fator que os custos seriam
automáticos ou manuais. Então, o que faremos com a função GLM
simples tentará descobrir quais dessas três variáveis
dependentes.
Desculpe, descobrimos essas três variáveis
independentes estão tendo impacto no EM. Então, o que ele fará nos ajudará a
analisar
isso, que são as características
que devemos considerar para uma análise mais aprofundada. E deixe o outro suporte IP. Descobrimos que o
peso está tendo menos impacto sobre Am
do que os outros dois. Podemos deixar de fora o peso para análise posterior e usar o HB
e o cilindro, certo? Se o cilindro não está tendo, não tendo nenhum impacto nisso, podemos usar o SPN,
que, portanto, essa análise nos
ajudará a encontrar a característica irrelevante, coluna
irrelevante
na decisão do EM. Ok, então é isso que
vamos fazer nesta palestra. Ok? Então, como vamos fazer isso? Usaremos a função GLM e reescreveremos a
fórmula como se
fizéssemos m como valores previstos ou variável dependente. E essas três variáveis
independentes tentaremos criar, tentarão gerar
a função GLM. E então, com o
resumo do GLM, tentaremos ver quais são
o coeficiente e o
valor de p que estamos obtendo. O valor p decidirá se nossa variável tem ou não um valor
previsto. Valor P. Valor P
significa probabilidade de ocorrência daquela coisa, ok, probabilidade de ocorrência de peso neste
peso e cilindro de HP. Portanto, se o valor de p for
maior que 0,5, significa que, se suportado como parte do valor de HP, o valor p for
maior que 05, significa que P não está
tendo nenhum impacto, nenhum
impacto significativo na mira. E podemos deixar o HP e
seguir em frente com o valor de p. Vá em frente com as variáveis
independentes que têm
valor de p menor que 0,05. Então deixe-me, então
terminamos com isso. Então, deixe-me, a próxima etapa, próxima etapa é
que precisamos fazer a regressão logística. Então, aqui estou dando um nome de
variável aos dados do carro. Ok? Portanto, nosso conjunto de dados é cos Theta. E aqui estou criando um modelo de regressão
logística. Estou te dando o nome de custos
que eu sou e estou usando a função
GLM aqui na
fórmula, o que eu recebo como uma variável independente, dependente, e
ômega, automática ou manual. É ter
algo binário, certo? Zero ou um. E estou dando como variável
dependente o
valor que vamos
prever com base
nesses três cilindros, SP e radar, as variáveis ou
características
independentes que decidirão
se estou certo. E dados que estou usando carros, dados que estamos obtendo
do binômio carros vazios e
famílias. Ok, agora deixe-me fazer isso e imprimir o
resumo dos dados, o modelo de
regressão logística de dados de
um carro. Agora, usamos
a função GLM e imprimimos
o resumo dela. Você pode deixar essa impressão e simplesmente
executar o resumo. Isso também vai te dar
a mesma coisa, ok? Então, veja aqui, está
nos dando todas as coisas
que temos o suficiente. Até mesmo a
regressão linear também considera o coeficiente
e aqui também, estamos chamando a função GLM
com a fórmula assim. Ok? E estamos usando os dados
da classe do conjunto de dados e o binômio da família
e vemos seus dividendos. Média, mediana do primeiro quartil, máximo do
terceiro quartil, todos
esses valores que estamos obtendo. E então estamos obtendo
os coeficientes para cada variável independente. Então, aqui, veja aqui
interceptar, estamos obtendo esse valor e esse
é o valor PR, esse é o valor de p do qual
eu estava falando. Se o valor de p for
maior que 050,05, essa, bem, tão valiosa, essa variável de resposta,
podemos deixar de fora, certo? Isso não está tendo muito
impacto no objetivo. Para cilindro. vejo? O valor de p é 0,6 491. É muito alto
em comparação com 0,05, certo? Então, cilindro, isso
significa que o valor p do cilindro é
maior que 0,05. Isso significa que esse
número de cilindros não está tendo um impacto
significativo
na decisão de se os custos seriam
automáticos ou manuais, certo? Então, podemos deixar o
cilindro ao lado, HP, HP, o valor p é um esquema de
valor de probabilidade 0,084, que é novamente
maior que 0,05, certo? podemos deixar o HP porque ele
também tem um valor de p
maior que 0,05. Em seguida, leia a terceira variável de
resposta. E tem o
valor de p de 0,0 276, que é menor que 0,05. Isso significa que o peso está afetando
o peso
do carro e decidirá que os carros sejam automáticos
ou manuais, certo? Então, o peso da carta está
tendo um efeito significativo
no valor de m porque
seu valor de probabilidade está chegando a 2,0, 276, certo? Correto. Então, com isso, que conclusões podemos chegar? Podemos chegar à
conclusão de que, em análise mais aprofundada,
estamos mais longe. Se você quiser construir ainda mais nosso modelo de regressão
logística, podemos deixar o cilindro e o
HP e seguir em frente apenas com a variável
de resposta de peso porque isso é ter, a variável
de resposta de peso, porque isso é ter,
ou seja, ter um impacto
significativo no valor m em comparação com
o cilindro e o HP. Bem, ok, sabemos que,
por causa desse valor de p,
o valor de p maior que 0,05 decidirá que a
variável de resposta está tendo algum impacto significativo na variável
dependente ou não. Ok, então este é
o uso simples da função
GLM que
aprendemos em. Agora. Portanto, você pode praticar com isso e pegar
qualquer conjunto de dados e fazer isso para
descobrir qual responde muito bem está
afetando os valores previstos. E você pode omitir aqueles que
não estão tendo muito impacto
com base no valor de p.
46. Distribuição normal: Olá e bem vindo de volta. Nesta palestra,
aprenderemos sobre distribuição normal. Então, qual é a distribuição normal. Então, antes de entendermos o que é uma distribuição normal,
deixe-me dizer. Na vida real, a maioria dos dados, maioria dos dados, são normalmente distribuídos. E por que estou dizendo isso? Porque se você analisar os
dados de altura em pés, suponha que você tenha dados, dados de altura e peso e dados de altura e peso, teremos uma distribuição altamente, altamente
normal? Por que estou dizendo que é altamente distribuído
normalmente? Porque é muito raro encontrar uma pessoa que tem
muito menos altura. E também é muito raro pegar pessoa com uma marcha lenta
muito alta, uma altura
longa, como um pacote com menos de 3 pés, tem uma
probabilidade muito baixa de acontecer. Uma pessoa com a altura de
Clifford é muito rara, certo? Da mesma forma, Boston
com altura de 6,5 pés livres a 7 pés.
Por que tríade, certo? Então, nesse sentido, maioria dos dados é
normalmente distribuída entre 4,5 a 6 pés, certo? Então, por que esse tipo de distribuição de dados é conhecido como distribuição
normal, ok? Portanto, esse tipo de
distribuição beta é conhecido como distribuição normal em que a maioria dos dados é distribuída para observar
a média dos dados. Então, suponha que se
considerarmos esse gráfico, esse gráfico como
distribuição de altura e peso de Parsons, então você pode ver que isso
representará esses dados. Isso, isso, essa comemoração. Eu representarei a
altura da sela, o sabor do sal na Tailândia. Este é o
tipo C mais longo ou o Parsons com uma altura
muito pequena. É muito raro acertar. Portanto, a pessoa que está conosco tem menos de três
bits de
altura está muito certa. Deixe-me fazer menos de três. Menos de três.
Da mesma forma, largura de Parson, altura
muito longa, certo? Oi altura. Isso também é muito raro, certo? Maior que 6,5, certo? Portanto, esses dois dados classificam menos de 3 pés e a altura de
6 pés é muito rara. E é por isso que você
pode ver que é muito baixo na curva normalmente
distribuída. Uma distribuição normal
da curva ocorre como quando distribuímos, quando traçamos os dados normalmente
distribuídos, ela virá como uma curva em forma de sino. Por que virá
como uma curva em forma de sino? Porque veja aqui, esse é o caso muito raro de acontecer. Ele é distribuído em direção a aqui e aqui tem uma
altura muito alta, 6,5 pés. Então, esses dois estão
representados aqui. E a maioria dos dados, quando você chega até aqui, a maioria dos dados
é distribuída. A maioria dos dados é
distribuída aqui, certo? Nesta parte. Correto. Então essa é a média
dos dados, certo? Então essa é a média. Esta é a
altura média das parcelas. Então, se você consegue ver corretamente, maioria dos dados está distribuída em ambos os lados
da média, certo? Se você dividir os dados pela metade, obterá a média e a
maior parte dos retirados divididos em direção à média. Portanto, a altura pastor
está aumentando e
vamos observar a média. E depois do valor
médio, ele está aumentando e está
atingindo uma altura muito
alta de 6,5. Portanto, a maioria dos dados
normalmente é distribuída
nessa região. E essa região é
a região, certo? Portanto, a maioria das pessoas, podemos dizer facilmente que
elas caem abaixo da altura de 526,5 pés. depois disso
será que a descoberta de uma pessoa com a
altura 6,57 é muito, eles pediram que está
vindo assim. Dessa forma, obtemos uma curva em forma de sino, uma curva de distribuição normal é sempre BellKor. E
essa é a média. E isso é chamado de desvio
padrão. Portanto, desvio padrão
do valor médio. Assim, quanto mais você se
desviar do valor médio, você estará indo para
este lado ou para este lado. Então, isso é chamado de distribuição
normal. curva de distribuição normal pode ser muito alta em carboidratos, como essa, ou pode ser como
essa roxa, ou pode ser como esta. Isso também depende de seus dados, mas essa será a
média dos dados. Ok? Essa será a média desses dados e essa será
a média desses dados, certo? Então, isso é chamado de distribuição
normal. A maioria das coisas em nossa vida é normalmente
distribuída, certo? Então, na próxima aula, veremos qual
é a propriedade da distribuição
normal e como
podemos traçar dados normalmente
distribuídos.
47. Distribuição normal usando função de norma e norma: Olá e bem vindo de volta. Então, na palestra anterior,
entendemos o que é distribuição normal
e como ela funciona. Nesta palestra,
abordaremos a distribuição
normal e veremos quais são as funções
embutidas que
temos em nossa programação
para distribuição normal. Portanto, existem basicamente quatro tipos de
distribuições normais. As funções são niveladas em nossa programação e
são denominas. Essa norma da função d, que recebe três argumentos
ou três objetos de valor como entrada, ou
seja, média x e sd, que é desvio padrão. Então, o que é X aqui? X é o número vetorial. Tipo o quê?
Vetor numérico de números. Então, suponha que você tenha um conjunto de dados, temos vários
suportes de que você
deseja obter a probabilidade e tudo mais. Então, para isso, o trabalho do vetor
numérico de saída é feito vetor
numérico de números e média é a média
que você deseja, você tem
que decidir qual pino em qual significa. Você deseja traçar a distribuição
normal. E então essa é a média
do conjunto de dados, ok? E então o desvio padrão, você terá que fornecer
o desvio padrão. O valor padrão máximo é um para o desvio
padrão. E podemos dar qualquer
valor do gráfico, mas o valor padrão é um. Se você não der a
cor a algo, por padrão, ela assumirá o desvio
padrão de um. Portanto, a norma d é uma função. E então temos que a
norma p ser enorme. Também envia mensagens de texto com os números principais, depois a média e o desvio
padrão. Então temos a norma Q, que assume o p. P é um
vetor de probabilidades. Aqui X é um vetor de números. Na qnorm, a entrada p é
um vetor de probabilidades, depois média e
desvio padrão como
estão, então temos outra
função chamada então temos outra
função chamada não bancária e a função
desconhecida
assumirá como entrada e média e também o
desvio padrão. Ok, então o que está aqui? N é o número de observações. Isso significa que o tamanho da amostra
aumenta o número total de amostras que vamos entrar
e pegar isso, ok? E a média é o
valor médio dos dados da amostra. Seu valor padrão é zero. Ok? Aqui está o que estamos fazendo e estamos dando o desvio padrão, o
valor padrão padrão é um. Ok? Então, vamos começar com a
maldita distribuição normal. Então, o que farei primeiro, veremos qual é a
distribuição normal para X e d. Agora, qual é a função normal? Portanto, o presente nulo, a altura da distribuição de
probabilidade em cada ponto para uma determinada média
e desvio padrão. Portanto, ele
fornecerá a altura
da distribuição de probabilidade em cada ponto do conjunto de dados. E para a média dada, porque a média é a entrada que fornecemos junto com
o desvio padrão e o vetor dos números. Ok? Então, suponha que entendamos qual é o exemplo, estamos considerando um x como número de atores
que são números corruptos. Ok? O que quer que estejamos fazendo aqui, estamos gerando uma
sequência
de números de menos cinco a 20. E então, o que
nos é dado, recebemos o desvio
padrão medida que aumentamos menos cinco para 20
incrementando 0,15. Ok? Então, como -0,15, -5,15,
-5,3, desse jeito. Ok. Então, será incrementado. O
número gerado terá sido aumentado em 0,5 branco, ok? Portanto, X tem faixas de pedágio gratuitas. Veja, é assim que os números serão gerados. Ok? E então, o que
estamos fazendo aqui, pegamos nosso vetor y e a função normal
da região D
e estamos plotando x como importante que X estamos obtendo dessa função de
sequência. Então, significa que estou dando 7,5 suponha, e o
desvio padrão que estou dando é pontual. E então eu estou traçando o
gráfico com x e y. Então x será esse valor e y obterá dessa função
dnorm. Ok? Então, deixe-me comentar esse x e executar esse
trecho de código. Então clique aqui, c aqui. Agora estamos obtendo esse gráfico de distribuição
normal. Então, aqui a média é 7,5. E 7,5 dados são normalmente distribuídos com um desvio
padrão de 0,1. Desvio padrão do ponto. Se eu der uma curtida de 0,5, veja, nossos dados
chegarão nesse ponto
, virão assim. Se eu der um, que é o desvio
padrão, nosso gráfico virá mais ou menos
assim. Se eu der 1,5, nosso gráfico ficará assim. Se eu o der como ferramenta, nosso enredo virá assim. Ok, então você pode dar o desvio
padrão para o outro quadrante
e traçar x e y, vamos, estamos representando
os valores de x e y. Ok? Então, isso é 13 toda toxina, que dá a altura
da distribuição de probabilidade em cada ponto. Então, o próximo é p naught p norm. O que isso faz é dar
a probabilidade de número aleatório
normalmente distribuído ser menor que, menor que o valor de
um determinado número, ok? E também é chamada de função de
distribuição cumulativa. Então, aqui estamos tomando o mesmo exemplo e aqui
estamos incrementando em 0,4. E então estamos gerando
y usando a norma p x. Estamos passando x aqui para
dentro da função da norma p. E então eu estou dando a
alguém por cinco novamente e o
desvio padrão, vamos apontar. E então eu estou plotando x e y. E quando plotamos,
obtemos esse tipo de dado. Se eu colocar um desvio padrão de
suporte de um ponto, veja, estamos vendo
assim, ok, se eu aumentar isso pelo
vento, Suporte 0,5. Ok? Dessa forma, podemos obter a função p-norm que
podemos usar e obter
esse tipo de gráfico. Então, o que isso nos dará, nos
dê a probabilidade de um número
aleatório
normalmente
distribuído ser menor que
o número fornecido. Ok? E o resto das duas normas 2 e nosso número
veremos na próxima aula.
48. Distribuição normal usando função de qnorm e rnorm: Na palestra anterior,
vimos como podemos implementar a função dnorm
para distribuição normal. E também vimos p Now
para distribuição normal. Agora, nesta palestra,
veremos o qnorm e nosso senso de Don Funk
para distribuição normal. Então, o que é a função qnorm? Essa função pega a
probabilidade do valor e mantém o número cujo valor
cumulativo corresponde
ao valor da probabilidade. Isso é bem simples
aqui, usaremos o outro importante aqui. O que faremos é usar
0,1 e gerar a sequência de números 0-1 e três números
serão incrementados em 0,03. Então, geraremos uma
sequência de números de 0 a 1, e cada número será
incrementado em OpenGL ou três. E então usaremos a função qnorm e ainda forneceremos essa entrada
exógena. E o que estou dando, estou dando a média S2 e o desvio
padrão como dois. Você pode dar o
que puder se quiser, dar, média como 1,5, você pode dar
um desvio padrão, você pode dar um ou 1,5 e
ver como seu gráfico está chegando para dois e uma
média padrão S2 e
desvio padrão dois, estamos obtendo este gráfico. E se eu executar isso por 1,5, obteremos
algo assim. Ok? Então é assim que usamos a função qnorm para
distribuição normal dos dados. Ok? Agora, a próxima coisa é que não
são anônimos
usados para gerar números aleatórios para
distribuição é normal. Então, qual é nosso número e, como eu disse
na aula anterior, Dexter n
é a entrada onde n
é o número de observações ou os locais de
amostra, certo? Portanto, qualquer outro
número que tenhamos, o tamanho da amostra fornecerá isso
como entrada para a função. Então, o que ele fará é usar o
tamanho da amostra como entrada, como aqui, estou fornecendo cartilagem
e gerará números gerados
aleatoriamente
para o tamanho da amostra. Suponha que recebamos
30 aqui, tamanho da amostra. Então, ele gerará os números
aleatórios do gerador. E então usaremos
o histograma para desenhar essa distribuição normal
usando um console desconhecido. Portanto, esse vetor y produzirá números gerados aleatoriamente a partir desse tamanho de amostra 30. Ok? Então, uma vez que
executamos isso, obtemos esse histograma para os números
gerados aleatoriamente. Ok, então é assim que usamos a função desconhecida para distribuição
normal. Então, deixe-me imprimir y para que
possamos ver quais números
estamos obtendo aqui, c aqui. Então, se você clicar em Console, esses são os números que estão sendo
gerados usando o por 30. Então, ele gerará números
aleatórios como este. E o histograma que vamos representar graficamente são
números gerados aleatoriamente em um histograma. Então esse é o, esse é o y entre menos um a três,
está sendo vendido. E então no suporte, esse é o eixo x, esse é o eixo y, essa
é a frequência. Então, g rho dois, como menos um a
menos de menos um números que estão ocorrendo quatro
vezes menos um a zero. Essa é a frequência
dos números e de zero a 1,122 assim. Ok? Então, deixe-me alterar os dados para obter suporte, o que os tornará 100. E se eu executar isso, veja, estamos obtendo
esse histograma. E se você ver o console, verá
que é assim que
usamos a função pnorm para desenhar o diagrama usando nossa função desconhecida
para distribuição normal. Ok? Então é assim que usamos
a distribuição normal. E vimos a
distribuição normal dos dados da norma qnorm e das funções
desconhecidas do Vietnã do
Norte . Como pode
49. Recursão em R: Olá e bem vindo de volta. Nesta palestra,
aprenderemos sobre recursão
em nosso programa. Então, o que é Dickerson ou o que
é uma função recursiva? Então, função recursiva
é uma função que se
chama várias
vezes, certo? Portanto, apoie
você se quiser realizar a mesma operação
repetidamente. Podemos usar o
Dickerson para não agir como se você devesse ter aprendido como um número um tanto
antinatural. Alguns de vocês numeraram
todas essas coisas como esses problemas, como encontrar alguns números naturais em que n pode variar de um a
qualquer número, certo? Até um a 100.000,
algo assim. Então aqui para resolver esse
tipo de problema, precisamos usar o Dickerson
e seu cursor é uma coisa
muito importante quando
fazemos a programação, certo? Portanto, em nosso Também, podemos usar
a função Dickerson. função recursiva
pode se chamar repetidamente
para realizar as operações. E, finalmente, isso nos
dará o resultado. Então, para entender como recursão funciona em nossa
programação,
diremos que faremos um programa simples
para encontrar a soma dos números
naturais até
n usando recursão. Ok? Então, vamos tentar encontrar, daremos um número, qualquer número. E vamos tentar
encontrar a soma dos números
naturais de
um a esse número. Suponha que aqui
eu esteja dando 85. Então, aqui eu quero
encontrar a soma dos números
naturais até 85 min, um mais dois mais três mais cinco mais seis mais
sete mais oito, até mais 85, certo? Então, para resolver esse
tipo de problema, precisamos usar a recursão. Então,
o que estou fazendo aqui simplesmente escrever
uma função simples aqui e dar a ela um nome sublinhado n. Isso significa alguns dos
números naturais, certo? Alguns sublinham n. E, dentro disso,
estou tomando como argumento
uma entrada , pois n u n será o número de
números naturais, certo? Número natural até o qual queremos calcular
a soma. Certo? Aqui. Estou fazendo uma verificação simples. O que estou fazendo aqui. Estou simplesmente verificando se n é
menor ou igual a um, simplesmente
devolvo isso. Então, por que estou verificando
essa condição aqui? Porque se for n é um, precisamos retornar um
porque um é de um mês. Os números naturais
começam com um. E às vezes algumas pessoas consideram todos os tipos de números naturais
com zero. No caso de 0,1, precisamos retornar esse número
específico em si porque você produz zero, precisamos retornar zero
e, se for um, precisamos determinar apenas
um, certo? Não é necessário chamar a função
recursiva. Ok? Então, esse é o caso de
cuidar do 0,1 se você considerar
os números naturais
incluindo zero, e se estiver começando de um, se você considerar então um, ok? Então, basicamente,
os números naturais começam com um, mas às vezes as pessoas consideram em zero o Agile começando do
zero também. Ok? E então eu estou usando isso, estou dando uma condição if e depois estou usando
outra condição. Caso contrário, o que estou fazendo, estou simplesmente devolvendo Gan mais alguns meios de Yan mais,
suponha que um número seja para, suponha que eu lhe dê dois. Então, suponha que esse
número seja de dois a dois mais soma até menos
um, soma de um. Então, o que ele fará, fará cerca de dois mais a soma de dois no verão com menos
um. Vamos somar um. Ele virá aqui e a soma
de um retornará um. Essa função
retornará dois mais um para mais um será três. Então, se executarmos essa função, obteremos a saída
como três aqui. Porque alguns números
naturais até dois são três, certo? Suponha que eu dê três
aqui. O que vai acontecer? Vai demorar, vai
entrar na outra parte porque três não está satisfazendo
essa condição, certo? Maior que um, certo? Então, ele entrará em outra parte e
retornará apenas n mais a
acusação três mais. E então ele mesmo
os chamará novamente. A função se
chamará função sum n no Excel. E isso fará com que
parte de N três menos dois, alguns tenham dois, alguns tenham
dois venha aqui. Então n é igual a dois,
ele virá aqui. Então, o que ele fará, dois mais três mais
dois mais soma de dois
menos um, soma de um. Ele entrará aqui e
retornará um. Então, três mais dois mais um. Quanto? Seis. Então, esse sexo escrito. Veja aqui que a produção
é de seis anos. Então, entendemos como isso funcionará. Deixe-me colocar
o comando em ordem. Você é a primeira vez
que isso vai acontecer? Vai ser tipo, vai
ser como “olá”, pronto. Três mais três mais
soma sublinhado N. Três menos 13 menos
um significa dois. Então, isso fará com que alguns até, ok, se chamem. Isso é chamado de recursão. Então, novamente, na próxima etapa
, a próxima etapa
será escrita em três, resumindo como ela virá. Ele virá aqui para funcionar, receberá a entrada S2 e depois virá
na outra parte, mas mais. Então aqui
virá como se três mais dois mais dois menos 12, menos 12 menos um fosse a
soma de um, certo? Então, o próximo passo é três
mais dois mais a soma de uma
água divertida de verão que ela vai, ela vai embora, ela chamará
a função em si. E chegará
à soma de um. A soma de um retornará
n, isso significa um. Então, isso
nos dará o resultado um. Então virão três
mais dois mais um. Então, isso é chamado
de ticarcilina, a produção final que estamos
obtendo é de apenas seis. E aqui também três
mais 25 mais 16. Então isso se chama
Records sun, certo? Suporte. Vou te dar
um grande número, 785. Então, ele entrará nessa função e
chamará 75 menos um, depois 782-52-7875 menos 1784. Então ele virá
aqui, 74 menos 17823. Então, ele continuará ligando. Isso é chamado de recursão. Então, se
executarmos isso, obteremos a saída assim. Ok, relaxe alguma coisa, ok? Dessa forma, podemos
usar a recursão em nossa programação para encontrar
a soma dos números naturais.
50. Encontrar uma documentação de um número usando recursão em R: Então, nesta palestra,
faremos outro Hansen. E nesta palestra,
tentaremos
encontrar o fatorial
usando recursão. Então, você sabe o que é
fatorial de um número? Você deve ser gentil, certo? Você deve ter estudado isso
em suas aulas de matemática e morreu. Então, matemática do ensino médio, você deve saber
o que é fatorial. Deixe-me dizer
o que é fatorial. Fatorial, nosso
número de telefone é o produto de todos os números inteiros de um
até aquele número suporta, se eu disser fatorial de dois, fator dois será o
produto de um a dois. Produto dos números 1-2. Então, o produto do fatorial de dois será um em dois, certo? Se eu disser que fatorial de três
é um em dois em três. Da mesma forma, se eu disser fatorial de sete e denotarmos
o fator assim. Portanto, sete fatoriais serão um partir de um produto dos números de 1 a 7. Portanto, será um em dois
em três em 45 e 6,7, o que resultará em torno de 5.040
como produto do número. Portanto, o fatorial para
o número começa de um até que esse número multiplique cada número e obtenha o produto de
todos os números. Ok? Então, 1287, se eu colocar
y fatorial oito aqui, será um produto
dos números de 1 a 8. E isso será outra
coisa, certo? Então, vamos descobrir qual é
o fatorial disso. Então, deixe-me executar este programa
e deixe-me imprimir isso. Deixe-me fazer isso. fatorial C de oito é 43 20, então o fatorial
dele será 43 20. Então é assim que
podemos encontrar o fatorial de um
número usando a recursão. Então, deixe-me explicar essa função, que escrevemos para encontrar
o fatorial de um número. Então, aqui estou escrevendo uma
função fatorial recursiva. E isso usará o
número como entrada. E aqui estou verificando se n é
menor ou igual a um, vou retornar simplesmente
esse número um, ok? Então o fator zero também
é um, ok? Então, se for um ou zero,
retornará a saída como uma. E se o número for
maior que um,
entrará na outra parte. E aqui, o que eu estou
fazendo, eu estou usando, eu estou usando N em, N em, e então eu estou chamando a função novamente
da mesma função. Isso é chamado de
concentrado para ser. A função
se chamará dentro da função. A função
se chamará dentro da função, e isso é chamado de recursão. Então, dentro dessa função
fatorial de registro, chamaremos isso de função
fatorial. E
você precisará de menos um. Isso significa que o suporte é
fatorial do mesmo. Então, ele vai para as fontes
e recapitula fatorial. E considerará a
entrada como oito menos 17. Então, ele considerará a
entrada como sete, e chamaremos esse
registro de fatorial. Então, novamente, a função
virá aqui. Então, novamente, ele
virá aqui e
será oito em sete, em um fatorial recorde de seis. E assim
será recorrente, certo? Isso é chamado de recurse on, ele continuará se chamando
dentro da pílula funcional. O número se torna zero. Tudo bem? Então,
começará de 8 a 7 a 6. E então virá como
o que virá um menos 10. E então fatorial
de n menos um. Então, o fatorial de zero se
tornará um e obteremos o produto de oito em sete
em seis em cinco em quatro em
três em um. E é assim que o
fatorial funciona. Deixe-me mudar isso para cinco
e chegará em torno de 120. Veja, o fatorial de
cinco é 120, ok? Então é assim que a
função fatorial funciona em nossa programação
usando a recursão. Portanto, a constante é suportada e estou escrevendo essa
função considerando fatorial. E dentro dessa função em si eu estou chamando
a função em si. Então, dentro da função
fatorial recursiva, estou chamando isso de fatorial de
registro. E isso é chamado de recursão
quando a função chama a si mesma de “inside
” é chamada de Carson. Quando a função chama a si mesma, ela chama o carro de filho. Ok? Então é assim que a recursão
funciona em nossa programação. Vimos dois exemplos. Uma delas é encontrar o fatorial de uma função usando recursão. E no exemplo anterior, vimos como encontrar a soma
dos
números naturais usando recursão, onde construímos esse ecossistema para encontrar a soma dos números
naturais. E aqui encontramos o fatorial de um
número usando recursão.
51. Dados de amostra de uma população: Olá e bem vindo de volta. Nesta palestra, aprenderemos
sobre amostragem de uma população a partir de um
conjunto de dados em programação R. Então, isso é muito importante
porque quando temos um problema de aprendizado de máquina, um problema de ciência de
dados ou um problema de inundação, temos um grande conjunto
de dados, certo? E queremos obter algumas
informações dos dados, ou queremos uma amostra dos dados. Suponha que tenhamos a maioria da
população da cidade e queiramos
analisar quantos Parsons
têm diabetes. Então, vamos pegar
uma amostra de dados, analisá-la e, com base nisso, podemos criar um modelo
e depois aplicar esse modelo a uma população
maior, certo? Portanto, tirar uma população pequena ou uma amostra de um grande conjunto de dados é chamado de
amostragem de uma população. Em termos gerais, amostrar um Beta é
muito importante. E para saber isso, devemos saber o que é, nossas funções são simples, como criar vetores. E então sabemos todas essas coisas. Então, nós, o que
fazemos, veremos um exemplo simples como podemos fazer a amostragem. Ok? Portanto, para lidar com a
amostragem e fornecer
suporte de amostragem para a amostragem, ou tem uma
função embutida chamada amostra. Então, nossa função de amostra, essa amostra simples de SAM PLE, essa função de amostra,
o que
ela fará, simplesmente amostrará a
população se dermos
amostra e fornecermos qualquer número
inteiro como entrada. Então, o que ele fará é amostrar de um
a 20 números, significa que criará
uma população, amostra de uma a 20. Então, se eu executar isso, veja aqui, deixe-me limpar isso para que possamos ver a
saída corretamente. Então, se eu executar esse exemplo 20, veja o que ele fará. Isso criará alguns números em nossa população
de números de 1 a 20. E não é contra, não ganhou uma
certa aleatoriedade, ok? Portanto, simplesmente não está organizado em ordem crescente
ou decrescente. Apenas os números de 1 a 20,
ele gerará. Então 123, todos os números de 1 a 20. Ok? É assim que podemos criar uma amostra de números
de 1 a 20. Esse é um exemplo simples. A próxima coisa é o que
eu vou fazer. Vou criar um vetor de
1 a 15 números. Suponha que este seja o, este é o nosso conjunto de dados que
contém os números 1 a 21 a 15 aqui,
por exemplo , um a 20, este é o nosso vetor x onde estamos mantendo
os números de 1 a 20. Então essa é a população. Esse x será conhecido como uma população porque esse é todo o conjunto de dados
que temos. Então X é a população. E dessa população de x, quero amostrar externamente
cinco elementos, ou cinco. Eu quero um arquivo de amostra. Eu quero os cinco. Essas são as marcas. São esses, esses são o
número de pessoas pré-impressas. Eu quero o número
de apenas cinco pessoas. Eu quero experimentar cinco elementos. Como podemos fazer isso? Podemos usar a função de amostra. Podemos fornecer a
população aqui, x e depois vírgula cinco, quantos elementos você
deseja amostrar do conjunto de dados
do lote de X. Portanto, a amostra x vírgula cinco
nos dará os cinco números
aleatórios grandes dados populacionais e criará
uma amostra para nós. Então, deixe-me fazer isso com pressa
e, em seguida, amostrar o exon cinco. Veja aqui. Agora estamos obtendo 481.410,12 do conjunto de dados
populacionais, certo? O conjunto de dados de populismo
é esse, ok? De um a 15. Então, a partir disso, obtemos o
aleatório de 81.410,12. Este é o nosso conjunto de dados de amostra. Se eu executá-lo novamente, ele nos dará cinco números
diferentes. Veja aqui, agora a amostra
foi alterada e, portanto, ele escolhe
aleatoriamente cinco números
desse vetor x ou população x e criará
uma amostra de dados. Então é assim que nossa função
de amostra funciona. Em seguida, podemos dar um
substituto igual a verdadeiro. Então, para este, substitua por igual a dois. Isso gerará
os mesmos números. Se eu executá-lo novamente, ele nos dará os
diferentes cinco números aqui substituídos, não nos dando à guerra
o que ela faz. se usarmos nossa amostra e fornecermos
atos como uma população, simplesmente usaremos
replace igual a true. O que vai acontecer? Vamos ver. Ele substituirá o elemento c. Agora 51302, 74, 414-151-2312. Veja, todos os números
não são o certo para 15. Alguns números foram
substituídos como 131 vezes, mas cinco também é uma vez, 14 é repetido três vezes, 12 é repetido duas vezes. Ei, aí. Da mesma forma, alguns dos números
serão
substituídos por outros números como alguns de apoio, suporte. Não há ninguém nisso, mas nosso conjunto de dados original
tem de um a 15. Mas aqui nem todos os números,
1-15 aqui, certo? A maioria dos números
é substituída. Então, o que substituiu igual
a verdadeiro servirá, ele continuará substituindo os
números do conjunto de dados. Então, do
um-dois a três por cento, ele pegará alguns dos dados, repetirá alguns dos dados e substituirá
alguns dos números. Então, alguns dos números
foram substituídos pela soma dos outros números como um. Suponha que um seja repetido, um tenha sido substituído
por quatro, certo? Da mesma forma,
14 substituiu algum outro número como
seis ou algo assim. Porque falta sexo aqui. Está faltando aqui. Então, aqueles 6,8 que estão faltando, que foram substituídos
pelos outros números
no conjunto de dados populacionais. Isso é 14412, certo? Então, o que ele fará é substituir o número
internamente e resfriar o gênero em nossa amostra de
população para nós. Portanto, ele simplesmente continuará
substituindo os dados
uns pelos outros. Ok? Então, suponha que tenhamos um evento de cabeça e
cauda jogando uma moeda. Então, temos dois eventos, certo? Ou pegamos a cabeça, estamos bem? Suponha que tenhamos
esse conjunto de dados de amostra e um evento recíproco de cabeça e cauda de
H e T. E queremos que seja amostrado. Ele fornecerá o
tamanho da amostra para impressão e substituição
igual a dois. O que ele fará, simplesmente
executará isso, verá o que fará. Ele simplesmente criará uma amostra com t e
borda, cabeça e cauda. E ele repetirá a cabeça
e dirá várias vezes. Porque fornecemos os tamanhos
das amostras em roxo. E assim criará a
borda DHHS, uma entidade. Isso é bastante aleatório. Eles estão sequenciando que,
se
você executá-lo novamente, poderá obter outra
sequência de H
e T, e será um script positivo. Dessa forma, podemos
criar uma amostra de eventos de cabeça e cauda. E podemos dar
os números aqui. Se eu der cinco
, estará feito. Isso nos dará o TTT. Veja aqui nesta tendência
temporal que
apresentamos apenas cinco caudas. Caudas, caudas estão chegando.
Não, não há cabeça. Se eu conseguir, suponha seis. Agora vamos para cabeça,
cauda, cauda, cauda, cauda e cabeça. Portanto, é bastante aleatório. Dessa forma, podemos usar
a função de amostra na programação R para obter a amostra de uma
grande população, como fizemos aqui. Pegamos essa população x, que contém
números de um a nove, e pegamos apenas uma amostra cinco elementos desse conjunto de dados. E criamos nossa
amostra de cinco elementos. Então é assim que podemos
usar a função de amostra para obter a amostra de um conjunto de dados
populacionais, ok?
52. Programa para verificar números primos: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos como verificar se um
número é primo ou não. Então, esses são os problemas
que podemos enfrentar em nossas entrevistas competitivas de
codificação, quais o entrevistador pode
pedir que você escreva um programa para descobrir a soma de n números ou se
um número é primo ou não, ou alguns números pares
ou encontrar números pares. Como verificar o número par, como pegar o número primo. Então, esses são os problemas, muitas vezes
solicitamos exames abrangentes e
recorremos a testes de programação. Portanto, é melhor saber como
implementar isso em nossa
programação também. Se você é um aspirante a cientista
de dados engenheiro de aprendizado de máquina
e IA. Então, é bom saber
o básico, certo? Então, na série de palestras, estamos explorando
essas coisas,
como escrever um programa
em nossa programação para encontrar um número primo, particularmente nesta palestra. Ok? Portanto, este programa serve para verificar se o número
é primo ou não. E o número que
tomaremos como entrada de entrada. Então, pediremos que o usuário insira
a entrada
e, assim que
o usuário inserir o número de entrada, pegaremos esse
número de entrada e
verificaremos se esse
número é primo ou não. E para isso,
usaremos o loop for. Então, se você souber como usar
if e else, e for loop, será
muito bom fazer este programa. Ok? E deixe-me dizer
qual é o número primo? Portanto, o número primo é um número
inteiro positivo maior que um, que não tem outros fatores exceto um e o próprio
número. Então, o que isso significa? Suponha que tenhamos um
número para o número quatro, podemos escrever na
forma de dois em dois. Portanto, tem dois fatores. Dois em, dois em
dois é quatro, certo? Portanto, esse não é um número primo. Suponha que tenhamos um número. Suponha que tenhamos o número seis. Número seis, podemos escrever
na forma dois em T3. Portanto, tem dois fatores, 2.3. Da mesma forma, temos um número. Suponha que tenhamos o número cinco. Número cinco, não podemos
escrever em um fator, certo? Não podemos tentar o número dois em algo como dois em algo como dois
em dois, mal podemos esperar. Podemos fazer dois em 2,5, mas isso não está correto. Devemos ter os fatores
inteiros corretos. Dessa forma, não é
possível, certo? Então, os números são como cinco, que tem um fator,
um e ele mesmo. Então, podemos escrever cinco na
forma de um em cinco. Da mesma forma, como temos 77, também podemos escrever na forma de querer sete Wanli. Podemos escrevê-lo em um
pouco com a ajuda de alguns outros números, como
escrevemos seis a três, não
podemos, não podemos encontrar
um número que possa dividir. 77 pode ser dividido por
um, apenas 1,7 em si. É por isso que os
números primos são os números, números inteiros
positivos
maiores que um, que podem ser divididos por um. Número em si, que
não tem outros fatores, exceto
um e o próprio número. Então, os números primos ou dois, depois três, depois cinco, depois sete, depois LeBron, e depois 13, depois 17 e assim por diante. Então, esses são os números
primos, C7. Não podemos dividi-lo por nenhum outro número,
exceto um e ele mesmo, 13 também, 11 também. Então, esses são os números primos. Então, agora temos a compreensão de quais
são os números primos. Vamos continuar
resolvendo esse problema. Então, primeiro, como obter
informações do usuário em R. Assim, podemos usar a função de linha de leitura para
obter informações do usuário. Então você deveria estar, você deve
conhecer a função readline, que tem um argumento rápido
do Azure. Portanto, a função readline
será solicitada,
portanto, solicitará que o usuário o faça. E tudo o que você escrever aqui, será exibido
no console. E ele pedirá que você
faça o que você escrever aqui para pedir que você faça. Suponha que
aqui estamos entrando, estamos escrevendo, por favor,
insira um número. Portanto, o prompt pegará
o número digitado pelo usuário e
o passaremos
para a função de linha de leitura. E aqui podemos converter a entrada
do usuário em dois números inteiros. Então, o que somos, estamos armazenando o número
inserido pelo usuário. 0 e n variáveis. Portanto, como número inteiro de pontos, ele será convertido em
inteiro de tudo o que obtivermos dessa
função de linha de árvore por meio desse prompt. Ok? Então, se eu executar isso aqui, se eu executar isso, ele
solicitará que insira um número. Ok? Então deixe-me esclarecer isso. Ok? E então
estamos colocando uma bandeira. É chamado de zero. Inicialmente. Veremos
por que estamos usando essa bandeira igual a zero e também veremos
por que ela está chegando. Isso é soma, porque
inserimos os números. Está nos mostrando
o mesmo número. Isso é soma, ah, edição que veremos. Ok, então estamos definindo
a bandeira como igual a zero. E depois adicionamos doações. Como eu disse, os números primos são sempre
maiores que um, certo? Comece com dois até
357-11-1317 desse jeito. Portanto, é sempre
maior que um. Então, a primeira coisa que
verificaremos é se o número
é maior que um. Em seguida, entraremos no circuito. E se o número não for
maior que um, então definitivamente não é
um número primo, certo? Então, para essa bandeira será zero. E para a bandeira zero,
o que estamos dando, para a bandeira zero, não
recebemos um número primo. Então, se você inserir o número em
menos, menos dois, menos três, menos cinco, para
que eles venham aqui. Pulse e ela cederá, ela cederá. Então, a mensagem de que você digitou um número
não é um número primo, ok? E se o número
for maior que um? Suporte 235678,
todos esses números. Então, o que faremos é
verificar os fatores. E antes
de verificar os fatores, o que faremos,
definiremos a bandeira como uma. Ok? Um significa que número é número
primo, ok? Então, inicialmente, nós
o definimos como zero. Agora, o nudge entrará
dentro desta instrução if, if loop, IF, if, o que faremos se o número
for maior que um, definirá a bandeira como igual
a um inicialmente. E então, que azul, criaremos um loop for. E qual será o loop for? Pois loop é para I em dois, porque os números primos
começam com 22 a n menos um. E menos um significa supor que
estamos inserindo cinco, então dois a quatro. Então, em dois a 4 minutos
, serão necessários quatro a T
para esses três números. E o que será
necessário para o fator, se o número é um número está sendo dividido por
dois, três ou quatro, ele pode ser dividido
por 23,4 ou não. E então, se uma pessoa, essa pessoa fez, eu perdi, ela verificará o fator se o número inserido
for dividido por, suponha que estejamos inserindo cinco. Então, ele verificará se o segmento
está dividido por dois ou não. E então ele verificará
dividido por três ou não. Então, será
quatro ou não igual a, igual a zero. E então definiremos a
bandeira como igual a zero. E se for dividido pelo 234, definirá a bandeira
igual a zero e
sairá da declaração for. Isso quebrará o ciclo de forma
e sairá disso. E tudo bem, e se n for
igual a, igual a dois,
a bandeira será igual a um. Então, o que ele fará aqui, verificará
se o número, suponha que estejamos inserindo seis. Então seis é dividido por dois, certo? Então, será igual
a zero. Então, ele colocará a bandeira zero e
sairá do circuito. E isso sinalizará. bandeira zero virá
na outra parte, e virá, então
não é um número primo. Suponha que estejamos inserindo cinco. Então, cinco é dividido por dois. Não, sairá e a
bandeira durará um ano. Então, a bandeira um significa que cinco é
um número primo, certo? Com suporte semelhante,
estamos inserindo oito, então oito é dividido por, serão necessários dois a sete
para primeiro dividir por dois. Divida para
apenas sinalizar é zero. Ele sairá
do circuito e sinalizará zero ,
pois não é um
número primo como esse. Ele verificará e nos
dará o resultado. Apoie você, estamos inserindo 11, então será necessário N
dividido por 211/2. Não, ele sairá
do loop suportado. Estamos inserindo a cisteína. Cisteína dividida por 2/2. Sim, bandeira zero 016
dividida por assim. Ok? Portanto, ele
sairá do circuito salvando, definindo a bandeira como igual a zero. E
nem todos os números serão primos. E suponha que estejamos
inserindo 1717/2. Não. Então, quais são as duas coisas que acontecerão, elas sairão do
circuito e colocarão a bandeira como igual a uma. Bandeira igual a um
significa que é um número primo. E se o número que você
estava digitando, então
números primos diretamente, certo? E, por um lado, estamos
chegando na outra parte, maior que uma, estamos
chegando na outra parte. Ok? Então, deixe-me analisar toda essa fonte. Qual é o problema aqui? Ok, deixe-me executá-lo novamente. Agora, o console está pedindo que
digitemos um número. Suponha que eu insira um número um. Desculpe. Suponha que eu insira um número um aqui e pressione Enter,
o que acontecerá? Um não é um número primo. Por que um não é um número primo? Ele virá aqui e
verificará se n é
maior que 100 ou mais. Yan é maior do que um ou não. Então, sério,
isso não é , não entrará nesse loop e a bandeira
será zero para este porque não está
entrando nesse loop porque F é um e virá
aqui, bandeira igual a zero. Então agora ele virá aqui. E verificará a bandeira
igual a um nó. Então, ele virá na outra
parte e estudará a Arábia Saudita. Ele entrará
nessa outra parte. E um também não é um número
primo como esse. Ok? Deixe-me fazer isso de novo. E se eu inserir dois, desculpe, se eu inserir dois
aqui, o que acontecerá? Ele em c2 é um número primo. Por que dois é um número primo? Ele virá aqui e é
maior que um, certo? Dois é maior que um. Então sinalize, ele definirá um, depois virá
aqui para dividi-lo por, para dividi-lo por dois
para um, certo? 2/2. Então C é 2/2 se comemorar. Então, sairá
desse ciclo, certo? E a bandeira será uma. Então, dois é um número primo. Se eu colocar três, desculpe. Se eu executar isso novamente
e colocar o número três, então ele recebeu três
é um número primo. Por quê? Porque ele
entrará nesta bandeira de declaração. Isso definirá a bandeira para 1,4. Sinalize um, será número
primo e depois
entrará nesse I
de quatro ciclos em 222, certo? Então, 3/2, não. Então, isso quebrará essa afirmação e a bandeira será uma, certo? Então e será o número primo. Assim, se você inserir
suporte de comprimento ou 17, a célula de apoio
saudita
insere 17 aqui. 17 é um número primo, por quê? Ele virá aqui e
17 é maior que um. Ele virá aqui,
definirá a bandeira como um e entrará nela para fazer um loop
para i em 21617/2. Sim. 17 não é desviado por dois, então ele sairá
desse circuito e a bandeira
permanecerá 1,4. Sinalize um, o número
é um número primo e é por isso que esses
17 são números primos. Então, é assim que podemos escrever um programa simples para encontrar números primos
em nossa programação.
53. Programa para verificar EVEN ou ODD: Nesta palestra, escreveremos
um programa em nossa programação para um programa em nossa programação para descobrir se o
número inserido é par ou ímpar. Então, pegaremos a
entrada do usuário e pediremos que ele
insira um número. E com base na entrada do usuário, verá que o número de entrada do usuário é um número ímpar
ou um número par. Certo? Então, o que é um
número ímpar ou um número par? Então, números que são divididos
por 0/0 sem o resto. É chamado de número par. Suponha que tenhamos um número
x e se dividirmos o número por dois e
obtivermos zero como lembrete, então é um número par. E se o número for
dividido por dois e nos der algum resto,
então um número par. Então, simplesmente, se um
número é dividido por dois e o restante é zero, então numere par e
divida por dois. E está dando alguma exigência, é um número ímpar, certo? Então, vamos pegar o programa. Então, aqui eu escrevi um programa em que estou tomando a
entrada como um número inteiro. Então, estou pegando a entrada do ID
do usuário como número inteiro e estou pedindo
ao usuário que insira o número.
Por favor, insira um número. Portanto, a função readline
será usada para receber a entrada do usuário e
a solicitação que estamos fornecendo. Por favor, insira um número. Em seguida, estamos convertendo para
um yeoja, Ads dot integer. Ok? Então, seja o que for, um número inteiro, certo? E então estamos simplesmente
verificando se esse número n está dividido por dois. E se o restante for zero, então n dividido por dois. Se Amanda for igual a zero, diremos que n é um número par. E se obtivermos um resto
diferente de zero ou número, certo? É um número ímpar. Coisa tão simples. Se n for dividido por dois e o
restante for zero, então se o número for par, e se o resto for
diferente de zero, é um número ímpar, certo? Então, espero que você tenha entendido a ideia. Então, deixe-me dizer quais são
os números pares
e ímpares. Então, 24681012. Todos esses números
são números pares. E nossos números
são como 35791113. Todos esses números. Então, não só
isso, vai continuar até Ok. Então, o número que a senhora esperou muito com
Gino exigiu. O número exigido é chamado de número par. Um número ímpar se apresentar
essa afirmação abaixo
de zero. Então, vamos executar esse programa
e ver o resultado. Então, deixe-me esclarecer isso primeiro. Insira um número. Então, suponha que eu insira o número 45. Portanto, a tensão de saída que
chega a 45 com eles, ou o número por 45 é um número ímpar,
porque se
dividirmos 45 , obteremos uma, demanda
ou duas em 20 a 44,1 que recebemos como lembrete, então o lembrete é diferente de zero. Então, ele entrará
nessa outra parte. E foi realmente o método em
que 45 é um número ímpar. E suponha que eu o execute novamente, e se eu inserir um número 12, desculpe, vou inserir o número 12, então 12 é um número par. Suponha que eu o execute novamente. E se eu inserir um número, aqui, tem que nos dar um
número par direto. E se eu executar novamente, e se eu conseguir cinco, e conseguir cinco é um número ímpar. Dessa forma, podemos identificar
se um número é lógico
ímpar ou mesmo simples e dividido por dois é igual a zero. Se for do zero. Como lembrete,
dizemos qual número,
caso contrário, são números curtos. Então, espero que esses programas
simples
ajudem você a entender
como a programação funciona e a sua lógica. E essas também são perguntas muito
populares em entrevistas, especialmente para um freezer. E se tivéssemos um recém-formado
e procurássemos emprego, essas perguntas
são muito comuns na
colocação da faculdade no campus, ok.
54. Programa para verificar negativo positivo ou ZERO: Nesta palestra, escreveremos um programa no qual verificaremos se um número é negativo, positivo ou zero. Portanto, será um teste
simples em que
descobriremos se um número é
negativo, positivo ou zero. Então, para isso, faremos a mesma
coisa que fizemos na palestra
anterior de Linda, mas um pouco diferente aqui. O número pode ser
atribuído a uma lombar dupla. Ok, então considere a
entrada como dupla e usaremos a
função de linha de leitura e o mesmo prompt, insira um número. Em seguida, verificaremos se o número inserido é
maior que zero. Se for maior que zero, dará a mensagem. N é um número positivo. E se for igual a zero, daremos como se fosse zero. E nisso somente se
for diferente de zero. Então, primeiro ele verificará isso. Se n for maior que zero,
então pós-renal, certo? Em seguida, ele
entrará em outra parte em L3 usando um if-else aninhado. Se o número não for
maior que zero
, chegará a essa outra parte. E então, nesta outra parte, estamos verificando se o número é igual a zero,
o número é zero. Caso contrário, se o número não for zero
e maior que zero, menor que zero, o que
faremos é digitar
essa outra parte. Isso significa que será um número
negativo, certo? Se o número for menor que zero. Se o número não for
maior que zero, se o número não for
maior que zero, certo? Mantissa, pode ser zero
ou menor que zero, certo? Então, se for zero,
obteremos zero. Se for menor que zero, chegaremos à
outra parte e colocaremos a mensagem como se
o número fosse um número
negativo, basta verificar. Vamos executar isso.
Deixe-me esclarecer isso. Ok? Ok, aqui. Ok, então vamos fazer isso. Então, deixe-me inserir um número
para apoiar o Atlanta. Oh, menos cinco. Menos cinco é um número. Suponho que vou executá-lo
novamente e inserir 45. Desculpe. Vou entrar por 45 anos. Quatro a cinco é uma porção ou
suponha que eu a execute novamente, prático, colocarei zero. J, o
número Saudi Tito é zero. Ok? E então suponha que eu o execute novamente e forneça um
número duplo como -78,5. Então -7.578,5 é um número
negativo, certo? Da mesma forma, se eu colocar menos oito
tem um negativo. Portanto, este é o
programa simples para descobrir onde o número é positivo,
negativo ou zero.
55. Programa para verificar o ano de salto ou não: Olá e bem vindo de volta. Nesta palestra,
vamos escrever um programa para descobrir onde
está esse ouvido, na Bolívia ou não. Então, o que é folha aqui? Saia daqui. Você
terá um dia extra, como três a seis
dias em um ano. 376 dias aqui
apareceram de repente, certo? Então, como decidimos se o pátio não
seria um ano bissexto ou não. Portanto, existe uma fórmula simples. Se a orelha for dividida por quatro
e o restante for zero, pode ser uma Líbia, mas essa não é a caixa de
um litro, certo? Se a orelha for dividida por quatro, essa é a função do módulo. Se você dividir por quatro e
dar zero a qualquer fornecedor, então pode ser a Líbia. Mas temos que verificar
outra condição, se o número também é dividido
igualmente por cem. Além disso, se você dividir o relatório de estudo da United Way
e
entregá-lo em zero, pode ser um ano bissexto, mas temos que verificar
se ele está dividido por cem e fornecer
um lembrete como 0/100. Além disso, dar o
restante é zero. Novamente, pode ser uma
transmissão ao vivo aqui, mas, novamente, temos que verificar uma condição que os dados ainda estão divididos por
400 e dar um
lembrete como zero.
Se esse ano também for 400 e dar um
lembrete como zero dividido igualmente por 400, então esse será
seu próximo ano bissexto. E se não for, então não será como a Líbia. Portanto, a primeira condição
que precisamos verificar é se a edição é
dividida por quatro, então temos que verificar
se elas estão divididas para frente e restante como zero totalmente dividido, certo, para seu modelo, isso significa módulo 40. Então, temos o projeto
ainda mais ou menos 100
, está em torno de zero
e o módulo 400 do ano. Então, eles também chegam a zero. Se isso, ele tem sua, uh, Livia. Lívia. Ok. E se e aqui também, isso não é uma divisão por 100, então ainda não está ao vivo. Também sairá
deste painel, vá para a outra parte. E se não for
dividido por quatro, certamente não
é um ano bissexto. Ok? Então, aqui também, se o ano não é
direcionado corretamente para
isso, não é Olimpíada. Ok? Então, vamos executar esse programa
e apoiar e entrar em 2020. 2020 é o caminho preferido
porque é dividido por quatro. Também é dividido por cem. E será dividido, certo? 400 também, certo? Bem, está realmente certo
por volta de 400 anos de 2020. Sabia que eu escrevia para sim. E se não estiver dividido por y, se estiver sendo dividido por cem e apenas
lhe dando um lembrete de zero, então temos o Projeto 400. Mas aqui está, nos
dando
algo aos demandantes, certo? É por isso que o restante não
é zero aqui. Então, chegará à
outra parte e o
colocará às 20:20 é a Líbia. Então, se é mais
ou menos zero, então temos que verificar
dividido por 400 ou não. Se o módulo não for igual a zero, ele chegará
a esta parte e nos
dará que a
Líbia de 2020 suporte novamente uma estrutura
em torno dela. E se eu desse 1520500, sim, de repente,
para já ou não. Então C ainda 2051, que é dividido por quatro. Então, ele virá aqui. Ele pegará e
dividirá por 100 ou não. Portanto, é dividido por 100 totalmente. Em seguida, chegará
à divisão desse loop e verificará se
está dividido por 400 ou não. Então, veja 2500/400, o que nos
dará o restante. Alguém o renderizará
não precisará ser zero, então ele virá aqui e
chegará à outra parte porque o restante
não é igual a zero. E esta parte, que
imprimirá 2.500, não é uma Líbia. Então, vamos entrar e
ver o resultado. C, 2.500 não é uma
folha aqui, certo? Da mesma forma, se eu colocar 19.1.900, não só tenho medo de 2.300.2300, mas ainda
não estou vivo, certo? Espere, eu preciso
novamente de Tao Qian. 12. Se, de repente, entendermos
por que está ao vivo aqui, porque está dividido por quatro, então chegará
ao fim e verá se a taxa
anual total deste ano é dividida por 100 e nos dá
um restante de zero. Não, não está
nos dando o zero restante. Então, precisamos verificar novamente. E claramente chegará à parte
da saúde e
imprimirá em líbio. Ok. Dessa forma, podemos
escrever um programa para descobrir se uma determinada
divindade já dorme ou não.
56. Programa de mesa de multiplicação: Olá e bem vindo de volta. Então, nesta palestra, vamos
escrever um programa simples para imprimir
tabelas de multiplicação, certo? Gostar de uma
tabela de multiplicação é uma tabela para igual. Suponha que a
tabela de multiplicação até seja dois, depois dois em 24, depois 2,236, fazendo 2482 em tubos desse jeito. Ok? Então, uma tabela
de multiplicação simples que
vamos imprimir. E para isso vamos
escrever um programa. Então, eu já escrevi o
programa para economizar nosso tempo. Bem, primeiro consideraremos
a entrada do usuário como um número inteiro e solicitaremos:
insira um número. Assim que você
inserir um número. Vamos pegar esse número. E o que faremos executar um loop for. O que está em um a dez, porque a
tabela de multiplicação, queremos acabar com ela. 14, até dez números
Valley, certo? Então, e então
imprimiremos a multiplicação, o número
n. E o que
faremos, colocaremos o número
n. E o que
faremos, simplesmente multiplicaremos N
por i. Então, primeiro os pegaremos, ou alguém pegará o número
três a três para um. Da próxima vez que o conselho
chegar, eu serei um. Então, 3,22 e 3,23 até dez. Assim. Ele imprimirá a
tabela de multiplicação e, simplesmente, isso é para a saída. Então, serão três em
um igual a 33 em dois. Sexo assim. Ok, então vamos executar isso e suponho que eu
insira três aqui. Então, qual será a
saída para ver três em 13 e eu é um ano, ok, então três em um igual a 33 em um igual a três, depois três em 26 até dez. Então, se você quiser
aumentar esse número, você pode colocar o cotovelo de apoio aqui. E se eu o executar novamente, e se eu apostar por três anos, veja aqui, isso
vai até as pré-impressões. Dessa forma, você pode gerar a tabela de multiplicação
ou para qualquer número n, para qualquer número de primos
até obter a dor adequada, um próton é o que você quiser. Então, suponha que eu o execute novamente e mantenha o número 20, estude. Número 25 anos, Atlanta 25. Deixe-me esclarecer isso. Vou inserir um número de 25 anos. Quero gerar a tabela de
multiplicação para 25. 25 um para um. Se eu quisesse escolher t, 25 a três é igual a
75,25 em dez, por favor. Dessa forma, podemos gerar a
tabela de multiplicação em nosso programa.
57. Quais valores e tipos de valores em falta em falta: Olá e bem vindo de volta. Nesta palestra,
aprenderemos conceito
muito importante que é chamado de imputação de dados faltantes. Então, sempre que estamos fazendo
qualquer projeto de análise de dados, projeto de aprendizado de máquina
ou até mesmo ciência de dados, inteligência
artificial
ou projeto de aprendizado profundo. Seja qual for o projeto que você esteja
fazendo relacionado aos dados, precisamos trabalhar nos dados. E um dos problemas
mais desafiadores, ou o maior problema, agora é a
falta de valores nos dados. Então, o que quero dizer com
valores faltantes ou dados perdidos? Então, quando isso vai ajudar na
forma como coletamos dados, coletamos dados por meio de pesquisas ou pedimos às pessoas que
preenchessem os formulários. E enquanto as pessoas estão navegando
na Internet, nós coletamos dados, enquanto as pessoas estão navegando, nós coletamos dados que serão polares, vamos às compras. Coletamos dados por meio de poemas pedindo feedback,
todas essas coisas. Então, existem várias maneiras
de coletar dados, certo? E nessas várias
formas de coletar dados, às vezes a pessoa que está nos fornecendo dados ou nos
fornecendo dados reluta em
fornecer todos os dados que solicitamos a Bob, certo? E quando ele hesitar e Gibbs errar
os dados ou não guardar os dados de alguns
dos valores dos formulários
, os dados
desaparecerão, certo? E isso vale para o mesmo, sem completar os dados. E quando tentamos
analisar esses dados, podemos enfrentar problemas porque muitas das colunas
ou linhas de dados estarão ausentes. Suponha que o
exemplo simples seja quando você
está indo a um
shopping center e eles estão.
As pessoas estão
pedindo que você preencha
um formulário de feedback, As pessoas estão
pedindo que você preencha onde perguntarão os detalhes de
sua família, seu número de celular,
seu ID de e-mail e sua mãe
chamada Nome do pai, seu nome de rua,
onde você sai? Quais são suas preferências? Quanto você resolve? Em um mês? Você parece que seu salário
detalha todos esses dados. Portanto, a maioria de nós
não estará pronta para fornecer todos esses dados,
como nossos dados salariais ou até mesmo o endereço residencial
ou o número do celular. Portanto, tendemos a nos esconder e
não fornecer esses dados confidenciais ou detalhes de
nossa família, como se somos
casados ou solteiros ou
temos uma gaiola ou não. Esses dados não fornecemos. Então, quando
a empresa coleta os dados
de milhares de pessoas no shopping, pesquisando-as,
elas,
quando coletam os dados , quando
entram, analisam os dados. Eles descobrirão que a
maioria das pessoas não respondeu, como quanto possuem e qual é
seu estado civil, quantos filhos
têm quando não oferecem esse
tipo de separação, não
conseguirão categorizá-los. Bem, como se eles pudessem
apoiar algumas pessoas. Eles se casaram e não preencheram a coluna,
casados ou solteiros. Portanto, eles os
categorizarão erroneamente ou não serão
capazes de categorizá-los. E esse é o grande
problema em projetos de análise de dados e aprendizado de máquina ou ciência de
dados. Portanto, para resolver esse problema, existem maneiras de preencher
os valores que faltam. Então, apoie você. Se você tiver
dados numéricos e suporte, você tem os
dados de idade e peso coletados de milhares de pessoas e de algumas pessoas em que
faltam ou faltam idosos. Então, o que podemos fazer no
caso de dados numéricos, podemos simplesmente calcular a média
do conjunto de dados disponível. E podemos preencher
o valor
médio ou o valor médio
nos valores faltantes. Quaisquer valores que
estejam faltando serão preenchidos com o
valor médio ou valor médio. E isso completará
os dados e
poderemos obter uma boa análise sobre isso. Portanto, essa é uma
maneira simples de imputar dados
ausentes em R ou em qualquer projeto
de ciência de dados. Ok, então, no
caso de valores faltantes, numéricos, e se os
valores faltantes não forem numéricos? O que faremos. Então, agora, o que entendemos, entendemos quais são os valores que faltam e quais são as
outras regiões para eles. Então, vamos entender os tipos de valores
faltantes com os
tipos de valores faltantes. Nós os classificamos
em três tipos. Um é M, CAR, depois MAR, ou o
último é um MAR. Então, o que é esse gato MC, AR, M. Então MCAR, Stanford errando
completamente ao acaso, faltando C4, completamente A4 em arpa, faltando
completamente aleatoriamente ao acaso. E é o tipo avermelhado de valores
ausentes quando não
há custo em faltar. Em outras palavras,
os valores ausentes não
estão relacionados a nenhum recurso ,
como o nome
sugere. Esse lago. É apenas um caso muito
raro em que ao colocar os dados
no banco de dados CDART do Excel, você perdeu os dados. Ou quando estamos amostras de dados ou
pesquisando algumas pessoas, algumas pessoas, aleatoriamente,
você perde alguns dados. Portanto, este é um
caso bastante raro em que obtemos o MCAR. Em seguida, na próxima coluna,
os dados MAR, MAR significa ausente aleatoriamente. Isso é bastante comum e
implica que os valores que estão faltando podem ser completamente explicados pelos dados
que já temos. Por exemplo, pode haver um caso em
que os homens provavelmente sentirão uma pesquisa relacionada
à depressão independentemente de quão
deprimidos estejam. Gostar. Suponha que algumas pessoas estejam deprimidas e nós estejamos
servindo essas pessoas. Então, a maioria das pessoas esconde seu estado
mental, certo? Eles estão muito relutantes em compartilhar sua saúde
mental e mental, certo? Então, eles esconderão que
têm alguns problemas mentais. E isso fará com que as pessoas recebam
informações erradas. Portanto, esses valores ausentes ou MAR, certo, ausentes aleatoriamente, na verdade vêm da suposição
sobre os dados. E não há como provar
se os valores dos dados
ausentes aumentam o MAR. Sempre que valores ausentes
são categorizados como MAR ou MCA ou dois números maiores
, eles podem ser ignorados com segurança. Então, MCAR, MAR, já que eles
são como se fossem perdidos aleatoriamente, podemos ignorá-los. Podemos, se você tiver um dado
preenchido com isso, esse tipo de valor ausente, você pode simplesmente
ignorar esses valores e
prosseguir completamente sem preencher
esses valores ausentes e
removê-los do conjunto de dados. E isso está completamente bem. Você não perderá
muito disso porque todos os números estão
faltando aleatoriamente. Isso não o
relaciona a nenhum recurso ou a
nenhuma variável
que afetará
muito o resultado geral de seus
dados. Ok? O último é um AR, e M significa não
faltar aleatoriamente. E isso é importante. Por quê? E CMR. E quando os dados não forem MCAR, MAR, eles serão categorizados como não
faltantes aleatoriamente. E o que não falta
aleatoriamente significa que,
como eu disse anteriormente, quando estamos pesquisando
pessoas no shopping, elas podem esconder o nome do cônjuge, o
nome do filho, os detalhes do endereço,
os detalhes do cartão de crédito ou os detalhes do salário. Então isso não é aleatório, certo? As pessoas estão ocultando voluntariamente
os dados que não estão fornecendo. E quando você, ao
analisarmos os dados, descobrirá que as pessoas
não
forneceram o estado civil
ou o nome do cônjuge, ou quantos filhos têm
e quantos não têm. Portanto, esses dados não
faltam aleatoriamente. Então, isso é importante. E isso não é
aleatório e talvez
não saibamos ou não em
qual caso os pacotes se enquadram, como se uma pessoa
não tivesse dito nada
sobre o estado civil, se ela é casada ou não, não
poderemos categorizá-la como homem casado
ou homem solteiro. E isso levará
ao problema de
não sermos capazes de categorizar essa pessoa em uma categoria
específica e, portanto, não poderemos
analisar nossos dados corretamente. E se ignorarmos essa reunião de NM AR que não
falta em dados aleatórios
, suponha que analistas ou
cientistas de dados que
ignoram esses dados não faltem aleatoriamente. Ele pode acabar fazendo cálculos
errados, são previsões erradas e isso resultará em uma grande perda
no negócio. Se você o apoiar, se estiver prevendo a receita de sua
organização e ignorando a não perda de dados
aleatórios em seu conjunto de dados, poderá acabar fazendo previsões erradas de cálculo e
quais,
o que pode levar a uma grande perda, não
estão segmentando seus
clientes corretamente. E isso trará
muitos problemas para você. Portanto, você precisa cuidar
desses três tipos
de valores ausentes. E você, ao ampliar, deve saber quais são e
quais tipos de valores faltantes
estão faltando em seu conjunto de dados. E se não estiver faltando
no conjunto de dados aleatório. E como, como você sabe que
não faltam dados aleatórios, valores
ausentes não
faltam aleatoriamente. E que você pode decidir
com base em como, como esse
valor ausente está afetando. Ok. Então, como a pessoa é
casada ou não, isso afeta porque
você não consegue
categorizar corretamente a pessoa. Dessa forma, você pode identificar as implicações e o impacto que esse valor
ausente terá em todos
os dados e resultados que você obterá da
análise dos dados. Portanto, além da média, se não tivermos dados numéricos, você pode colocar outros
valores ausentes usando a média, média de todo o conjunto de dados. Além disso, temos alguns pacotes R que
podemos usar para imputar
os valores ausentes. E essas são as fibras
dos populares pacotes R para
imputar valores ausentes. E o primeiro e muito
popular desses mouses MIC. Esse é o pacote que pode ser usado para imputar os valores
faltantes. Então Emilia é outro pacote, floresta
perdida é outro e perca outro. Um MI é o quinto. Então, esses são os cinco pacotes
Popplet R
para valores ausentes. Ou, com a ajuda
desses pacotes, podemos muito bem calcular, imputar os valores que faltam
em nosso conjunto de dados e
acabaremos com uma ótima
análise de nossos dados. Então, espero que você tenha
entendido o que está imputando dados ausentes em R. Quais são os valores ausentes, os tipos de
valores faltantes e como você pode identificar o tipo correto de valores
faltantes e como
podemos lidar com os valores
faltantes. Ok, então nos vemos
na próxima palestra.
58. Imputando valores em falta nos ANs em conjunto de dados: Bem vindo de volta. Então, na palestra
anterior, abordamos quais são
os valores perdidos e quais são os tipos de valores
faltantes que temos Aprendemos que MCAR, MAR e MAR não
faltam aleatoriamente. Então, aprendemos quais são os valores que
faltam e
quais outros tipos de valores
faltantes podemos ver na vida real quando
fazemos nossa habilidade, nossos projetos de ciência de dados. E também vimos quais são os pacotes disponíveis
em nossa programação com os quais podemos usar para
imputar os valores que faltam. Então, temos cinco, um popular pacote R, camundongos, Aemilia, Ms. Water,
Act, perderam um MI. Ok. Então, essas são as
coisas que abordamos na última palestra. Agora, vamos fazer nossa verdadeira experiência
prática e nosso projeto em que, o
que fazemos, usaremos o
conjunto de dados embutido que está disponível
com nosso pacote, que é o conjunto de dados da íris. E nesse
conjunto de dados Iris, o que fazemos, incluiremos alguns valores
ausentes. Então, intencionalmente, colocamos alguns valores ausentes
no conjunto de dados Iris. Em seguida, tentaremos imputar valores
ausentes com alguns dados. Então, usaremos o
pacote Ms. perished e os camundongos usarão os camundongos e a Sra. Perez para fazer isso, ok? Portanto, impute os
valores que faltam no conjunto de dados. Ok? Então, para isso,
usaremos a floresta central e usaremos
o conjunto de dados Iris, que
está na área de soldagem. Portanto, o primeiro passo
é carregar os dados. Portanto, para carregar o conjunto de dados embutido que está prontamente disponível em R, precisamos simplesmente
chamar esses dados. Portanto, os dados são iguais a eles. E quando colocamos dados para
alguém, e quando executamos isso, vamos fazer com que alguém
preencha o conjunto de dados da íris. Então, veja aqui, esses
são os dados que obtemos
do resumo desses dados irlandeses. Portanto, há muitos outros dados, mas este é apenas um resumo
simples dos dados irlandeses. A próxima coisa é o que
precisamos fazer. Nós o faremos, já que estamos usando
o pacote de mouses aqui. Então, expressões idiomáticas de camundongos faltam
em valores aleatórios, certo? Então, vamos ver
os valores ausentes em nosso conjunto de dados pois esse conjunto de dados Iris
não terá nenhum valor ausente. Então, o que faremos é
colocar valores ausentes,
ver os valores ausentes
em nosso conjunto de dados usando função NA
ampla e essa função de ampliação que podemos obter da função Miss
Forester. Ok, então com isso podemos usar Iris dot miss os valores que
faltam e podemos usar
a função wide n a. E usamos o conjunto de dados que
fornecerá o nome do conjunto de dados aqui, íris e nenhum 0,01. Ok? E quando fizermos
isso, ele verá, o que fará, os valores
que faltam em nosso conjunto de dados. Então, quando tentarmos
executar essa parte, descobriremos por que
estamos recebendo esse erro, porque essa função de
ampliação
não está disponível porque pertence ao luxo de o
pacote perder o polimento. Então,
o que faremos tentar instalar
o MS perished e os mouses. Então, primeiro deixe-me, já que a notificação está chegando aqui como um pacote de
mouses a ser instalado. Então, basta clicar em Instalar e
remover os dados ausentes no RMD, o pacote de mouses
será instalado. Então, ele começará a ser instalado. Agora é possível ver o processo
de instalação que foi iniciado com a
instalação dos mouses. Então,
ele fará o download, levará
alguns segundos. Ok? Portanto, os pacotes foram instalados
com sucesso. Ok, a próxima coisa é que precisamos
instalar outro pacote
chamado Miss Forester. Então, vamos digitar que você perdeu. Ok? Então, basta clicar em Instalar e o
pacote Hmisc será instalado. Instale esse pacote. Além disso, você pode usar o
comando installed packages e dar a eles esse nome de floresta e
ela será instalada. Ok, então agora o armazenamento de água perdida também
foi instalado com sucesso. Vamos tentar executar este. Pedaço acima aqui. Acabei de ensinar mito e religião, trouxe uma função
e um valor anual de 0,01. Ok, então vamos fazer isso. Não sei por que estamos
fazendo isso de novo. Então, agora esses pacotes mal dobrados foram instalados corretamente. Agora podemos simplesmente, e depois vou isso, pensei que a
Srta. trouxe. E então vou publicar o
resumo de Irish Dartmouth. E veremos aqui. Então, ao ver esse
resumo dos dados irlandeses, você não verá
nenhum valor. Você verá que não
há nenhum valor. Mas quando usamos esse amplo NA e impuramos alguns
valores que faltam nos dados da íris. E criaremos uma nova
arte, sem valores. Nadar do IDs. Ids me ensinou. Veja, sim, o que está fazendo,
está adicionando
comprimento sépala, comprimento e largura da sépala,
comprimento da pétala e largura da pétala e largura da
pétala e é 19 e proteínas do RNA da setosa. Portanto, introduzimos
esses muitos 1.819,14. Qualquer valor que use isso trouxe uma função
do pacote Hmisc. A próxima coisa é que precisamos
remover as
variáveis categóricas. Ok? Então, vamos fazer isso e ver aqui. Ok, então
removemos essa espécie. Espécies como
a cor virginica. Todas essas coisas que
removemos, os dados categóricos
foram removidos disso. E a próxima coisa é que continuaremos
com a implementação mouses, o que faremos
na próxima palestra.
59. Imputando valores em falta usando o método de PMM: Então, o que fizemos
na palestra anterior, usamos qualquer função do
pacote myths forest para introduzir 10%,
10% de valores faltantes
em nosso conjunto de dados. Portanto,
ou temos um novo conjunto de dados inicial
e, quando executamos esses 10% de valores ausentes,
serão introduzidos em nossos dados. E para verificar isso, executaremos isso e
obteremos o resumo aqui. E aqui, você pode ver que os valores de NA foram
introduzidos em nossos dados. Ok? A próxima coisa que
estou fazendo remover as variáveis
categóricas para que possamos nos concentrar nos valores
contínuos. Ok? Como são os
poços contínuos? Veja, se você ver aqui, esses são o valor
contínuo do fio e as espécies como assentamentos Qual é a cor da Virgínia? Eles não são
dados categóricos, então vamos removê-los. Então, o que removemos isso, removemos o select, usamos o irlandês, o conjunto de dados e o que
estamos conectando, estamos criando o subconjunto
e entramos no olho, eles começam a perder o conjunto de dados, aquele conjunto de dados com valores ausentes e estamos procurando selecionados, você chama duas espécies menos c. Isso significa que
removerá a espécie, que é um
dado categórico em nosso conjunto de dados. E então obteremos o resumo. Então, quando executamos isso, obtemos esse conjunto de dados em que as espécies serão removidas
do nosso conjunto de dados para que
possamos nos concentrar e
focar nos valores contínuos. Ok, a próxima coisa, o que vamos fazer, vamos instalar
os suportes do mouse. E por que precisamos
desses pacotes de mouses, porque esses
pacotes de camundongos têm uma função chamada padrão de pontos
Md. Portanto, a
função padrão de pontos Md, o que
ela faz, ela retorna uma
forma tabular de valor ausente apresentando cada
variável em um conjunto de dados. Ok, então, para isso, o que
fazemos, instalaremos o install.packages que usaremos
para instalar o pacote. E então usaremos os mouses
da biblioteca. E então usamos
o padrão de pontos Md para os valores ausentes
presentes em cada parte, cada variável verá quais são os
valores ausentes presentes. Então, primeiro, vamos instalar ou já
instalamos. Além disso, se quiser, você pode executar isso novamente. Se não tivermos instalado. E depois disso,
depois que o pacote
não for instalado, você pode acessar esse trecho
de código e executar esse padrão de pontos Md e
colocar seu conjunto de dados. Portanto, esse é o conjunto
de dados Iris que tem os valores
ausentes. Ok, então vamos fazer isso. E quando executamos isso, veja aqui o que obtemos. Obtemos aqui os valores que
faltam para ele. Cada um aqui, mas
como a largura da sépala, comprimento do ponto
sépalo, o comprimento da
pétala e a largura da pétala. Então, vamos entender essa tabela. É isso que estamos obtendo nesta forma tabular.
Vamos entender. Portanto, existem 98 ou 96 objetos e aqui estão lá 96
observações, que não têm
valores faltantes nos valores faltantes. E então, tudo bem, então esses seis. 96. Este significa que não há valores faltantes e
zero significa falta. Bem, então 96 variáveis que não têm
valores faltantes e largura de pontos sépalos. E aqui você prossegue. Seis executáveis estão com valor
ausente do que uma variável também
está sem ReLU. Então, com isso, podemos entender
quantos valores faltam. Zero significa que essas variáveis estão com valores ausentes, ok? E isso está parecendo muito ruim. E se você quiser, você também pode ver isso. Bastante sobreposto. Então veja aqui. Ok, então a próxima coisa que
faremos, faremos fila, criaremos a representação
visual do que estamos vendo
nessa forma tabular. Então, para isso, o que
faremos, instalaremos o pacote. Ok? E depois disso,
usaremos a biblioteca BIM. E o que faremos,
vamos usar isso. Traçaremos o que quer que estejamos obtendo através do
pacote de camundongos, padrão de pontos vazios. Vamos tentar planejar isso. Então, usaremos essa função
e a função EDR, e usaremos esse
conjunto de dados, iris Dartmouth. E então usaremos cores, azul
marinho, amarelo,
o que você quiser. Você pode colocar, suponha que eu coloque vermelho e amarelo e números para classificar o valor e
depois o nome do rótulo. Eu darei quaisquer nomes que existam em qualquer
partida perdida. E por que o laboratório realmente não
tem um padrão de dados. Ok, então vamos fazer isso e ver o que visualizamos
e estamos obtendo. Agora, estamos recebendo
essa visualização. Então, veja aqui com
essas visualizações, o que entendemos é que
67% dos valores, 67% dos valores no
deserto sem nenhum valor ausente, 67% dos dados não têm
nenhum valor ausente. Há dez por cento dos
13% que têm valores ausentes comprimento e
na largura da pétala e na parte
externa da pétala. Ok? E também podemos ver esse
histograma. Histograma. Ok, deixe-me ver um histograma aqui, dados
ausentes e Leah, as variáveis
pétala, largura da
pétala estão tendo cerca de uma porcentagem de pré-impressão acima dos dados
ausentes, onde o comprimento
é dez por cento, comprimento da
sépala está
em torno de 9% ou algo assim. A largura da sépala é ter 8% ou
algo parecido de dados ausentes. E aqui você também pode
entender, ok? Dessa forma, podemos ver a representação gráfica
dos valores faltantes. Agora, a próxima coisa é
a parada crítica. O que estamos fazendo aqui. Estamos dentro,
vamos imputar alguns valores nos valores que
faltam. Então, para isso, usaremos a função
mouses e
usaremos o
conjunto de dados ID start missing com valores ausentes. E m phi m é igual a cinco. O que ele fará
é reportar para a imagem igual
a
cinco, se você fornecer,
ele criará o
conjunto de dados do tipo de arquivo com valores ausentes. Portanto, ele criará cinco conjuntos de dados imputados e um endereço
máximo e será 50. E o método em
que vamos usar o PMM. O que é esse PMF? Pmm é a
correspondência média preditiva para valores numéricos. Vamos usar
o método PMM, que é a correspondência
média preditiva, ok? E então vamos ver isso por 500. E então veremos o
resumo da entrada nos dados. Então, vamos executar esse
pedaço de código inútil. E aqui estamos
recebendo algumas edições. Ok? Por que não está encontrando
a função mouse? Em seguida, precisamos ganhar. Ok, então veja aqui agora, estamos inserindo os dados com. Valores ausentes. Portanto, os valores faltantes serão imputados a alguns dados e
aos processos em andamento. Você pode ver aqui. Então, como são 50,
eu me visto na areia, estamos vendendo por 500. Portanto, isso pode levar algum tempo. Agora. Está feito. Certo? Então, esses são o número de
imputação múltipla cinco. Nosso método de imputação é PMM que usamos,
prevemos e matriculamos. Você pode ver o
comprimento da sépala, a largura da sépala 11. Essa é a
matriz de confusão, ok? E qual a largura da pétala? Então, essa é a
matriz de confusão que estamos obtendo. Agora, o que fazemos, podemos verificar os valores imputados
usando dados imputados, e podemos usar a largura da
sépala para isso. Então, vamos duplicar isso. Os dados importados não foram encontrados. Por que estamos tentando fazer
isso de novo. Ok, então eu dei
o nome da variável como
o nome do conjunto de dados como
o período de tempo. E se eu executar isso, veja aqui, esses são os valores que
imputamos para
a largura da sépala. Ok? Então, da mesma forma, podemos vir aqui
e Controlar Alt. Eu realmente posso adicionar
jarda e eles servirão,
vou colocar um pouco de comprimento. E se eu executar isso, obteremos os valores imputados para o
comprimento do ponto sépalo. Ok, agora podemos ver quais são os valores que
inserimos em nosso conjunto de dados, inseridos em nosso conjunto de dados. Agora podemos obter os dados imputados
completos. Como temos os cinco dados inseridos na
configuração, podemos obter o segundo objeto
usando a vírgula dois imputada. Então isso nos dará o, ok, ele meio que foi sublinhado, imputado hóquei e dirigiu isso. Então, podemos usar o resumo. Dados completos. Dorsi. Esta é a petição completa de envio de
dados, ok, dessa forma, podemos
imputar os valores que faltam. Então, suponha que você precise gritar
um projeto
mundial onde existem alguns valores
ausentes. Portanto, você pode usar este programa
ou esse mecanismo para imputar valores ausentes usando,
como aqui, usamos o PMM. Você também pode usar o outro
método. E também existem alguns outros métodos
que você pode usar,
como usamos a correspondência de
média preditiva do PMM para valores
numéricos. Se você tiver
variáveis binárias com dois níveis, poderá usar a regressão
logística. E para isso, a
função é log reg. E se tivermos a regressão bayesiana de
Bali Tom, você pode usar uma quarta variável de
fator com dois ou mais níveis. Você pode usar o método
polimérico. E se você tiver
modelos estranhos, você pode usar os modelos 4D
proporcionais para nível de
pedido dois ou mais. Então, esses são os métodos dr. Esses são os métodos
e pacotes que você pode usar para inserir os dados. Então, tudo isso tem
a ver com esse projeto. E neste projeto,
aprendemos como imputar dados. Então, da mesma forma, também
podemos implementar
seu próprio projeto. E você pode, você pode pegar esse conjunto de dados ou usar
qualquer outro dado. Digamos que tente imputar os valores
faltantes e
tente colocar os
valores faltantes dentro dos dados. Primeiro, o que fizemos aqui, inserimos alguns dos nossos dados com variáveis
sem valores, certo? E então nós, o que fizemos, usamos o PMM para imputar esses valores
com alguns dados, alguns dados relevantes para que
possamos obter a saída correta. Então, espero que você aprenda
como imputar dados na programação para seus projetos de aprendizado de máquina e ciência de
dados. Então, espero que você tenha aprendido alguma coisa.
60. Analisando conjuntos de dados usando funções de R: Nesta palestra,
analisaremos o conjunto de dados. Então, primeiro de tudo, se você planeja trabalhar como cientista de dados ou engenheiro de
aprendizado de máquina, ou mesmo analista de dados de visualização
de dados. Você tem que ter um não. O que é análise de dados e como
você pode analisá-los. Portanto, a parte mais importante de qualquer dado de
projeto de ciência de dados é
como você os analisa. Portanto, a análise de dados é a parte
mais importante de qualquer projeto de
aprendizado de máquina de ciência de dados ou mesmo projeto de análise de dados. Então,
o que vou fazer usar conjunto de dados
embutido que
está prontamente disponível com o pacote ou download. Ele vem com
o pacote R, ok? Portanto, você não precisa
baixá-lo separadamente. Será que virá
com o coração, ok? Portanto, é um
conjunto de dados embutido com o r. Então, vamos usar essa mão. Vou te contar como podemos usar as funções embutidas
para analisar os dados obter informações
sobre os dados. Ok? Então, o que é conjunto de dados? O conjunto de dados é basicamente
uma coleta de dados. E temos visto que os
conjuntos de dados mais comuns são pagáveis. Usamos em nossos bancos de dados. Bancos de dados: o que eles forneceram. O conjunto de dados mais comum
que vimos é o. Então, em nossos bancos de dados,
como minha sequência, nosso MongoDB ou qualquer banco de dados, se você perceber que eles são basicamente dados suficientes em cálice, certo? Se você perceber que o MongoDB é
uma coleção de dados em termos de par chave e valor. Se você ver meu
banco de dados sequencial ou RDBMS, sistema de
gerenciamento de banco de dados
relacional, eles manterão os dados na forma
de linhas e colunas. E as linhas e colunas
manterão os dados, certo? Então, a coleta
de dados mais comum é a tabela, ok? E também mantemos os dados no formato
XML, também no formato JSON. Mas a
coisa mais comum é a mesa, ok? Então você pode, tudo o que
você viu na tabela do
Walmart que basicamente mantém os
dados com ela, certo? Então, vamos
usar carros vazios. Carros vazios são um conjunto de dados embutido em R. E vamos
analisar este. Então, carros vazios são o conjunto de dados de carros de
tendência automotivo embutido em R e
recuperado da década de 1970 para
o Motor
Trend US makin, ok? Então, esses dados são recuperados
dessa combinação do Ford Motor
Trend US de 1970, ok? Então, a primeira coisa é quando
você supõe que temos esse conjunto de dados embutido que são carros
vazios e
queremos carregar esses dados. Então,
o que podemos fazer simplesmente escrever
o nome do conjunto de dados. E quando executarmos isso, obteremos o conjunto de dados. Portanto, esse é o
conjunto de dados que temos. Ok? E quando você o mantém fora, há mais colunas, certo? Então, essas são as linhas. E essas são as
linhas diferentes. Bons nomes, ok? E para cada cartão existem
várias variáveis, como MPG, deslocamento do
cilindro
que esperamos. Ok? Então, todos esses dados que temos
com o carro vazio, certo? Portanto, tem 11
colunas e 32 estradas. Isso significa que ele contém os detalhes de 32 carros
com 11 colunas. 11 colunas são 11
variáveis diferentes para cada cartão. Ok? Portanto, basta
digitar o nome do conjunto de dados e você obterá as informações
mais antigas, embora defina todas as linhas
e colunas do conjunto de dados. Ok? A próxima coisa é, suponha
que tenhamos isso dentro. Queremos obter as informações, mais informações
sobre o conjunto de dados. Então, como esse conjunto de dados está em um ângulo de onde
obtemos esse conjunto de dados. Assim, podemos simplesmente colocar o ponto de interrogação na frente
do nome do conjunto de dados. E quando executamos isso, obtemos as informações
sobre o conjunto de dados. E essas
informações do conjunto de dados estão chegando aqui. Então, quando terminarmos. Esse aqui. interrogação, ponto de
interrogação: carros vazios
obterão esse conjunto de dados de carros
vazios de informações. E isso significa conjunto de dados de testes rodoviários do Motor
Trend Car. E isso vem
da documentação do R. Ok. E por isso
está fornecendo a descrição completa. E o total usa um Brita, como esses dados
foram formatados. Ok, então este é um
protesto de carros de tendência
automobilística e os dados foram direcionados da década de 1970
para o uso da Motor Trend. Makin compreende
conceitos de combustível e aspectos de
antena design e
desempenho de automóveis para 32 automóveis, 32 carros nos modelos 1973-1974. Ok. E então está fornecendo o formato de mpg
significa milhas por galão. Cilindro significa número de cilindros de cilindros,
HP, potência, tração peso da relação
axial de 141
por quatro milhas em tempo parcial. Reavalie o motor como VSEPR em geral, motor
reto. Então, como antes, economizamos e, se
estiver com zero, é recebido e
um quarto consecutivo, então sou para transmissão
automática se for um imperador automático manual
ou automático e manual. E um bom número de anos e um número reduzido
de testes Cadbury. Ok, então as outras informações
que estamos obtendo para essa fonte de dados, ok. Agora, volte para
a parte de análise. Então, basta colocar um ponto de interrogação na frente do nome do conjunto de dados e obterá todas as informações
sobre o conjunto de dados de entrada. Agora, queremos obter as células de diamante e
o nome da variável. Suponha que temos os
diamantes e a camada, as linhas e as colunas, e esses
são o nome da variável. Então, suponha como eu quero os nomes de variáveis de
um loop. Então, como posso conseguir isso? Então você pode usar. Então, a primeira coisa que
precisamos fazer é atribuir esse conjunto de dados
a alguma variável. E para isso, o que estou fazendo, estou criando um
conjunto de dados variável que sublinha carros e estou atribuindo carros vazios. Portanto, carros vazios, carros do
conjunto de dados
representarão os carros vazios. Portanto, todos os valores de nossos carros
vazios estarão aqui
no conjunto de dados de carros e isso
podemos usar em nosso programa posteriormente. Portanto, se eu usar dim e
passar a variável do conjunto de dados, esse conjunto de dados
sublinha os carros. Vou fazer a
soma do diamante no conjunto de dados. Portanto, se eu usar nomes e parte
do conjunto de dados do nome do conjunto de dados, obterei os nomes das variáveis no conjunto de dados ou
deixarei executar esse trecho. Veja aqui. Agora está fornecendo os
diamantes, 32 funções e 11 colunas que
podemos verificar a partir daqui, como 32 linhas e n colunas. Ok? Então, esses são os diamantes
e estão acima do conjunto de dados. E então, quando usamos nomes, obtemos os nomes das variáveis. Então você vê aqui, estamos recebendo os nomes das
variáveis. O cilindro Mpg é arrastado por SP
com todas essas coisas. Portanto, 32 por 11, 32 linhas e 11 colunas são as dimensões do conjunto e esse é o nome da
variável. A próxima coisa é que eu quero extrair o nome errado
da primeira coluna. Então, eu quero encontrar os
nomes das linhas das colunas. Eu posso usar nomes de linhas. E eu posso passar a variável do
conjunto de dados do conjunto de dados. Então, o nome e eu passarei o
conjunto de dados e os cartões de acompanhantes. Isso me trará o nome de todos
os guardas primeiro, nomes das
colunas dizem C ou D, ou Delta T. Quantos? Essas são as 32 variáveis do
conjunto de dados. Desculpe, esses são os
32, 32 carros que foram usados
no conjunto de dados que estão
disponíveis nesse conjunto de dados. Então, a coluna de descarga, ok? E então, se usarmos o escuro, se eu quiser obter a
única informação valiosa, como eu quero obter as milhas
por galão do conjunto de dados. Posso usar esse nome de
conjunto de dados de
cifrão e depois o cifrão MPG. Vou obter os valores da
variável mpg. Ok? Dessa forma, podemos obter os valores de uma variável
específica. Então, no caso aqui, valor de mpg, eu
posso, estou obtendo os
valores de mpg se eu usar EM aqui e você obtém 0,1 porque isso é
automático e manual. Então, vamos ver aqui,
1000, assim. Ok, então zero para
automático, um para manual. Dessa forma, podemos usar nomes de
variáveis aqui
se eu usar MPG e a próxima coisa é se
eu quiser classificar isso, esse MPG está vindo
assim, ok? Se eu quiser
classificá-los em ordem, posso usar a
função de classificação nisso. E eu posso classificar o conjunto de dados e
o scorecard dollar mpg. E classificará os valores
dessa variável mpg c, um artista chegando agora, forma
ordenada, em ordem crescente. Ok? Então é assim
que podemos classificá-los. Eu perco um valioso. O próximo passo é que agora eu
quero analisar o conjunto de dados. Assim, posso usar alguém
e dar o nome da variável para o conjunto de dados e obter
o resumo dos dados. Veja aqui aquele lindo
resumo dos dados como milhas por galão.
Qual é a média? Quais são os valores do primeiro
quartil? Qual é a mediana? Qual é a média? O que
é o terceiro quartil? Qual é o
valor máximo para cada variável? Estamos obtendo esses
seis valores, certo? Mediana primeiro, como min, primeiro quartil, média mediana e depois média mínima,
mediana, valores máximos. E no primeiro quartil
e no terceiro quartil de cada uma dessas variáveis, estamos obtendo essas informações. Então, isso fornecerá
esse resumo dos dados. E essas são as coisas que
aprenderemos nas próximas palestras. Como obter média, o que é mediana, o que é primeiro quartil e
terceiro quartil? Então, é assim que podemos obter
informações e analisar o conjunto de dados em R.
Podemos usar o nome do nosso conjunto de dados
para obter o conjunto de dados. Podemos usar o cifrão para obter as informações sobre o
conjunto de dados e nós usaremos o conjunto de dados. Podemos usar a função lm para obter a dimensão
do conjunto de dados. Podemos usar nomes, funções para obter o
nome das variáveis. Podemos usar nomes de linha
para obter uma linha, primeira coluna, cada linha
na primeira coluna, ok? Valores de cada linha
na primeira coluna, então podemos usar esse
cifrão para obter os valores das variáveis
para o conjunto de dados. E então podemos usar a função de classificação para classificar
os valores das variáveis
e, em seguida, podemos usar o resumo para obter o resumo dos dados. Ok, então é assim que podemos
analisar esse conjunto de dados em R.
61. Manipulação de dados usando o pacote do dplyr: Olá e bem vindo de volta. Nesta palestra,
aprenderemos sobre manipulação de
dados em R. Então, aprenderemos
sobre manipulação de dados. E para isso vamos
usar o pacote ggplot. Portanto, o pacote duplicado é muito importante quando você deseja
fazer a manipulação de dados em. E eu estou usando esse arquivo RMD. Eu já escrevi
o código para que
possamos seguir em frente e aprender sobre as coisas básicas do jogador e
fazer algumas manipulações de dados. A primeira coisa, se você
quiser usar o player, você precisa instalar
o pacote certo? Em nosso caso, sempre que você
quiser usar o embutido, queremos usar algumas
funcionalidades. Precisamos instalar o
pacote em
nosso R e, em seguida,
podemos prosseguir. Se você quiser trabalhar
com o plano, você tem, você
precisa instalá-lo. Você pode instalar a camada profunda em si,
uma jogadora
feminina, ou se quiser instalar tudo
o que vem
com o verso organizado, você pode usar o tidyverse. Portanto, se você instalar um
verso organizado, por padrão, entrará
uma camada
profunda em que o plano estará
dentro desse verso organizado. E se você não quiser instalar tudo dentro
desses Tidyverse, você pode usar
o d plus sozinho. Então você pode executar isso
ou isso. Qualquer um desses. Você pode correr. Então você pode continuar com isso. Você pode usar o verso arrumado ou pode usar
a camada profunda, ok? Então, você se baseia em
suas necessidades. Você pode continuar com isso. Eu vou sugerir que você instalou
o tidyverse. Então, eu instalei
esses dois pacotes, então não vou executar esse subpedaço de código, esse trecho de código, não
vou executá-lo porque já os
instalei. Então, o que vou fazer, vou te mostrar a próxima coisa. Ok, então deixe-me esclarecer isso. Então, a primeira coisa que podemos fazer com a manipulação de
dados na arte, usando isso, o jogador é que
podemos usar o filtro
que podemos usar para selecionar. Podemos usar agrupar por todas
as coisas que podemos fazer usando o gráfico em R. Ok, então o que eu vou fazer, vou usar, também
vou mostrar como
podemos usar o filtro em R usando as bibliotecas de desfoque. Então, para isso, o que
vou usar, vou usar
o conjunto de dados
embutido chamado Star Wars. Star Wars é um
conjunto de dados embutido disponível na arte. Então, o que vou usar, vou usar Star Wars e depois
vou usar esse operador de tubulação. E o que vou fazer usar a
função de filtro e é usar a
função de filtro e
dar às espécies de filtro chamadas de duas tríades. Então, o que ela
fará é buscar todas as espécies
iguais para desenhá-la. Então, ele irá para o conjunto de dados de
Star Wars. Ele enfrentará o conjunto de dados de
Star Wars. E por dentro, ele
aplicará o filtro e falhará. Ele filtrará o conjunto de dados
com base nessa espécie. Ok? Então é assim que vai funcionar. Então, a espécie arrasta, ela
aplicará o filtro. Então, deixe-me, acabei de executar esse código. Então, basta
clicar aqui e ver. Agora estamos recebendo a recarga. Ok. Então veja seu nome, cabelo comprido e pantanoso,
cor da pele, cor dos olhos, conserte todas as
coisas que estamos recebendo. Ok. Então, isso estamos recebendo
para a espécie. Experimente. Ok. Veja aqui, se você ver a coluna Espécies, está
tudo seco. Só isso, certo? Portanto, ele está mostrando
dados apenas para secos porque aplicamos
o filtro seco aqui. Portanto, ele nos mostrará terceiros dados apenas para espécies
. Dessa forma,
podemos aplicar o filtro, podemos usar o nome do
conjunto de dados Via e, em seguida, o operador de tubo e , seguida, a função de filtro
e sua espécie. O nome da coluna é
específico da espécie, igual a desenhá-la. Assim será, então todas as espécies, os dados excluídos para nós, ok. Então é assim que o filtro
funciona na planta. Ok, a próxima coisa é que
vamos usar o Select. Então, selecione como isso funcionará. Novamente, a mesma coisa. Vamos usar. Essa estrela era um
conjunto de dados e, em seguida, um operador de canal e então usaremos
Selecionar, selecionar e, em seguida, precisamos manter o nome que termina com cor, para que ela busque todos os
nomes que terminam com cor. Então, deixe-me fazer isso. Veja aqui. Agora o que está fazendo. Ele está buscando todas as colunas. Todas as colunas
terminam com cor, cor
do cabelo,
cor da pele e cor dos olhos. Portanto, está mostrando
apenas as colunas que terminam
com cores, certo? Então, Star Wars seleciona
o nome e termina com a cor. Então, ele mostrará as colunas de Wanli George
que terminam em cores. Então, sublinhe, sublinhe a classe. Portanto, está mostrando
apenas esses dados. Se você olhar para a coisa
anterior. Aqui. Existem muitas colunas,
como altura, massa. E então temos
ER, sexo, gênero. Mas não está
nos mostrando todas essas colunas, mas está mostrando apenas
as colunas que terminam com Carlos, que estão terminando com cores. Ok? Portanto, essa é a maneira
de usar o select. Dentro. A próxima coisa é que
vamos aprender sobre mutação. Então, o que o mutate fará? Ele criará, se
você quiser adicionar algumas novas variáveis ou
valores variáveis no conjunto de dados, você pode usar a
função mutate, ok? Então mude para adicionar, para adicionar algo novo, ok? Adicione algo novo,
uma nova variável. Se você quiser adicionar, você pode usar a função use the mutate. Então, como podemos fazer isso, podemos simplesmente dar
o Star Wars,
depois o operador de tubo e, em
seguida, a função de mutação, e então precisamos dar um nome. E aqui você pode definir a nova variável ou o novo valor que
você deseja fornecer. Então, aqui, o que nos é dado, recebemos nome e nome. Aqui estamos introduzindo
uma nova variável IMC e v aqui estamos dando a eles como o
IMC deve ser calculado. Então, se você não quiser dar,
você pode codificar o valor. Mas aqui o que estamos fazendo, estamos usando a massa dividida pela altura por 100 de potência para, ok? Então essa é a fórmula
que estamos usando para calcular o índice de massa
corporal do IMC, ok? Então, a altura e o peso que estamos usando para
calcular o IMC. E então estamos passando esse
IMC para selecionar a função. Portanto, estamos usando o
operador de tubulação duas vezes aqui. Então, o que
ele fará, primeiro calculará
esse IMC aqui, e então esse IMC será, esse IMC será passado para essa
função de seleção aqui. Veja que seu IMC está
vindo de lá. Então, o que quer que seja coletado aqui, chegará a esse ponto. Então esse IMC
virá aqui, certo? Então é isso que os operadores
e operadores de
tubulação fazem, certo? Ele passará o, passará a saída desta para a próxima função,
desativará o modo mudo. Ele irá para a mutação selecionada. Mutar,
mudaremos, criaremos o IMC, criaremos o IMC e depois passaremos para
a função de seleção. Ok? Então, se eu der uma representação
pictórica, o que, como ela funcionará, suporte de
TI, usaremos mutate. A função Mutate
fornecerá alguma saída. E essa
saída da função de mutação irá para o Select. Ok? Então, suponha que aqui temos a massa e a altura.
Massa e altura. massa e a altura
irão para a mutação
e, em seguida, a saída de mutação
irá para o, vá para o Select. Então é assim que o
operador de tubulação funciona, certo? Ele passará a saída
disso para essa função. Ok? Então é assim que o operador
de tubulação rockstar. Aqui estamos criando a
nova variável IMC,
novo valor IMC , e
estamos passando para
a função de seleção
para selecionar a função o que estamos fazendo
chamado massa e IMC. Então, ele selecionará a máscara
e classificará o IMC. Então, deixe-me executar esse código. Então clique aqui e veja aqui
nome, altura e IMC. Portanto, com base na massa e altura, peso e altura, ele nos
mostrará o IMC em breve. Essa coluna IMC, IMC não
estava presente nos dados
anteriores, certo? Deixe-me te mostrar. Aqui. Não temos o IMC, reabilitação de
IMC criada com o IMC que criamos com
essa função mutante, certo? Então, com a mutação,
criamos IMC e adicionamos
ao nosso conjunto de dados. Ok, dessa forma, você pode criar uma nova variável ou um novo valor e adicioná-lo
ao seu conjunto de dados com a
função mutate no jogo. Em seguida, descreva a fonte de massa. Somos o que podemos fazer. Podemos organizar a missa. Então, vamos fazer isso e ver. Veja aqui agora que estamos
obtendo a altura, massa e cor do cabelo, cor da pele, cor dos olhos, todos os dados, todas as
colunas que estamos obtendo, certo? E está dando o valor da
massa, certo? Aqui. É. É como uma ordem decrescente. Está nos dando a massa, altura, a cor do cabelo
e todas essas coisas. Ok. Se você quiser
alterá-lo para, você pode alterá-lo para
outra coisa e ver como está acontecendo. Próximo. Uma é que também podemos usar
o grupo aqui. Então, o que o
grupo por, o grupo BY fará? Ele será agrupado por espécie. Então, o que estamos fazendo é um conjunto de dados muito enxuto da Starbucks e esse é o operador de tubulação. E então agrupe de acordo com
o que o grupo por espécie
postula o que ele fará. Ele agrupará qualquer uma das espécies e então nos
dará o testamento. Então, como resumo em um
único conjunto de dados, ok? Ele fornecerá o que a
função de resumo fará. Ele fornecerá um
resumo único do conjunto de dados. Então, aqui estamos usando
n é igual a n, massa igual à média, massa
média ascendente. E um na.rm significa
que qualquer valor não
disponível removerá o que
termina em nosso umbilical. Veja se você olhar aqui, alguns dos valores
não estão disponíveis, certo? Portanto, ele removerá os
valores que não estão nivelados. Ok, então eu acabei não. O que eu vou fazer. Isso removerá as linhas de dados que não têm
nenhum valor. Ok? Então, o que
ele fará, criará a
máscara média da massa. Ok? Assim será, já que estamos
agrupando por espécie. Portanto, para cada SPC, ele mostrará a massa
média, a massa média. E para isso, estamos usando
a função média para
obter a média
desta ou a média
da massa total de uma
determinada espécie. E estamos agrupando
por espécie. Ok? Em seguida, o que estamos fazendo é usar o filtro. Estamos usando um filtro aqui. E maior que um, massa, maior que 50, estamos
aplicando o filtro aqui. Qual filtro? Portanto,
seja maior que um e deve ser maior que 50. Então esse é o nosso filtro, esse filtro que estamos aplicando. Ok? Então, quais outras
etapas estamos fazendo? Primeiro? Estamos agrupando
por espécie e, em seguida,
obtemos um resumo único. E estamos obtendo a média
da massa para essa espécie
em particular. E então estamos aplicando um filtro em que n é
maior que um e a massa é igual a. Então, vamos executar isso e ver
qual saída estamos obtendo. Então, vamos executar isso e
ver a saída aqui. Veja a saída C. Agora não
estamos recebendo o nome, estamos recebendo a espécie
porque temos um grupo. Nós usamos, usamos
o grupo por espécie, usamos grupo por espécie. E calculamos a média da massa
da espécie. É por isso que
está mostrando o n. maior que um. Para
ninguém, não está aparecendo, é costura e valores
que são mais de um. Ok. E a outra espécie, chiclete
seco, humano. Você pode possuir MATLAB, Tweak, Rookie Jab Rack. Então,
todas as espécies são oscilantes e estão
aparecendo para os valores 1250, porque o que nós demos, o que eu dei a
resposta, é maior que um. É por isso que está nos mostrando valores
de n maiores
que 123630 bytes. Agora mostrando os valores
menores que um, ok? E então a massa está se mostrando
maior do que o normal. Então, qual filtro aplicamos um filtro que aplicamos quando nos
masturbamos com mais de 50. Então, está nos mostrando uma
máscara maior que a puberdade. Essas massas significam
aglomerar essas espécies. Então, para isso em nossa tela,
talvez haja muitas coisas, certo? Mas pegamos a
média ou média de todas essas peças
e subimos a média das secas. Ok, então
deixe-me mostrar o conjunto de dados. Veja aqui como se todas essas espécies pertencessem à seca e
têm massa, certo? Eles têm a matemática, certo? E eles nos capacitaram
a fazer o que fizemos. Há anos acabamos com esse
braço para remover essas fileiras. E todos esses nomes
pertencem à espécie. Desenhe, desenhe e eles terão massa. Então, o que fizemos foi
pegar toda a massa, somar toda a massa dividida
pelo número de espécies, numerar os nomes no seco. Com essa precisão,
calculamos a média usando a função
média aqui. Deixe-me mostrar
aqui, certo, quero dizer, por
isso que em uma estrela é
tão média mosfet cada grupo de espécies. Portanto, para a mensagem principal humana,
T2 para secador significa massas. Isso, ok, então, dessa
forma, podemos usar o gráfico para manipulação de dados. Ok, então quais são as
coisas que aprendemos? Aprendemos que precisamos
instalar nosso pacote tidy verse para usar a duplicata. E usamos como
filtrar e aplicar
filtros em nosso conjunto de dados. E como podemos usar
select em nosso conjunto de dados. E então, como podemos
mutar e adicionar, alterar ou adicionar uma nova
variável em nosso conjunto de dados. E então vimos como
podemos organizar nosso conjunto de dados. Por fim,
vimos GroupBy e resumimos junto com o
filtro em nosso último exemplo. Então, espero que você
saiba quais são as coisas que podemos fazer
com a camada profunda e como fazemos a
manipulação de dados na arte.
62. Introdução a painéis interativos brilhantes em R: Olá e bem vindo de volta. Nesta palestra,
aprenderemos
sobre como assinar com o RStudio. Então, o que é esse sinal? Do nosso total? Então, essa minúscula é uma forma de se
comunicar com os dados. É basicamente uma
solução de painel ou uma ferramenta de
visualização de visualização para nós, ok. Então, se você quiser
visualizar dados em R, você pode usar esse pequeno RStudio. Isso é interagir, analisar e se comunicar
com o login. Podemos criar
painéis interativos nos quais não apenas exibimos os dados no formato gráfico
ou em um painel, mas também podemos interagir com os dados finos e
eles estão no painel. Então, essa é a beleza
do login do RStudio, que não apenas
criará um painel
baseado nos conjuntos de dados, mas também interagirá
no próprio painel. Portanto, diz adotar uma frase abordagem
interativa para contar sua história de dados com a assinatura, permitir que os usuários interajam
com
seus dados e suas análises e façam
tudo com os nossos. Portanto, eles não apenas
verão os dados em formato gráfico,
nos gráficos e no painel, mas também poderão interagir
com os dados e poderão realmente ver o impacto de nossa
análise sobre os dados. Então, deixe-me rolar para baixo para ver o que dizem
as outras opções. So are in arsine é um pacote R que
facilita a criação de
aplicativos web interativos diretamente do nosso. Portanto, não vamos
usar nenhuma outra coisa, mas usaremos a
programação R em si. E podemos criar painéis interativos baseados em aplicativos
web. Você pode hospedar
aplicativos independentes na web ou incorporá-los ao R. Os
documentos do Markdown são criados como esportes. Então veja, isso deve ser flexibilidade. É verdade que
podemos, não só podemos criar páginas da web e aplicativos
independentes, mas também podemos
incorporá-los ao arquivo RMarkdown. Os documentos estão em um painel, então essa é a beleza
de assinar no R. Você também pode estender seus aplicativos de
assinatura com equipes de CSS, HTML, widgets e
JavaScript, CEO da Exxon. Então essa é a
beleza que você pode usar. Css, equipes, HTML, widgets e excelência, para que
seja mais interativo. Assim, uma vez criado, podemos trabalhar de
várias maneiras com o painel
criado com a assinatura. Então, o que outras coisas
a assinatura pode fazer? destinatário combina o poder
computacional do R com a interatividade
da onda moderna. Então, todos nós sabemos que o R tem pacotes dos quais podemos
gostar para trabalhar com os dados. Podemos obter os insights. Podemos obter informações
dos dados diretamente por meio de nossos
pacotes e adicionar programação. E não apenas esses insights, mas também tudo o que obtemos. Calcule a partir dos dados. Podemos colocá-los
na onda moderna e interagir com os painéis,
dados ou gráficos. Então, isso nos dará mais
informações a partir dos dados, certo? Então, veja um
exemplo simples de atribuição de aplicativo. Você pode ver você. Ok, então deixe-me ver o
índice do Google, Índice de tendências. Este é um aplicativo simples e brilhante que eles criaram. E aqui você pode ver um gráfico muito bonito está
à direita que podemos ver. Agora, com o destinatário, podemos ouvir que você pode selecionar o índice, a
tendência, o índice de viagem. Ou, se você quiser mudar, pode alterá-lo para publicidade, marketing
e SEO. O gráfico está mudando. Eu posso selecionar
algo aqui. E neste gráfico
vamos apenas construir com base
no Índice de Tendências de Desemprego. Eu quero ver, See. Agora, isso mostra a tendência do
desemprego. Eu posso selecionar pequenas
empresas e isso
resolverá a
tendência de pequenas empresas para esses dados, aluguel, essa nova tendência. Ok, então, é assim
que podemos adicionar o seletor. Podemos criar um
painel interativo usando a assinatura. Ok? E veja, sim, isso é criado puramente
com nossos
programas, nosso código. Agora, também criaremos um desses aplicativos Shiny
na próxima palestra. E veja aqui, esses são
os dados
do aplicativo que
são o programa escrito em R4, esse tipo de painel
interativo desesperado. Então, aqui eles estão usando
pacote de sinalização, leitor de camada
profunda,
equipes si110 e uma camada profunda. E essa é a descrição. Se você quiser, você
pode passar por isso. Este é o site oficial
do signing.rstudio.com. Se você quiser saber
mais sobre a placa, você pode ir e ver a
galeria e obter mais informações
sobre a assinatura. Ok, Arsine, você pode ir e ver a regressão linear do
processo de modelagem de detetives. E então nosso pequeno pacote para
aprender a modelagem da resposta imune. Existem vários
projetos que você pode ler sozinho. Vou etiquetar na
sinalização do site. Ok. Então, na próxima palestra, também
criaremos
um aplicativo Shiny. E veremos como
podemos interagir com o painel, ok.
63. ShinyApp criando painel interativo com brilho: Olá e bem vindo de volta. Então, nesta palestra,
vamos
criar nosso próprio aplicativo Shiny, onde
criaremos um aplicativo Shiny. Então, o que
vamos criar, e depois veremos
como criar. Ok? Então veja aqui que este
é o nosso aplicativo Shiny. E aqui vamos fazer isso. Vamos criar
uma diáspora baseada
no videogame Mario Kart Eight e com base nos personagens de
videogame que
vamos analisar. Vamos ser designers. Vamos
criar um painel onde você pode interagir
com o painel. Clique na Visualização
e veja aqui, por padrão, a divisão estará lá. E aqui as outras
variáveis estarão lá, ok? O eixo y e o eixo x, ok? Então você obtém que o eixo x
será a variável y, aqui estará a velocidade, e aqui no eixo y
estará costurando o personagem. Então aqui temos os personagens, os personagens e os nomes dos personagens
estão aqui, ok? E vamos
analisar quais são suas velocidades e outras
variáveis, como a velocidade na água. E também podemos selecionar a
aceleração e você pode ver qual aceleração
beta. Então veja aqui, este é o
painel onde podemos, podemos interagir
com o painel. Podemos selecionar a
variável aqui, manipulação. E é isso que
resolveremos para o,
para o manuseio e diremos: Sim, vou colocar o manejo na água
e ele gerará. Dessa forma, podemos criar o
que é mais suficiente, que será interativo. E você pode selecionar a
variável aqui e ver o efeito no
painel, ok? Gráfico. E veja aqui que as diferentes cores
são vidro de atirar, pesado, leve e médio. Ok, então é assim que podemos
usar o aplicativo de assinatura para nós, o painel interativo, terminamos o jogo Mario
Kart Eight. Ok, então agora
vimos o que é isso? Então veja aqui as classes, as diferentes cores estão mostrando a classe pesada,
leve e radium. E aqui podemos selecionar a velocidade e ela mudará o tratamento da
variável, então o gráfico mudará. Ok, então este é o aplicativo, assine o aplicativo que
vamos criar, ok? E isso, podemos abrir
no navegador que
também é porque ele está abrindo
em nosso host local. Ok, então podemos abrir isso
no navegador também para
clicar em abrir no navegador, e ele abrirá em seu
projeto padrão da mesma maneira. Ok, então veja que hoje
em dia operamos no navegador de hóquei, e estamos perdendo o nível da
fonte de dados no site da Kaggle. Assim, você pode acessar o site do
Kaggle e ver os dados e ver
sua visualização. Você pode selecionar a mudança, ok? Então, com base no que
você está selecionando, tudo bem.
Então, isso é interativo, é isso
que vamos criar. Então, deixe-me
levá-lo rapidamente ao código. É um código bem simples. Então, o que precisamos
fazer aqui, basicamente, esse aplicativo de assinatura
terá três componentes. Três componentes x, na
verdade, três componentes ,
ou
três páginas da web , três páginas que precisamos
obter, a primeira será a
primeira será o ponto do aplicativo
e, em seguida, a segunda
será o servidor. E a terceira
será a parte da interface do usuário. Ok? Então, conjunto de palavras e depois UA. Então app.all server e UI.r. Então esses são os três arquivos que
vamos escrever, ok? Além disso, criamos uma pasta. Você terá que criar
um para leucina no aplicativo, qualquer nome que você queira
dar, você pode dar. Em seguida, atualizei um aplicativo de
pasta de dados
que manteve o arquivo CSV, cada um contendo
o conjunto de dados. Ok. Então, deixe-me abrir o solo. Este é o conjunto de dados
e contém todos os caracteres, contas de vidro, outros detalhes, e esses são
os nomes e essas são a
velocidade e todas essas coisas. Ok? Portanto, este é o
conjunto de dados que mantive. Traga-nos o CSV do Character dot, baixe-o do Kaggle. Ok. A próxima coisa está aqui, a imagem que estamos
vendo na face frontal. Essas imagens estão aqui. Pasta W, W, W. esses são os três arquivos De qualquer forma, esses são os três arquivos de dados do solo de guitarra do
aplicativo, dados que eu criei. Ok, então deixe-me ver o código. A primeira coisa é app.all. O que precisamos. Precisamos, precisamos
da biblioteca do destinatário,
ok, então você precisa baixar o download e
instalar a biblioteca Shiny. Você pode vir aqui os
pacotes instalados por sexo e ano. E você precisa
clicar, basta clicar em Instalar e, portanto, um
pequeno nome lá, e pronto. Então, deixe-me mostrar, basta clicar aqui. E aqui você precisa
colocar a assinatura S, I, N, Y,. E então temos que
clicar em Instalar. E o pacote Sami
será instalado. Então, eu já instalei, então não vou fazer isso de novo. Então você precisa colocar o brilhante e
clicar em Instalar e
ele será instalado. Além disso, você
também pode usar install.packages. Você pode usar algum problema
com a caneta, ok? E você pode instalar
o sinal de nome aqui. Literalmente, está bem? Então você pode usar install.packages e colocar o nome do
pacote e me atribuir. E aqui estamos dando a essas
fontes de adição de fontes de UI.r, UI.r e outros
servidores de fontes essa opção. Então, essas são as duas coisas que
vamos usar no aplicativo. Ponto, ponto, ponto é nosso principal arquivo interno que chamamos de
UI.r e dados celulares. Em seguida, estamos criando o aplicativo Shiny dando o
nome de aplicativo Shiny. E aqui, UH, igual a UA
e sorológico a servidor. Ok, então seja qual for o
nome que você está dando, o nome do arquivo que você
pode dar aqui, ok. Então, este é o aplicativo simples ponto nosso arquivo onde estamos apenas
carregando a biblioteca, fornecendo à fonte como se
fossemos usar E-Y-E dot r e o servidor que
estão dentro dessa reflexão tardia. Ok, e então estamos criando um aplicativo de
atribuição onde
especificamos o nome do
arquivo UID e o ramo de sulfeto. Ok. Então esse é o aplicativo que sai do arquivo. Então a próxima é a
terceira palavra dot are. Estou muito triste com isso. Vou ver os dados do celular. E aqui você pode ver que carregamos o gráfico
GG na biblioteca. Porque vamos fazer isso, estamos criando um painel ou estamos criando um
gráfico para o gráfico. Estamos vendo que
estamos criando com a ajuda do GG plot two. E aqui temos uma
especificação desse conjunto de dados. Então, a partir daqui, vamos
obter o conjunto de dados. Os dados têm menos caracteres,
não o aplicativo de arquivo CSV. Então, você e nós estamos usando read dot csv total,
esse arquivo CSV. E como ler o
arquivo CSV que
já vimos nas palestras
anteriores. Ok, então estamos
criando o servidor aqui. Para criar um servidor,
estamos executando um servidor
em que dado o valor dos meus nomes de
variáveis, está bom, e então estamos perdendo função,
entrada, saída e saída. Estamos lendo o enredo. E estamos usando a função
RenderPlot para renderizar o gráfico. E estamos usando
personagem, personagem
e, em seguida, estamos usando fatores para criar dados,
rótulos e ordem. Estamos usando a classe Character
Dollar, ok? E então estamos usando o
gráfico GG para desenhar esse gráfico. E aqui, dados que estamos
lendo: caracteres, ponto CSV e eixo
x, valor x, caractere WM, identidade
estatística. E a entrada y. valor do dólar y significa
qualquer entrada que
selecionaremos para o y que
será selecionado. Que essa é a
parte em que temos a interação ou o menu suspenso
que estamos selecionando, ela chegará lá, ok? E então estamos
lendo cartas viradas. Então, as coordenadas serão invertidas. Ok? Então, a próxima coisa é UI.r. Então, se você ver por que
isso é estranho, também é bem simplificado. Estamos usando o
característico ponto CSV e estamos reiterando
o arquivo csv de ponto de caractere. E então estamos usando a introdução da primeira
página, já que temos duas páginas
e produtos e a fase n, visualizações e
produção está no painel da guia
Desenhar para criar
o painel para introdução. E estamos usando o
título da introdução para a final. E então estamos usando
a fonte da imagem. E estamos dando
uma pausa aqui. E esta é a redação do
parágrafo. E aqui estamos
fornecendo o link aqui, o link Kaggle
que vimos, que temos proteína
que, página após página, é simples. A interação e o painel, estamos criando a melhor
ferramenta para a visualização. O que estamos fazendo é usar valores
selecionados, nome da coluna. O nome da coluna dos caracteres
serão os valores. E então o que estamos usando? Selecione valores, selecione onde
perder os personagens. Ok? Então, somos parte
da aula, ok? Aqui estamos usando a consulta
select, muito bom. Não está na tarefa de seleção Value. Ao contrário de basicamente, estamos removendo as
colunas indesejadas aqui. E vamos com o
personagem dessa classe. Aqui estamos obtendo a barra lateral
usando o painel da barra lateral. E aqui estamos selecionando
a entrada para y, onde y sublinha onde e o nível será
a variável y. Você, se quiser,
pode alterá-lo para qualquer coisa, opções,
selecionar valores. E o valor
carregado já
será aquele para que a velocidade
selecionada seja igual à velocidade. Portanto, a velocidade estará lá, por padrão, selecionada
para nossos desesperados. Ok. O próximo passo é o conteúdo principal. Estamos usando o painel principal e o
gráfico de saída do gráfico, ok? E isso virá
do Southern blot. E os segundos palestrantes, o painel de guias em que
estamos tão individualizados
, o painel título
que estamos dando, aquele parágrafo que
estamos escrevendo. E então o layout da barra lateral, cuja barra lateral
sublinha o conteúdo, o conteúdo principal virá aqui. Ok? Então foi assim que criamos
esses três arquivos. E esses dois pontos, servidor e cara, estão
ligando para judeus
dentro dos dados do aplicativo. Ok, agora
vamos executar o aplicativo. Então clique em Executar aplicativo, e ele será executado e
abrirá a janela do RStudio. E agora estamos vendo a página, nossa mão aqui, você pode ver a página de introdução e
visualizar e colar duas páginas. E a introdução compensa. Nada acabou de acontecer. E a imagem que
incluímos, e este é o parágrafo
e este é o link que fornecemos onde
especificamos isso. Se você vier aqui na UI.r, veja aqui o título que
demos
e, em seguida, a imagem que temos
ainda melhor na Calábria, vencemos. No entanto, apesar de termos
fornecido o link do Kaggle, tudo bem, é
isso que
estamos vendo dentro do painel de introdução
e do segundo painel, quando você abre a visualização. Aqui, você pode ver por que
habilita a velocidade por padrão, porque aqui
selecionamos como velocidade e o nível é o motivo pelo qual
você pode, ok? E vamos dar a trama
como saída e ver o título. E este é um parágrafo
que estamos apresentando. Ok. Então, deixe-me
mostrar como isso está mudando
com base na seleção. Se eu selecionar Speed ground, o gráfico ficará em cadeia. Se eu selecionar manipulação, o gráfico mudará se eu selecionar faixas
no gráfico relacionado. Portanto, este é o
painel interativo que
criamos usando o aplicativo Shiny. Ok? Veja aqui as diferentes cores
que mostram o vidro pesado, leve e médio. E aqui você pode selecionar e ver a diferença
entre essas coisas. Ok, então é assim que o
sinal, o aplicativo funciona.
64. Alguns exemplos de aplicativos brilhantes em R: Nesta palestra, veremos alguns
exemplos já escritos
de aplicativos de assinatura que já estão
no site de assinatura. Então, esses são os
exemplos do
aplicativo Shiny que você pode ver em mãos. Você pode vê-los e modificar o código. E você pode criar seu próprio aplicativo Shiny
fazendo login no Esports. Então, deixe-me dizer como
você também pode executar isso. Você só precisa ligar para
a biblioteca Shiny. Então, precisamos escrever a
biblioteca e depois assinar, e precisamos executar isso. Feito isso, você pode começar a usar os exemplos como se o primeiro fosse o
quê, um histograma. Então, um exemplo é a função
que você pode usar para chamar esse
programa já escrito de aplicativo de assinatura. Ok, então 01 sublinhado
Olá é este. E vamos fazer isso e
ver o que estamos recebendo. Então, ao executar isso, você abrirá o aplicativo responsável. E veja aqui que está
dizendo olá assinando. E aqui você pode ver o número
de caixas chegando e aqui um histograma dos tempos de
espera, ok? Então, aqui, à medida que você aumenta
o número de compartimentos, veja aqui, o número de compartimentos
está aumentando. E agora existem meios peptídicos. Se você fizer um, só
haverá um vencedor, certo? Se você colocar seis, há 6,12 3456 caixas. Se você ver aqui, ele é interativo, então você pode aumentar ou diminuir
o número de pinos neste quadro de tarefas. Portanto, essa é a especialidade
do aplicativo Shiny que
podemos jogar com o painel
que criamos, painéis
interativos criados pelo Shiny App. Agora, aqui você pode ver, se você vier até aqui, ele lhe dará
a descrição. Este é um
aplicativo pequeno, pequeno, demonstre, assine essas atualizações automáticas da interface do usuário. Ok? Então, aqui está a região
RenderPlot e os compartimentos de entrada. E veja aqui abduzir, nosso arquivo já foi fornecido aqui. Então você pode simplesmente copiar
o código daqui. E você pode executar em, use esse código, apple.tar. Veja seu laboratório usando a
biblioteca shiny and uy, depois um título
e, em seguida, o layout da
barra lateral. E aqui o ID de entrada da barra lateral
que estamos fornecendo aos beans, o número de caixas e o
mínimo é um, máximo é a propriedade e o
valor iniciado, portanto, por padrão, ele será selecionado. E aqui, a saída do
gráfico do painel principal que estamos obtendo, a saída ou o painel principal. Então, essa é a
ideia de saída da trama. Então, se você for até o servidor, poderá ver as entradas da função
do servidor ou nós usaremos a função. função F receberá
a entrada como entrada e
fornecerá a saída. Ok? E aqui mostre esse gráfico. E então estamos chamando
o RenderPlot. E aqui estamos
dando o valor x. E o valor x é uma espera fiel. E Vinci está aqui, você pode
dar debates como uma sequência de mínimo a máximo e, em seguida,
marcar os pinos de entrada mais um. Ok, aqui estamos
desenhando o histograma. Então, estamos testando o histograma com o valor de x e estamos dando ao Brexit igual
a tinta e colorido. Você pode dar o que quiser manualmente, xlab e título principal, você pode dar o que eles quiserem. E então criaremos
o aplicativo usando o aplicativo Shiny e, em seguida, UY igual a ui e servidor, cada
chamada para o servidor. Então, alguém
faleceu no servidor. E cara é que estamos definindo aqui. Então, se você quiser, pode colocar isso
na UI.r até aqui. Você pode inserir o UI.r
e a parte do servidor. Você pode colocar no
servidor que r, e esses serão os dados do seu aplicativo e onde chamaremos
a interface e o servidor. Dessa forma, você pode
pegar este aplicativo dot r, que é um único arquivo e convertê-los em três
arquivos, se quiser, e se quiser
adicionar mais algumas coisas, se quiser adicionar, se quisermos carregar algum outro gráfico aqui, giardia,
você pode fazer isso. Portanto, você pode modificar isso porque
o código já foi
fornecido com sinal de
pato no
site do aplicativo a partir daí. Então, isso está na construção do pacote de
inscrição, certo? Então, deixe-me encerrar isso. Vamos ver o segundo exemplo. O segundo exemplo é executar o exemplo zero para
sublinhar textos. Vamos ver o que está lá. Este é Table send DataFrame. Então, vamos executar este aplicativo
Shiny e ver você. Quando você clicar
nele, ele abrirá
os textos de inscrição. Ele vê aqui. Aqui podemos
selecionar o conjunto de dados rock, Fraser e car support. Estou selecionando o cartão. Então, está nos mostrando a velocidade e isso tende à
velocidade e à distância. E aqui você pode definir
o número de linhas, número de observações a serem visualizadas. Então agora é 1012. Então veja aqui hoje em dia. Então, em cascalho. E se eu reduzir isso
para supor um, está mostrando apenas um, eu posso aumentar,
continuar aumentando. 123. Veja aqui, estamos interagindo com isso e aqui
eu posso selecionar a pressão, então ela vai te mostrar a
temperatura e a pressão. E aqui podemos simplesmente aumentar a
temperatura e a pressão, também
nesta tabela. Dessa forma, podemos
brincar e aprender com isso, e esse código também está aqui, app.all, que você
pode pegar e modificá-lo conforme
sua necessidade. Então, vamos para
o terceiro exemplo. Esse é o aplicativo de
expressão reativa. Portanto, 03 ressalta a reatividade. E vamos fazer isso e ver o que nosso aplicativo si110
está pronto para chegar aqui. Então, veja aqui as lacunas e necessidades de
montagem de dados. montagem de dados e o conjunto de dados são preservados em rochas
e carros novamente. Assim, podemos selecionar
chaves e aqui, a mesma coisa que
linhas e colunas. Você também pode selecionar n para isso. O arquivo externo é fornecido, o destinatário, nosso
arquivo é fornecido aqui. Você pode levá-lo para examiná-lo e aprender estranho.
Se quisermos modificá-lo, você pode modificá-lo. É de código aberto, então
você pode pegar isso modificar
e usar sozinho. E a seguir, vamos ver
estrangeiros de judô chamados MPG. E clique em Executar. Assim, a abertura do apogeu notou um número
de oscilação de cilindros, transmissão e engrenagens. Portanto, está mostrando
milhas por galão. A relação entre
o MPT e o equipamento. E quando você seleciona a
transmissão é igual a Toyoda, aulas entre
o carro automático e
manual e
o Majlis, ok? E se você selecionar engrenagens com o cilindro de engrenagem com o
cilindro, e para este, você poderá obter o arquivo tar e
modificar um nicho para si mesmo. A próxima coisa são as barras deslizantes. Então, vamos fazer isso e ver o que. Então, esses são
um bom exemplo para aprender sobre pacotes de sinalização e você pode modificar um
gramado. Veja aqui. Esses são os controles deslizantes. Então, há muitos
controles deslizantes nesse esporte. E para este trimestre já
está lá. Você pode ver aqui que eu
posso calcular o valor inteiro. Eu posso fazer 1.000 ou 172 decimais, 0,8 ou um como este. E então o intervalo, eu posso modificá-lo a partir daqui. E assim que você o
modificar aqui, você poderá ver as alterações lá. Formatador personalizado que podemos
definir animação em loop, podemos definir aqui. Dessa forma, podemos
adicionar anti-A aqui. Essa é a opção de jogar
nesses formatos personalizados. Você pode clicar aqui e a Síria 0-500500
está mudando automaticamente. Está tocando bem, então veja aqui, agora está mudando
lentamente aqui. E veja que essa animação
numérica também está em alta. Então, como isso está mudando, o
controle deslizante está mudando. Isso também está sendo
alterado e adicionado. As outras figuras
também serão alteradas. Então, esse é o pacote
Magic of si110
em R em que você pode criar esses painéis
interativos. Veja aqui, isso está mudando e isso também está mudando. Ok, então vamos passar para o próximo exemplo
que é digitar células. Então, basta clicar em executar
e ver o que obtemos
na profundidade: normalmente uniforme, longa, normal e exponencial. Então, podemos simplesmente clicar aqui
e podemos ver o resumo, podemos ver a tabela, ver como ela está mudando. Com um clique, você
pode ver o normal. Se quisermos ver o uniforme, você pode ver o uniforme. E se quisermos
ver a forma longa, você pode ver o longo poema. Você pode ver o tratamento antigo, resumo da
trama e as tabelas. E todos os três estão
mudando juntos. Clique em todos os dados aqui com um clique, número de observações
que você pode aumentar. E instantaneamente você pode ver que
essa é uma ferramenta muito boa para analisar dados e
analistas de dados ou cientistas de dados. Ou se você quiser
ampliar seus dados, você pode usar o arsine
e esse tipo de painel
interativo que você pode criar e dizer com sua
equipe ou seu gerente você sai com seu
cliente e eles podem obter instantaneamente a
visão dos dados. Então, da mesma forma, você
pode ver a outra coisa. Veja aqui um exemplo, upload de
arginina que
nos permitirá fazer o
upload dos arquivos e tudo mais. Vamos ver. Você pode clicar aqui e
simplesmente selecionar qualquer arquivo e fazer o upload. Suponha que eu queira fazer o upload, agora ele está carregado e
, como não é nosso arquivo CSV, estamos entrando,
então, se você quiser fazer o
upload de um arquivo CSV, pode ir em frente e fazer o upload de um arquivo CSV. Então, deixe-me ir
ao tribunal de primeira instância em 2020 e tentarei abrir um arquivo CSV. Deixe-me abrir dados CSV de pontos da OTAN que
curamos em um de nossos
exemplos, vamos abrir isso. Vamos fazer o upload dos dados aqui. Agora, podemos ver que o arquivo CSV do
ponto de dados foi carregado e podemos ver os
dados dentro do CSV do ponto de dados. Podemos remover a apostila. Você pode colocar o
cabeçalho assim. Nós podemos fazer todas as coisas. Podemos colocar ponto e vírgula. Podemos usar um separador,
vírgula, ponto e vírgula, ou até mesmo usar fita adesiva
e aspas sem aspas duplas. Todas essas coisas que
você pode fazer aqui. Eu já estou mostrando
todos os dados
que estão no CSV Data
dot, certo? Então, seu carma e
veja se eu coloco a cabeça, mostrará que você só
abasteceu o cachorro é como alguém e está
recebendo o varejo completo. Observe o lançamento de dados. Então isso é uma coisa muito
importante. E aqui você pode criar isso. Isso acontece em nosso si110 e você pode compartilhar com
seu cliente
onde ele pode fazer o upload do arquivo
CSV e ver o arquivo CSV sem
ter o XL T-TIP. Eles não estão se
divertindo muito. Eles podem simplesmente
selecionar o pilão CSV. Vou ver
o CSP na sexta-feira, ok? E para isso também o código
já foi fornecido aqui. Então, essa é uma
coisa muito legal, vegetal, as coisas que você pode analisar
como uma tarefa e aprender com essas coisas que você pode modificar e usar para si mesmo. Veja o cronômetro. Você pode
clicar aqui e o cronômetro virá da
hora atual, é essa coisa. Dessa forma, podemos usar a assinatura.
65. Aplicativo com 2 arquivos no RStudio: Olá e bem vindo de volta. Nesta palestra, vamos
criar um aplicativo de assinatura de duas páginas. Então, dois arquivos se inscrevendo, vamos criar. Então, vimos como
podemos fazer três páginas, como fizemos com apple.tar,
UI.r e Teradata. Outro exemplo. Aqui. O que vamos
fazer é
criar um lead, dois arquivos. Um é o UI.r e o
segundo serão os dados do servidor. Então, primeiro,
o que precisamos fazer é ir ao nosso diretório de trabalho e criar uma
pasta com a sigla. Então, aqui estou dando o nome do aplicativo como verdadeiro ao assinar o aplicativo. Ok? E dentro disso,
criarei dois arquivos, UI.r e Solver dot art, para que eu
já tenha criado e escrito o
código da forma como
está dentro da pasta do aplicativo de assinatura de
arquivos. Ok. Portanto, o nome do aplicativo
será o nome da pasta. E dentro da pasta salvaremos esse UI.r
e o ponto r do servidor. Então, esse ponto
terá a mesma interface de usuário igual ao
layout fluido da página e da barra lateral e à entrada
do painel, painel e barra lateral. Então, aqui estamos fornecendo o OBS
e o número de observações, observações e número sobre
visitantes e o mínimo é dez, máximo é 500 e o valor
será cem. Ok? Em seguida, chamamos o
painel principal e a saída do gráfico. Esse gráfico e esse
gráfico virão do servidor em que
nossas fontes são o que chamamos de função de entrada e saída e a saída
será o gráfico de prato. E esse gráfico será
renderizado no histograma, onde os dados
serão a entrada do OBS serão a entrada
para nossas normas e a cor que estou
nos dando é vermelho e verde. Ok, então apenas esses dois
arquivos e nenhuma necessidade de escrever o aplicativo são e como
executá-lo. Podemos simplesmente
acessar o console aqui. Então, deixe-me limpar o console. E aqui você só precisa
escrever um aplicativo de execução. Execute isso. Agora precisamos chamar run app
e dentro da unidade RunApp para fornecer o
nome da pasta ou o nome do aplicativo para assinar o aplicativo
que criamos. Então, esses quatro que
criamos para assinar o aplicativo. Então, vamos dar um nome a isso
aqui e precisamos executar isso. Então, pressione Enter e seu aplicativo Simon encontrará o número de observação do
CEO. E aqui está um histograma. Então eu dei verde, vermelho e a borda
será verde. E se eu mudar esse
número de geração em geração, ele continuará mudando. Dessa forma, podemos criar ou criar um aplicativo de assinatura de
arquivos onde a
UI.r responda por esses dados, vamos eliminá-los? Se quiser mudar a cor, você pode colocar o
amarelo e o verde. E aqui precisamos apenas fechar isso e executá-lo novamente. Executei o aplicativo para arquivar qualquer
aplicativo e apertei Enter. Vamos ver aqui agora que ele
virá em amarelo e limpo. Ceo, o amarelo e
a borda são verdes. Então você pode fazer assim. E você pode ver que várias apoptose
variadas e anormais e você pode ver que o histograma
está mudando. Ok? Dessa forma, podemos
criar dois arquivos. Inscreva-me.
66. Gerando relatórios para download em brilhante: Nesta palestra,
aprenderemos gerar relatórios
descarregáveis. Como podemos gerar
os relatórios baixar nosso divórcio
para download. Ok. Então, quando você acessa o site
assignee.rstudio.com, você pode ver que
já existe uma substância
e coisas prontas que você pode aprender sobre como
assinar em nosso estúdio. Então, criar o
painel interativo aqui é opsin. Você pode vê-lo gerando relatórios
para download. Então, aqui você pode ver
um exemplo como app.all e que
eles deram. E aqui você pode
experimentar isso e denunciar dot RMD. E ele acreditava que o relatório vazio e
criaria uma trama. E o que você pode baixar nesse
relatório. E há outro
exemplo de vértice que mostrarei, onde podemos baixar o relatório na forma de PDF
ou HTML e barras. Então, veja aqui, esta é a donzela, o conjunto de dados de carros vazios que está prontamente
disponível com o R. Aqui, você pode ver com base
no número de cilindros, podemos ver o modelo de regressão. Esse é o modelo de regressão. Cilindro e número
de cilindros, MPG, como o número de cilindros está afetando a
quilometragem, milhas por galão, como o ponto de acesso está
afetando o MPG, como o peso do carro está afetando as
milhas por galão, a evidência ou quilometragem do
carro, ou o raio, como esses fatores estão afetando o número de marchas está
afetando a mielina que esses são os coisas que
estamos analisando sua dívida fizemos por meio de
nossa programação. E essas são as coisas que
podemos gostar:
internamente, elas foram
geradas quando desenvolvemos
um modelo de regressão em que eles estão tentando
encontrar a linha de melhor ajuste. E por isso, agora, este é o relatório e apoia
seu deslocamento. Posso colocar assim e
existe a opção de formato de documento, PDF ou HTML ou trabalhar para
apoiá-los clicando em PDF e
eu clico em Baixar. Todo esse relatório será baixado em
formato PDF se eu abrir. E como você vê aqui
, está mostrando que
funcionou assim. Aqui está o modelo de regressão. E de onde estamos
obtendo essas coisas, essa coisa está saindo
do arquivo RMD do ponto de relatório. Estamos lá criando o modelo de regressão linear baseado nas
fontes de dados, carros vazios. E então eles estão usando
o coeficiente para isso. E então eles estão colocando isso no gráfico para
encontrar a linha de melhor ajuste, e então eles estão obtendo a linha de melhor ajuste,
nossa linha de regressão. Então, esse relatório está
chegando assim. Quando você vê aqui, está nos
mostrando os pontos de dados, mas quando você faz o download, obtemos o relatório
completo. E este é o conjunto
de arquivos de r dot r e c aqui. Calculando a média da fórmula, da dica e da entrada MPG,
depois da saída, desalavancando outro gráfico e seguida, baixe o relatório
aqui, grande parte, o formato do nome do arquivo será
o PDF e, em seguida, o conteúdo, eles serão normalizados. Mas vamos importar que estão vazios. Isso é importante porque todos os cálculos e tudo que vimos
neste relatório aqui, são coisas
provenientes dos arquivos de montagem. Ok, então isso é
muito importante. E aqui estão eles, simplesmente configurando o diretório de
trabalho como um diretório
temporário
para que ele não solicite o acesso do administrador. E eu vou procurar isso.
Eles estão usando isso e depois encontram uma cópia do lote e relatam
isso no MD, certo? Em seguida, publique o
markdown original e isso serve para renderizar o
arquivo RMD no PDF. Ok? Então, e então descubra o arquivo de saída de
renomeação. Ok. Então, essas coisas,
deixe-me também mostrar o arquivo RMD que
foi usado internamente. Assim, você pode clicar em Obter
código e ele o levará até o repositório do
GitHub
que está assinando. Aqui você pode ver um relatório de que nossos funcionários são
palavras que são, de qualquer forma, ponto, ponto em todos os arquivos. Então, quando você clica
no ponto de relatório RMD, você pode ver aqui a média do modelo de regressão e este é o código aqui
é meu modelo de regressão. E então, usando nosso
modelo, complete true. E ele tinha opinações. Essas outras coisas que
estamos vendo são ótimas. E então o MPG
original frutífero e essa coisa. Ok, então eles estão criando um gráfico de
dispersão e, em seguida,
encontrando a
linha de melhor ajuste usando a linha abline. E eles estão colocando
a cor certa? Então é assim que estamos
obtendo este relatório lendo esse arquivo
de montagem e
preparando os relatórios. Dessa forma, você pode obter um relatório que
pode ser baixado. Se você quiser baixar este
relatório no formato Word, você pode clicar nele e ele será baixado
em um documento X4, certo? Ok. E se você quiser fazer
o download em HTML, você pode clicar em HTML e fazer o download. E ele será baixado
no formato HTML Vamos abrir isso e os dados do CSIA, meu arquivo HTML de pontos de relatório. Dessa forma, se
você quiser criar um relatório ou painel
que possa ser baixado, você pode usar o discord e
escrever o seu próprio. Assine o aplicativo.
67. Análise de Covariância: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos sobre análise
de covariância. E também é chamado de cola. Então ENCO Reais. Isso significa análise de covariância e
clandestinidade, como a chamamos. Então, o que é essa
análise de covariância? Então você sabe o que fazemos
nos algoritmos de aprendizado de máquina ou em um modelo de regressão linear. O que fazemos na regressão, tentamos encontrar um valor real, um valor contínuo, certo? Ao contrário dos dados categóricos, sempre
tentamos encontrar o comprimento do
arco sim ou não, verdadeiro ou falso, zero ou
um desse tipo, certo? Então, na regressão,
tentamos encontrar um valor contínuo. Então, criamos uma
análise de regressão para Lake. Usamos modelos de regressão. Análise de regressão para
construir modelos que descrevam o efeito da variância na variável
preditora, certo? Sobre as variáveis de resposta. Então, qual é o efeito
da variância nas
variáveis de previsão no modelo de resposta? Que efeito as variáveis
preditoras terão
na variável de resposta. É isso que estamos tentando
fazer com a análise de regressão. E quaisquer que sejam os modelos
com
os quais estamos criando ,
faremos isso de uma maneira. Mas às vezes o que acontece? Temos um conjunto de dados categórico. Então, se você ver esse
conjunto de dados de carros vazio que está embutido
no R e que vamos
usar se executarmos esse
trecho de código, você verá que
temos uma coluna E m. O que é esse m. M é automático ou manual. Veja seu valor, seu
valor é zero ou 10 significa automático
e significa manual, então algo assim. Ok? Então D representa o
Automático e o Manual, ok? Portanto, esse é um dado categórico, é zero ou um. Não está tendo um valor
contínuo como milhas por galão, 2.122,8, 21,14, 0,7, certo? Portanto, é difícil
encontrar o efeito
dessa variável categórica nesse mpg. Veja aqui a potência, a
HP também está lá, mas é um
valor contínuo, não é categórico. Olá. Então, o que acontece? Precisamos, temos uma variável categórica
com valores como não, zero ou um,
masculino ou feminino. Em alguns casos. Qualquer coisa,
pode ser perda de lucro, seja o que for, então quaisquer valores
categóricos que possamos ter. Portanto, a
análise de regressão simples fornece vários resultados para cada valor da variável categórica. Então, para essa linha G
e um para zero, obteremos 21 pontos
para esse 018,7. Então, estamos obtendo um valor
diferente e diferente para MPG, para o mesmo zero, certo? Zero representa o Hornet
e esses representam o esporte do Hornets, certo? Então, esses valores são diferentes. Então, como descobriremos o efeito que isso está
causando nas milhas por galão. Então é isso que entra em
cena, análise de variância. Então, deixe-me dar uma
pequena explicação. A análise da covariância
é usada para testar o efeito principal e de interação
da variável categórica. Isso significa que esse objetivo é uma variável dependente
contínua, ou
seja, mpg, controlando o efeito da seleção de
outras variáveis contínuas. Então, se sabemos o efeito que
isso está causando nisso,
podemos até ter decidido qual
HP está afetando podemos até ter decidido qual
HP está afetando o MPG ou o que esse m está
afetando o HP ou mpg, que covariam com
o dependente. As variáveis de controle
são chamadas de covariáveis. As variáveis ainda
controladas são chamadas de covariáveis. Às vezes, se tivermos uma variável categórica com valores como sim ou não
ou masculino ou feminino, ou lucro ou prejuízo. A regressão simples e as lanças obtêm vários resultados para cada valor da variável categórica
que discuti aqui. Para zero, existem muitos valores mas MPG e para um também
existem muitos valores. A análise de regressão simples
fornece vários resultados para cada valor da variável
categórica. Nesse cenário, podemos estudar o efeito da variável
categórica
usando-a junto com a variável preditora escura e comparando as linhas de
regressão para cada nível de uma variável
categórica. Então, o que está dizendo
é que, em tal cenário,
podemos estudar o efeito
da
variável categórica usando-a
junto com o preditor. Então, junto com um
preditor como o HP. Então, usaremos um m junto com
o HP para prever o MPG. E encontraremos a linha de
regressão para cada nível da
variável categórica para 0,41, para cada um, mas cada nível
encontrará a variável
categórica. Ok? E isso é chamado de
análise de covariância. Então, vamos considerar
esse
conjunto de dados de carros vazio em que m representa
a transmissão automática manual. É uma
variável categórica com valores de 0,1, como discuti anteriormente, milhas por galão ou
MPG de um carro
podem depender dela. Além disso, o valor
da potência, mpg, pode
depender se o carro é
automático ou manual, e também pode depender
da potência. Então, estudamos o efeito
do EM na regressão entre MPG e HP. E isso é feito
usando uma função ou V. função Aov é a análise da função de variância seguida
pela função NOR. Então, usaremos as funções do Bot. Primeiro, usaremos a função AOV
para encontrar a regressão. Ao usar essas duas variáveis colegas HP
são previsíveis
e pretendem encontrar o MPG. E então usaremos
o Nahuatl e decidiremos qual modelo está nos
dando o que e como essa variável categórica ou
uma variável preditora categórica está afetando a variável
dependente MPG. Então, o que fazemos primeiro, obtemos os dados de entrada
que são carros vazios. Então, estamos armazenando isso
nos dados vazios dos carros. E então estamos criando um modelo de regressão
e um modelo de reversão. Para o modelo de regressão,
estamos usando um AOV ou com a função de análise de
variância, função
AOV que estamos usando
e estamos criando um modelo de regressão entre
MPG e HP junto com am. E estamos aproveitando
fontes de dados, carros vazios, dados que estamos obtendo
dos carros vazios. E então
vamos imprimir dois desses. Obteremos o resumo
do modelo 1. Então, deixe-me executar isso e
deixe-me executar o modelo 1. Então, estamos criando um modelo
de regressão aqui. Então, que visão
estamos obtendo
desse modelo de regressão aqui, essa fonte original de
que tanto a potência quanto o tipo de
transmissão de HP e M têm um efeito significativo nas milhas por galão
como o valor p ou ambos. O valor de P em ambos os casos
é menor que 0,5, certo? Portanto, ele tem ambos os valores de p
com menos de 0,5. Mas quando tomamos esse
HP e m juntos,
o valor p é maior que
0,5 e isso significa que o SPN am juntos não terá nenhum
efeito significativo no MPG. Portanto, a interação entre o, este AM e SB
não é significativa pois não terá nenhum
efeito sobre o, no MPG. Portanto, esse modelo está nos
dando a ideia de que HP e eu, se você usá-los sozinhos, eles
afetarão o MPG. Mas quando os juntarmos, eles não terão
nenhum efeito significativo no MPG, pois o valor de p
é maior que 0,5. A próxima coisa que eu vou fazer criar
outro modelo de regressão. Onde você vai, o que faremos? Não incluiremos
o valor categórico. Valor, ok? Modelamos sem o valor
categórico, ou seja, am. Então, quero dizer que sem a interação
entre HP e m, vamos criar outro
modelo de regressão, a função AOV. E veremos o efeito que
eles estão tendo no MPG. Então, deixe-me fazer isso. No entanto, estou usando o carrinho vazio para ser tão valioso e ele terá
os mesmos dados dos carros vazios. Então veja aqui. Agora, nosso modelo com isso, não
há interação
entre HP e m. Então, quais insights
estamos obtendo. São suas almas que tanto a potência quanto
as transmite , têm um efeito significativo em milhas por galão, pois o
valor de p é menor que 0,5. Ok, então agora o que vou fazer, vou comparar esses dois modelos, modelo 11, com o valor
categórico. Interação entre o HP
e m. E outro modelo é sem a interação
entre o PNM. Ok? Agora, deixe-me comparar
esses dois modelos, modelo dois e modelo um. Então, o que estou usando, estou usando função NOR para comparar esses
dois modelos de regressão. Então, deixe-me fazer isso. Veja agora quais insights estamos
obtendo dessa região. Estamos entendendo que o
valor de p é maior que 0,5. Assim, podemos concluir
que a interação entre potência e tipo de
transmissão não
é significativa. Portanto, as milhas por
galão
dependerão de forma semelhante
à HP e à am. Ok? Portanto, o HP e o m afetarão, ambos terão
efeito suficiente sobre esse MPG. Da mesma forma. Não é como se ambos
fossem afetar de forma diferente. Ambos
afetarão da mesma forma. Portanto, o MPG dependerá de
maneira semelhante da potência do carro, tanto
no modo automático quanto no manual. Então, se a potência
suporta a potência de um carro, que é automático, e
ele está dando mais quilometragem. E se não usássemos manualmente
o mesmo ponto de acesso, ele fornecerá menos mielina. Isso não vai acontecer com a
quilometragem do carro, seja com o mesmo
suporte, metade. Agora, suponha que 1 cv, um carro esteja lá
e seja manual. E outra carta é a mesma, 1 cv e é automática. Ambos fornecerão o mesmo mpg. A média não vai
mudar se o carro
é automático ou manual. Ok. Portanto, depende da potência e
o manual ou automático não
afetará muito a quilometragem do
carro. Portanto, é assim que podemos fazer
a análise da covariância. Covariância significa que as
outras variáveis preditoras que se tornarão Eddie, eu vou afetar
a variável dependente. Nesse caso, b
e m são a covariante e mpg é a variável
dependente. Então, descobrimos que se
o carro é automático ou manual com a mesma
bola,
terá o mesmo tipo de idiotice.
68. Handson com biblioteca de dplyr: Olá e bem vindo de volta. Nesta palestra, vamos
revisitar a manipulação de dados. E a
atividade de manipulação de dados funcionará com o pacote de camadas profundas que está relativamente
nivelado com o ímpar. Portanto, o player é um
pacote que fornece Egito ferramentas para as tarefas mais comuns
de manipulação de dados. Então, aprenderemos tudo
sobre o plano hoje e veremos quais são as
tarefas de manipulação que podemos realizar. E faremos esse longo
arquivo que eu escrevi. Faremos todas as coisas
e veremos quais são as coisas que podemos fazer e como
podemos brincar com os dados, como podemos manipular as tarefas de manipulação de
dados. Como podemos usar a tarefa de
manipulação de dados usando o plano. Então, vamos começar. Portanto, a camada profunda fornece a
gramática da manipulação de dados, fornecendo um conjunto consistente
de distorções que ajudaram você a resolver os desafios mais comuns de
manipulação de dados. Portanto, a primeira função que discutiremos é
a função de mutação. E o que ele faz é adicionar novas variáveis que são células
de variáveis existentes. Então, o que ele fará, adicionará novas variáveis que são
funções da variável existente, saberá o
que significa quando fazemos a prática. Ok, então o próximo é selecionar, selecionar, ele cospe a célula.
O que seleciona? Ele escolhe variáveis com
base em seus nomes é o mesmo que uma consulta de seleção em SQL, se você conhece SQL ou MySQL ou
qualquer banco de dados relacional, usamos o select para selecionar o valor e
selecionaremos algo dos dados da tabela
usando o nome da coluna. Ok, então é isso que o
select também faz aqui, fixo ou variável
com base em seus nomes. Então temos o filtro, filtro
mais estreito. O que ele faz é escolher os
casos com base em seus valores. Então, se você quiser
filtrar seus dados
com base em alguns valores, como na orelha ou
em qualquer coisa, qualquer vestido e você
possa assistir, ok? Resumir, a função reduz
os vários valores a um único resumo. Então, o que o sumário
fará, reduzirá os
vários valores a um único resumo. Também veremos que então
temos a função laranja. O que eu não fiz foi mudar a
ordem das regras, então apenas organizou os
dados em uma ordem diferente. A ordem da rosa, do
crepúsculo, tudo bem. Além disso, ele também
suporta o operador de tubulação. Então, este é o teste percentual do
operador de tubulação e, em seguida, maior que o
sinal e, em seguida, apresentado, é chamado de operador de tubulação. Ok. Agora, deixe-me contar
como você pode instalar o pacote em seus artistas
para fazer ou até mesmo na arte. Então, você pode simplesmente acessar os pacotes aqui
e clicar em Instalar e
colocar aplicar aqui. Ok. Além disso, você também pode usar
o pacote tidy verse, a maneira mais fácil de instalar o gráfico é instalar
o tidyverse inteiro. Portanto, se você instalou
o pacote tidyverse, ele incluirá o plano D. E se você não quiser
instalar este tidyverse porque o tidyverse
conterá muitos pacotes. Ok? Então, se você
quiser, não quiser, os pacotes que
você não está usando, você pode ir e colocar o plano D
install.packages, ok? Portanto, ele instalará um
dos principais pacotes duplicados. Além disso, você também
pode seguir esse caminho. Agora. Você pode acessar o
pacote de instalação e colocar o nome do pacote e
instalá-lo. E para invocar a biblioteca, temos que começar a usar a biblioteca e depois o nome
do pacote que fornecemos. Então, as outras coisas que
você já sabe, mas só para dividir as
coisas que estou lhe dizendo. A próxima coisa é menos explorada. As esposas de manipulação básica do jogador usarão
o conjunto de dados Star Wars. Então, vamos usar o conjunto de dados de Star Wars que
está disponível com o arco, que é pré-carregado em R. Ok? Então, se colocarmos
cabeça, cabeça, Star Wars,
o que ele vai dar, ele dará os primeiros cinco. primeiro tipo surgiu no conjunto de dados que
já conhecemos e
usamos várias vezes, certo? Mas esse
pacote de camadas profundas fornecerá outra função chamada vislumbre, que eu
não usei até ela. Estou usando pela primeira vez. Portanto, se você der uma
olhada em Star Wars, ele fornecerá todas as informações sobre
as regras. E assim, veja aqui
que está dizendo é linha, 87 linhas e 14 colunas. E está dando, nos
dando o nome
da coluna, nome, altura, massa, cor, e quais são os
valores disso? Ok. Os três primeiros por colapso. Está nos dando o, então este é o vislumbre dos punks e só lhe dará
uma ideia dos dados. Portanto, se você quiser ter uma visão
rápida dos dados, pode usar a função de limpeza. Caso contrário, você também pode
usar a cabeça. Ok. Então, se você comentar um vislumbre
e executar a unidade principal, cabeça fornecerá
um resultado como este. E um vislumbre lhe dará
esse resultado como este. Ok? Então, essa é a cabeça
e esses são os membros. Ok? Então, agora vamos passar
para aquele operador de tubulação. Deixe-me fechar isso. Assim, e da mesma forma,
também vimos a vista. Assim, você pode oferecer
um Star Wars e ele lhe dará uma
visão do lago de dados. Isso lhe dará uma visão
completa do conjunto de dados como uma pessoa normal que você vê. Então isso vai te dar
todo o conjunto de dados, ok? Agora, o operador pipe, todas as funções de camada profunda usam DataFrame como primeiro argumento. Dataframe será
o primeiro argumento para tudo o que a plataforma tem, em vez de forçar o usuário a
salvar o objeto intermediário ou o aninhamento das funções O xadrez fornece às linhas de filtro do operador de
tubo a função de filtro. Portanto, o filtro permite que você selecione o subconjunto de
estradas em um DataFrame. O primeiro argumento
é o DataFrame. O segundo documento e o
documento subsequente
se reportam ao valor
dentro do quadro de dados, selecionando as linhas em que
a expressão é verdadeira. Então veja aqui para
selecionar o personagem com pele clara
e olhos castanhos. Então, o que podemos fazer para usar isso é o
nome do conjunto de dados Star Wars. E então podemos usar
o operador de tubulação. E então podemos usar o filtro e fornecer o
parâmetro para filtragem. As cores da pele
seriam claras e cor
dos olhos. Então seja marrom. Ok? E você também pode fazer de
outra forma, como Star Wars. Então você pode usar o Star
Wars e, em seguida, o colchete, Star Wars, colchete e os dólares de Star
Wars podem colorir. Isso significa que
vamos afetar o banco de dados sobre a cor da pele do conjunto
de dados de Star Wars. E é escamosa, a
cor da pele ficará clara, e então a estrela ficará mais alta. A cor dos olhos significa que
vamos analisar o banco de dados sobre a cor dos olhos e a cor dos olhos deve ser marrom. Você pode usar o
operador de tubulação assim. Ou, alternativamente, você pode usar
o dólar. E Star Wars. Isso significa que a cor da pele em
dólares de Star Wars significa que
vamos ajustar o conjunto de dados com base na cor da pele
desse conjunto de dados de Star Wars. Isso significa que a cor da pele é uma coluna no conjunto de dados de
Star Wars. Ok? E então podemos usar
simplesmente isso ou você pode usar o operador de tubulação e usar
o leito
do filtro sob a
cor da pele e da cor dos olhos. Ambos fornecerão
o mesmo resultado. Veja aqui. Ambos estão dando
o mesmo resultado. Não há diferença. Portanto, você pode usar com o operador de tubulação
ou com seus dólares. Ok? Então, essas são as duas
maneiras de filtrar os dados. Linhas organizadas com função
laranja. Portanto, nosso filho pequeno funciona forma semelhante ao
filtrado, exceto que em vez de filtrar ou
selecionar linhas, ele as reordena. O que isso fez? Ele reordena todo o conjunto de dados. Ele usa o DataFrame
e uma configuração,
os nomes das colunas são
expressões mais complicadas para ordenar POR, use essa ordem
correta e decrescente. Portanto, se você usar essa função
DESC, ela ordenará a coluna
na ordem decrescente. Se usarmos EEOC, ele
será enviado. Ok, então aqui
adicionamos elementos na
ordem decrescente de altura. Então, como podemos fazer isso, podemos usar Star Wars, depois o operador de tubulação e, em seguida organizar a
função e a altura DESC. E simplesmente você fornece
isso e ele organizará os dados na ordem
decrescente. Veja aqui, agora os dados são dos mais altos e
estão diminuindo. Essa é a ordem decrescente. Dessa forma, podemos
adicionar os dados ou filtrar os dados com base na
altura em ordem decrescente. Ok, a próxima coisa é fatiar. O que corta dois
slides permite que você indexe rolados por sua localização
inteira. Ele permite que você selecione, remova e duplique linhas. Portanto, discordo um pouco
dos dados do nosso conjunto de dados. Corte a cabeça do sublinhado e
desliza na chamada cauda. Selecione a primeira e a
última linha dos dados. Corte a amostra de sublinhado, selecione
aleatoriamente essas linhas. Portanto, os slides abaixo
da amostra de sublinhado fornecerão o Raj selecionado aleatoriamente
do conjunto de dados, se você
quiser que sua fonte o faça. Portanto, se você não obtiver uma amostra do
conjunto de dados, um grande conjunto de dados, poderá usar slides
nessa amostra de código e, em seguida escolher
aleatoriamente algumas estradas
e vendê-las para você, usadas frequentemente como suporte,
para escolher certas. Proporção dos casos. Slice underscore mean
e slice underscore max selecionam as linhas com o
maior ou menor valor de nossa variável. Portanto, ele simplesmente fornecerá,
se você fornecer a
média do sublinhado da fatia e aqui você
fornecerá a altura. Ele fornecerá o mínimo de altura e
os slides
sublinharão a matemática, máximo, a altura, e fornecerá
o máximo da altura. Então, vamos fazer as coisas com a mão na massa. Então, para obter o personagem de 5 a 10, podemos usar o
operador de tubo de Star Wars, fatia cinco e dois pontos dez. Então, deixe-me simplesmente executar isso. Ok? Nós te daremos de
cinco a dez, ok? Se usarmos n igual a três, isso nos dará, veja, apenas três linhas, ok? E se usarmos n igual a 512345 linhas, se você ver a diferença
aqui, cinco a dez, isso lhe dará o estado da linha
56789106, incluindo cinco n aqui, n igual a 5 min apenas 512345. Ok? Agora, para amostrar dez
por cento das linhas, podemos usar isso. Podemos usar
cinco operadores de Star Wars, amostra de
slides sublinhados. Suporte 0,1%. 0,1 significa dez por cento. E isso lhe dará os dez por cento
dos dados. Ok? Ele separará
os 10% dos dados. Agora, usando slides para obter o valor
mais baixo ou mais alto. Portanto, podemos usar o filtro
Star Wars para não esconder. E então podemos usar a fatia. é próximo passo O
próximo passo é selecionar colunas com a seleção desativada quando você trabalha com um grande
conjunto de dados com muitas colunas, mas apenas algumas são
realmente interessantes. A seleção de poucas
permite
ampliar rapidamente um subconjunto útil usando avaliações que geralmente funcionam com
uma saída única na posição da
variável numérica. Então, selecionando colunas por nome. Assim, você pode usar os operadores de tubos de Star
Wars selecionar a cor do cabelo e a cor dos olhos. Então, isso lhe dará a cor
do cabelo e dos olhos. A rainha e somente essa linha. E se você selecionar as
colunas fatiando, podemos usar a cor do cabelo
e a cor dos olhos,
ambas não são iguais. Então, queremos selecionar isso. Neste resultado, você pode ver a cor do cabelo e a
cor dos olhos não estão lá. Todas as outras colunas estão lá, mas a cor do cabelo e dos olhos estão bloqueadas e não estão incluídas. seleção de colunas com
os critérios específicos termina com a cor. Então, queremos selecionar os dados um para o outro,
qualquer coisa com essa cor. Então, deixe-me analisar essa cor de cabelo, cor
da pele e cor dos olhos. Três colunas terminando
com a cor. Agora, mutar, mutar de
Sun permite que você faça isso, permite a criação
de novas variáveis. Isso é extremamente útil
para análises estatísticas. Então, aqui está o operador de tubos de Star
Wars altera a altura para a altura em 100. Então, o que adicionamos? Aqui? Estamos obtendo
a altura do Star Wars e dividindo-a por 100 e criando um novo sublinhado da altura da
coluna. Em seguida, selecione a altura, altura e tudo mais. Então, deixe-me fazer isso e ver
o que obtemos C aqui, estamos obtendo a altura
sublinhada de uma nova coluna aqui, e isso é 172
dividido por cem, então 1,72 e todas as outras colunas de
Star Wars, estão incluídas. Dessa forma, podemos alterar o novo sublinhado de altura da coluna
m no conjunto de dados. E podemos alterar a
nova coluna e obter o novo valor
para essa coluna usando a função mutate. Ok? Agora, o modelo de regressão ajustado
com a altura como exame, exame três valioso e Marte, qualquer variável de resposta,
incluindo o outlier, exibem as estatísticas
resumidas da cooperação existente. Então, aqui usamos um modelo
de regressão. Usaremos a função lm,
altura e massa
e, em seguida, valores de dados, Star Wars e resumo. Vou usar isso. Então, deixe-me fazer isso. Veja aqui, estes são os
resumos que estamos recebendo. Também podemos traçar esse modelo
de regressão. Vamos ver aqui, obteremos
esse resíduo para alavancagem. Ok? Então, se você quiser
entrar em detalhes,
você pode ver a água, o coeficiente que estamos
obtendo, o valor de ReLu p, todas essas coisas, você pode ver
qual é a mediana mínima. Primeiro quartil, terceiro
quartil, valor máximo. Todas essas coisas que
você pode analisar, você pode ver aqui o Q-Q normal
e os resíduos padrão e localização
teórica do
bloco do quadrante. Todas essas coisas. Você
pode analisar sua agenda, contratar alguém e
traçar
o modelo de regressão com
base na altura e na massa
a partir dos dados. Foi dito que esta é a
rápida prática de usar
a função de plotagem o modelo de regressão com
base na altura e na massa
a partir dos dados. Foi dito que esta é a , uma biblioteca em D bemol no R.
Então, espero que você saiba o que é D bemol e como podemos usar as diferentes
funções, como mutex, selecionar Filtrar,
resumir e não são todas essas coisas.
A próxima palestra.
69. Regressão linear simples com o conjunto de dados da qualidade do ar: Olá e bem vindo de volta. Nesta palestra, na verdade,
vamos fazer outro projeto simples em que vamos usar a regressão
linear. E o que faremos com
a regressão linear para tentar encontrar a
linha mais adequada para nosso conjunto de dados. Ou seja,
conjunto de dados de qualidade do ar que está prontamente disponível
com o R. Portanto, esse conjunto de dados de qualidade do
ar está
disponível com o r. E este é o conjunto de dados sobre a medição da
qualidade do ar de Newark. Ok? Então, vamos entender o que são esses dados
e, em seguida, o que
vamos fazer com esse conjunto de dados e o que vamos
conseguir com a regressão
linear. Portanto,
medições diárias da qualidade do ar no Iraque, de maio a setembro de 1973. Então, esse é o
conjunto de dados que trata. Está medindo a
qualidade do ar na cidade
de Nova York de maio de 1973 a
setembro de 1937. O conjunto de dados é a qualidade do ar. E vou formatar o formato dos dados com as 153 observações
em seis variáveis. E quais são essas variáveis? Camada de ozônio, qual é a
quantidade de níveis ordinais? Portanto, r ponto r será número
numérico e
estará nos pulmões. E esse será o PPB. A velocidade do vento será de MPH
e, em seguida, a temperatura
estará em Fahrenheit e no mês de um a 12
de janeiro a dezembro. Ok. Portanto, ozônio significa leituras diárias dos seguintes valores de qualidade
do ar. De 1 a 30 de setembro de 1973
foi retirado e listado no conjunto de dados. Não quero dizer ou não
em partes por bilhão. 1300-1500 h na Ilha Roosevelt. Ok. Tão alto
quanto ao que isso representa, interrompendo a radiação
solar no arrendamento de terras na faixa de
frequência 4000-7700, Armstrong
angstrom, das 08:00 da manhã
às 1.200 h no Central Park. Vento. Esta é a média quando a
velocidade em milhas por hora, 7-10 h no aeroporto Land Gorilla significa que esta é a temperatura máxima
diária em graus Farenheit
neste aeroporto. Ok, então isso é tudo
sobre o conjunto de dados. Vamos passar para o código. Então, eu já
escrevi o código. Eu vou te explicar o que
vamos fazer. A primeira coisa
é que precisamos usar o conjunto de dados que está
disponível com a arte, ou
seja, a qualidade do ar. Portanto, podemos usar dados e
podemos usar a desigualdade. Ok? E aqui podemos visualizar os dados com
a visualização,
função, visualização e, em
seguida, quantidade. E veremos os dados. Então, esse é o conjunto de dados. Temos as seis colunas
ou dados solares de John. Esta é a radiação solar, a velocidade
do vento, a temperatura, temperatura
mais alta do dia
e depois o mês, em que
mês? E esse é o dia. Então eles têm a temperatura do mês e do mês em
que ele dividiu a radiação
solar, solar e origem. Ok? Então, isso é tudo sobre o conjunto de dados e ele contém
um para cada três dados, ok, um roxo, três
linhas neste conjunto de dados. Agora, o que eu quero fazer simplesmente traçar isso ou Joan e a radiação solar em um gráfico e ver
o que estamos obtendo. Então, deixe-me traçar esses dados. O eixo x é sobre a radiação
solar e a camada de ozônio será representada
no eixo y. Então, em um determinado dia, a radiação solar
será essa e a origem, qualquer quantidade, será essa. Então, esse é o gráfico
que estamos obtendo. Agora, o que eu quero fazer com
a regressão linear, quero encontrar a linha de
melhor ajuste
que represente esse
conjunto de dados corretamente. Então, qual será a
linha mais adequada? Algo parecido com isso. Algo que dividirá
os dados de forma quase igual. E com isso, podemos adivinhar qual será a
radiação solar em um determinado dia. Então, se você seguir essa linha, como se y fosse igual a mx mais c será a equação da
linha reta. Então, se traçarmos essa linha em um determinado
dia, podemos adivinhar. Ok, então o que
eu vou fazer é descobrir
qual é a média da quantidade de ozônio, camada de ozônio. Qual é a média
do que eu perco,
eu perco o que é
extraído dessa qualidade do ar. dólar da qualidade do ar ou John nos
dará a origem, o valor para cima ou para baixo
do conjunto de dados de qualidade do ar. E aqui o que estou
fazendo, qualquer dado verdadeiro de cada trimestre significa que, se
os valores não estiverem disponíveis, acabamos de ver, não consideramos isso. Ok? Então, com isso,
encontraremos a média da origem. Portanto, o valor médio
da origem é 42. Então, será
algo como aqui. O que vou fazer é desenhar uma linha reta que
representará o
valor médio da origem. Então, deixe-me executar essa coisa aqui. Essa linha reta
representa a média da origem. Ok? Agora, o que vou fazer é usar a regressão linear para
ajustar a melhor linha possível. Ok, então, como podemos fazer isso, podemos usar a função lm, função modelo
linear,
e podemos usar a origem e a energia solar
realmente sensíveis aqui. E então eu vou usar os dados de qualidade
do ar. Ok, então, a partir dos dados de qualidade do
ar, use esses dois
parâmetros ou não responda muito que são radiação
solar. E vou tentar criar nosso modelo de regressão
linear. Então eu criei, agora vou ver
o que nosso modelo está oferecendo. Então, deixe-me colocar isso
no lado direito. Então, veja aqui, estamos
obtendo esses coeficientes. valor de interceptação Y é esse e tão alto para
os artistas, ok? Agora,
o que vou fazer tentar, com esse modelo, encontrar
a linha de melhor ajuste que
represente totalmente nossos dados corretamente. Então, o que
eu perco, eu perco a linha AB, e vou passar esse modelo
que criamos com a função lm e
nosso jogo colateral. Quero dar uma
cor diferente à linha mais adequada. Então, eu estou usando o
código de cores aqui, laranja. Então, deixe-me fazer isso. CEO. Agora, essa linha laranja é a linha mais adequada que
estamos obtendo para essa coisa. Então, isso representará
o valor
do valor regularizado
da camada de ozônio enterrada
na radiação solar. Essa é a linha de melhor
ajuste que
obtemos da regressão
linear. Portanto, com base nesse suporte de um dia
PIP3 de dados que
temos, queremos prever isso. Então, podemos ver que qual é o suporte que eu
quero prever aqui? Então, essa radiação solar,
suponha aqui, e isso nos dará o valor jarda delta que
será em torno de 60 ou 75. Ok? Dessa forma, podemos
encontrar a linha de melhor ajuste usando a função lm
ou regressão linear. Ok? Então, é assim que podemos usar a regressão linear para
encontrar a linha de melhor ajuste.
70. Lidando com valores em falta: Olá e bem vindo de volta. Nesta palestra e nas
próximas palestras, vamos lidar com
os valores faltantes em R. Então, veremos como podemos lidar com os valores faltantes
em nossa programação. Porque sempre que você inicia um projeto de ciência de dados ou um projeto
de aprendizado de máquina e começa a
trabalhar nos dados. O primeiro passo é explorar
os dados. Você precisa ler os dados e
entender os dados. Quais são os valores existentes? O que são esses dados que você realmente
precisa entender? A menos que, até que
você
entenda os dados, você não consiga criar nada ou obter
informações sobre esses dados. Portanto, é o primeiro passo
para entender os dados. E uma vez que você tenha a
compreensão dos dados, quais são as colunas
que existem nos dados? Quais são os valores existentes? E do que esses dados
estão falando, para
que servem esses dados? Então, uma vez que você tenha
esse entendimento, uma vez que você tenha a
compreensão da versão beta, do
que os dados estão falando, para
que servem os dados. Você pode interpretar esses dados
e, uma vez que tenha entendimento, pode se basear nesses dados. Portanto, logo no primeiro passo,
você deve ter em
mente que precisa
entender os dados. Você precisa entender
quais são as colunas e para que servem
essas colunas? Que tipo de dados
estão sendo
armazenados nessas colunas. Assim que tivermos esse entendimento, você poderá começar a
trabalhar nos dados. Você pode começar a trabalhar em seu ciclo de vida de aprendizado de máquina ou ciência de
dados. E a única
etapa muito importante para trabalhar com os dados e criar aprendizado
de máquina ou inteligência
artificial. modelos de ciência de dados lidam com
os valores que faltam. Sempre que você vê qualquer conjunto de dados, pode ver que
há muitas colunas, muitas linhas nas quais os dados não
estarão disponíveis. E o que isso significa. Isso significa que sempre que coletamos os
dados por meio de formulários, pesquisas e coleta de informações dos usuários. Portanto, sempre que coletamos
dados do
raio de usuários , você é apenas um grande
grupo de usuários. Às vezes, eles odiavam compartilhar
seus dados ou, às vezes não
tinham um tipo
de nível de protótipo com eles. Então, eles ignoram os pontos de entrada do
Dojo. E quando coletamos esses
dados e criamos nosso conjunto de dados, podemos descobrir que
há
muitas, muitas colunas, muitos valores
que estão faltando. E para que nosso conjunto de dados funcione adequadamente em nosso modelo
de aprendizado de máquina ou
inteligência artificial, você se reabilita para lidar com
os valores que faltam. Portanto, é uma tarefa muito comum na análise
de dados lidar
com os valores ausentes. Em nossa programação. Os valores faltantes são
representados por um a e isso significa que não são
aplicáveis ou qualquer outra coisa. Você pode entender como os valores
ausentes são representados por um a e
, de outras formas
, também são representados por 99. Ok? Portanto, a etapa muito, muito importante é lidar
com os valores que faltam. Portanto, ao lidar com
os valores que faltam, temos que seguir
as três etapas. A primeira é provar
os valores que faltam.
O que isso significa? Isso significa que temos que
examinar o conjunto de dados e testar
o valor que falta. Temos que ver quantos valores
faltam. Onde estão os valores que faltam? Portanto, temos que encontrar
os valores que faltam. Então, depois de
testar os valores faltantes no conjunto de dados, precisamos registrar
o valor ausente. A segunda etapa é decodificar os valores ausentes
para o que está
decodificando os valores ausentes é que
temos que colocar alguns, outros valores no
lugar dos valores faltantes. Suponha que tenhamos nossos dados de idade em que alguns de vocês simplesmente
não tenham fornecido detalhes sobre a idade. Então, o que podemos preencher aí, podemos entender o significado disso. Você acabou de comer tudo
o que a justiça juvenil significa ou média é que podemos
atribuir ao valor que faltava. Então, seja qual for a fonte que você escolher,
quem não tiver a idade, escolher,
quem não tiver a idade,
podemos colocar o
valor médio da idade do grupo lá. Dessa forma, podemos registrar
os valores que faltam. Portanto, precisamos registrar os valores
ausentes com base em algum algoritmo, como
média, todas essas coisas. Ok? Então, a terceira etapa
é que podemos, ou pensamos, ou a outra forma seria
excluir o valor que falta. Então, de outra forma, em vez de gravar,
podemos excluir as linhas de valores
ausentes. Portanto, podemos simplesmente remover as entradas que
não têm suporte,
ajudar a apoiá-lo. Nós temos o nome, você apenas cidade, a idade e os detalhes do
emprego. E se algum usuário
não tiver a idade dele, podemos simplesmente remover
esse usuário do conjunto de dados para que possamos
excluir os valores ausentes. Então, essas são as três etapas para lidar com os valores
ausentes. E no próximo exercício,
na próxima aula, faremos uma atividade
prática simples na qual veremos como podemos
identificar os valores faltantes, como podemos registrar
o valor ausente e como podemos excluir
os valores ausentes. Portanto, a próxima palestra será
totalmente prática, lidando com os valores que faltam. Então,
nos vemos na próxima palestra.
71. Teste os valores em falta: Olá e bem vindo de volta. Então, na palestra anterior, vimos como podemos trabalhar
com valores faltantes em R, ou como lidar com os valores
faltantes em R. Vimos quais etapas precisamos seguir. Precisamos seguir
essas três etapas. Ou você pode dizer duas etapas. Você pode registrar os valores ausentes ou
excluir o valor faltante. Portanto, o primeiro passo é
provar os valores faltantes. Precisamos testar e encontrar os
valores
que faltam no conjunto de dados. Em seguida, a segunda
etapa é necessária, os valores ausentes ou excluir os
valores ausentes no conjunto de dados. Então, vamos começar com a
primeira etapa, que é testar os valores ausentes. Então, como podemos testar
os valores faltantes. Então, eu escrevi esse código e faremos a largura prática. Então, deixe-me dizer
o que estou fazendo aqui. Estou criando um vetor
com alguns valores ausentes. Então, estou criando um vetor 1-6
e, em seguida, estou incluindo um valor NA que está faltando valor e, em seguida, oito a
dez e depois ausente. Bem, quando executamos esse
vetor, veja o que obtemos. A saída é 123456
porque de um a seis. E então, quando qualquer valor, então 89108 a dez e depois qualquer. Portanto, temos dois valores
ausentes aqui. Este conjunto de dados que estamos
criando por nós mesmos. Ok, então, para dizer
qual é o valor que falta, estou apenas incluindo o valor que
falta no vetor. Ok? Agora suponha que esse vetor
x que temos, que tem dois valores
ausentes. E não sabemos
aqui que podemos ver, então sabemos que
faltam dois valores. Mas suponha que não
saibamos, não estamos cientes, não
estamos, não estamos vendo como podemos. É um grande conjunto de dados,
não apenas uma linha. Pode haver um conjunto de dados que
tenha várias linhas, milhares de linhas, você sabe,
encontraremos os valores que faltam lá. Então, podemos simplesmente
executar um teste, ou seja, Annie é alguma, e então precisamos
passar o nome do conjunto de dados. Ok, então aqui vamos passar
o extrator ativado, encontrar o valor que falta. Ele dirá que, se
faltarem valores, dirá verdadeiro. Ok? Então, cada NA e valor ausente, ele
passará por esse vetor, vetor
x, e
encontrará o valor que falta. E um valor ausente está lá, ele retornará verdadeiro. Então, deixe-me fazer isso. Aqui. Estamos ficando falsos, falsos, falsos,
falsos e verdadeiros. Então isso é para 1234566. Falso significa que não
falta nenhum valor até seis. Então, para o sétimo
lugar, há algum, e por isso está nos
devolvendo verdadeiros. Então 8910, falso, falso, falso. E para até dez, existe algum, então
está voltando a ser verdade. Portanto, ele retornará o
verdadeiro para os valores ausentes. Dessa forma, podemos
descobrir que
faltam valores para
esses dois valores. Ok? Agora vamos criar um DataFrame
com dados ausentes. Então, estou criando um DataFrame. Df data.frame é a maneira
de criar DataFrame. E aqui estou criando
quatro colunas, coluna um, coluna dois,
coluna três, coluna quatro. E na coluna um, estou dando 123 e uma
coluna para esse NA é, então esses são os valores que estou
colocando no DataFrame. Ok? Então, deixe-me executar este DataFrame
e vi a saída. Então veja aqui, o
DataFrame é assim. Coluna um, coluna dois, coluna três
coluna para coluna um terá 123.1 e coluna dois
terá este é um texto. Coluna três, verdadeiro,
falso, verdadeiro, verdadeiro. Ok. Então, a coluna quatro
será 3,55, 0,26, 0,2. E então esse é o DataFrame
que eu criei. Agora, eu quero identificar que
n está no DataFrame completo. Neste quadro de dados,
quero encontrar algum. Então, eu posso simplesmente executar o teste com um a e posso
primeiro usar o DataFrame V0. Portanto, cada quadro de dados
inserido retornará verdadeiro ou falso. Então, esse NA, que está aqui, coluna um, quarta linha, estamos examinando,
depois outra entrada aqui. Então, estamos passando por aqui. E isso é mais um
e mais dois aqui. Isso significa que neste, ok? Então, dessa forma, podemos executar
nosso teste de qualquer forma. Suponha que você queira identificar qualquer coluna específica do DataFrame. Então, eu quero verificar se
esse DataFrame tem algum valor na coluna dois para
que eu possa executar o teste. E então o
nome do DataFrame df dollar column two. Então, o que ele retornará, ele retornará o verdadeiro
e o falso para a coluna. Então, vamos analisar isso
e ver seu falso, verdadeiro, falso, falso.
Por que isso é falso? Porque na coluna dois, o valor está lá, então ele
está retornando falso. Pois N8 está executando true para is e text é
Dunning, false, false. Isso significa que
falta um valor na coluna dois. Dessa forma, podemos
descobrir que os valores de NA
são valores ausentes em
uma coluna específica. Agora podemos executar a função sum e identificar a contagem
do NINR DataFrame. Portanto, podemos usar um pouco de
off se qualquer df for N A e precisarmos passar
o nome do conjunto de dados. Então, vamos fazer isso e ver
aqui agora que estamos recebendo três. Então, há três. N está no quadro de dados. Agora, a soma da coluna é df, ela fornecerá a soma dos valores
faltantes nas colunas. Ok? Então, vamos executar isso e
ver se é feito na coluna um, linha, um, coluna
21, coluna três. Não faltam dados. E coluna por um. Então C, coluna três, tudo está lá verdadeiro, falso, verdadeiro, falso, e não
temos valores ausentes
na coluna três. coluna três suporta
se eu colocar algo, alguns outros valores,
em vez de verdadeiro/falso, colocarei um pouco de marrom. Alguns valores que precisamos
colocar 20, ok? E agora execute o DF. Ok? Agora, execute isso. coluna três não tem nenhum valor faltante
porque arredondou para 905123 todos os
dados disponíveis, certo? É por isso que isso é feito em
geral para a coluna três, soma do número, o número
total de valores faltantes
na coluna três é zero. Na coluna um,
falta um valor, que é esse. Na coluna quatro, há uma
razão, bem, é essa. E na coluna dois há um. Dessa forma, podemos testar os valores ausentes
em R usando is any, is any retornará
verdadeiro se houver um valor ausente
no DataFrame. Então é assim que podemos
dar esse primeiro passo. Na próxima palestra,
veremos como podemos obter um registro
dos valores faltantes. Nos vemos na próxima palestra.
72. Recodificar os valores em falta: Olá e bem vindo de volta. Então, na palestra anterior, vimos como podemos
trabalhar com os dados ausentes. E vimos
como podemos identificar os valores que faltam em um
conjunto de dados usando seu ponto, certo? Então, cada ponto e ele
fornecerão os valores que faltam. E agora, quando você sabe que os valores faltantes estão
no conjunto de dados, o que
podemos fazer é
registrá-los com algum valor
ou removê-los. Então, vamos ver como podemos registrar o
valor que falta em um conjunto de dados. Então, a primeira coisa é que podemos
registrar o valor que falta. Se for um dado numérico, podemos gravar com a
média do conjunto de dados, média dos valores, ok, média do valor. Podemos dizer que podemos portar dois. Então, aqui estou criando
um vetor x, ok? E vamos ver o que
há no vetor S. É 123456, depois um, depois
8910 e depois qualquer. Ok, então aqui estão
todos sobre dados numéricos. Então, o que
podemos fazer é seguir em frente e encontrar a
média dos dados existentes, ajustar nossos números numéricos,
números e preencher a média no lugar dos valores,
não faltam valores. Então,
o que podemos fazer usar o x, que é o conjunto de dados ou vetor e podemos encontrar um a de x. Podemos encontrar todos os valores de NA. E aqui podemos colocar
a média do valor de x. Assim, podemos encontrar a
média de x usando a função média e onde, onde quer que haja alguma que
não seja igual a verdadeira. Assim, podemos colocar o
valor médio no lugar. Removeremos os valores e colocaremos o valor médio
no lugar do envelope. Então, deixe-me fazer isso. E agora, tudo bem, então o Z aqui, agora temos o 123456
e no lugar de qualquer, temos 5,33 e depois 8910. E no lugar disso,
todo mundo tem esse 5.3. Então, deixe-me fazer isso de novo. Então, aqui, em vez de
um a, temos 5,33. Então, como estamos obtendo esse 5,33? Estamos obtendo a média de 1234561 mais dois mais
três mais cinco mais seis, mais oito mais nove mais dez, e dividimos pelo número de
valores quando obtemos 5,3. Então, no lugar dos anticorpos, estamos colocando o 5,33. Então essa é a única maneira de lidar com os valores
faltantes, estamos registrando o valor
faltante com esse valor médio,
que é 5,33. próximo passo é o DataFrame que reveste o
valor ausente como nitrogênio. Alguns, em alguns conjuntos de dados, os 99 representarão
o valor ausente. Então, suponha que esse seja o
DataFrame que estou criando, que tem duas colunas. E vamos executar isso e
deixe-me mostrar o DataFrame. A coluna
um do DataFrame, coluna 2123. E aqui, em vez de cinco
, está tendo 99. E a coluna dois
tem todos os poços. Então, esse 99 está fora de lugar. É como se faltasse um valor. Portanto, ele é tratado como
o valor faltante. Agora, o que podemos
fazer, uma coisa, podemos substituir esse 99
por um a para que o, ele esteja em vigor. Então, se quisermos substituir esse
d F igual a 99 dentro de a, podemos usar DFT e
entre colchetes df igual, igual a, igual a 99. E se for 99, precisamos substituir por DNA. Então, deixe-me fazer isso. Vejo você agora em 99, esses 299, temos os valores
N A, certo? Então você pode
substituir pelo inevitável. Se você não quiser
substituir por nenhum valor, você pode simplesmente
deixar-me mostrar o DataFrame
novamente com o 99. Agora, podemos colocar qualquer valor aqui. Se você quiser colocar cinco, você sabe que
deveria haver cinco e você pode simplesmente colocar cinco e C. Agora, os valores substituíram
as duas casas como cinco. Dessa forma, você pode lidar
com os valores ausentes. Podemos simplesmente colocar DNA, ok,
então, dessa forma, podemos registrar
os valores que faltam em nós.
73. Árvore de decisão: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos sobre a árvore de decisão, que é muito importante
no aprendizado de máquina. Então, aprenderemos tudo
sobre a árvore de decisão e
recomeçaremos do zero. O que é árvore de decisão? Então, primeiro, deixe-me dizer, qual é a nossa decisão. Uma decisão é algo
que tomamos todos os dias. Suponha que queiramos ir a algum lugar e suponha que eu queira
ir a algum evento. E para apoiar isso sou eu. E eu preciso, eu preciso dele para
levar um pouco de água, algum evento. Então, o que eu vou dizer se
o tempo está bom ou não, e com base no clima
está bom, eu vou subir. Se o tempo não estiver
bom, eu não vou. Portanto, isso depende
da condição climática. Então, aqui estou
distinguindo-os do jeito que são. Então, essa é uma espécie de
árvore de decisão que estou tomando. Estou tomando, estou
tomando decisões com base no clima e no apoio. Posso acrescentar mais uma
coisa, se isso for bom. E, novamente, quero
acrescentar algo como se eu estou bem e
não, certo? Então, se eu estiver bem, eu vou embora, vai ser sim. E isso não será. Então, tudo isso se tornará uma grande árvore de decisão em que a
primeira coisa que acontece é que o tempo está bom, eu vou, tempo não está bom,
eu não vou. E se é bom Também é um aplicativo para ver se
eu sou bom ou não. E então, melhor do que
minha condição de saúde, direi sim ou não. Então essa é uma grande árvore de
decisão, ok? Agora, então é assim que
tomamos a decisão, certo? Quando estamos dirigindo um carro, estamos dando uma olhada nele, observando as condições do
trânsito, e então estamos fazendo
nossa jogada, certo? Se a armadilha, se o sinal de trânsito
estiver verde, se moverá. Se estiver amarelo, vamos esperar. E se estiver vermelho, vamos parar, certo? Então, esse também será um tipo de decisão que estamos tomando. Então, o que é árvore de decisão? Se você quiser entender, temos que dar um exemplo. Suponha que eu tenha, suponha que
seja eu, esse sou eu. E eu quero ir
comer algumas frutas. E eu não reconheço frutas. Ok. Então alguém da minha
família, alguém, ele me disse que a maçã, maçã, maçã tem
duas características. É vermelho e
arredondado, certo? E então ele disse que banana, banana é de cor amarela
e não está errado, certo? Não é redondo. Na verdade, é longo. Ok. E então ele disse
que nós entendemos. Entendi que é de cor laranja. E isso não está errado. Ok. Não está errado. Então, agora eu vou ao mercado de frutas para
patos. E lá eu vi um teclado flexível. Eu vi um lojista que
está vendendo frutas. E ele tem muitas frutas, assim como
tem um monte de, desculpe. Ele acumulou um suporte
de banana. Essa é a banana. Então ele tem muitas bananas que, eu não sei, são bananas. Ok, então algo
em um cofre de banana, estou planejando fazer, desculpe pelo meu desenho ruim. E ele tem algumas frutas. Alguma bateria prova que ele tem. E então ele teve uma coisa de cor
laranja. Entendi. Ok. Apoio que
poucos reuniram lá. Então, agora vou
parar e estou pensando em como forçar a perda de água, com base em qualquer descrição
que
recebi de um membro da minha família, vou perguntar
à tecla programável qual pergunta vou fazer. Vou perguntar qual
é a cor, certo? Então, a primeira coisa que vou perguntar, como Egito ou vermelho
ou laranja, certo? Eu perdi você, Gita. Cor laranja. Então, a
protease de cor laranja. E se for, eu responderei diretamente,
será sim ou será. Tudo bem. Então, se for sim. Entendi que será classificado aqui. O S, as cenouras
virão aqui, certo? Então, todos os candidatos
virão aqui por causa disso, cor
laranja e
todas as bananas, porque
não são cor laranja. Então, todas as bananas
serão bananas, elas virão aqui. E mais velho. Maçãs também deste lado, certo? Porque eles também não
são de cor laranja. Então, agora eu tomei uma decisão. As frutas, eu classifiquei as frutas em duas
categorias, laranja ou não. Então, laranja, eu pego todas as cenouras e não laranja. Eu tenho a
banana amarela e as maçãs vermelhas. Agora, a próxima coisa que vou
perguntar ou não, certo? Rodada. Então eu recebo sim
e vou receber não. Certo? Até agora, todas as maçãs
virão aqui, certo? Todas as maçãs serão classificadas
corretamente, certo? E por enquanto, para saber
o que vai acontecer. Todas as bananas
virão aqui, certo? Porque as bananas não são redondas. Então, vou pegar todas
as bananas aqui. Então, agora veja, se você
olhar para essa coisa, podemos ver que isso
é tudo. Essa coisa toda é uma árvore de decisão porque
parece uma árvore, certo? A árvore tem galhos
e folhas, certo? Então esse, o principal, esse é chamado de nó raiz. O nódulo raiz e os nódulos
infantis que estamos obtendo
e os lábios digitais, certo? Ok. Então, esta é uma
árvore de decisão em que
eu sou o primeiro, estou vendo todas as frutas e decidindo se
elas são laranjas ou não, depois estou classificando os dados que estão sendo
classificados corretamente. Então, a banana unipolar aqui
e depois é sua própria, então as maçãs e as bananas
são classificadas corretamente. Classifique as frutas com
base em sua cor e salve. Então, basicamente, as árvores de decisão são usadas para problemas
de classificação. Então, os séculos são usados em
problemas de classificação, certo? E a média desse nó, desse nó, desse nó, do nó raiz aqui. Isso é chamado de entropia. Então, o que nossa entropia significa, quanto maior for o número de itens
nesse nó raiz, mais densa será sua árvore de
decisão. Ok? Então, o que eu preciso fazer, eu preciso combinar cada decisão
com cada nó. Preciso de cada nó para
reduzir a entropia. Então aqui a entropia está aqui, então o trapézio
será o mais alto. E então, com cada
decisão, preciso reduzir o valor da entropia para que
possamos classificar esses itens. Ok? Então, isso é chamado de entropia. Então, cada traço ocular
e nós
seremos, estaremos reduzindo
a entropia, correto? Veremos na
próxima palestra como
reduziremos a entropia. Então, aqui
podemos ver como podemos
usar isso e eliminá-lo
também com a titulação
e alcançar o nódulo infantil, como reduzimos a entropia
na próxima aula. Mas, por dentro, essa é a
árvore de decisão e é assim que
classificamos as coisas no aprendizado
de máquina usando a árvore de decisão. E é assim que tomamos
a árvore de decisão, também
faremos nossa parte prática
nas próximas palestras. Primeiro, examinaremos
toda a parte teórica e, em
seguida, passaremos para
a parte prática, na qual
classificaremos seu problema de aprendizado de máquina usando a árvore de decisão
em nossa programação. Nos vemos na próxima palestra.
74. Ganhar Entropia e informações: Então, nesta palestra, vamos ver como a árvore
de decisão, como funciona a árvore de decisão? Ok? Menos de três. Trabalhar. Ok. Então, para isso, deixe-me contar algumas
noções básicas antes de prosseguirmos. Então, em primeiro lugar, nesta
decisão, árvore de decisão, estamos
tomando várias decisões. Então esse é, esse é conhecido
como o nó raiz, ou esse é conhecido como
o nó raiz, certo? Portanto, este é um nó raiz. E então esses são
chamados de nódulos foliares. Então, este é o nódulo da folha. Este é outro nódulo foliar. Eles são chamados de nódulo foliar, ok? Nó radicular e nó foliar. Ok? Agora sabemos o que é um nódulo
foliar e um nó radicular. Deixe-me levá-lo para outro conceito que é chamado entropia e vi que é
muito, muito importante. Então, deixe-me dizer
o que estou dizendo. Estou dizendo entropia. Então, o que é entropia? A entropia é uma coisa muito importante. Porque veja aqui, agora esse, isso é ter
mais itens, certo? Então, isso é um lançamento
de alta qualidade. Desculpe. Isso é ter alta entropia. Alta entropia, ok? E este está
com baixa entropia. É um tipo de população. Então, quando você
tem mais itens em um nó, ele tem alta entropia. E quando tem
baixo número de elementos, é chamado de baixa entropia. Ok? Portanto, a entropia é uma medida da falta de
sua coleta de dados. Curta mais
itens, como aqui. No nó raiz, você
tem os itens com,
com três cores, laranja, amarelo e vermelho e desativados para salvar. Então isso é ter
mais bagunça e certa. Então isso é ter alta entropia. E comparado com isso,
neste nó raiz está tendo uma entropia baixa e isso está tendo uma entropia
muito baixa. Ok? Então, deixe-me levá-lo para outro conceito
com isso e isso é chamado ganho de informação. O que é isso? É chamado, é chamado de ganho de informação. Então, o que é ganho de informação? À medida que avançamos para essa árvore de decisão do nó
raiz para o nó da folha, estamos obtendo informações. E com a
informação obtida, o que ela está reduzindo, a entropia é uma corrida de rua. Suponha que essas entropias,
pois essa entropia seja E2, para essas entropias, E3. E para isso, as entropias
suportam as entropias E3. Então, para cada um que eu rastreio
e você pode dizer que E2 será
menor que um, certo? Portanto, o valor de y1 é E1, E1 é maior e E2 está reduzindo. E2 é menor que Y1. E da mesma forma aqui, e3
será menor que E2. Ok? Então, o que é ganho de informação? O ganho de
informação é ganho de informação, se quisermos calcular, ganho de informação
será igual a y1 menos y2. Y1 menos y2 lhe dará
o ganho de informação. ganho de informação é a
diminuição da entropia
dividindo o conjunto de dados com
base em algumas condições. Então veja aqui. Agora temos dados de 1234567 aqui. E estamos colocando
uma condição, Agente, Laranja na cor
laranja dos protistas. E com base nessa
condição que estamos obtendo, estamos reduzindo o número de
conjuntos de dados aqui, dois e aqui 345. Então, estamos dividindo o conjunto de dados. Então, aqui a entropia está diminuindo. ganho de informação
é a diminuição da entropia dividindo o conjunto de dados
com base em alguma condição. Veremos como podemos
calcular a entropia. Essa é outra
coisa matemática que eu te informo. Mas, por enquanto, suponha que quando estamos descendo na árvore de decisão, a entropia esteja diminuindo. Anteriormente era e um, agora é E2, e mais abaixo está
descendo para e três. E um é maior que E2
e E2 é maior que E3. Ganho
de informação para isso, desse nó para esse nó
, está chegando a y1 menos y2. Ok, então é isso que
as informações obtêm. Então, qual é o nosso objetivo
da árvore de decisão? Quando dividimos o conjunto de dados
com base em alguma condição, nosso objetivo é
diminuir a entropia, diminuir a entropia para obter
as informações, certo? Então, o telefone principal morre para
obter mais informações. Ok, então, na próxima aula, veremos como podemos calcular o ganho de informações e como
podemos fazer com o conjunto de dados, como podemos dividir
os dados e como podemos calcular o ganho de
informações. E veremos qual é a equação matemática
do ganho de informação com, ok, então nos vemos
na próxima aula.
75. Cálculo de Entropia na árvore de decisão: Olá e bem vindo de volta. Então, nesta palestra,
aprenderemos sobre entropia e como
calculamos a entropia. Então, na palestra anterior, vimos como funcionam
nossas caminhadas distintas. E ainda assim eu quero esclarecer. O nó da folha será, este será o nó de uma folha. Este será o nó de uma
folha, certo? E esse será outro nó foliar
diferente, ok? Linfonodo, o nódulo final. Ok, isso vai ficar falado. E vimos como estamos quando
descemos mais fundo na árvore de decisão,
a entropia será
a zona
decrescente. O objetivo principal é chegar ao nó de dados, ao nó foliar, onde a entropia será menor do que
a entropia do nó anterior. E entropia e ganho de
informação. Aprendemos que y1 menos y2 será o ganho de
informação. Agora veremos o que é entropia e como
calculamos a entropia. Portanto, o tópico desta
palestra é entropia. Ok? Então, vamos
discutir em detalhes o que é entropia e como podemos
calcular a entropia. Entropia. Na verdade, suponha que
esse seja o suporte, essa é nossa única árvore de decisão. Suponha que essa seja a nossa, essa entidade onde eles
dizem F1, F2, F3, ok? E então, ok, então essas
são nossas folhas ao norte, certo? Esses são nossos gânglios linfáticos. E esse será o nó da folha. Pode o esporte ou o linfonodo. E esse é o nódulo
raiz, certo? Então, como calculamos a entropia? Suponha que em mais uma coisa. Só para lembrar. Essa árvore de decisão. As árvores de decisão são usadas para
problemas de classificação, certo? Problemas de classificação, certo? Então, basicamente, será a
classificação cruzada binária, sim ou não. Ok? Então, suponha que quando adicionamos
do nó raiz aqui, estamos chegando a esse F2. Estamos recebendo,
suponha que estamos recebendo três anos e estamos
recebendo dois nós, ok? E aqui estamos recebendo
quatro anos e três nós. E então aqui
estamos recebendo cinco anos. Estamos recebendo dois anos, e aqui estamos
recebendo três nós. Estamos apenas assumindo
esses valores, ok, e aqui para nós e suporte, aqui estamos recebendo três. Sim, e ele
gostava muito de
nós e apoiou este era ter a ferrovia que
este era ter a ferrovia por dez anos,
sete nós. Ok? Agora, como
calculamos a entropia, entropia é a
paridade da divisão. Então, este é o nosso conjunto de dados e estamos nos dividindo
em dois nós, certo? F2 e F3. Então, quão pura e quão
boa é essa divisão? É isso que vamos
decidir com base na entropia. Então, entropia. entropia é basicamente
quão boa é, quão boa é a divisão, quão boa é a sua divisão? Isso é o que a entropia
vai nos dizer e como calcular a entropia. que exista uma fórmula
simples que Suponha que exista uma fórmula
simples que
sustente que queremos calcular a
entropia de S, então será menos a
probabilidade de sim. E então registre
a mensagem com a probabilidade de sim. Você também pode dizer probabilidade
de
positivo , mais menos Alfa. Probabilidade de não logar
na base dois, probabilidade de Não, deixe-me escrevê-la
corretamente. Isso está diminuindo. Suponha que apoie a
entropia que estamos denotando com E. A fórmula da entropia
é muito simples. Menos a probabilidade de sim no logaritmo da base dois da
probabilidade de sim. Menos. Você pode transformar mais, menos probabilidade do norte em logaritmo do logaritmo de pashto,
probabilidade do nó. Então, esta é a fórmula para
calcular a entropia. Então, suponha que queiramos calcular
a entropia desse nó. Então, como podemos fazer isso? Então aqui o E será
a probabilidade de sim, sim será três. Então, três por contador total,
mais três para encontrar. Então, probabilidade de sim de
três por cinco anos. E então faremos o
log da base 23 por cinco. E o sinal de menos menos a probabilidade de negativo
será de dois por cinco. Às cinco. Logue a
probabilidade de negativo na base dois por cinco. Então essa será a entropia de, essa será a entropia
da nota F dois. Então essa é a fórmula. Você obterá algum valor aqui. Algum valor quando você calcula
obterá o valor. Então isso vai ficar escuro
e tirar você desse F2. Observe a entropia de F2,
você pode, certo? Ok? Então, a entropia de F2 zero será isso
menos três por cinco. A pobreza aparece
menos a probabilidade de negativa e precisará tomar
a base logarítmica de duas delas, probabilidade
positiva e probabilidade
negativa. Então, sim, você pode
dizer probabilidade de positividade, probabilidade
de positividade. E essa será a probabilidade de valores negativos e negativos. Ok? Dessa forma, podemos
calcular o valor da entropia. Então, podemos calcular o valor da
entropia para isso também, para isso também, para
isso também aqui, se você calcular o valor da
probabilidade, que é o único, não há
negativo, certo? Porque isso é o
N zero, certo? Então, suponha que estamos fazendo a divisão e
obtendo, suponha que aqui estamos, em vez de 4,3 nós, estamos obtendo três
anos e três nós. Então isso é muito, isso não é útil, isso é, isso não é uma
coisa útil, certo? Porque estamos recebendo
as duas coisas, três anos e três nós. Então isso não vai
dar nenhuma ideia, certo? Então, isso é muito negativo. Esse é um
tipo de divisão muito, muito ruim, ok? Portanto, seus dados não serão divididos dessa forma
em uma árvore de decisão. Então isso é descontinuidade
ou hóquei, porque quando você
calcula esse, será três por seis
menos três por seis. Basicamente, a probabilidade
negativa do barco
e a probabilidade
parcial são iguais, ok? Portanto, temos que
dividi-lo de tal forma que não devêssemos
receber essa coisa. Ok? Então é assim que calculamos a entropia com essa fórmula. Ok? E precisamos,
e o ganho de informação, conforme discutido, será o, suponha que este
seja E um ou E F1. E isso está aqui EF2. As informações coletadas de F1
a F2 serão E F1 menos F2. Portanto, essa será a
informação obtida de um nó para esse nó. Ok? Então é assim que calculamos a entropia
e o ganho de informação. Ganho de informações.
76. Cálculo de informações Ganho para árvore de decisão: Olá e bem vindo de volta. Então, na última palestra,
aprendemos sobre entropia. E o calcanhar está nessa árvore
decisória que eu desenhei. Abdullah,
um pequeno erro como Yolanda. No total, as cidades estão disparando
17, 17 itens
e depois S. E não há. Então, quando você divide
esses dois nós, três anos para saber. E para sim e
três nós, certo? Quatro mais 37,5, apenas 12, então cinco não estão incluídos. Então você pode, então
você tem que cuidar disso. Eu gosto por engano, não recebi os números
corretos aqui, mas isso não afetará nada do que eu ensinei
na palestra anterior. Portanto, somente os números são um total de 17 quando você está dividindo. Ok? Além disso, tudo está
correto e da forma como calculamos a entropia, essa fórmula está correta, todo
o resto está correto. E é isso que eu queria
esclarecer que isso aconteceria. Alguns outros números. Ok. E, tipo, três
ou oito anos ,
tudo bem. Nesse caso, seria meu erro. Eu escrevi 38 sim. Para saber 10.7, 17. Ok. E então aqui vai ficar um suporte de oito anos. E sim. Ou o McDonald's aqui, então será o correto. Ok. Ok. Então, agora vamos passar para o próximo conceito que é chamado de ganho de informação. Então, na palestra anterior,
o que eu disse, eu disse em fazendeiros
e o ganho é
assim em entropia
menos essa entropia. Portanto, este
jogo informativo do qual você obterá, a partir desse recurso de taxa F1 a F2. Mas esse não é o ganho
total de informações. Então, quando temos nossa
árvore de decisão totalmente formada, temos que encontrar o ganho de informações
da árvore de decisão total. Que jogo de informação? Novamente, estamos
chegando à totalidade. Então, deixe-me jogar como
Dawn e o que eu vou fazer criar uma árvore de decisão. Suponha que tenhamos
essa árvore decisória. Então, apoiou este
estágio, F1, F2, F3. Ok? Então, suponho
que este tenha n, sim e sete. Ok? E quando estivermos nos dividindo aqui
, suponhamos que ETS, nariz. E aqui estamos cortando. Que sejam esses três nós. Então, nivele e aqui estou eu recebendo
três anos e três. Não. Ok, então esta é uma, nossa árvore de decisão suporta uma amostra de árvore de decisão
que estamos criando aqui. Agora, para esse nó, entropia supõe que
E F1 suporte você. Estamos calculando a
entropia para isso, então. Sim, não, sete nós, estamos recebendo E F1. Para isso, estamos obtendo
uma propriedade como E F2. E para isso, estamos
recebendo E F 30. Ok? Então, agora isso se
baseia nesse ganho de informação. E a entropia bastará. entropia apenas dirá que,
com base no valor da entropia, podemos descobrir
como está nossa divisão, certo? Não
saberei se
todo o obeso escolheria
esse ou aquele, certo? Essa divisão, ou
essa divisão, certo? Então, suponha que possamos
fazer outra divisão, como começar com F2, começar com F2 e depois
ir para F1 e F3. Então, isso pode ser outra divisão. Então, não sabemos
qual é a correta, certo? Então, como sabemos isso? Qual estratégia ou divisão devemos
visitar seria como F1,
F2, F3 são maneiras, começaria com
F2, F1, F3, certo? Então, como podemos decidir isso? Podemos decidir isso pelo
termo que me informou algum ganho. Portanto, com base no
ganho de informações, podemos decidir. Que caminho devemos seguir, menos ir por aqui ou por aqui. Ok? Portanto, isso será decidido
pelo ganho incremental
da árvore de decisão total. Então, como calculamos o ganho
total
e total de informações, e é isso que
vou te dizer. O ganho de informações é a
quantidade de informações que estamos obtendo para
toda essa árvore decisória. Então, para essa primeira coisa, o que precisamos obter, precisamos encontrar a entropia
para cada um dos nós, cada uma das características, ok, até agora suportadas, calculamos com base
na fórmula explicada
na aula anterior. Calculamos e obtivemos esses valores, E de um ano, PUI de três. Ok? Então, agora, quais informações ganham? Ganho de informações. O que as informações
obterão dessa árvore decisória? É como se a informação
ganhasse o nó raiz, seja, E, f, f1, f1 menos a soma de
todas essas divisões. Resuma todas essas
divisões como esta. E essa, a informação que você
ganha e deixa você de fora. Ok? Então, o que será, serão aqueles subconjuntos
de todas as subdivisões como esta é uma
divisão e esta é uma divisão no
mesmo nó, certo? Então, parte desse subconjunto, o peso total ponderado, ok? E então suporte E, F. Isso vai de z igual
a um para n suporte. Vamos de um número
de split para um ventilador E F1, ok? Então, suporte E F1, calculamos E, F um. Então, quais serão os
quantos subconjuntos temos aqui? Estamos recebendo dois subconjuntos. Um é isso e outro
é isso, certo? Então, qual será o subconjunto
desses oito mais 31111
e total é 17, 11 por 17 em E de f, dois. E depois mais três
mais 36 por 17. Total. A contagem é de 17 a E F três. Ok? Então, isso chegará
ao E F1 -11 por 17, E F2 menos seis por 73. Ok? Então essa fórmula, essa, essa expressão nos dará, essa expressão nos
dará algum valor. Suponha que eu não esteja calculando o valor
real, você pode calcular. Então, suponha que esse valor
estamos obtendo 0,53. E da mesma forma, suponha que também tenhamos calculado para essa árvore de decisão. Ok? O que significa essa entrada? E aqui estamos obtendo
o ganho de informações como vento por exemplo. Então, agora estamos entendendo, suponha que isso seja novamente
um e isso é novamente para ver como nosso algoritmo de
aprendizado de máquina, ou como decidirá
qual caminho devemos seguir. Devemos continuar com essa divisão. Essa divisão com base
no ganho de informações. Então, aqui estamos obtendo, novamente, eu apoio 5,53 e aqui
estamos obtendo ganho de 0,41, ganho informação um é
maior do que a informação
obtida, dois. Então, optaríamos
pelo valor mais alto. Quanto maior o ganho de informações, mais precisa
será a árvore de decisão. Então, vamos continuar com isso, seguir
essa árvore decisória. Então, vamos usar F1, F2 e F3. O ganho de informações
decidirá qual
árvore de decisão ou qual abordagem
devemos adotar para criar
essa árvore de decisão. E isso não faremos algoritmos
manuais ou de aprendizado de máquina. Ou a biblioteca diz
que eles farão isso automaticamente
para nós, mas devemos saber
como isso está funcionando internamente. E sempre que você
estiver tentando criar uma árvore de decisão para algum
problema ou aprendizado de
máquina, os algoritmos de aprendizado de máquina
criarão esses subconjuntos,
essas placas. E eles calcularão o, que calculará
o ganho de informação. E qualquer que seja o
ganho de informação maior
, essa estratégia será seguida. Dessa forma, o ganho de
informações é útil para decidir
qual divisão ou qual árvore
de decisão com acompanhamento com base em qual recurso
devemos dividir primeiro. O recurso um também é
baseado no recurso. Então, esse será o caso, pois o ganho de
informações é uma
dessas coisas importantes. Devemos conhecer a matemática por trás do ganho de informações. Apoie esses três, sim
e três nós aqui, o valor de entropia de
três será um. Por quê? Porque esse é um subconjunto totalmente
impuro, certo? Porque isso não é,
isso não é bom. Porque três S e três notam que ambos são
números iguais, certo? Então, essa é uma divisão impura e, para essa entropia, serão 11
coisas que esqueci de te dizer. O valor da entropia sempre
estará entre zero e um. O valor da entropia
estará sempre em 0-1. Se você está recebendo 10, sua divisão é boa. E temos que parar
a divisão aí. Ok? E se a divisão for, seu valor de entropia
está chegando a um, isso significa
que é uma divisão pura
ou impura. Ok? Então, para zero, vamos parar e em um será uma divisão impura. Ok? Então, isso que
você tem em mente.
77. Mãos na árvore de decisão em R: Olá e bem vindo de volta. Então, nas palestras anteriores, aprendemos
sobre a árvore de decisão. Também vimos como
criamos uma árvore de decisão. E vimos entropia. O que é entropia? Como calculamos a entropia e qual será
o valor da entropia. E então vimos como
calculamos o
ganho de informações e como ganho de
informações da árvore de
decisão
decidirá qual abordagem
devemos seguir, qual abordagem devemos adotar. Criador de livros, a melhor árvore de decisão para nossa formulação de problemas. E também sabemos que
essa entrada é usada para árvores para problemas
de classificação. Ok? Então, basicamente, um problema
de classificação binária com o qual
lidamos com a árvore de decisão. Então, nesta palestra, aprenderemos sobre como
vamos fazer isso, basicamente vamos escrever nosso código
para criar uma
árvore de decisão para nosso conjunto de dados. Então, aqui vamos
usar um conjunto de dados embutido
que vem com R, ou
seja, habilidades de leitura. Então, o que esse
conjunto de dados de habilidades de leitura tem e o quê, como criamos nossa árvore de
decisão para isso. Isso veremos nesta palestra. Vamos escrever o
código antes disso. Deixe-me contar algumas
aplicações da árvore de decisão. Então,
a árvore de decisão, se você quiser ver na vida real, você, as árvores de
decisão estão sendo
usadas quando estamos
tentando descobrir qual e-mail é spam, e-mail, qualquer
e-mail que não seja spam. Então, aí estamos tomando
disjuntamente, certo? Então, nesse tipo de projeto de
aprendizado de máquina, onde estamos, precisamos
decidir
se um e-mail vem de uma fonte, se é um spam ou não, aí, estamos basicamente
criando uma árvore de decisão. Estamos fazendo essa
jornada, spam ou não. Esse tipo de problema de
classificação binária é spam ou não spam. Então, no
departamento de saúde ou no setor de saúde, se você ver, detecta
um câncer de aplicativo, se pode ser um tumor, pode ser canceroso ou não, que podemos decidir com a ajuda
do aprendizado de máquina
e usando a árvore de decisão. E no
setor financeiro na Europa, você pode ver que, como nos domínios
financeiros bancários do BFSI, eles talvez o usem para decidir se concedem
empréstimos ou não. E eles também podem decidir
se o que é bom ou o que há de bom nosso mutuário com água ruim com
base em sua pontuação de crédito. Assim como a análise de risco de crédito, você pode usar
a árvore de decisão. Então, essas são algumas
aplicações reais de nossa árvore de
decisão e problema de aprendizado
de máquina que você pode pensar em resolver
com a árvore de decisão. Então, como resolveríamos isso? Basicamente, criamos um modelo e depois tentaremos
treiná-lo. E então, com base no modelo
treinado, tentamos fornecer os dados do teste e tentar decidir
todas essas coisas. Então, agora, vamos abordar esse
problema, essa palestra. Voltando a esta palestra, usaremos o conjunto de dados de habilidades de
leitura que vem com o
R, o pacote R. Então você está dizendo,
bem, o conjunto de dados e esse conjunto de dados realmente descrevem
a pontuação de
alguém, a habilidade de leitura de
alguém, as habilidades de leitura de alguém. Se conhecemos as
variáveis como idade, pontuação de
suicídio e se a pessoa é
falante nativo ou não. Então, se tivermos essa informação, se a fonte que eu
observo e o falante nativo não são
nada, podemos decidir. Podemos encontrar uma pontuação de
habilidade de leitura para uma pessoa negra. Então, vamos criar
uma árvore de decisão para isso. Ok? Então, em nossa programação, temos a função S3. Função S3 que usamos para
criar uma árvore de decisão. E isso requer duas entradas. Uma é a fórmula e outras sim. Então. C3 está usando duas fórmulas
na entrada e nossos dados. Veremos no código. Ok, então a próxima coisa é
escrever o código. Então, a primeira coisa é
criar uma árvore de decisão. Precisamos de um pacote
chamado festa. Precisamos instalar esse pacote. Então, se você não
instalou este pacote, você tem que escrever
o comando install dot packages,
installed packages. E você precisa fornecer
o nome do pacote. E então você tem que
executar o código. E isso instalará este pacote de
festas para nosso uso. Então, eu comentei isso. Se você não instalou, basta
descomentá-lo e executá-lo. O pacote de festas
será instalado. Depois de instalado,
basta comentá-lo para que esse comando não seja executado
todas as vezes. Ok? Então, uma vez que temos o pacote
party instalado, isso não é necessariamente para
criar uma árvore de decisão porque essa função do S3
vem com esse pacote. Precisamos usar esse pacote. Para usar um pacote em R, precisamos usar a biblioteca e, em seguida,
fornecer o nome do pacote. Então, empacotando minhas festas, e é por isso que estamos
escrevendo uma festa na biblioteca. Agora, esse grupo de bibliotecas cultivará esse conjunto de dados de habilidades de
leitura para que
possamos ver o que há
nesses conjuntos de dados. Então, podemos simplesmente executar essa cabeça. A habilidade de leitura da cabeça
fornecerá as primeiras. Os primeiros são dados
desse conjunto de dados de habilidades de leitura. Então, vamos fazer isso e ver aqui. Agora estamos obtendo as primeiras
seis linhas do conjunto de dados. Está dizendo a idade do falante nativo, suicídios e depois a pontuação. Essa é basicamente
a pontuação de leitura. Então, agora temos um
vislumbre desses dados. Podemos ir mais longe e
criar uma árvore de decisão. Então, aqui vamos usar o ponto
de entrada para obter a entrada. Podemos simplesmente, se você não
quiser colocar esse nome, você pode simplesmente usar a entrada. Então, aqui estou usando dados
de pontos de entrada e estou obtendo os dados dessa escala
de classificação. E então vamos avançar. E aqui estou apenas usando
um PNG de pontos de árvore de decisão. E esse será
o arquivo de imagem em que teremos nossa
árvore decisória impressa nele. E então estamos criando a
árvore aqui, árvore de pontos de saída. E estamos perdendo a
função S3 aqui e aqui, estamos fornecendo a fórmula de falante nativo
formalizado. E essa é a, essa é a variável dependente. E com base na idade, suicídios e em sua essência, decidiremos se somos falantes
nativos ou não, ok? E os dados são iguais
aos dados de pontos de entrada. E então estamos plotando o, plotando o diretório de saída. Então, vou colocar a árvore que estamos
obtendo dessa função. E esta é a fórmula, H
nativo mais
pontuação com base nessas três variáveis preditoras, vamos obter o valor do falante
nativo, ok? E então theta é igual
aos dados do ponto de entrada. E estamos planejando isso, ou produtividade ou
o que quer que estejamos obtendo com essa preocupação,
estamos planejando isso. Então, vamos fazer isso e ver como estamos obtendo
essa árvore decisória. Então veja aqui agora que temos nosso arquivo de árvore de
decisão criado. Veja aqui, esta é a
árvore de decisão que estamos obtendo. Ok? Então, ainda não decidimos como isso, ah, realmente, esse nódulo
foliar, certo? O sistema decidiu
automaticamente. E T são menores ou iguais a 3813 zeros
x está vindo aqui,
30, menos de 38,306
voltagem vindo aqui. E então é igual a R7. São menos de seis que virão aqui mais do que c
por causa do próximo ano. Então, isso
está sendo impresso à distância, está sendo criado
com a função S3. E aqui o
ganho de informações e tudo
será feito pelo sistema seco, ok? Portanto, não precisamos fazer isso, só
precisamos usar
a função S3 e provavelmente
a fórmula e os dados, e isso criará a árvore de
decisão para nós. Ok? É simples assim. Mas por que discutimos a teoria na palestra
anterior, porque devemos conhecer nos
bastidores o que está
acontecendo com essa função S3. E devemos ficar
atentos, ok? Só então você poderá ter sucesso
no campo de aprendizado de máquina
e ciência de dados. Você precisa conhecer as intuições
matemáticas por trás da árvore de decisão ou de qualquer algoritmo
que esteja aprendendo. Ok? Qualquer pessoa pode vir aqui e usar essa função S3
e criar uma árvore de decisão. Mas eles podem não estar cientes de como a árvore
decisória está sendo construída. O que é entropia, o que
é ganho de informação? E tudo bem, é
por isso que você deve conhecer as verdadeiras intuições por trás do
algoritmo de aprendizado de máquina. Ok? Então, com essa árvore
decisória, que conclusão estamos chegando? Estamos chegando à conclusão que, como qualquer pessoa cuja escala de
leitura é 38,3, menor que 38,3 e a
idade é maior que seis, não
é falante nativo, certo? Então, com isso, vamos
ter um lago. Se a idade for menor que, pontuação de
leitura for menor que
38,3 e a idade for maior que seis, a pessoa
não é falante nativo. Então é assim que podemos criar
a árvore de decisão em R.
78. Vantagens e desvantagens da árvore de decisão: Nesta palestra,
aprenderemos sobre as vantagens e desvantagens
da árvore de decisão. Então, primeiro veremos vantagens e depois veremos essas
vantagens das árvores de decisão. Ok? Então, metade da árvore
decisória das estimativas, ok? Portanto, isso não é realmente, como aprendemos, um algoritmo de
aprendizado de máquina muito popular. E resolva
de forma distinta os problemas de aprendizado transformando os dados
em uma apresentação como essa. Ok? Trate uma
apresentação como essa. E cada nó interno
da árvore é assim. E eles apresentam nosso
denota um atributo e cada nó de folha indica
o nível da classe. E o algoritmo da árvore de decisão
também pode ser usado para resolver problemas de
classificação e de
regressão. Portanto, não é como
quando um problema de classificação vazado pode ser resolvido com a árvore de decisão. Mas também podemos resolver os problemas de
regulamentação. Ok? Então isso já
foi feito, ok? Portanto, essa entrada pode
ser usada tanto para problemas
de degradação quanto
de classificação. Então, deixe-me dizer quais são as poucas vantagens
da árvore de decisão. Portanto, a primeira vantagem da árvore de decisão é
que ela exige menos custos e
requer um operador de
pré-processamento menos importante. Vamos nos separar do pré-processamento
dos dados, ok? Portanto, para a árvore de decisão ou em comparação com outros algoritmos de
aprendizado de máquina, você precisa trabalhar um pouco menos no pré-processamento dos
dados ou na preparação dos dados. Você pode dizer que eu gostaria de
uma pré-preparação, ou você também pode colocar aqui,
como preparação de dados. Então você precisa se esforçar
menos na preparação e no
pré-processamento de dados, ok? Então essa é uma grande vantagem
do aprendizado de máquina. Nosso produto. A segunda vantagem seria como se uma árvore de decisão
não precisasse ser ampliada. Não é necessário ampliar os dados. O dimensionamento dos dados
não é realmente necessário. Ok? Então isso também não é necessário e essa é uma grande
vantagem, ok? E então a terceira vantagem, podemos dizer que
isso geralmente
não requer a normalização do Beta. Portanto, mesmo que os dados não estejam
normalizados, você pode trabalhar com
a árvore de decisão. Normalização da greta. Está pronto, não é necessário. Ok? Portanto, isso também é
uma coisa boa no aprendizado
de máquina e
veremos essa árvore de decisão. Portanto, no aprendizado de máquina, os séculos e o algoritmo
em que o adjacente normal e Gil vinculam os dados não
são realmente necessários. Se você quiser, você pode fazer, mas não é realmente necessário. Não terá grande impacto se os
dados forem normalizados ou não. Se estivermos trabalhando
com árvore de decisão. A próxima vantagem é que a
falta de valores nos dados também não tem grande impacto
na árvore de decisão. Ok? Por exemplo, se você usar outros
algoritmos de aprendizado de máquina, precisará trabalhar
extensivamente para lidar
com o valor que falta. Mas na árvore de decisão, isso não vai ter, não perder
valor não
terá impacto na árvore de decisão. Sem impacto, ok, então não
vai impactar muito. Portanto, mesmo que existam
dados ausentes, você pode criar uma árvore de decisão
que não funcionará, você não
perderá nada que afete sua decisão ou
impacte suas previsões. Ok? O modelo de árvore de
decisão das próximas vantagens é muito intuitivo e fácil de explicar para equipes técnicas
ágeis em escala. Então, quando você vê
a árvore de decisão, é muito fácil
levá-lo a entender. É muito fácil de
entender e qualquer parte não técnica ou
técnica pode ser facilmente entendida. Então essa é a grande vantagem
de uma árvore de decisão. Portanto, mesmo que você queira apresentar
sua árvore de decisão a
um gerente, você pode facilmente fazer com que eles entendam
a árvore de decisão. Então essa é uma vantagem
de uma árvore de decisão. Além dessa árvore de decisão. Ou
como intuições muito humanas que você obtém com o Get
with the decision tree. Então, é muito, muito parecido
com o comportamento humano. Nós também, em nossas vidas diárias, aceitamos o mesmo
sim ou não, com base em algumas características ou
condições em que tomamos decisões. Portanto, é muito humano. Eu ficarei feliz com um algoritmo
semelhante ao humano. Ok, então essas são as
poucas vantagens com as podemos contar para o aprendizado
de máquina. Agora vamos ver as desvantagens
da árvore de decisão. Portanto, a primeira desvantagem
da árvore de decisão que
podemos ver é que essa parte é muito, não, confiável
se seus dados estiverem mudando. Ok? Então, o que podemos
dizer é que é instável,
tipo estável. E se os dados estiverem mudando, se os dados mudarem. Então, apoie você, você criou uma árvore de decisão e
há uma pequena alteração nos dados. Pequenas mudanças nos dados
podem ter um grande impacto, um grande impacto na árvore de decisão. Então essa é uma grande desvantagem
da árvore de decisão. Mesmo os pequenos
dados de treinamento podem causar grandes mudanças
na estrutura deles. Suporte da árvore de
decisão Esta decisão tem a seguinte aparência. Se você alterar um pouco os
dados, pode ter sido estrutura
totalmente diferente
da árvore de decisão e
isso vai ser um tipo
de grande impacto, certo? A segunda desvantagem
é que a árvore de decisão às vezes é mais complexa em comparação com
o outro algoritmo. Então, às vezes, para
dados mais simples, sua árvore de decisão
será complexa. Então, às vezes temos uma árvore de decisão muito
complexa. E se você usar algum
outro algoritmo, poderá obter a solução
mais simples. Portanto, você precisa ver se,
para nossa formulação de
problema específico, você realmente precisa de uma árvore de
decisão ou não. E se você estiver usando a árvore de
decisão, é mais simples do que o
outro algoritmo ou não. Se não for mais simples do que o outro algoritmo
no aprendizado de máquina, você deve usar o outro
algoritmo de aprendizado de máquina e não seguir em frente
com a árvore de decisão. Então, às vezes, fica
muito complexo. O problema do pescoço é como se o treinamento
de um modelo de aprendizado com árvore
de decisão fosse enorme, certo? Portanto, é preciso tempo e dedicação para treinar nosso modelo de aprendizado de máquina
usando árvores de decisão. Portanto, é demorado. O processo leva muito tempo
para treinar a árvore de decisão. O tempo gasto pela
distância é maior. Então, o tempo é caro, certo? Isso levará mais tempo
em comparação com outros algoritmos. E também é como se a complexidade também estivesse aumentando
na árvore de decisão. Outra coisa que podemos dizer que essa lição ou não
é realmente muito impactante. Então, se você usar uma árvore de decisão para problema de
classificação, problema de classificação, é bom. Mas para árvores de regressão, isso não é tão impactante, certo? Como eu entendi, mas isso
pode ser feito para ambos. Mas as árvores de
regressão não causam esse impacto. Então, essas são as poucas
desvantagens
das árvores de decisão com
as quais podemos contar. Então é isso para esta palestra. Essas são as vantagens e desvantagens
das árvores de decisão.
79. Apresentação do projeto: Olá e bem-vindo. Então, nesta palestra, vamos aprender sobre o projeto que
vamos fazer, de onde. Então, vamos fazer isso
de forma muito importante. É um
projeto simples de aprendizado de máquina que lhe dará clareza sobre o que um algoritmo
simples de aprendizado de máquina pode fazer. Em poucas linhas. Vamos usar
nossa programação e vamos
usar nosso conjunto de dados, que conterá os
dados anteriores da organização. E com base nos dados, vamos prever
os preços futuros das ações. Sim, você adivinhou certo? Vamos fazer
um projeto onde eles fizeram com base nos dados anteriores, StockData
anteriores
de dados históricos dos preços das ações. Vamos adivinhar preços futuros
das ações como a partir de agora. Qual será o
preço das ações em 100, 500 dias, ou após um ano ou dois
anos, após 30 dias, após 40 dias, qual
será o preço das ações? Portanto, essa será a previsão
de ações. Projeto, seu
aprendizado de máquina, ok? E vamos usar
nossa programação para isso. Portanto, um arquivo XML simples
conterá o preço das ações. E para isso, usaremos os
dados de preço das ações
do Google para o Google. E vamos dividir os
preços do Google em 400 dias ou 100, os dias são dias, ok? Então, vamos fazer o preço das ações para X e o
projeto. E para isso, temos esse conjunto de
dados no formato Excel, que contém
os dados históricos dos
preços das ações do Google 2019-2020. Ok. E veja quais
são as colunas aqui? A primeira coluna é data e começa em
26 de setembro de 19. E temos dados até
25 de setembro de 2020, quase um ano de
dados, ok, e então a segunda coluna é D, e então a terceira
coluna é aberta. Isso significa o preço de abertura. Quando o mercado de ações abre
pela manhã , qual era o preço? Portanto, esse é o
preço de abertura no sexto dia, septum auto toggle 19, que é o primeiro dia. O que acontece e
naquele dia foi de 1.245, que é o maior em um dia. E pouco desejou que fosse para 1.232. Então, em um dia começou a
partir de 1.241,95. Foi para a lei de
1.232 e
subiu para 1.245 e
fechou em 1.241. Então, esses quatro
detalham o quão
importante e ajustado o fechamento
é quase a mesma coisa. E então o volume,
como 15 lakh, 30.000 volumes estava lá. Assim, temos todos
os dados de 365 dias. Então, com base nesses dados, vamos prever os
preços futuros das ações até o Google. Se você traçar esses
dados em um gráfico, podemos ver como os preços
estão subindo e descendo. Então você pode ver aqui. Então, vamos traçar
esse tipo de gráfico também e ver como os preços estão
aumentando e diminuindo. Dias, está bem? Então esse é o
projeto que vamos fazer. E vamos ver, na
próxima aula, começaremos a importar esse
arquivo do Excel para nosso estúdio de arte
e, em seguida, escreveremos um
código simples e tentaremos prever o preço futuro das ações até as ações do Google
na próxima palestra.
80. Projeto - Prever preços de ações: Olá e bem vindo de volta. Nesta palestra,
começaremos com nosso projeto que
prevê o valor do preço das ações do Google em um determinado dia com base nos dados históricos
que temos. Portanto, temos essa planilha do Excel, que tem dados do
último ano, como 26, número 20192, até,
acho, setembro de 2020. Sim. Então, até 25 de
setembro, 20 países. Portanto, temos quase
um ano de dados de que o preço das ações
do Google está
conosco em todos os 365 dias do preço de abertura. Qual foi o alto valor da
ação em um determinado dia? Valor mais baixo. Qual foi o valor de fechamento e qual foi o volume? Então, todos esses dados que temos, com base nesses dados, tentaremos criar um
modelo onde possamos prever o valor das ações em uma data
específica, ok? Suponha que daqui a três dias, ou 500.500 dias, qual será a frase padrão? Eu diria 100 dias. Qual será a fase do AVC? Então, assim. Ok, então vamos começar o código. A primeira coisa
é o que podemos fazer. Podemos importar o ponto XLS do preço das
ações do Google, o arquivo Excel, para nosso estúdio. E como podemos fazer isso, podemos ir até o arquivo. E aqui precisamos acessar o conjunto
de dados de importação. Portanto, precisamos acessar
o conjunto de dados de importação. E aqui você pode ver que os impostos, os três NADH
do Excel, de várias fontes
de dados estão listados aqui. Então, o que precisamos selecionar aqui, precisamos selecionar
esse Excel aqui. No Excel,
basta clicar. E aqui precisamos
navegar
pelo arquivo em
que mantivemos nossos dados. Então, temos esse arquivo do Excel. Então, vou apenas abri-lo e cortar
digitalmente os dados. E uma vez feito
isso, nos dará
a opção de importação. Portanto, essa é uma forma de
importar o arquivo de dados
para o estúdio mais difícil. Essa é outra maneira. E isso também
veremos veremos aqui agora podemos ver a
prévia do código dessa importação. Está chegando como uma biblioteca. Eu não preciso do Excel e o preço das ações do Google
será o objetivo. E aqui usaremos a função Ler Excel e forneceremos ao bot
o
arquivo do Excel com o nome do arquivo. E então podemos usar
a visualização, esse objeto. Ok? E isso será para que
possamos simplesmente copiar esse código. E eu não sei por que
está demorando tanto tempo. Pode haver alguma ressonância magnética, então deixe-me cancelar isso e importar. Veja. Agora, os dados foram
importados para nosso estúdio. Sim, podemos ver os mesmos dados que estamos
vendo neste arquivo do Excel. Agora, podemos ver o interior
deste estúdio de arte. Ok, agora temos o, agora, se quisermos ver
esses dados aqui, veja se ainda não há Claudia. Mas, como importamos, podemos usar a visualização real. E aqui podemos usar o nome do
objeto sólido : sua mão. Podemos correr até aqui e ver que
a mesma coisa acontecerá. Mesmo se você quiser usar o
resumo dos dados. Alguém podemos executar isso e vamos
colocar esse conjunto de dados aqui. Média, primeiro quartil,
média mediana, valor máximo do
terceiro quartil na quantidade de
setembro de 2020 E era
1.710, o máximo é 1.733. Isso será o mais alto. E esse é o máximo
de abertura máxima. E esse é o
máximo mais alto, nem o máximo local e o máximo de fechamento. Ok? Dessa forma, podemos
ver o resumo dos dados, ok? Agora, em vez de usar isso, também
podemos podemos usar a biblioteca. Podemos usar a biblioteca de códigos. Não sei por que está chegando. Se você não souber o código, basta acessar
o conjunto de dados de importação de arquivos
e do Excel. E aqui você pode
ver o código aqui. Basta copiar isso e só
precisamos colá-lo aqui. E ainda assim você precisa
colocar o Read excel, e ainda assim precisamos
colocar o nome do bot. Ok, qual será a parte
aqui que vamos colocar? Posso simplesmente colocar isso. Então, estamos reorganizando a
biblioteca Read excel
e, em seguida, estamos usando o
nome do objeto em vez de usar a função do Excel e
fornecer a parte incorreta do arquivo XL. E então podemos usar o preço real das ações da Morgan e isso nos dará
o mesmo resultado. Isso e veja, sim, estamos
recebendo a mesma coisa. Ok? Então, dessa forma,
lemos e visualizamos os dados em nossa próxima etapa é que precisamos entender a
estrutura dos dados. Portanto, se você quiser entender
a estrutura dos dados, pode usar a função de
resumo, resumo do preço das ações
do Google. E você obterá o resumo
dos dados, como
já vimos. Dessa forma. A próxima coisa
é o que precisamos fazer. Precisamos visualizar os dados. Então, a próxima coisa é
o que precisamos fazer. Precisamos visualizar os
dados, visualizar os dados. Então, para isso, o que
vou usar, vou usá-los muito. Então, o que vou fazer, não
sei por que isso
está se tornando uma grande trama. E eu vou usar essa
coluna aberta e usar d e então
os dados ficarão bem. E então basta executar isso. O forno, nós operamos isso, vamos ver os dados. Na sua aula. Veremos o enredo aqui. Então aqui está o preço
de abertura e este é o dia 1-2, roxo. Assim, podemos ver os dados, como os preços de suas ações
estão chegando no fim de semana. Você visualiza aqui. Então, dessa forma podemos chegar mais tarde, mais tarde. A próxima coisa é o que
precisamos fazer. Precisamos usar a
regressão linear para prever a função. Então, o que vai usar? Vou usar o preço previsto. E pelo preço previsto, o que vou usar é uma célula hilum Fung e essa função lm, usarei na mesma
entrada que darei no dia de abertura. E isso foi feito neste conjunto de dados,
ok, arquivo Excel, dados
ALU, conjunto de dados. E então vou apenas
aumentar o preço previsto. Então, vou apostar
no preço mais alto aqui. Então, deixe-me fazer isso. Veja aqui que está dizendo o núcleo
presente e isso. Ok, agora o que vou fazer usar a função de resumo para ver o que estamos recebendo
por esse preço previsto. Até agora, esse
preço preditivo, mínimo, primeiro quartil, mediana,
terceiro quartil, todas essas coisas que estamos obtendo. Agora, o que vou fazer, vou prever a porta. Preditor do valor das ações em um determinado dia. Ok? Então, podemos fazer isso. Eu posso usar a função de previsão. E eu posso usar o preço. Sim. E então o que eu posso usar, eu posso usar o quadro de pontos de dados. Aqui. Eu posso fornecer que d
é igual a 350, ok? E isso nos dará, isso nos dará o preço previsto das
ações no terceiro dia. Então, deixe-me fazer isso, veja aqui. a taxa de mortalidade por
período, o preço das ações
será de 1.620 pontos. Se eu puder isso por 50. Assim, o preço das ações se separará. O preço das ações será de 1.700. Beneficiário, se eu colocar 150
, serão 1.400. Se eu colocar um, ele lerá 12.30.000. Veja, o preço das ações do Google quase
dobrará desde o primeiro dia. Dessa forma, podemos colocar o valor
d aqui e prever qual será o preço das ações naquele dia específico. Portanto, é um projeto bem simples
que você também pode experimentar. Você pode prever o suporte. Quero prever o valor
em um, por favor. Segundo dia. Em segundo lugar,
desta forma, ok, dessa
forma, você também pode
experimentar seu próprio conjunto de dados ou usar o mesmo
conjunto de dados que eu posso fornecer. Você pode baixar o
conjunto de dados
e tentar prever
o preço das ações. Você também pode criar
sua própria planilha do Excel e colocar
alguns valores aleatórios. E você pode colocar seus próprios valores
aqui e você pode prever, você pode pegar qualquer outro
conjunto de dados que tenha o ou alguns outros valores
que
você também pode tentar colocar no
mesmo código e tentar obter o valor previsto. Ok? Portanto, este é
um projeto simples usando a função lm para prever
o preço das ações do Google. Espero que você tenha entendido como
usamos o aprendizado de máquina e todas essas funções simples em R para prever os
preços das ações. Obrigada.
81. Análise de dados Uber do projeto 2 usando R: Olá e bem-vindo. Então, nesta palestra, aprenderemos
sobre análise de dados por meio de visualizações
em R. E, para isso, faremos
um projeto no qual usaremos dados, qual é o agregador de lacunas, provedor de
serviços para obter a solução certa em um aplicativo de evocação cab
x. Você pode ver. Então você
é o número um na parede para um provedor de
serviços de táxi. Então, vamos
usar os dados da UPA para análise de dados desse produto. Portanto, a motivação
para este projeto é conduzir
a visualização de
dados, a narrativa e como podemos usar os dados para analisá-los e obter informações
úteis. Esse é um componente importante do
aprendizado de máquina por meio do qual as empresas são capazes entender o histórico
de várias operações. O que isso significa? Isso significa
que suponha que o que é feito no serviço agregador de lacunas
e os motoristas de minitáxis estejam anexando seu aplicativo Over distinto. Em seguida, eu transmito e aceito fornecer o direito
ao cliente. Tão grande que é
se registrar no aplicativo e , em seguida, ele está tentando criar uma grande lacuna
com base na localização deles. Então, o que você
faz assim que faz
login e seleciona sua localização e seu destino para
onde deseja ir. Com base na sua localidade. Ele listará todos os bonés
próximos que podem chegar até você
no menor tempo possível. Será. Será. Será. Ele armazenará todas
as lacunas perto de você e, em seguida, definirá o sexo, a localização
e sua necessidade Ele terá a melhor aparência para você, o
que pode levá-lo
ao destino o mais rápido possível. Então, como isso faz isso? Você simplesmente tem muitos conceitos de IA, aprendizado
de máquina e ciência de
dados para analisar os dados e
causar uma recessão. Então, neste projeto,
vamos usar os dados. E vamos
analisar quantas estão acontecendo em um dia ou quantas taxas mensais
estão acontecendo em um dia. Quantos dos seus LEA
eu começo a acontecer mensalmente e DY é a que
horas do dia o VGS, esse tipo de análise que
vamos fazer neste projeto. Então, todo esse tipo
de operação que
podemos fazer com o **** papai, com a ajuda do aprendizado de
máquina. Com a ajuda da visualização as empresas podem aproveitar os benefícios de entender os dados
complexos e obter insights que
as ajudarão a entender que isso não é verdade. Portanto, a parte de visualização é muito importante porque, com
a vigilância, podemos analisar
rapidamente os dados e obter informações
realmente úteis, como a
que horas do dia é o BGN? Quais localidades têm
menos necessidade de cabine em que os usuários não recebem tempo de
cabine quando ela está atrasada. Todas essas análises que podemos
fazer com a visualização. Esses são mais dados visualizados em um projeto
que o guiará uso da biblioteca
ggplot2 para entender os dados e desenvolver
uma intuição para entender os
clientes que estão nos clipes de qual aplicativo. Ok, então isso é, isso é o que
vamos fazer. E o objetivo deste
projeto é aprender visualizações em R
e analisar os dados. Então, vamos começar. Portanto, antes de
prosseguirmos, temos os dados
ou arquivos do UVA conosco. E esses são os dados
do mês febril. E isso é ter quatro colunas, data, hora, latitude,
longitude e base. Então, essas são as informações
que vocês, amigos, estão capturando. Ok, então data e hora, longitude, latitude
e longitude. E a latitude
fornecerá a localização
da lacuna e da hora ou a hora em que eles estão
reservando e a base de onde é a melhor
localização para isso. Ok? Então, esses são os dados que temos. E isso é da mesma forma. Temos os dados do mês de maio, junho ,
julho,
agosto e setembro . E vamos analisar
isso com base nesses dados. Esses dados são bem simples. Data e hora,
latitude, longitude E então vamos ao arquivo. No entanto, estou usando R para
analisar isso. Então, antes de
prosseguirmos, vamos
importar a biblioteca de frutas, ou seja, GG plot two. Ok, então lubrifique
e organize suas habilidades de DT. Então, o que é GG plot
to GG plot twist. A biblioteca de
visualização de dados mais popular que é mais amplamente usada para criar gráficos de regulação
estética. Portanto, o enredo GG é muito popular em nossa programação
por criar e tramas muito
bonitas visualizações
, luvas e tramas muito
bonitas, muito
desanimadoras e
atraentes . Então, vamos
usar o gráfico GG dois. Em seguida, usaremos o Lubridate. É essa alavancagem
para o período de tempo. Usando os prazos
no conjunto de dados. Então temos a camada profunda que é a biblioteca de manipulação de dados
que vamos usar. Uma biblioteca antiga e importante, ela deixará seus
dados muito organizados. Nossos dados organizados significam pequenos, determinam os dados com os quais é
fácil trabalhar. Os dados. Se for fácil de trabalhar, podemos usá-lo em outra
biblioteca com essa facilidade. Então, usaremos a
biblioteca R organizada para organizar nossos dados. E então usaremos a novidade, as tabelas de dados na
biblioteca JavaScript que usaremos. Então, realmente alcançando
habilidades, habilidades. Essas bibliotecas costumavam, com a ajuda do gráfico, com a ajuda da escala
gráfica, mapear automaticamente os dados para as habilidades corretas
com o ****, com o próprio x bem posicionado. Portanto, isso nos ajudará a mapear
automaticamente os dados
para a escala correta. Então, para isso, precisamos
usar essa biblioteca. Portanto, antes disso, se você não instalou essas bibliotecas, acesse as Ferramentas aqui e clique
nos pacotes de instalação. E aqui você pode simplesmente pacotes
populares chamados yuk, como você pode colocar GG plot two. E então, se você
quiser juntar todos, você pode colocar temas GG
e colocar coma e escrever todos os
nomes, datas luminosas. Ok? Assim, você pode fazer isso, e você pode clicar em instalar esta biblioteca, isso para você. Assim, você pode
instalar os pacotes. Então, vou repetir novamente. Você precisa acessar o RStudio
para ir ao menu superior. Aqui você encontrará as ferramentas. Clique nas ferramentas e aqui você verá
as várias opções. Em rodopsina. Você precisa selecionar
o primeiro, instalar pacotes e, em
seguida, fornecer o nome do pacote GG plot two. E se quisermos instalar
vários pacotes ao mesmo tempo, você pode
colocar uma vírgula e dar nomes
aos pacotes
colocando uma vírgula entre eles
e clicando no estoque. Eu já
instalei
este pacote , então vou deixá-lo agitar. E se você não instalou, basta clicar em Instalar e ele será instalado
na zona rural da Austrália. Então, vamos prosseguir. Então, uma vez que nosso laboratório os use e os use, só
precisamos dizer
o mais difícil de fazer isso. Vamos usar
essas bibliotecas GG plot rho,
g times lubridate, tidy,
tidy verse, DT e escalas. Então, para isso, precisamos
importar a biblioteca. E então, no colchete pequeno, precisamos colocar o nome da
biblioteca GG plot two. E todas as bibliotecas
que
somos enormes, precisamos escrever dessa maneira. Ok, então, depois de escrever isso, selecione todas essas bibliotecas
e clique em Executar. E estará pronto para
os judeus na Europa. Agora, a próxima coisa,
o que
faremos, criaremos os vetores de cores, vetores de cores para os gráficos. Em nossos gráficos, usaremos as várias cores
para os gráficos. Em nossos gráficos, usaremos as
várias cores para torná-lo mais atraente e
esteticamente bonito. E para isso, criaremos
o vetor de cores. Então, aqui estou criando um vetor de
cores e estou dando C, e então estou dando
o nome da cor, o tipo igual ACCC 10166. Então, todos esses cinzentos verdes, amarelos, azuis, rosa, todos os
estudiosos que vamos usar. Então, esses vetores
criarão e executarão isso. Ok? E então o que faremos, a próxima coisa é
ler os dados de cada período de tempo e
comer. O que faremos. Temos o arquivo de dados de cada
mês, conforme avaliado em maio, junho, julho e agosto. Então, faremos isso
usando um csv de ponto de leitura. Você sabe que para
ler um arquivo CSV em R, lemos a função do método dot csv, então o dot CSV. E aqui daremos
o caminho para nosso arquivo de dados. Portanto, armazenamos o
arquivo de dados nesta parte, então forneceremos isso e o nome do
arquivo estará no final. Ok, então agora vamos tratar todos
esses dados mensais. Ok. Basta clicar nele e ver. Ele está sendo
lido com sucesso em agosto e
setembro e nos vemos correndo. Então, agora está feito. E a próxima coisa é o que faremos. Vamos combinar os dados. Agora lemos os dados
e os armazenamos
nessas variáveis. Significa junho, julho,
agosto e setembro. Agora, o que faremos é usar o método onBind para
unir os dados. Então, agora, todos esses seis
meses namorando um. Ok, então usaremos
os dados aqui. Método de vinculação estranha, e
passaremos esses objetos em maio, junho julho, e eles serão
concatenados juntos. Ok, então vamos fazer isso. Então, agora temos a sensação de
diamante do lago de dados para colunas
e as várias funções. Ok, agora queremos
ver como estão
os dados combinados. Então, usaremos a cabeça e forneceremos os dados do
objeto aqui. Portanto, ele imprimirá as primeiras
cinco colunas dos dados. Ok, venha meu último ano, agora, temos esses dados de
hora, latitude e longitude. E a próxima coisa é que usaremos esses dados
contendo colunas data e hora com esses
dados contendo colunas, data e hora, que é um fator, e longitude,
latitude, que são
duplas , e basicamente fatores. Portanto, formataremos a
data e hora em um formato
legível usando data, hora,
convergência e funções. Então, aqui estamos dentro da função de fixação convergente de data
e hora aqui para converter essa data e hora
em uma mais legível. Então, para isso, usaremos dados e
dados de data, data, hora e depois recarregaremos como CD escuro, formato de
hora, ano, mês, data ,
ano e horas,
minutos e segundos. Ok. E então, quando
você lê este formato é este e a
Lei de Reforma no hospitalista. Excelente. Ok, e então
vamos combinar isso. Ok, vamos correr. Isso. O script ainda está em execução. Quando isso desaparecer, você
poderá passar para o próximo. Apenas execute isso. Então, está funcionando. Em seguida, criaremos colunas individuais
por mês, dia e ano. E para isso, obteremos dados de dia, mês, ano e meia semana. E usaremos o
fator aqui vetoralmente. E ainda assim, dedique um tempo. Na verdade, nosso lead
time mensal se eleva e considera o
tempo da semana nos dados. Ok. Ok. E vamos
executar isso também. Então, agora está funcionando. Sim. Então,
o que faremos criar as
colunas neutras em um mês. A próxima coisa, o que faremos, também
adicionaremos variáveis de tempo. Portanto, em tempo parcial, são capazes de
fazer INR de segundo minuto. E aqui, fatore o
material do que um segundo de
Aspen e pergunte
a eles o segundo vetor de ruído. A segunda mina vetorial pode
pegar a janela RN. Isso também executará isso. Então, está funcionando. Em seguida, quando estiver pronto, analisaremos os dados. Dados. Usaremos o método para analisar a
aparência dos dados. Então, vamos fazer isso e ver agora que
temos a terra diurna, a
latitude e a longitude. Essas são as quatro colunas que
já estão lá. Faz isso. Agora criamos
novas colunas como hora, dia, mês, ano, dia
da semana, segundo minuto. E essas são as
colunas 123-45-6788, novas colunas que criamos. E essas colunas darão
mais informações ao auditor. Acho que sim,
dirá como Deus, só que agora sabemos qual dia
do mês, qual mês e qual
dia da semana ele teve
um Richie Rich de, também
saberá. E depois criado pela segunda vez. Agora. Agora terminamos com o Nita
analisando os dados
e criando recursos, novos recursos e novas colunas aqui. Então, a próxima coisa é que
passaremos para o visualizador de dados
e
criaremos aleatoriamente criaremos os gráficos e
tentaremos utilizar mais. Aqui. O que faremos a primeira coisa, primeira coisa que faremos é traçar
os gotejamentos por RT e RD. Para isso, o que faremos é usar
dados sublinhados que são valiosos e o que faremos:
dados agrupados por R e usaremos a
camada profunda para resumi-los. E quando executamos isso, agora, agora veja isso. Agora veja isso. Agora estamos obtendo esses dados
zero, um, dois ou 3 h. Estamos obtendo a tabela de dados que
comemos se você pode selecionar quantas árvores
deseja ver por vez. Ok. A próxima coisa são os dados de origem
na tabela de ontem. Mas agora o que faremos, traçaremos os dados pelo nosso gráfico
GG e gráfico GD aqui. Os únicos dados que
criamos aqui. E como nossa mentira. E então usaremos identidades de barras
geométricas. Ainda assim, continuo sentindo com esse azul esverdeado e a
cor se espalhará. Em seguida, intitulado os tipos de avaliação por
r e o subtítulo agregado. E a legenda posiciona nenhum gráfico, título do texto e como 4,5 e 0,5 e uma
habilidade como contínua. Ok, agora vamos traçar os
dados pelo nosso sol neste C, e agora estamos obtendo
o gráfico com nossas viagens. Cada legenda de RM aqui é um produto
agregado de hoje. Então você pode ver todas as três ou 24 horas
que estamos fazendo essas viagens, cada auditoria,
esse brinquedo que eu comecei, eram essas muitas fitas. O segundo terço, escuro
ou escuro assim. Eles nadam no clube por 24 horas
e pronto, podemos ver que os 17 estão neles ou estão com
mais viagens. Portanto, o bico é cobrado se
quiserem aplicar o meio aplicando
as Filipinas para formar nosso produto. Meia-noite do segundo
ou por litro. Então, essas,
essas muitas coisas, essas coisas, esses horários
são muito videocassetes e aqui, quando você vê, à noite, The Office e Tends, eles aplicarão que
aplicarão,
cobrarão as taxas maiores e
aumentarão a cabine. Então é assim que eles fazem. Com isso,
descobriremos que os Rs estão prontos em
VD e, com base nisso, entraremos no arroz. Então é assim que a Uber faz isso. Agora, faça as
dicas de plotagem por r e mês e agregue nossos dados
e realmente use a função
agrupar por aqui, mês são os declarados
para resumi-los. Então tente isso Então faremos o gráfico
GG para traçá-lo. Então C e agora estamos
obtendo a trama aqui, que está deprimida em n meses. Então veja aqui,
essa cor, isso é real, isso é para mim. Este é o Módulo em julho,
agosto e setembro. Mas todos os meses
eles destruíram. Então, qual mês está tendo mais ou menos o pKa
é semelhante em todos os meses. Mais ou menos, não exatamente, mas mais ou menos
você pode analisar. Então, aparentemente, setembro também, um homem
muçulmano aqui, água e sabão de
Castela todos os meses. O copo é a síntese
remanescente. É mais ou menos a mesma forma que está avançando todos os meses. Então, o que resumiu alguns caras como um grupo por mês e você pode
anular essa falência. Agora, o que faremos na plotagem traçar dados por viagens
durante todos os dias do mês. Portanto, para a dieta, usará os dados como valiosos
e agrupados por dia. E usamos o Deepak
para resumir startups. Execute este e depois aquele enredo
fácil para traçar isso. Então, isso resultará em refrigerantes e
batatas fritas da melhor maneira possível. Então, agora, quando você analisar
isso, você terá um
número suficiente de viagens por dia. Há muitos tipos de
segundo dia como esse, então mortes por dia do mês. Nós podemos fazer assim. Em seguida, o que
faremos é coletar dados por dia da
semana e meses. Então, aqui vamos usar o grupo
por dia da semana e mês. E, na verdade, a camada profunda para
resumi-los, tópico sanguíneo. Então, muitas vezes, execute isso. E depois disso. A trama do DD se
aprofundou muito por dia e mês. Então, quando fizermos isso, receberemos presentes
por dia e mês. E ele tinha que ficar feliz com esquema
de cores que
temos nele e, a
princípio, aqui, tudo bem. Agora, com isso, o que podemos conseguir, podemos conseguir isso para dias
da semana como esse.
Durante os dias da semana. Domingo, segunda-feira. Para cada mês. Quantas vidas
existem no domingo? Quantos dias
existem? Na segunda-feira? Quantos dias até o
dia? Quantos dias? quarta, quinta e
sexta a cada dia
da semana, você receberá o número de direitos,
mas todos os meses. Então, com isso, podemos
analisá-lo rapidamente para domingo. Apple tem o menor
número de lutas e este mês definiu para elas o que está tendo o maior número
de corridas no domingo? Na terça-feira, setembro, se
divertindo mais, mais verticais. Assim, podemos encontrar o dia mais popular
do mês rapidamente. Agora faremos várias
viagens feitas por mês, por mês, no ouvido interno. Então, para isso,
usaremos grupo por mês. Não fizemos um mês por
mês em um ano. Então, para isso,
usaremos grupo por mês. E então vamos traçar
usando o gráfico GG. Faça isso e veja se agora vamos fazer essas
viagens em um mês. O mesmo aconteceu com muitas viagens, mas em maio, junho, julho e agosto. Então, é tão tubo ET. Ao observar o gráfico, você pode dizer que setembro está tendo mais
viagens do que agosto e julho e maio
e junho, sem
quase ter tipos semelhantes. Mesmo que Joni seja
um pouco melhor do que eu, e aparentemente
se apresentando meses em um ano. Dessa forma. Agora, o que faremos criar um
mapa de calor, DR e mês. Portanto, para o deck se agrupar
por dia, há muitas viagens. Uma excelente como essa. Agora vamos traçar o mapa de calor
por R&D, GG renovado, e traçá-lo. Vou usar essa
bateria ainda dá para comer? No entanto, quando eles são preenchidos com o próton
em um determinado dia, classe
específica, quantos no
total, cumulativos, permanecem brancos. Vamos fazer isso aqui. Agora, estamos recebendo este mapa térmico.
Nosso mapa por dia e, portanto, nosso dia. E para essa arte
no oitavo dia, isso em 11 vezes 11 hoje. E para isso,
podemos analisar mais. Agora, quando o mapa de calor
traça D e mês. E depois isso, e então
nós vamos GG Plot registrar isso. Agora vamos meio que
manter meu mês de diversão. E o próximo passo é traçar o mapa de calor
T da semana e do mês. Isso, então esse é o mapa de calor para mês e dia
e mês, mês. E terei acesso a um pouco
de limão ainda hoje. Com isso, também
podemos ter agora que
criaremos a relação de mutilação
de preços na Europa. Portanto, a probabilidade mínima, máxima, mínima e máxima chegará a Nova York. E aqui o que faremos, tentaremos traçar
essas duas agendas. Gg, GG, trama. Então, aqui está o gráfico GG, nosso conhecimento sobre iluminação
dramática, valor
total dentro de uma
cor e da pele, probabilidade mínima máxima e mínima máxima que estamos fornecendo. E então voltamos e
estamos usando o gráfico GG para traçar esse
mapa de autovalor e lisina com base nos domingos. Está demorando um pouco. Ainda está funcionando. Vamos
esperar que ele saia aqui. Só está demorando muito. Então, deixe-me mostrar o mapa,
aquele mapa do pai de Nova York para digitar, mas em um prático mês de setembro. Então, aqui está demorando
algum tempo para os analisar
todos os meus dados anteriores a
setembro de 2014
e quais posteriormente a Uber usa
com base na hora. Com base nisso, chegaremos
a D qual mês é melhor. Então, todas essas visualizações
podemos usar os dados. Então, espero que este
projeto ajude você
a entender a visualização
e a análise de dados
82. Segmentação de clientes do projeto 3 usando R: Olá e bem vindo de volta. Nesta palestra,
falaremos sobre outro projeto que é o projeto número três
desta classe. E esse é o projeto de segmentação de
clientes
usando nossa programação. Então, neste projeto, aprenderemos como podemos fazer segmentações de
clientes
usando nossa programação feita em um conjunto de dados. Portanto, quaisquer que sejam os dados que temos, o conjunto de dados do cliente, isso é uma enorme segmentação de
clientes de produtos. Então, vamos tentar
encontrar o segmento de clientes que
será útil por enquanto. As empresas que encontram
seus melhores clientes
e os nossos melhores clientes com melhor desempenho para seus negócios. Então, o que é
segmentação de clientes? segmentação de clientes é uma
das aplicações mais importantes
do aprendizado não supervisionado. Então, como você sabe, existem dois, você sabe, existem dois tipos de aprendizado. Um é o aprendizado supervisionado e outro é o aprendizado
não supervisionado. O aprendizado supervisionado é um tipo de aprendizado em que o livre arbítrio, suponho que seja uma criança
e queremos que ele aprenda. Há duas maneiras de fornecer onde supervisionaremos
seu aprendizado. Diga a ele o que fazer, como fazer e nos dará
instruções de configuração para que ele aprenda. E há
aprendizado não supervisionado em que não somos uma equipe de supervisão. Não será supervisionado
e ele aprenderá por experiência própria. Portanto, existem dois tipos de
supervisionado e não supervisionado. E a segmentação de clientes é uma
espécie de aprendizado não supervisionado. Você não
custou caro, agrupamento. Usando
técnicas de agrupamento, as empresas podem identificar os vários segmentos de clientes ou reduzir
a base de usuários
em potencial nesse projeto de
aprendizado de máquina. Neste projeto de
segmentação de clientes, faremos uso do agrupamento
k-means. Aprenderá o que é agrupamento
k-mean. E usaremos
essa
tecnologia de agrupamento k-mean para este projeto, que é essencialmente
um algoritmo para agrupar conjuntos de dados
não rotulados. Então, aqui vamos usar o conjunto de dados sem rótulo
sempre que você precisar encontrar seus melhores
clientes ,
seja a metodologia
ideal. Porque com isso, você encontrará facilmente esse
segmento de clientes. E ao analisar o
segmento de clientes, você pode encontrar sua
melhor base de clientes. E você pode ter a escada Target, Who them para vender seus
produtos ou serviços. Executaremos uma das aplicações
mais essenciais aprendizado
de máquina, a segmentação de
clientes. Neste projeto,
implementaremos a segmentação de
clientes
em nossa programação. Então, agora temos a tecnologia de reembolso, segmentação de
clientes e clustering que
vamos usar. Então, vamos entender
em detalhes o que é segmentação de clientes de forma
um pouco mais diferente, um pouco mais detalhada. Portanto, a segmentação de clientes é o
processo ou a divisão da base de clientes em vários grupos de indivíduos em que
existem semelhanças de maneiras
diferentes que são
relevantes para o marketing, como gênero, interesse e
hábitos de consumo diversos. As empresas que implantam segmentações
de
clientes acreditam que cada cliente tem requisitos
diferentes e exige um marketing
específico e ao luxo de
abordá-los de forma adequada. As empresas buscam obter uma abordagem mais profunda dos
clientes que visam. Portanto, ser específico e deve
ser adaptado para atender aos requisitos de cada indivíduo
e cada indivíduo tem os requisitos de cada cliente individual para todos eles. Por meio dos dados coletados, as empresas podem obter uma compreensão
mais profunda das preferências dos
clientes, bem
como da necessidade descobrir segmentos
valiosos de valor, que seriam o lucro
máximo. Dessa forma, eles podem criar estratégias para suas técnicas
de marketing de
forma mais eficaz e eficiente e minimizar a possibilidade de
risco para seu investimento. A técnica de
segmentação de clientes depende vários diferenciais importantes
que dividem os clientes em grupos
a serem segmentados. Dados relacionados à demografia, geografia,
situação econômica e reabilitação, padrões
reais, desempenham um
papel crucial na determinação da direção da empresa para abordar os
vários segmentos variáveis. Então, o que entendemos por segmentação de
clientes é isso: UP BY adicionando a base de clientes em vários grupos de
indivíduos com
base na semelhança de maneiras
diferentes que são
relevantes para o marketing. exemplo, podemos dividir a base de clientes com base
no gênero, como sexo, masculino, feminino, tipo de coisa com base nas
faixas etárias, como adolescentes adultos e idosos tipos de grupos que podemos criar, feitos com base nesses parâmetros
com base no interesse. Suponha que tenhamos o cliente, uma grande base de clientes onde
podemos segmentar a base de clientes
com base em seus interesses. Como se alguém estivesse interessado
em música e dança, em artes e títulos em teatro. Assim, podemos segmentar os clientes e,
com base em seus interesses, podemos recomendar
produtos e serviços. Se alguém estiver interessado em. Suponha que, nos esportes,
possamos mostrar a eles que os
anúncios são vendidos , produtos ou serviços relacionados a esse esporte
em particular. Portanto, essas são coisas
muito
importantes identificar os melhores
clientes a serem atingidos. Com essa segmentação,
as empresas obterão uma compreensão mais profunda
de sua base de clientes. E com base no entendimento
e na segmentação, eles podem atingir os clientes de uma
forma mais específica. E isso aumentará
sua lucratividade. Porque se você é apenas um remetente, enviar algum anúncio para o cliente e você está vendendo
seus produtos e serviços é para o apoio de idosos e
você está enviando seus e-mails para todos,
então, para os adolescentes, isso não é relevante, certo? Que adulto? Pode ser relevante, de alguma forma que eles tenham os
idosos em casa. Mas é mais parecido, mas é mais provável que
seja relevante para pessoas com mais de 60 anos
ou idosos. Portanto, é melhor segmentar
apenas pessoas 60 anos e, assim, você
terá o maior lucro. Então, isso é o que significa segmentação de
clientes? Então, antes de
prosseguirmos com nosso projeto, vamos entender o que
é o algoritmo k-means. Ao usar o algoritmo de
agrupamento K-means, a primeira etapa é indicar o número de clusters que
desejamos produzir
na saída final. Ok, então primeiro, precisamos decidir
o número de clusters que queremos
produzir na saída final.
O algoritmo
começa selecionando k objetos dos
conjuntos de dados aleatoriamente. Portanto, ele primeiro selecionará o número k
de objetos do aleatoriamente
o número k
de objetos do conjunto de dados que
servirão como
centros iniciais para nossos clusters. Os aglomerados de estrelas selecionados também
significam vários centros. Então, esses são, como eu disse, existem k objetos
que selecionamos. Portanto, esses objetos selecionados
ou meios de
agrupamento, também são
conhecidos como centróides. Em seguida, os objetos restantes têm uma atribuição do centróide
mais próximo. O centróide, o centróide é definido pela distância
euclidiana. Cole a distância euclidiana presente entre o objeto
e o aglomerado. Nós nos referimos a essa atribuição de cluster
do Azure em fita. Quando a tarefa
for concluir o algoritmo,
prossiga com o cálculo novo valor médio de cada reagente de cluster nos dados após o
recálculo do cluster, as observações ou verifique
se eles estão um cluster diferente usando a atribuição de cluster
atualizada. Isso acontece repetidamente por meio várias iterações até que as atribuições do
cluster sejam interrompidas. Alterando. Os clusters presentes
nas titulações atuais são os
da hidratação anterior. Resumindo o agrupamento
k-means. Então, isso é o que significa
agrupamento k-means. Nós especificamos o número de
clusters que precisamos criar. Em seguida,
o algoritmo seleciona seus objetos aleatoriamente em nosso conjunto de dados. Esse objeto é um agrupamento
inicial ou significa os riscos e experimente-o. Nosso principal objetivo ou alfinete é a atribuição de
uma nova observação. Rebaseou essa tarefa
na distância euclidiana entre o objeto e não lê
os k clusters nos dados. Uma vez
que nosso data center
calcula os novos
valores médios presentes em, presentes em todos os pontos de dados, presentes em todos os pontos de dados, esses pontos de dados, naquele ponto de dados dos clusters, o késimo centróide do cluster tem
um comprimento de P que contém a média de todas as variáveis para observações
no késimo cluster. Denotamos o número de
variáveis se eu
tentasse minimizar Jason até o total dentro da
soma dos quadrados e
, por meio do hidrato, minimização da soma total
da atribuição quadrada
parasse de oscilar. Quando e quando alcançou
a máxima arbitragem. O valor padrão é dez que o software artístico usa para a operação máxima, ou
seja, endereço máximo. Em vez disso, calculamos
o algoritmo de agrupamento para vários valores
de k. Isso pode ser feito criando variações
dentro de k, de 1 a 10 clusters. Em seguida, podemos calcular a soma dos
quadrados intracluster que é chamada de SS. Então esperamos por esse
número, k clusters. Este gráfico denota. Então obteríamos os k clusters. E com base nisso, veremos, então essa é a
parte teórica deste projeto. Neste projeto,
na próxima aula, começaremos a fazer o
projeto quando começarmos a
discutir
o código desse projeto e faremos o projeto
real. Segmentação de clientes. Nos vemos na próxima palestra.
83. Segmentação de cliente do projeto 3 parte 2 usando R: Então, vamos começar com o projeto. Então, aqui, a primeira coisa
é que precisamos de um arquivo de dados que contenha todas as informações
do cliente. Então, aqui estamos usando
modelo, modelo sublinhado. Os clientes começam a arquivar CSV
e esse arquivo CSV está aqui. E se eu abrir aqui, você pode ver o número do cliente, sexo, idade e
renda, pontuação de gastos. Todas essas informações
foram fornecidas. Temos as cinco colunas numeradas pelo
cliente e cada pontuação anual de
gastos com renda Então, essa é a
informação que tudo o que temos. E com base nisso, saberemos que a segmentação de
clientes está usando Então, vamos começar. Então, primeiro de tudo, precisamos ler esse arquivo. Então, eu uso que os dados do aplicativo são valiosos ou
os dados de sublinhado do cliente e vou usar a função, ler o ponto CSV e a parte Mazda, parte do arquivo
CSV e ele lerá o agora a
partir Assim, você pode ver
o ID personalizado, sexo, idade, renda anual e gastos com este curso. Então, aqui você pode ver suas próprias colunas de tipo de dados, char,
char Ok? A próxima coisa é o que fazemos. Nomeamos
os dados do cliente e,
na verdade , tentamos imprimir as
primeiras cinco colunas. Esmague como favorito ou
estude o ID do cliente, sexo, idade e coisas voluntárias da
Commodus Ok, você pode ver que a
próxima coisa é realmente resumir isso com
o cliente, então vamos executar isso e ver No entanto, quando usamos o resumo
Wong Sun Belt on the edge, ele nos dará a idade mínima. Eu do primeiro trimestre,
primeiro quartil,
mediana, média do terceiro
quartil Então isso é para os dados de idade sobre isso e fiz alguma
estatística, ok? Então, a idade do cliente, a renda
anual e a pontuação de gastos todas essas coisas
funcionarão da mesma forma. Então, obtemos essas informações, desvio
padrão, estimativa, visualização de
gênero Aqui, o que
faremos é criar uma tabela de
banco de dados de clientes na agenda. E então tentaremos
traçar um gráfico de barras. E isso terá o
eixo x, o gênero e eixo y como a capacidade de contagem e
cores E vamos executar isso. E você verá um gráfico de bar, qual vimos os gêneros
feminino e masculino aqui. Se fizermos mais. Então, usando o gráfico de barras para exibir
a comparação de gênero. Ok? A próxima coisa é esta fórmula aqui dividida
pela soma de a em 200 libras, masculino, feminino e masculino, feminino E isso dará a representação de que você
tem masculino e feminino Então C e agora o propósito X
por cento e masculino é 44%. Então, agora não queremos
isso em nosso conjunto de dados. 56% do lado feminino, 44% do Agora, queremos fazer isso, tentaremos visualizar a distribuição
etária Então, tente desenhar um histograma feito no
vidro e na Então veja aqui, agora, esse histograma
mostrará o contato de cada Então, aqui você pode ver a frequência de
zero a 20
começando por 20 a 30. Todas essas coisas que você pode ver, este é o histograma Esta é a faixa etária de 2030, 30 a 40, 40 a 70. Todas essas coisas
podemos visualizar e ver um gráfico de barras com a idade. E isso nos dará que a
análise descritiva é um boxplot Então, aqui você pode ver
que está principalmente entre a meta e, em seguida,
uma renda C sub N1 Então, aqui para inscrever uma empresa, tente traçar um histograma
ou a renda anual
e a frequência que
colocaremos no Então, veja a
renda anual mais a frequência, você pode ver seu hóquei Em seguida, colocaremos o
Lote de nossos clientes , outro lote aqui, gráfico de
densidade para renda anual. Então, todas essas coisas que
você pode analisar e, em seguida, desenharemos um gráfico de caixa
para a pontuação de gastos Veja aqui, esse é o fim, esse é o gráfico da caixa para
essa pontuação de gastos. Então, novamente, nosso histograma
para a pontuação de gastos. E então iniciaremos nossa barra de biblioteca de algoritmos
K-mean e definiremos como seed E então usaremos uma função para
calcular a soma total
intracluster do ISS
quadrado e colocar de um
a dez Ok? A próxima coisa é avaliar o valor,
relatar, mapear o AV sublinhado E então
traçaremos o número de agrupamentos no eixo x e no eixo y, soma
total dos
quadrados intracluster mais o número de quadrados Você verá de um a dez. E aqui você pode ver
o eixo y total. Clusters, soma
do conjunto total, soma dos quadrados, ok Número de clusters
para esses, 4464814. Ok? Evidências, selecione
minha terceira biblioteca. Você usará o cluster extra. Essas três bibliotecas
que você usará. Então, se não estiver instalado, você pode acessar aqui as ferramentas, os pacotes
instalados e fornecer o nome do pacote
e não poderia estar. Vamos começar. Agora O que eu farei, nós faremos, criaremos os clusters k2 E o k2 usará os
K-means Clusters. E então vamos dar que eu me
vista e, no máximo, atriz e 100 e comece e comece
com o algoritmo D, como. Em seguida, representaremos graficamente esse cluster e os valores
dos dados do cliente. E o euclidiano quis dizer que, ok, assim,
vamos colocar o Isso é mais do que
isso, isso é para o A2. Agora vamos fazer o mesmo
com k3, k4, k5 E nos vemos na trama
do tricô. Agora vamos usar o
cluster de inveja e nada mais. E vamos fazer celebridades e você verá isso de uma a cinco
e dados de clientes você verá isso de uma a cinco
e dados de clientes, k-means.
E depois K6 Saiba que temos esse número ideal de clusters e o
número de clusters O Cluster One já lutou
com isso por 3,4, 647. E então temos o número
ideal de clusters. Então, o que faremos, tentaremos visualizar os principais componentes
principais O PCC usou a função
PR para isso. E vamos executar isso. Aqui. Você pode ver a pontuação anual
de gastos com renda. E então usamos o gráfico
GG para traçar isso. Agora você pode ver a segmentação clientes do
modelo usando dados de agrupamento
k-mean, o cluster do Esse é um cluster, esse é outro cluster. Isso é uma vantagem,
esse é um cluster. Portanto, o delicado agrupa o cliente com
base em seu comportamento. Agora Agora tente colocar o cluster um, o
cluster dois, o cluster
três, o hidrogênio me deu. Então, agora você pode ver seis clusters. Cluster um, cluster dois, cluster três cluster
para cluster cinco. Então, esses são os pontos, esses são os clusters Podemos ver os dados. Agora colocamos isso e
tentaremos executá-lo novamente. E agora está bem claro. Agora temos o agrupamento
k-means aqui. Então, aqui você pode ver que esse
vermelho é o cluster um, amarelo, um, cluster dois, cluster três, o verde. Esse aglomerado, grupo
cinco, é azul. E isso é cluster for. Agora, o que você pode ver é que
esses são os outros clusters de
clientes que criamos com
base no agrupamento k-mean cluster quatro e o cluster um a cluster consistem nas pontuações dos principais clientes, de um e médio de PC. E o cluster seis. Discussão clássica Eu imprimo
o cluster com PCA, alto PCO2 e baixo PC Um, cluster cinco,
neste cluster há
clientes com PCO2
médio e baixo Então, esses são os
valores de PCA 1 e PC2 que temos Podemos aplicar essa glabela agrupamentos e comportamentos Podemos atingir os clientes
com a ajuda do agrupamento. Podemos entender as
variáveis de forma muito mais clara o que nos leva a
tomar decisões cuidadosas Com a identificação
de perguntas, as empresas podem lançar produtos e serviços
direcionados aos clientes. Não dizemos isso, mas eu
gostaria apenas de renda,
idade, padrões de gastos, etc. Além disso,
padrões mais complexos, como lançamentos de produtos, sejam considerados
para uma
melhor Então, essa é a explicação
simples. Você pode entrar em detalhes e
aprender sobre essas coisas. Além disso, espero que este
projeto ajude
você a entender como
fazemos o agrupamento de jogos
84. Projeto 4 - Introdução - Recomendação de filmes: Olá e bem-vindo de volta. Então, neste caso, vamos
fazer o projeto número quatro, recomendação de
filmes,
login do sistema e aprendizado de máquina. Então, agora temos o conhecimento básico
de programação e
fizemos alguns projetos
também nesta aula. Portanto, este projeto lhe dará uma experiência muito ampla trabalhando com algoritmos de
aprendizado de máquina Julgando nossa programação
acontecendo, estaremos fazendo o popular sistema de
recomendação de filmes Você não adicionou programação e algoritmo de aprendizado de máquina. Então, do que se trata esse
projeto? Este projeto se concentrou
no desenvolvimento de um recomendador de
filmes Estou usando técnicas de R e
aprendizado de máquina e técnicas de
aprendizado de máquina. O objetivo deste projeto é
o sistema de recomendação. Esse
mecanismo de recomendação que sugere filmes aos usuários com
base em suas preferências. Então, o que realmente está acontecendo em todas as plataformas OTP,
como Netflix, hot star, T5 e Amazon
Prime videos Sempre que você está assistindo
filmes ou colocando o seu, você assistiu a
um filme de comédia. Você tem Mazda foi um
filme romântico de atos e filmes. Portanto, com base na sua preferência, que você
assistiu no passado, todas as suas preferências
serão armazenadas. E com base em seu comportamento
anterior, como se estivesse assistindo a
um filme de comédia, geralmente gênero ou
atos e gênero. No próximo filme, seremos
recomendados para você. Então, todos se flexionam e todos estão
perdendo a mesma metalurgia. Para sugerir a você
o próximo filme. Suporte. Você assistiu
ao comitê e ao filme dos X-Men nas últimas semanas. Então, a seguir, o que eles
fizerem, eles podem fazer. Eles podem
sugerir um filme que tenha tanto
comédia quanto excelente. Assim, eles podem
sugerir um X e um filme com os elementos cômicos Se eles
definitivamente sugerirão quadrinhos
Duck e o
filme junto com isso, eles podem sugerir a você
os filmes que contêm comédia
e éxon Então, todas essas coisas que fazemos usando os algoritmos de aprendizado de máquina Então, isso é muito
popular nos dias de hoje. Portanto, ao implementar a colaboração
baseada em itens
para filtrar o que faremos novamente,
ganharemos experiência
prática
na aplicação de nossa ciência de dados,
aplicando nossas habilidades de ciência de dados
e aprendizado de máquina
a projetos da vida real, como o sistema para filtrar o que faremos novamente, ganharemos experiência
prática na aplicação de nossa ciência de dados,
aplicando nossas habilidades de ciência de dados
e aprendizado de máquina
a projetos da de recomendação de
filmes O que estamos usando aqui é o conjunto de dados MovieLens,
que consiste em um lakh, que consiste em um lakh, 5.039 avaliações no arquivo CSV de pontos de classificação E também contém 10.329 filmes no arquivo CSV de pontos de
filmes Então, esses dois arquivos CSV, arquivos de
dados que
vamos usar, um conterá o
filme em comissão, como mais de 10.000 filmes Além disso,
acho que o CSP reservará o espaço para filmes
específicos de vários
críticos e auditorias Então, agora temos o entendimento básico, como
o que vamos fazer. A próxima coisa é: o que
são as bibliotecas? Quais são as bibliotecas de que
precisaremos para isso? Portanto, precisaremos do gráfico GG para laborar data.table e receptor, as outras bibliotecas básicas de que
precisamos para Então, GG os representa graficamente para a parte de
digestão data.table. Qual mesa e as vistas laterais do
comandante. Recomendo a lição. Então, quais são as etapas que vamos formar neste projeto? A primeira etapa será o pré-processamento
dos dados. Em seguida,
teremos a próxima etapa Elaborar a filtragem e
explorar os dados semelhantes Em seguida, haverá um banco de dados. E depois iremos para a preparação
dos dados. E a preparação de dados
envolve algumas etapas e, finalmente, faremos
o padrão uma por uma. Quais são as coisas
que vamos
fazer no pré-processamento de dados O pré-processamento de dados
é o que suporta. Estamos obtendo dados
brutos em um arquivo CSV de
pontos de filme ou
lendo medicamentos, sim Precisamos pré-processar esses dados. Então, uma vez que extraímos os
dados do arquivo CSV de
pontos do filme e das classificações
ou conjuntos de dados CSV O que eu observo, o
que
observaremos nas colunas ID do usuário e
ID do filme, números inteiros Então, essas são as
coisas que também
veremos quando examinarmos o código. Mas, por enquanto,
vou te avisar. Neste arquivo, veremos quais
são as coisas que podemos fazer. Vamos lavar. Então, vamos primeiro
entender o que vamos perder. Então, o ID e o ID do usuário desse filme. Consistia em números inteiros. Além disso, precisamos transformar o gênero do filme em dados de sublinhado do filme,
dataframe,
em dataframe Filmes ou não, precisamos
transformar em um
formato mais fácil de usar do que você E para conseguir isso, o que eu fiz, criei uma métrica
de codificação dinâmica que representa o gênero
associado a cada campo Então, para obter esse quadro de dados
fácil de usar, gênero de
filme, o que eu fiz, criei uma matriz
de codificação única que faz referência Posteriormente, cada filme foi gerado.
Esses padrões foram gerados para facilitar cada pesquisa
com base nos diários de John Como os filmes geralmente
têm vários gêneros, todos
sabemos que
um filme pode ter, nós categorizamos em suporte a
vários gêneros Um filme pode ter x e
também pode ter drama. Então, também pode ter a comédia. Um filme também pode ter
vários gêneros. Então, o que faremos, usaremos essa classe métrica. E para nossos dados, o que faremos é converter a matriz, a matriz de gênero
nessa matriz esparsa para torná-la tão estável para o sistema de recomendação de
filmes E para isso, sugeriremos a verdadeira classe de matriz de
classificação louca na amarela Portanto, a próxima etapa será a filtragem colaborativa ou a
exploração de dados semelhantes Portanto, a filtragem colaborativa
envolvia recomendar filmes para você apenas com base
nas preferências de Então, o que isso significa? filtragem colaborativa é, suponha que você esteja
assistindo a um filme,
que é um filme que é um E você não assistiu muitos filmes em
uma plataforma de suporte. Você está assistindo Netflix e acabou de começar a
usar seu pescoço. E você assistiu a
apenas um filme, que é do gênero Comédia. Agora, como a Netflix
recomendará filmes para você, porque a Netflix diz que não há dados, você aceita ter
assistido a um filme de comédia. Então, ou ele pode continuar, recomendar novos, recomendar
a avaliação de filmes de comédia E isso vai ser uma coisa muito
estranha porque uma pessoa não vai depender Assistiremos a apenas um filme de
gênero, acomodando apenas ele que possa estar interessado
no x e também no drama. Então, suspense, suspense
também, certo? Então, para isso, o que essa função dividida
fará, eles usarão filtragem
colaborativa,
que é o que eles recomendam filmes aos usuários com base nas preferências
de Portanto, há milhões
de usuários usando a plataforma e eles
também estão assistindo ao comitê x e também. Então, com base em nossos usuários
que assistiram ao mesmo filme e no que
assistiram a seguir. Com base em seus dados. A Netflix preverá que você também
pode gostar de um filme
específico,
na ordem em que acabou de
assistir. A Netflix pode recomendar o filme X porque você
assistiu ao filme. Ok? Então, se você pular em X
e o Usuário B também
, os filmes serão assistidos
por uma semana. E nós recomendamos
uma grande variedade. A mesma coisa que
expliquei a você e vice-versa. Portanto, a recomendação, recomendação de filmes
depende do estabelecimento de nossa
relação de semelhança entre Você verá o que realmente estamos fazendo aqui, estamos estabelecendo,
estamos estabelecendo uma
relação entre a similaridade de rendimento com base
na semelhança de seu
sotaque ou interesse Usando a biblioteca de
laboratório recomendada. O que eu fiz foi
computar a semelhança usando
vários operadores, como
cosseno, Pearson E então construa uma aula de
visualização de dados. Também veremos a
semelhança nos dados. Então, aqui está o que
eu fiz, visualizei a
semelhança entre os usuários e também explorei as semelhanças entre os filmes anteriores Para obter. Os bancos de dados são mais visualizações que os filmes verão do que eu fiz. Eu investiguei
mais no conjunto de dados. Antes dessa análise, calculei o número de enormes,
enormes para cada campo e os organizei que
pudemos derrubar em ordem decrescente O número total de visualizações
dos filmes do Golfo será visualizado usando o gráfico de barras
e dos vigilantes E foi escrito que fixin foi o filme
mais assistido Então, esses são os dados
visualizados e as coisas que servirão. E depois disso. Depois disso, seguido por uma busca
para entrar em cada aula, um mapa térmico da datação de filmes para obter uma visão
das classificações dos filmes, criei um mapa de calor que
exibe as classificações das 25 principais linhas e cinco
colunas do conjunto de dados Em seguida, selecione a seleção. Então, o que eu fiz, eu fiz, eu realmente
gosto do golfe. Basta enviar filmes
por meio de um mapa térmico e também examinar a distribuição das classificações
médias para o futuro. O próximo passo é a
normalização de dados. Estamos analisando possíveis
preconceitos causados por usuários que fornecem
consistentemente avaliações
altas ou baixas para todos os filmes que assistem. Eu normalizo os dados. Normalmente, repentinamente, o
procedimento para padronizar valores
numéricos em uma
coluna para uma escala comum, garantindo que não haja
distorção Então, neste caso, normalização transforma
a classificação média, onde eu toco minha
voz e a plico Veremos que, quando fizermos o binário
prático na etapa final, os dados foram banidos, certo Atribuição de valores discretos 1.0. Essa etapa melhora a eficiência
das recomendações. O que eu fiz, eu
defino a matriz com uma classificação de três
correspondendo a um Caso contrário, está apenas dizendo que se a
classificação do filme for cerca de três, ela corresponderá a uma Caso contrário, se for menor que três, será atribuído
um valor zero. Sistema de filtragem colaborativa. Nisso,
desenvolvi um sistema de filtragem
colaborativa baseado em itens que determina a semelhança de
itens
com base nas grandes classificações com base nas O algoritmo fará com que nossa tabela de itens
similares comprados
pelos clientes e, por meio de
uma recomendação, faça parte dela
. As etapas envolvidas na determinação da semelhança entre
os itens são as seguintes Para cada item da agenda, o item ID1 presente no catálogo de
produtos adquiridos pelos clientes, veja os itens
I a j pelos clientes, considerado culpado pelo que eu fiz Eu crio o Jade por cliente
, considerado culpado pelo que
fiz. Eu criei um registro indicando que
os clientes vêem I,
i1 e i2 comprados , calcule a semelhança entre
os itens I1 e I2 Ok? Como o cliente
comprou I1 e I2, pode
chegar à
resposta de que os itens i1 e i2 são semelhantes Então, essa semelhança
vamos calcular. Em seguida, dividiremos
o conjunto de dados em 80% para o conjunto de dados de treinamento e 20% para testes adicionais para
um sistema de recomendação A regra 80, 20 é sempre aplicável em algoritmos de
aprendizado de máquina A próxima e última etapa
direcionará o sistema do modelo. Para isso, exporte os vários parâmetros do filtro colaborativo
baseado em itens O valor padrão
do parâmetro k, que indica o número de
itens, é usado para calcular 30. algoritmo identifica os k itens
mais semelhantes e armazena seus números
correspondentes modelo de recomendação do recomendador foi recuperado usando a função get model
e a matriz de
senso de similaridade de vidro ou diamante que analisamos ou mapeamos de calor ou geramos para visualizar
os principais itens crocantes O
modelo de recomendação do recomendador foi recuperado
usando a função get model
e a matriz de
senso de similaridade de vidro ou diamante
que analisamos ou mapeamos de calor ou
geramos para visualizar
os principais itens crocantes da mesma iluminação. próximo passo é explorar esse modelo de
sistema de distância entre homens Ao somar as linhas e colunas
de similaridade acima de zero, obtenho a distribuição
de algumas Essa distribuição foi visualizada
para obter mais informações. Para criar o sistema de
recomendação. Neste slide, a parte superior
recomendada pela
dezena vertical é especificar o número de filmes recomendados
por cada usuário E a
função de previsão foi então usada para identificar
itens semelhantes de acordo. Cada avaliação foi
tratada como um peso, que foi multiplicado pelos gostos de similaridade
relacionados Finalmente, todos os pesos foram adicionados para gerar
as recomendações Então, essas são as
coisas que vamos
fazer para o sistema de
recomendação de filmes usando R e aprendizado de máquina. Nosso objetivo é
recomendar filmes para os usuários com base em
seus gostos e desgostos e no que
os usuários estão assistindo Baile de formatura subestimado com
base na semelhança. Ok? E para a biblioteca GG plot TO data.table recebida
por meio Estamos realizando etapas que realmente
buscam o pré-processamento de dados e o processamento de dados funcionará Em seguida, faremos a filtragem
colaborativa, explorando os dados semelhantes que já discutimos A aula da AWT. A seguir, veremos como
podemos revisar os dados. Para preparação de dados, há três
etapas para selecionar
alguns dados de normalização e binarização de
dados
que veremos E o
sistema de filtragem colaborativa que
já entendemos este exemplo e o que eu
já discuti Então, espero que o projeto
eu expliquei. Bem, na próxima palestra, faremos o projeto
escrevendo o roteiro Então nos vemos dentro do projeto
85. Projeto 4 -Parte 1- Sistema de recomendação de filmes usando R: Olá e bem-vindo de volta. Nesta palestra, faremos o
projeto de ler
um mecanismo de recomendação de que filmes de
tecnologia para você acabaram de
fazer sua preferência Eles assistiram mais cedo. E também
pesa sobre os outros usuários na
plataforma ou assistindo filmes. Ou eles têm tipos semelhantes
de filmes que você julga. Essa dívida enorme está vigiando
nossa vitrine. Se você estiver usando as plataformas de streaming ou
a TPU no outono pela primeira vez, eles ainda poderão
recomendar mais riscos para você Porque eles têm
o banco de dados usual, que consiste em milhões de pessoas que estão assistindo o
mesmo tipo de obediência que você, com base nos interesses
delas e no seu
interesse de assistir a um filme Essa é a semelhança
entre você e outras pessoas, como pensar
na plataforma para que suas preferências sejam
o que elas trabalharam lá O mais pesado. Isso é. Eu recomendo para você, os filmes. Então, aqui está o que
vamos fazer estaremos
onde está o sistema de recomendação de
filtragem
colaborativa baseado em itens filtragem
colaborativa Ok? Então, qual é o item, basicamente, posso me contatar com
base em itens específicos. Consideraremos o dark collaborate para imprimir
nossa semelhança Até agora, nesta região da realidade, vamos usar a biblioteca de laboratório
recomendada, GG plot for visualization
data.table, quais Então, essas quatro bibliotecas. Ok, a próxima coisa é que vamos recuperar e
exibir os dados Filmes e dados dos filmes. Leia mais sobre dot csv. Sexta-feira, veremos o CSV da fonte de
andrógeno. Então, deixe-me mostrar
o preço das ações. Então, isso é mais Vidar CSV, que contém
o ID do filme, que é de um a
10.000 Portanto, mais de 10.000 e
mais riscos foram adicionados aqui
neste conjunto de dados. E então vá adorar o
filme, título de identificação do filme
do gênero cinematográfico, cujos diários você
lavou para mim Portanto, há mais de 10.000
filmes neste conjunto de dados, seu título e gênero Então, aqui você pode ver um
gênero de filme, o gênero aventura. Antes desse gênero de animação de
Edward Jeff, as crianças já estavam entre parênteses Terminamos essas três noites
com comédia e drama. Ou seja, eu realmente amo
crianças e teatro de vez em quando. Drama, fantasia,
mistério, maneira segura. Portanto, um filme pode pertencer a vários
gêneros de filmes E então temos a
estrutura Sim, CSP, que terá o ID do usuário,
o ID do filme, para qual filme, ao qual é dada essa classificação Então, qual classificação? Gente, até o filme em que
é um ou um a cinco. E entre a alta
rejeição retratou o filme. E então temos
os diversos tipos. Então, vamos ao cerne. Então ele identificou
que irá para o caminho do arquivo. Em seguida, criaremos uma
variável de dados de sublinhado de
filmes e, em seguida,
restauraremos os dados Portanto, a função de leitura do arquivo CSV
usará um ponto de filme idiota CSV que está sendo armazenado
nesta tiamina, seja rígido para nós
e cortado como e cortado E dados de sublinhado dendrítico, CSV de
pontos e tudo começa E então veremos que os dados são
obscuros, CSP menor do que isso. Veja aqui. Agora temos a identificação do filme em que o professor pode pular, certo? Scott atua no
trabalho e na redação. Eles sempre. Veja naturalmente o resumo
dos dados usando a função de
resumo. O resumo dos dados
você pode ver, sim, filme, primeiro trimestre,
segundo trimestre, terceiro trimestre, quero dizer gênero. Então, aqui eles podem ver as que eu fiz
no filme, com a cabeça erguida,
abrindo
as entidades de dados de pontuação chegando 123456. Ok. Agora podemos ver o resumo dos dados e, em seguida, realmente ver o rim saindo de um coração. E programando para criar
a matriz que inclui os custos da
nova Kendra Roth,
cada uma por cada uma Então, isso atenderá à
questão do processamento de dados. Nós criamos. O filme de codificação único destaca gin Chandra e
dados como filme.data.frame
sublinham os dados e a rivalidade com a Jordânia. String como estruturas, strings como fatores
é igual a false Em seguida, revise a biblioteca
data.table e, sim, criação de filmes
sublinha E aqui adicionaremos
dark data.frame. E ele tinha DST, STR, gênero de filme
dividido e
sequências verdadeiras de papelão digitado como arquivos de fatores E então chamaremos
seu nome de gênero de filmes. E usaremos C, um para contar. E eles interrompem o gênero em algumas
dessas coisas que
se reportam ao joelho esquerdo. Olá, eu sou daqui até aqui. Sem nome de coluna e material
de coleira. John, John Drop e
lutou contra a ferramenta Index One. E eu caminhei, escrito à mão. Eu não executo esse código. E por ligar. E você, John, meus dois mais novos, eu gosto de chamá-los
e adicionar Argentina. Chandra, quebrada. Quero que Dakota faça com uma corda. Em seguida, clique com o botão direito do mouse sobre isso. E então você
pode ouvir como começar meus truques
para essa base infantil, além plano Chandra e
esses cinco truques Neste trimestre, estamos
usando meus truques de edição e minha opinião sobre essas visões. Algum
parâmetro importante para
que dentro desse sistema por mol seja
mais fácil quando você faz isso Embora seja como um registro de
modelo de estação e obtenha tipo de dados de
entrada para a matriz
L, uma matriz. E ele inscreveu você em Eu recebi meus tiques e
recomendações Mark Moore, eu sublinhei a
matriz de classificação e nossa confiança Cnidária. Você só
pode ver a semelhança usando este meu gráfico e nos
retratou levemente
que está entre os campos Ok, é isso
para esta palestra, continuaremos
na próxima palestra
86. Projeto 4- Parte 2- Sistema de recomendação de filmes: Na palestra anterior, começamos com o
sistema de recomendação de filmes usado neste projeto Então, deixe-me fazer uma
rápida recapitulação do que
fizemos na palestra
anterior, parte um deste projeto Então, precisamos deles para
bibliotecas, laboratórios de recomendação. Você traça dois data.table. Então, nós apenas mantemos essas bibliotecas
e, em seguida, precisamos obter os dados do local onde
você os guardou. Em seguida, armazenaremos o arquivo CSV usando
a função
read.csv e restauraremos os função
read.csv e restauraremos sublinhados nos filmes Da mesma forma,
armazenaremos os dados de classificação no sublinhado de classificação eta pelo similar
entre o CSV escuro E passaremos que a
numeração final começa com CSV, depois com STR, E vamos aprovar esse
movimento, sublinhando os dados. E então veremos
o resumo dos dados de sublinhados
do filme E isso lhe dará o título do ID do
filme, o gênero. E aqui você vê os detalhes
estatísticos aqui. mínimo, primeiro quartil, mediana, Valores mínimo, primeiro quartil, mediana,
média, terceiro quartil e
máximo para Em seguida, veremos o chefe
do filme sublinhar os dados. Ele fornecerá as primeiras
cinco linhas dos dados. Então veja aqui o ID e o título
do filme Flush
e, em seguida, o gênero do filme E então veremos o
chefe da audiência. No entanto, você também pode ver o primeiro quartil
mínimo, mediana ou todas as colunas, ok Em seguida, veremos o
cabeçalho dos dados de classificação. No entanto, o ID do usuário, o
ID do filme e uma classificação e marcação de horários são fornecidos Agora temos a
ideia do que existe na ideia do
que está
no arquivo CSV ou no arquivo de
dados que
temos e que estão nesses
dados que vamos seguir Então, a próxima coisa
é o que faremos. Criaremos uma codificação única, criando uma matriz que compreende o
geral correspondente para cada prova Portanto, para a codificação da nossa dieta, precisamos criar uma matriz Então, criaremos
uma variável aqui mais do que o gênero sublinhado
e, aqui como.data.frame, reutilizaremos E então usaremos
essa coluna de gênero. Então, se você olhar aqui, essa é coluna de
gênero nos dados de filmes, filmes do arquivo de dados. Então, usaremos isso
e depois strings como fatores falsos e, em seguida, a
biblioteca que eles usarão posteriormente Então, aqui criamos uma matriz, matriz de gênero de
filme
e, em seguida, usamos o
data.frame e o gênero de filme E então
concluiremos a matriz aqui, depois essa e depois o nome da coluna. E então eles param com o gênero. Gênero. Qual é a lista
de gêneros, seu
x e sua aventura. Todas essas coisas
farão uma lista aqui. E então vemos o gênero, Mach one e os nomes das colunas E para indexar em um. E o gênero de filme rho
para quatro lerá a coluna e, para cada gênero,
receberá o nome do filme E tudo. Então, vamos transformar
isso em dois gêneros. E então o mesmo aqui. Em seguida, passamos para o STR aqui. Em seguida, passamos para o STR. E agora, o que faremos, criaremos uma pesquisa de Patrick. Então, acho que
especificando o gênero. Então John, certo? Então, vamos executar isso
usando yes, C bind. Ok? E então vamos em frente e vemos aqui que estamos
fazendo isso de novo. Então, título de identificação de filme da CN ,
excelente animação de aventura,
crianças, todos os gêneros Como uma coluna
nesta matriz, ok? Em seguida, isso é uma matriz. A próxima é a matriz de classificação. E agora,
o que faremos é converter essa matriz de
classificação e
recomendar a matriz esparsa de laboratório, essa matriz e a matriz de
classificação amarela, ok? E então a matriz de classificação C é 668 em dez vezes a
quantidade cinco ou n colunas. A matriz de classificação de mais um está
atrasada em 5.003, 13 e classificações. Ok? Em seguida, usaremos nomes acima, recomendador e modelo de
recomendação E então usaremos o modo de recomendação de
jogo. E aqui usaremos
a descrição. Implementando um único modelo em nossa
filtragem colaborativa baseada em itens, E aqui estamos
usando AI VCF, ok? Agora, a
filtragem colaborativa envolvia sugerir filmes
ao atacante com base nas
preferências coletivas de muitos outros Você é apenas, com a
ajuda do laboratório de recomendações. Podemos calcular a semelhança
entre a Eucaristia. Então, agora vamos
criar uma
métrica de similaridade e um método que
estamos usando o brilho ARCore E mais longe, você está bem. Agora vamos ver que
sua semelhança vai confundir isso. Novamente. Não havia espaço suficiente C. Agora você
só tem semelhanças, você pode ver
que você é apenas uma matriz de
similaridade Da mesma forma,
faremos com que pareça pelo menos vários entre os
filmes que usamos. E vamos executar isso e
depois imprimir essa imagem. Agora, você pode ver que essa é
a semelhança do filme. Agora, classifique os valores como dados da matriz de classificação do
diretor, veremos. Em seguida, classificações exclusivas
extraindo as classificações exclusivas. Você usa um exclusivo e,
em seguida, exige os valores de classificação. Tabela de classificações. Criação de uma classificação de filme. E então veremos os
valores de classificação e avaliação da tabela Agora, o que faremos. Faremos a visualização mais
vista. E para isso, vamos traçar dois filmes que sublinham as visualizações e matriz de classificação da
Qualcomm
chamada count usará e, em seguida, TableViews, um filme
data.frame Vamos pegar os nomes
dos telespectadores pegar os nomes da
exibição de filmes e ir para os telespectadores. Aqui, os quadros de dados do futuro
por meio desta tabela são exibidos. Da mesma forma, o índice TableViews repetirá em todos
os 325 filmes inteiros E nós vamos. E então veremos as tabela visualizações em execução. Aguarde até que seja concluído. Então veja aqui agora, complete fc aqui,
você pode ver as resenhas e o título do
filme. Em seguida, o que faremos é perceber que você está
usando o gráfico de barras ou o número total de
visualizações da página superior. Até agora, usaremos o gráfico GG, TableViews Usaremos título e
visualizações, barra geográfica, textos
geomáticos e equipe e excluiremos Eu vou te dar o título aqui. Então, espero que você saiba
todas essas coisas. Eu não vou entrar em detalhes. Então agora você pode ver que a
floresta vem como 331. Seu clássico de volta a
94, visualizações e volume. Ok. Dessa forma, podemos obter
espectadores atentos dos campos de relva. A Total impulsiona as principais empresas. Agora Firmas. Ok, agora vamos criar um
mapa de calor para os filmes. Então veja aqui o mapa de calor
das primeiras colunas de $25,25. Ok, o próximo é o que faremos. Vamos entrar na preparação dos
dados. Portanto, as classificações de filmes, as
classificações são superiores 50 e o
contrato atual foi aprimorado. Então. Veja a
classificação do filme de 22, para 1.400 em sala de aula Ok? Então, esses muitos existem
por mais de três, ok? Agora, direcionando métricas
relevantes, você acabou de classificar 0,9. Portanto, o mínimo de filmes e o mínimo que
você verá,
usaremos o conteúdo para isso. E então criaremos um EMS, veremos um mapa de calor na parte superior, basta adicionar os filmes. próximo passo é visualizar que
a distribuição das avaliações
médias é enorme Então, para isso, usaremos a classificação
média de sublinhado. E a forma significa que não tínhamos a classificação do filme
e o plano será planejado Agora você traça C e agora estamos obtendo a distribuição
da classificação média, mas você está bem, então esta é a distribuição
da classificação média, mas você só usá-la para a normalização de
dados Para isso, usaremos classificações
não normalizadas, análises de funções
normalizadas
e outras classificações análises de funções
normalizadas
e Então, parte da linha significa classificações
normalizadas
maiores que 0,001 E então veja essa
classificação normalizada, os principais usuários. Então, aqui você pode ver que
obterá colunas de um item. Ok, a seguir, a binarização de dados que
já discutimos na enterotoxina Então, aqui estamos usando
quantis e contagens de linhas, classificação de
filmes e, em
seguida, mais lavagem de base E então classificou filmes, filmes
binários, mais, classificação
mínima de três. Portanto, classificação mínima a3. Todos esses filmes ganharão. Então, vamos executar isso. Veja, esses são os filmes que têm uma
classificação mínima de três. Agora vamos entrar na filtragem
colaborativa e ela dividirá
o conjunto de dados em
um conjunto de treinamento e
20% do conjunto Então, dados de amostra, temos
seu método de amostra aqui. E aqui o que fizemos, temos até 80% para
o treinamento e o teste. Divida os dados. Agora veremos esses dados de treinamento e
dados de teste. Em seguida, criaremos uma recomendação usando um registro registrado de
recomendadores E aqui, o que faremos,
obteremos as entradas, o tipo de dados matriz de classificação
real
que criamos E então usaremos o eye vcf, sublinharemos a matriz
e os parâmetros reais e, em seguida, o recomendador
usará os E aqui vamos passar o método
de dados de treinamento. Usaremos o IV CF e começaremos. Ok, então vamos executar
todas essas coisas. Agora temos o modelo de
recomendação do recomendador. Já. Execute essa classe
de modelo de recomendação. Você pode ver o laboratório de recomendações e agora explorar
a ciência de dados, os modelos de coordenação Então, vamos transformar esse modelo de
classe, esquecer modelo e modelo. E para C, D, D, C se encontraram depois,
depois os colchetes e o próximo de
Patrick sumiu Estes são os principais itens. Esses são os principais itens. E então veremos mapa de
calor na primeira
linha e colunas do. Então, quando você executa essa soma de sorteios e apresenta
alguns desses 30,47, depois o gráfico GG, veremos que este
é o qplot e o Você pode ver a distribuição do número da coluna de
itens a serem recomendados. Você acabou de colocar menos de dez e previu
um dia recomendado um dia Algumas recomendações para o primeiro filme urogenital
de 1 bar, um em cada dez filmes E então matriz de recomendação,
matriz com a
recomendação para o voo da easyJet, E estamos avaliando
os nomes das colunas da leitura dos filmes Vou comprar itens
e depois título escuro, distribuição do número de IVC up e qplot do número
de itens desde t,
distribuição dos
números do item, número de itens acima
de BCF e da Vinci, os distribuição do número de IVC up
e qplot do número
de itens desde t,
distribuição dos
números do item,
número de itens acima
de BCF e da Vinci,
os
filmes mais recomendados. distribuição do número de IVC up
e qplot do número
de itens desde t,
distribuição dos
números do item,
número de itens acima
de BCF e da Vinci,
os
filmes mais recomendados. Wallace e Gromit, Deus Pai,
filho morreram, assim como o YuJa Dessa forma, podemos obter o
filme recomendado para o YuJa Então, espero que você tenha entendido
esse projeto. Se você tiver alguma dúvida, pode comentar,
fazer a pergunta em sala de aula Obrigada
87. Introdução ao Projeto 5 Detecção de fraude de cartão de crédito: Olá e bem-vindo de volta. Então, eu lhe dou as boas-vindas a outro
projeto que é o projeto número cinco
desta turma. E isso é detecção de fraudes de
cartão de crédito, julgando nossa programação E aqui também vamos usar alguns
algoritmos de aprendizado de máquina. Então, qual é o objetivo
desse projeto? Você pode estar ciente de fraudes e dados
on-line que ocorrem atualmente, como se o
cartão de notas de
alguém estivesse sendo usado. Sem o conhecimento deles, mídia social de
alguém foi invadida Então, esse tipo de fraude
está sendo feito online. A
formação bancária de alguém está sendo roubada. conta bancária de alguém
foi roubada e eles retiraram o dinheiro
da conta. Na Índia, há poucos
incidentes em que pessoas, sem saberem que compartilharam permissão de
seu tutor ou seu OTP está em uma ligação telefônica Ah, o impostor está dizendo
que eles estão ligando
do banco e
pedindo o número do cartão de débito E então eles estão
pedindo o número do CBP. E as pessoas, sem saber, dizem, enviando todos os detalhes, pensando que a
pessoa que está ligando é do banco da empresa E eles estão apenas
definindo nossos detalhes. E uma vez essa OTP, todo o dinheiro de sua conta bancária
foi retirado. Então, esse tipo de fraude está
acontecendo e temos que ser
muito, muito cuidadosos Uma dessas fraudes on-line
é a fraude de cartão de crédito. Bem, as pessoas usam a liberdade condicional de seus
filhos em desenhos animados ou para comprar algo, ou armazenam as informações do
cartão de crédito, ou dizem:
existem números de cartão Kate e
alguns números pares, existem números de cartão Kate e
alguns números pares sem saber, para as pessoas e as pessoas
os usam sem o conhecimento
delas. E há vários incidentes que o cartão Kate está sendo usado sem que o cartão
Kate esteja fisicamente presente
junto com o impasto Isso para detecção de
fraudes com cartão de crédito. Então, precisamos fazer uma classificação frontal. Sempre que um cartão
de notas for usado por alguém, a empresa saberá que
essa transação pode ser uma transação fraudulenta
e poderá informar
imediatamente ao cliente o titular do cartão de notas
que você está realizando
esse tipo de E agora, o cliente ou o titular do cartão de
notas diz:
Não, não, não sou eu. Outra pessoa está fazendo
essa transação e,
imediatamente, recusará essa transação. E dessa forma, cartão de notas
que
deixaremos de usar e não economizaremos
muito dinheiro. Portanto, o objetivo deste projeto
é desenvolver nosso classificador capaz de identificar fraudulentas com cartão de crédito
. Para isso, o que eu fiz,
eu tenho você, usarei vários algoritmos de
aprendizado de máquina,
como uma árvore de decisão, regressão
logística, redes neurais
artificiais e,
finalmente, classificador de aumento de
gradiente Então, veremos quais são os
algoritmos que podemos usar. E com isso, podemos classificar quais são os fraudulentos e
não produtos Para isso, usaremos um conjunto de dados que terá as informações sobre o cartão de bolo e
o tipo de transação
com cartão de crédito em sua maioria ou
sem problemas para treinar homens de nível
moderado Em seguida, veremos exploração de dados, manipulação, modelagem de dados, ajuste do
modelo de regressão logística, árvore de decisão, redes neurais
artificiais, todas essas Mas antes disso, precisamos
entender detalhadamente a
fraude e seu tipo. Portanto, se você não estiver ciente
do DOM ou do
problema em suas mãos, não
poderá
fornecer a solução adequada. Portanto, antes de
entrar no projeto, devemos saber
qual é o problema que vamos mostrar Então, para isso, precisamos ter uma compreensão muito clara
do que cada fraude e que tipo de fraude está sendo feita hoje em dia na
era digital. Ok, então, em primeiro lugar, quando a Internet não existia, muitas de nossas
transações digitais não existiam. Então, as pessoas costumavam ir ao
banco e pegavam o dinheiro preenchendo um formulário
e depois o esquema do cartão de caixa eletrônico Então, as pessoas começaram a usar os
caixas eletrônicos para sacar o dinheiro. E então as pessoas começaram a
cometer fraudes no caixa eletrônico simplesmente manipulando o titular do cartão de
caixa eletrônico com cicatrizes e vendo a senha
de alguém,
roubando o cartão e
usando o cartão no
IPM com essa senha de caractere usando o cartão no simplesmente manipulando o titular do cartão de
caixa eletrônico com cicatrizes
e vendo a senha
de alguém,
roubando o cartão e
usando o cartão no
IPM com essa senha de caractere específica. Então, esse tipo de
suéter fraudulento aconteceu mais cedo. E com o aumento do Davison e
do banco digital hoje em dia, as
fraudes on-line Muito raramente em lote. Então, o que é fraude? Fraude é definida como
qualquer ato intencional de engano para ganho pessoal
e financeiro Fraudar é definido como o ato intencional de preceitos e para obter ganhos pessoais
e financeiros Então, se você estiver fazendo algo, se estiver fazendo
esse épsilon com alguém para seu
ganho pessoal ou financeiro, isso será
classificado como fraude Envolve perder
a apresentação, ocultação ou manipulação
da gordura para E quais tipos de
fraudadores de cartões de upgrade acontecem atualmente. Portanto, tipos de fraude de cartão de crédito, identidade, conta, cartão
de aquisição, cartão não presente, fraude e cartões
falsificados E depois vem a desnatação. Então, entenderemos um por um. Quais são esses tipos
de fraude de cartão? Então, a primeira coisa
é o roubo de identidade. Então, o que é roubo de identidade? Fraudamos: basta roubar
para fraudadores, roubar informações pessoais,
como números de previdência social ou credenciais de login Então, nessa situação, esse til, além de
informações como fonte,
alguns números de segurança
ou outros, o nosso cartão ou número do cartão
banido ou as credenciais
de login do E os Kcat Dunbar,
em alguns casos, fingem ser o verdadeiro cliente Em seguida, eles farão
o login com os detalhes e
usarão suas informações bancárias
para fazer as transações. Eles usam as
informações roubadas para abrir uma conta
fraudulenta e fazer uma trajetória
não Com aqueles como seu
outro cartão cardiovascular ou PAN, eles podem abrir uma conta bancária em seu nome e, em
seguida, começarem a se passar por si mesmos e farão
as transações, que estarão em seu nome,
mas você não estará Então isso é chamado de roubo de
identidade. Em seguida, vem a aquisição da conta. A aquisição da conta
é outro tipo de fraude em que criminosos obtêm acesso
não autorizado a uma conta legítima do Meet
roubando detalhes da conta,
como senhas Então, nesse caso, eles
simplesmente invadirão sua conta, roubarão sua senha, nome de usuário, senha e terão sua conta
invadida E então eles
farão o que quiserem
com sua conta. Eles assumem o controle de sua
conta e a usam para atividades
fraudulentas,
como fazer compras, arte e
transferir fontes Então, uma vez que eles tenham o
controle sobre sua conta, eles podem fazer qualquer coisa. Eles podem transferir o dinheiro da sua conta para
qualquer outra conta ou podem comprar
coisas online e offline. E você não
terá acesso
à sua conta porque sua
conta foi invadida Eles
também podem alterar sua senha para que você, você mesmo, não consiga
acessar sua conta. O terceiro tipo de fraude é fraude com
cartão não presente, que ocorre quando
transações fraudulentas são feitas sem a
presença física do cartão de notas E o mais comum
é a transação on-line ou por telefone, em
que os detalhes
do cartão ou fraudadores inseridos manualmente, grandes informações roubadas do
cartão de crédito para fazer compras não autorizadas Então, neste caso, o cartão de notas não
estará fisicamente presente, mas o que eles farão, ligarão para você e
pedirão que você faça um determinado Jackson
e
solicitarão as informações do cartão infantil durante a ligação e, em seguida,
solicitarão o OTP E assim que você fornecer
a OTP ou as tangentes e ela estiver concluída e seu
dinheiro acabar, ou eles comprarão algo em seu nome e
seu cartão de crédito
será cobrado A próxima etapa, cartões
falsificados,
fraude, basta criar cartões fraude, basta criar notas
falsificados que se
reúnem Então, nesse tipo de fraude, o que o fraudador fará, eles criarão um rápido, eles obterão algumas informações sobre os números do seu cartão de gaiola Todas essas coisas serão numeradas. E eles criarão um cartão de aparência
semelhante com um número de cartão de gaiola
e o número CBP semelhantes, que pareceremos muito legítimos ao original E então eles podem codificar as informações do
cartão de crédito roubado
no cartão falsificado E então cartões falsificados são usados para fazer compras Muitas vezes, sem o conhecimento do
titular do cartão Carter, você pode não saber que seu cartão de notas foi
falsificado e
que
outra pessoa tem um cartão
de crédito
duplicado com o mesmo número
atribuído a você e o
usará usará Então, esse é outro tipo de fraude de cartão de crédito
que está acontecendo hoje em dia. A próxima é um esquema, é que a digitalização envolve, legalmente, desculpe,
a digitalização envolve captura
ilegal de informações de cartão de
crédito sem o conhecimento do titular do cartão,
suponha que você esteja cobrando informações de cartão de
crédito sem o conhecimento do titular do cartão sua loja de carrinhos
e, sem que você saiba
o que estão fazendo,
eles estão apenas anotando os números do seu
cartão sua loja de carrinhos
e, sem que você saiba
o que estão fazendo sua loja de carrinhos ,
eles estão apenas anotando os números do seu eles Se numerarmos todas as informações
boas, data de
validade e todo esse tipo de informação
na loja, eles podem fazer de transações fraudulentas Então, sempre que você
coloca seu carro no balcão para dy
dx e se
certifica de que ninguém está obtendo nenhuma informação do seu
cartão KD sem o seu conhecimento E então os manifestantes,
o que faremos, esse bloco instalou os dispositivos de
esquema, terminais de
pagamento ou caixas eletrônicos para capturar os dados do Recentemente, na Índia, um tipo
de fraude percebeu no mês passado que eles estavam usando o carvão favorito
nos caixas eletrônicos E com isso, eles estavam usando algumas técnicas em
que, ao
inserir o cartão da gaiola ou
o cartão crédito, as informações
serão capturadas de alguma forma E mais tarde, quando você sair dos
caixas eletrônicos, eles ocuparão as células trágicas
do seu E você pode não
saber que isso estava planejando o serviço que está acontecendo hoje em dia Em seguida, eles usam
as informações capturadas para criar cartões falsificados e
realizam a probabilidade de turno Portanto, esse é o tipo de cartão de
aquisição de conta de roubo de identidade que não está presente, cartões
falsificados
e
atividades fraudulentas ou de escaneamento atividades fraudulentas existem mais tipos de Também existem mais tipos de
fraudes,
como por telefone,
eles fingem ser funcionários do banco e solicitam a quantia.
Felizmente, as informações do
seu cartão de crédito, números de
previdência social e números de
cartão bancário são mais escuros E então eles
fingirão que estão
te dando algum prêmio ou algo assim Eles estão transferindo algum
dinheiro para fazer sua conta, mas na verdade eles
exigirão o dinheiro de você e
enviarão um link para você E eles foram convidados
a clicar no link. Ao clicar
no link, com mais força, você não perceberá que se levantou
para transferir o dinheiro Eles estão deduzindo o dinheiro
da sua conta e você simplesmente inserirá
o OTP e o dinheiro
da sua conta
irá para a Então, esse tipo de fraude está acontecendo e precisamos
saber como detê-la. E é isso que vamos
fazer neste projeto examinando o
guarda de Jackson E com isso, desenvolveremos
um modelo que detectará o tipo de transação e interromperá as
atividades fraudulentas
88. Importância da detecção de fraude online: Agora temos uma breve
compreensão do que é fraude e que tipo de
fraude está acontecendo atualmente Agora, também precisamos
entender por que o enredo detecta
e isso é importante Portanto, a detecção de fraudes é importante, ou
seja, obviamente, para evitar a perda
financeira. Mas há outra
região que também está
lá, há algumas outras razões pelas quais eles
também foram derrubados e é isso que
vamos entender A importância da detecção de
fraudes. Há três grandes detecções de
fraudes importantes
que dizem que existem. E a primeira é a prevenção
de perdas financeiras. O segundo são
produtos e clientes. E o terceiro é
manter a confiança. E esses três
parâmetros são muito, muito importantes para qualquer instituição bancária
ou financeira. Porque se você não fornecer a
perda financeira por táxon, o cliente do seu cliente
não ficará com você Se você não está
protegendo os interesses do cliente
, provavelmente também não estará com
você por mais tempo. E se você deixar de fazer isso,
prepare, a perda financeira
previne e finalize os produtos E nossa pergunta
era informação, então você obviamente perderá
a confiança do cliente. Portanto, manter a confiança também
é importante. Então, essas três
coisas são muito importantes. Então, a primeira coisa que entendemos entenderemos essa prevenção de perdas
financeiras. A fraude pode resultar em perdas financeiras
significativas
para indivíduos, empresas e instituições
financeiras. A detecção de fraudes ajuda a
identificar e prevenir atividades
fraudulentas que minimizam
essas perdas Portanto, o primeiro objetivo do axônio do produto
é evitar que a perda financeira, a perda
financeira, a parte
do indivíduo Pessoas como você e eu,
para as empresas, as pessoas que estão
fazendo negócios e as próprias
instituições financeiras. Como se alguém
viesse e tivesse
o banco, a própria conta bancária. E então ele, o executor,
pode fazer o hacker fazer qualquer transação em
qualquer um dos
clientes bancários, certo Então, para proteger a
conta deles também, é importante, ok? Portanto, a prevenção sofisticada de perdas é
uma coisa muito importante. A segunda é proteger,
proteger clientes suficientes. fraude pode levar ao roubo de
identidade, transações
não autorizadas e outras formas de danos
financeiros aos clientes, detectando e prevenindo fraudes
e selando a proteção dos ativos
financeiros
dos clientes Então protege e um ponto de
interrogação aqui. Isso significa que precisamos de um
instituto bancário; se um banco está lá, outras
instituições financeiras estão lá. Sua principal
responsabilidade é manter as informações do cliente
seguras, salvas e privadas. Para garantir que eles
implementem esses detecção de
fraudes
para que clientes, ativos
financeiros e informações
pessoais estejam c, ou
seja, seguros A terceira é manter a confiança. A confiança também é muito
importante se seu banco, sua instituição bancária e atividades
constantemente
fraudulentas estiverem sendo realizadas nos cones Então, os clientes
perderão a confiança em você e
procurarão outro banco. fraude mina a confiança
no sistema financeiro por meio de atividades,
atividades de detecção
e As instituições financeiras
e a Venus podem manter a confiança que seus clientes e
partes interessadas apoiam Único. Suponha que
você seja um banco, X, Y ,
j e um dos titulares do seu cartão de
notas, cliente receberá uma
notificação quando alguém tentar fazer o que
não autorizou o Exelon, seu E antes de
confirmar a transação, basta ligar para o cliente
e dizer: Ei,
há um arco tangente e $99 estão sendo feitos
em seu Egito que você está fazendo
neste site específico. E se o cliente disser
imediatamente Não, não, não, eu não estou fazendo
isso, por favor, pare. E você bloqueou
essa transação, você recusa essa transação. E dessa forma, você
economizou $99 para seu cliente. E isso
certamente aumentará a confiança que a pessoa coloca o
cliente em você, em sua instituição e certamente recomendará
sua ferramenta de ensino Outros também, porque
ele sabe que
você acabou de economizar $99. Dessa forma, implementando
os salários de detecção de fraudes
para as instituições financeiras
por meio das empresas Isso melhorará a queda
também para seus clientes. Agora vamos entender que tipo de
dados estatísticos sobre a fraude, que tipo de fraude está acontecendo
e quanto a fraude custa às empresas
e aos clientes Portanto, as perdas globais por fraude, de
acordo com um relatório da Association of
Certified Fraud Examiners, sem
ECF, é uma organização
global As organizações globais
perdem cerca de
5% da
receita anual com a fraude Veja, as organizações globais
e as
grandes multinacionais estão perdendo 5% de
sua receita anual, o
que pode ser uma quantia muito, muito grande para
as atividades gerais E isso se traduz em trilhões de dólares
perdidos a cada ano. Portanto, se você implementar os cursos de detecção de fraudes usando inteligência artificial
e aprendizado de máquina, poderá economizar esses trilhões de dólares
para seus clientes A segunda é a fraude de cartas do
Arcade. Esse relatório da Nielsen afirma que as perdas
globais devido à fraude com
cartão de crédito ultrapassaram $27,
$27.000.000.000 em
2020, o que é uma quantia
enorme, e não
vale nada que classifique a fraude com cartão de crédito, um dos tipos mais comuns de fraude as perdas
globais devido à fraude com
cartão de crédito ultrapassaram $27,
$27.000.000.000 em
2020, o que é uma quantia
enorme, e não
vale nada que
classifique a fraude com cartão de crédito, um dos tipos mais comuns de fraude. Dada a
enorme placa de atualização generalizada. Isso é um fusível. As portas para cartões comerciais têm uma tampa
muito medida. E você pode ver a estatística C0, $27 bilhões em 2020.
E agora estamos em 2023 Portanto, poderia ter sido
dobrado com o aumento da digitalização, como
a
Índia nos últimos 34 anos, eles se tornando todos digitais e os
gases sendo usados Então, nesse caso, também poderia ter
aumentado a pegada bilhão
de dólares Portanto, é
muito importante implementar a
detecção de cartão de crédito . O próximo é o roubo de identidade. Somente nos Estados Unidos, a
Federal Trade Commission FTC receberam mais
de 1,4 milhão de relatórios do tipo de
identidade em 2020 Isso destaca
a prevalência do impacto
do roubo de identidade, que geralmente leva
à fraude financeira. Então, a fraude on-line,
com o aumento crescente adoção do comércio eletrônico e das transações
on-line, a fraude on-line tornou-se
uma preocupação significativa. O
relatório LexisNexis, esta
solução que contém 20 reais de custo do produto, revelou que cada $1 em
transações fraudulentas custam às testemunhas
$3,36 devido à compressão do estorno e à perda de Mark and Dice estorno Então esse é o impacto. Empresas perdendo $1. Não é que eles
estejam perdendo $1, mas indiretamente isso lhes
custará 3,3,
$6, de acordo com este relatório E disseram que, devido aos estornos,
às taxas e à perda
de mercadorias,
essas estatísticas
ressaltam a urgência e a importância de implementar
medidas
eficazes de detecção de fraudes para mitigar as finanças
e os possíveis riscos associados à fraude os E com isso, o conhecimento sobre a fraude é tipo e estrela, qual o impacto que ela tem acordo com as instituições
financeiras, sobre os clientes, clientes individuais e instituições
financeiras
e fraquezas Agora, estamos prontos para
prosseguir com nossos projetos. Então, na próxima palestra em diante, começaremos a fazer o site do projeto
Excel de produtos de cartão de data A próxima palestra
89. Como lidar com o conjunto de dados desequilibrado: Portanto, antes de começar a escrever
o código do projeto, vamos entender mais algumas coisas sobre a detecção de fraudes. E é importante fazer o projeto como eu tentei antes de
iniciar o projeto. Incluindo a parte teórica que é muito importante para
aprimorar seu aprendizado. Portanto, nesta palestra, entenderemos quais
são os desafios associados aos modelos de
detecção de fraudes que podemos criar e
como superá-los Então, vamos começar. Desafios associados
aos modelos de detecção de fraudes. Portanto, existem alguns desafios quando analisamos nossa mesa ou modelos de detecção de fraudes. E um dos
mais importantes é muito, isso ocorre com muita frequência. Ou seja, conjuntos de dados desequilibrados. Portanto, conjunto de dados desequilibrado
ou conjuntos de dados. Suponha que você
faça a detecção de fraudes no cartão
Kd e saiba que as atividades de fraude do cartão
Arcade
são muito menores, atividades de fraude do cartão
Arcade como
0,1% ou 0,001% Há chances de que uma atividade
ou transação de cartão de crédito seja fraudulenta Então, quando temos o conjunto de dados, que contém a maioria
das transações de nossos quatro carros
em todo o mundo. Vamos deixar que seu colega de equipe
deixe alguns lagos em um lakh, 1 milhão de cartuchos
x e haverá algumas centenas de transações
que
serão fraudulentas Portanto, quando coletarmos o conjunto de dados, a maioria dos 99%
do conjunto de dados conterá as células de transação
legítimas, apenas algumas delas
serão a fraude Então, quando criamos um modelo, ou modelos sempre
favorecerão a maioria. Portanto, nesse caso, sempre, qualquer
transação que aconteça,
ela será considerada legítima, porque
as transações fraudulentas são muito menores, nossos modelos não aprenderão
muito sobre o produto Jackson e, como 99% do
conjunto de dados contém as transações
legítimas, ele sempre favorecerá a transação
legítima. Portanto, ele não o
acionará, muito raramente
desencadeará qualquer atividade fraudulenta Portanto, o conjunto de dados desequilibrado é
um dos desafios associados ao nosso modelo de detecção de
fraudes As transações fraudulentas
são relativamente raras em comparação com transações legítimas Portanto, o conjunto de dados chocante e
desequilibrado, a maioria
alegada por Jackson encontrou, enquanto apenas uma pequena parte das Esse desequilíbrio de classe
impõe aos colegas
uma fraudulenta Portanto, esse desequilíbrio de classes
representa desafios para os modelos de
treinamento, pois eles podem se tornar tendenciosos para
a classe majoritária, levando a um mau trabalho na detecção de
instâncias de produtos Agora entendemos
o que é esse E,
então esse é dois. Portanto, esse dois está relacionado ao fato de que a maioria do
conjunto de dados
conterá as transações legítimas porque as transações fraudulentas
são muito menores Então. Isso fará com que nosso
modelo acredite em número suficiente de
casos fraudulentos Outra são as técnicas adaptativas de
fraude para que possamos evoluir constantemente
suas técnicas para
bifosfatar os sistemas Portanto, qualquer que seja o sistema de detecção, a
forma como desenvolvemos os fraudadores está um passo à frente. Eles
desenvolverão e desenvolverão suas técnicas para contornar
esse Eles adotam seus métodos, tornando-os mais difíceis de identificar. Usando o tradicional baseado em regras. Nossas abordagens baseadas em padrões. Conforme acusado,
os modelos de detecção de fraudes precisam ser
operados regularmente para acompanhar o suporte emergente ao
padrão de fraude. Você tem Deb Love em uma abordagem baseada em
regras
ou uma abordagem baseada em padrões E nós desenvolvemos um
para sistema de detecção. E você não o está atualizando. Mas com o tempo, os manifestantes estudarão, desenvolverão
técnicas,
instalarão sistemas de detecção de falsos e
começarão a realizar
atividades fraudulentas Portanto, é muito importante adotar as técnicas e aprimorar seus modelos a cada poucos
meses para que você seja líder dos manifestantes. O próximo problema é a
evolução do padrão de fraude. Portanto, os padrões de fraude não
são limitados. Suporte. Você tem
um conjunto de dados em está desenvolvendo um
modelo e há poucos padrões que
você reconheceu ele
desenvolveu um mecanismo
para identificar e acionar
um bastão fraudulento enquanto
Nixon está em andamento Mas o que acontecerá é
que os fraudadores se reinventarão ou continuarão inventando novos padrões que não existem
no conjunto
de E por causa disso, nossos modelos não são
treinados nisso. Portanto, se nosso modelo não estiver ativado, ele não
reconhecerá esse padrão e
fará com que legal legítima
e a atividade fraudulenta
do Azure não
sejam detectadas Então, evoluindo, padrão tenso. Outro desafio
na detecção de fraudes. Os padrões de fraude mudam com o tempo, tornando difícil para os modelos de detecção de
fraudes
capturar técnicas de
fraude novas e emergentes. Os modelos precisam ser capazes de detectar padrões de fraude
desconhecidos ou
inéditos sem depender apenas
de dados históricos Portanto, temos que criar nosso modelo forma que ele possa detectar
uma transação fraudulenta, mesmo que ela
não tenha acontecido
nesse pé de tangente e
não tenha acontecido anteriormente,
ou que não sejam dados históricos Portanto, ele também deve reconhecer
o novo padrão. Então, esse é outro desafio
problemático que está sendo alimentado pelos sistemas de detecção de
fraudes. A escalabilidade e o processamento
em tempo real são outro grande desafio
na detecção de fraudes Processo
do sistema financeiro em grande escala de toda a quantidade de
transações em tempo real Os modelos de detecção de fraudes precisam lidar com grandes volumes de dados de
forma eficiente e fornecer análises
em tempo real para identificar atividades
fraudulentas Isso requer uma
infraestrutura robusta e
algoritmos otimizados para garantir escalabilidade e processamento
em tempo real Portanto, esse é outro desafio muito importante
e muito grande, escalabilidade e o processamento
em tempo real São solicitados os dados. Se quisermos detectar uma transação fraudulenta
e você quiser acioná-la em
apenas alguns segundos, haverá de
seis a 8 segundos para detectar, acionar e identificar a transação
fraudulenta Se você perder esse período de tempo, seis a 8 s, ele
passará. Portanto, o
processamento cronometrado em tempo real é
muito, muito importante e deve
ser muito rápido Então isso é outra coisa. Então, a engenharia de recursos,
que atua no desenvolvimento modelo de sistema
eficaz e
de detecção de fraudes requer experiência e engenharia de
recursos Identificação de recursos relevantes que capturam a detecção de fraudes. Fraude ou padrões elétricos são cruciais para uma detecção precisa. No entanto, selecionar o
conjunto certo de recursos e criar representações
significativas
de dados pode ser desafiador exigir conhecimento de domínio
e ser realmente ativo Tentei experimentar a
privacidade, a fraude constante,
detectar, envolvi o processamento de dados
confidenciais de clientes leitura de questões de privacidade É essencial
garantir a conformidade com os regulamentos
e manter a segurança
dos dados durante todo o processo de
detecção de fraudes. próxima célula desse falso positivo
e falso negativo, encontre o equilíbrio certo entre a minimização de falsos positivos, o sinalizador de transação
legítima,
a combinação de transações fraudulentas e falso-negativas fraudulentas A próxima célula desse falso positivo
e falso negativo, encontre o equilíbrio certo entre a minimização de falsos positivos,
o
sinalizador de transação
legítima,
a combinação de transações fraudulentas e falso-negativas fraudulentas. E o acionado como uma transação legítima
é um desafio. Uma alta taxa de falsos positivos
pode incomodar o cliente, enquanto uma alta taxa de falsos negativos pode levar a perdas financeiras Ajustando os parâmetros do
modelo. E é sempre necessário
otimizar o desempenho. Então, o que é falso positivo? Falso positivo significa que transações
legítimas são sinalizadas como fraudulentas Então, o que acontecerá
nesse caso? Suporte ao usuário que estava usando seu próprio cartão de crédito
e fazendo alguma transação Seu modelo
acionará
o Azure de forma fraudulenta E você liga imediatamente para
esse cliente e diz que está fazendo em
seu cartão de crédito alguns projetos de pátria
e está sendo concluído Então, o
que acontecerá se o
próprio cliente estiver fazendo isso, transação e ficar irritado porque está
tangente e foi parado Portanto, nesse caso, os falsos positivos
criarão muitos inconvenientes
para o cliente E se isso acontecer
repetidamente, isso
irritará muito o cliente Da mesma forma, os pontos positivos e os falsos negativos também podem
levar ao financiamento Se uma
transação fraudulenta for perdida e estiver
passando pelo sistema
, Gordon
causará A diretoria, temos que
equilibrar o falso negativo e o
falso positivo de
forma que ambos os casos
ocorram muito pouco. Capacidade e explicabilidade inter, inter irritáveis. Técnicas modernas de aprendizado de máquina, como aprendizado
profundo, podem fornecer modelos de
detecção de fraudes
altamente precisos. No entanto, eles geralmente
carecem de interpretabilidade, tornando difícil explicar as razões por trás das decisões do
modelo A capacidade de interpretar
e explicar a saída do modelo é crucial para ganhar a confiança e a aceitação
das partes interessadas E enfrentar esses
desafios requer uma combinação de técnicas avançadas de
modelagem, experiência
contínua no
domínio de monitoramento, colaboração entre cientistas de dados,
Unleashed e
especialistas
do domínio para criar
uma fraude robusta e adaptável para detectar depósitos de peixe-lua colaboração entre cientistas de dados,
Unleashed e
especialistas
do domínio para criar
uma fraude robusta e adaptável para detectar depósitos uma fraude robusta e adaptável Ok, agora, discutiremos algumas técnicas com as quais lidamos com o conjunto de dados
desequilibrado Porque em nosso projeto
vamos
usar um conjunto de dados ou transações de cartão de
crédito que
são de natureza desequilibrada
, porque a
maioria das transações é de cerca de
98.99%, a excelência da Tange é
tão legítima quanto
1% e os exons estão lá, o
que desencadeará o tratamento fraudulento de um conjunto de fraudulento Lidar com um
conjunto de dados desequilibrado é uma etapa crucial no desenvolvimento de modelos eficazes de detecção de
fraudes Aqui estão várias técnicas
comumente usadas para enfrentar os desafios impostos
pelo conjunto de dados desequilibrado A primeira técnica é
essa técnica de amostragem de
reamostragem com água. Vamos amostrar dados,
temos, temos dois. Precisamos reamostrar isso para que desequilíbrio
no conjunto de
dados possa ser gerenciado E também existem
algumas técnicas de reamostragem
que podemos aplicar O primeiro é subamostragem. As técnicas de subamostragem
envolvem jogadas aleatórias removendo instâncias
da classe majoritária para equilibrar o Isso reduz o domínio
da classe majoritária, mas pode resultar na perda
de informações valiosas Portanto, se continuarmos removendo
aleatoriamente a classe majoritária, isso também pode resultar na perda de informações
valiosas, mas isso também está
sendo feito. Ok? próxima é a superamostragem
dessas listas de verificação e envolve criação de instâncias sintéticas da classe minoritária
para equilibrar o conjunto
de para Nesse caso, o que fazemos, preenchemos o conjunto de dados com
a classe minoritária Isso pode ser obtido
por meio de técnicas como aleatória ou técnica de sobreamostragem minoritária
de modelo sintético
inteligente A sobreamostragem inteligente aumenta as representações
da classe minoritária, mas pode Então, isso levou ao problema de sobreajuste.
Modelo híbrido. Esses modelos combinaram
técnicas de sobreamostragem e
subamostragem para equilibrar técnicas de sobreamostragem e
subamostragem o conjunto de dados de forma eficaz. A próxima são as técnicas algorítmicas
. O primeiro é o aprendizado
sensível ao custo do que n. Em seguida, em ambos os métodos, detecção de
anomalias é
outra técnica, métricas de
avaliação e, em cada
um deles, essas são técnicas com
as quais
lidaremos com o conjunto de dados
desequilibrado Portanto, em nosso projeto,
vamos lidar com esse conjunto de dados desequilibrado com amostragem total,
na qual sobreamostraremos
nosso conjunto de dados
com na qual sobreamostraremos uma nuvem
dopaminérgica que é uma atividade fraudulenta com esse conjunto de dados desequilibrado com amostragem total,
na qual sobreamostraremos
nosso conjunto de dados
com uma nuvem
dopaminérgica que é uma atividade fraudulenta. Então nos vemos
na próxima palestra.
90. Detecção de fraude sem modelo: Olá e bem-vindo de volta. Então, vamos começar
com o projeto. Então, aqui estou usando um arquivo csv de ponto de cartão de
crédito, que contém os detalhes das transações do
cartão de crédito Ok, então nós, o primeiro passo
é ler esse arquivo CSV. Então, para fazer isso, para fazer isso, o que eu perco, eu perco a função
CSV de porta e passo o caminho para o arquivo CSV e o nome
do arquivo TSV Então, o mais sujo,
vamos girá-lo e depois vou
guardá-lo Variável do cartão de notas. Tão importante que sim, é assim, pois você
sabe disso? Muito bem. Até agora, o
passo é executar isso. Agora temos os
detalhes do cartão de notas neste cartão de notas, ok, nesta variável. Então, quando você clica nisso, agora você pode ver aqui que
há algumas colunas
vezes V1, V2, V3 E esse V1, V2, V3 vai ler 20º E então a coluna é quantidade e depois outra é vidro. Então você quer ter 28 anos e
depois a data e a hora e depois a coluna de quantidade e a
coluna de classe Então, quais são essas colunas? Timess, timestamp e este V1,
V2 até V 28, V2 até V 28, cartão
Arthur Jackson E por que é assim,
porque essas não são transações reais
para
a região da secularidade E para manter as informações das enormes
informações
do cartão Arcade seguras e protegidas Usando o PCM. Nós temos. Essas colunas são a versão reduzida
dos dados reais para manter o setor de informações
do usuário. E para isso, usamos o BCM e
usamos modalidade de
diamante para
reduzi-la a este formulário, de forma
que as
informações do juiz rejeitem sua. Há uma quantia e, em seguida
, há uma classe de classes para
euros, as transações contábeis do apresentador e
uma representa
transações fraudulentas a modalidade de
diamante para
reduzi-la a este formulário, de forma
que as
informações do juiz rejeitem
sua. Há uma quantia e, em seguida
, há uma classe de classes para
euros, as transações contábeis do apresentador e
uma representa
transações fraudulentas. Então, esta é a reabilitação do conjunto de dados, e vamos analisar esse conjunto de
dados Então, a próxima coisa é que veremos a estrutura
do conjunto de dados. E para isso usamos a função STR e
passamos essa variável do cartão E quando executarmos isso, nós daremos, daremos a eles, isso dará o resultado. Ainda em execução. Comece a analisar a
estrutura dos dados. Ok? A próxima coisa é que essa é a estrutura do carimbo de data/hora
do conjunto de dados. Então, aqui você pode ver que todas
as colunas são numéricas. E entre esses numéricos
e o vidro aqui,
que está aqui, está o
numérico GTO um Mas, na verdade, isso
não é numérico, mas que assim seja, é um dado
categórico Porque é, o fator
determinante para o euro é para os
legítimos e mais 1” Uma é para
transações fraudulentas
, como essa no formato
categórico Então, o que
precisamos fazer é
transformar isso em fator. Precisamos converter esse
número inteiro em fator. E para isso, o que eu vou fazer e usar o dólar do cartão de crédito, colegas de classe em
dólares,
vamos usar essa classe Ok? Essa coluna. Ok, então você pode ler que
Dollar Call Class nos
levará a essa cor. E então usaremos
a função fatorial para converter isso no fator. E aqui, novamente, daremos a classe em dólares do
cartão de crédito e depois os níveis de vírgula Você pode ver 01. Então, estamos atribuindo fatores do G21. Isso para isso. Então, dessa forma, ele
será convertido em, converta-o em fatores. Então, anteriormente, era Integer Agora, se vemos a
estrutura do conjunto de dados, se eu executar isso novamente, agora você pode ver aqui que todas as
outras colunas são nômades e o vidro não é um fator
de dois níveis Ok? Agora, convertemos
com sucesso a coluna de vidro em dois
fatores valiosos. Ok? Agora, novamente,
veremos a estrutura do conjunto de dados e
o fator óculos de
aviso. O próximo passo é verificar
o valor que falta. Então, sempre que obtemos nosso conjunto de dados, a primeira coisa que
verificamos é se há valores nulos Se não houver valores, precisamos enfrentá-los. Precisamos lidar com os
valores nulos colocando alguns perdedores, removendo as colunas, os pisos, que contêm mais
números de valores nulos Portanto, existem algumas técnicas que seguimos para lidar com
os valores ausentes. E aqui para verificar se os valores
faltantes que usamos escuros e analisamos
o conjunto de dados E o polegar de fora é que
um
a nos dará o número total de
valores faltantes no conjunto de dados Parte disso é NA escuro
e, em seguida, a
variável do conjunto de dados aqui passará Então, vamos, deixe-me fazer isso. Agora está chegando a zero. Isso significa que nosso
conjunto de dados
não contém valores faltantes, então
ignore os valores ausentes Portanto, não precisamos nos
preocupar com isso. Não precisamos fazer
nada para isso. próximo passo é obter a distribuição de fraudes e transações legítimas
no conjunto de dados Agora, para isso, usaremos a
função de tabela e passaremos a coluna de vidro porque a coluna classe é o fator de
distribuição que
dirá qual é fraudulenta e qual
é transação legítima Então, cartão de crédito, dólar,
classe e mesas. Então, isso nos dará o número de transações e o número
de transações fraudulentas. Portanto, zero é 28.004 a
84 vezes três que obtemos é a transação contábil um elevador
492 ou as
transações 492 Então, aqui nesta semana,
saiba que esse é
o conjunto de dados desequilibrado
porque a maior parte do conjunto de dados,
cada um com saiba que esse é suas tangentes e transações legítimas
ágeis, e a suas tangentes e transações legítimas
ágeis, e solitária de duas pernas,
34.300.492, é uma transação
fraudulenta, o que é muito menor em comparação com 34.300.492 a transação contábil. Portanto, esse é um tipo de conjunto de dados
desequilibrado. Agora veremos qual
é a porcentagem de transações
legítimas e
fraudulentas para o conjunto de dados de Berlim transações
legítimas e
fraudulentas Então, para fazer isso, usaremos a função prop dot
table E passaremos por essa tabela e passaremos por
essa classe de coluna. Ok? Então, deixe-me ver. Seus 99,8% são a fraudulenta,
desculpe, mais tarde Angie , Excelente 0,017% são as transações fraudulentas
. Então, a próxima coisa é,
deixe-me colocar isso nos gráficos circulares. Então, para criar um gráfico circular, o que faremos
primeiro é criar uma lógica e produzir
dois vetores aqui E então vamos
atribuí-lo a níveis
e, em seguida, criaremos
outro nível E usaremos a
função de colar com base nesses rótulos. Então, vamos pegar os níveis,
esses legítimos, e depois
usaremos a centena redonda
na mesa de adereços. Isso nos dará
a porcentagem da porcentagem
das transações legítimas
e fraudulentas E aqui a vírgula dois e nós fomos
porque eu quero isso aqui, é muitos dígitos
depois Quero
restringi-lo ao dígito e
depois aos níveis, níveis
e porcentagem E então usaremos a função
pipe. Aqui. Eles passarão a tabela K mais nome da coluna na qual eu quero traçar a tabela ICE e seguida,
rotulá-la de legítima e fraudulenta E então a coluna A colapsa ou cada cor
tem um Android verde. A parte esverdeada, os léptons
excelentes, leia mais, fraudulentos e Esse será o título
do nosso gráfico circular. Então, deixe-me fazer tudo isso junto. E ele realmente tinha
feito pelo gráfico aqui, transação
legítima em 99,83
e fraudulenta e vinho 17 Vamos executar isso novamente. Aqui. O gráfico circular é sua clínica contábil e seus
99,83 e são três,
tudo está ficando verde tudo E o vermelho está para
apenas 0,17% pronto a menos. Portanto, esse é um conjunto de dados verdadeiramente
desequilibrado. Agora, o que vou fazer, vou tentar prever
com o modelo normal. A previsão não
usará nenhum algoritmo de
aprendizado de máquina e religiosas tentarão prever
sem uma garrafa Então, para esses rótulos x e y e ainda assim uma grande repetição
ou função, eles são trazidos para o GTO Então, o que vou fazer e pagar
o cartão de crédito. Portanto, em nosso conjunto de dados para todas as linhas e o ROI,
forneceremos esse número
que se aproxima do conjunto de dados do cartão Kate E apesar de tudo, o foguete
repetirá zero, ele preencherá zeros. Então, todo o projeto se
tornará uma transação
contábil E então usaremos o fator senso de
previsão e
os níveis G, linha um. E então deixe-me fazer isso. Ok? E se eu colocar senso de
previsão, Ok, e previsões, ok, e então eu vou usar a biblioteca de
caracteres aqui Porque eu vou usar
a matriz de confusão. A
matriz de confusão e um chefe, esses dados, como você
chama de previsão, este e fazem referência à classe de dólares do cartão de
notas E se eu executar essa métrica de
confusão, veja se ela está
carregada de previsões. Veja que a precisão
deste modelo é 99,83. Portanto, todas as transações foram
classificadas
corretamente como legítimas. Todas as transações contábeis são classificadas
corretamente como legítimas E essa doença, os aditivos e
isso é negativo Então, isso para 92 ou as transações
fraudulentas
que não são classificadas como transações fraudulentas Portanto, todas as transações
no conjunto de dados foram classificadas
como Leggett e exons,
mesmo isso por 92 tan x
e mesmo isso por 92 tan x Nosso modelo de previsão não
foi considerado
uma transação fraudulenta
que foi transferida para a transação contábil Então, como esse é
um conjunto de dados realmente
desequilibrado, nosso modelo de
previsão está prevendo tudo como nosso modelo de
previsão está prevendo tudo como legítimo porque não está sendo treinado com base em
dados fraudulentos
porque são muito
menores e é
por isso que tudo está Portanto, essa é a previsão baseada na previsão do modelo normal Não usamos nenhum modelo e algoritmo
de aprendizado de máquina Então, na próxima aula, usaremos um algoritmo de
aprendizado de máquina para lidar com esse conjunto de dados
desequilibrado E tentaremos prever de uma
maneira melhor. Nos vemos na próxima palestra.
91. Como criar a amostra de dados de treinamento e teste: Olá e bem-vindo de volta. Então, nesta palestra, vamos avançar
em nosso projeto E o que eu vou fazer aqui, eu vou pegar a coisa. O que faremos é pegar os dados de amostra dos dados
atuais do portão que temos. Então, o que
faremos é pegar os dez
por cento dos dados do
conjunto de dados existente na amostra E sobre isso, tentaremos
criar um modelo. E então, quando estiver fornecendo previsões
corretas, aplicaremos esse
modelo ao conjunto de dados Então, para fazer isso, quais são as coisas que podemos fazer? Vou usar
uma biblioteca em D flat. Então você acabou de baixá-lo. Se não estiver, baixe-o. E então você fez a biblioteca, vamos usar
e depois definir a semente. Um, esse relatório, porque quando eu pego 10% desse conjunto de dados
de cartão de crédito. Portanto, se você não definir
o pool de sementes
, o que acontecerá toda vez ele retirará aleatoriamente
os dez por cento de todo o conjunto de dados e cada vez, será
diferente, dez por cento Então, por esse motivo,
queremos a mesma configuração, 10% toda vez que executamos esse código. Até agora eu perco um. Ok, então vamos executar isso. E depois Cape Cod. Ok, eu o atualizei. Então, deixe-me tentar executar
todo o código novamente. Ok, então veja agora que pegamos os dez por cento deste cartão. Este é todo o
conjunto de dados, estou pegando uma amostra,
sublinhado, essa função que estou usando
e estou fornecendo 0,1,
0,1 min, 10% de todo
o conjunto de Então, estou pegando o fluxo
de 10% entre eles do conjunto de dados e
atribuindo-o
a esse protetor Valioso. Ok? E então, quando eu executo isso, você pode ver que agora
fizemos a mesma configuração,
linhas e colunas. Ok? Então eu vou usar a tabela, e eu vou usar essa classe. Então, deixe-me fazer isso. Agora. Temos o beneficiário aqui alternando para frente e
para trás Então, 10% disso. Ok, e aqui o legítimo
é 28.000 e nenhum
protestante e Ok, agora pegamos os dez por cento de todo
o conjunto de dados. Quais são as coisas? Agora vou usar o gráfico GG apenas
para usar isso. E se não for baixado, você o baixa,
instala e depois o usa. Ok? E aqui, o que vou fazer, vou tentar dispersar o terreno aqui E neste ano, porém, essa pessoa morta que
acabamos de criar, anestesia pode usar
os eixos x e y. Fazemos colunas e
cores e, novamente, fabricamos em sala de aula zero ou
um de última Um ponto legítimo na frente
do comprimento, ok? Geom points, não, não
alugue em preto e branco. Junte seu gráfico. Então, isso ficará em
preto e branco. E o manual de cores da escala
aqui em azul e preto. Azul e vermelho, desculpe, não preto, azul e vermelho. Cor azulada. O euro e a guerra por
uma transação
contábil vermelha e azul e vermelha
pelas transações fraudulentas Então deixe-me executar essa ferramenta Ok, então veja aqui, agora temos esse gráfico de dispersão A classe que representa
0,1 representa, mas ainda está desequilibrada Há tantos Jackson que poucos deles falam
sobre o fraudulento Ok, agora temos os 10% dos dados e os
plotamos Em seguida, precisamos
criar o conjunto de treinamento e teste para a criação do modelo de
detecção de fraudes. Ok, para isso,
vou ver ferramentas. Se você não instalou isso, você pode instalar
usando install.packages. E você pode ver
no back-end que deseja instalar a biblioteca Todos eles usam a biblioteca. E compra esse nome de Seattle. E eu fiz isso, então vou usar isso para semear 123. E então eu vou pegar
a amostra de dados. E o que vou fazer, vou dividir esses dados de amostra
que coletamos em 10%. Agora, esse conjunto de dados de
10% é dividido em
80.2080 para o treinamento
e Bronte para No entanto, darei a
amostra para dividir classe
do cartão de crédito
com base nisso, você sabe,
e um o classificador
e, em seguida,
dividirei a corrida para você, darei 80%
pontiagudos para treinar e 20%
compraram o tracejado Ok, e a próxima coisa
são dados treinados. E pegue o subconjunto
dessa amostra de dados e subconjunto
de amostra de dados, uso
funcional e cartão de notas E fiz uma amostra
chamada de tos 2 min. Deixe-me fazer isso primeiro e depois eu vou te dizer por que você
não entendeu verdadeiro e falso. Ok? Então, quando executamos essa amostra de dados, isso não policia
o conteúdo de verdadeiro falso, verdadeiro, falso, verdadeiro, falso. Verdadeiro é para
transações
contábeis e falso para transações fraudulentas Ok, agora temos
a amostra aqui. Então, o que vou fazer, vou
pegar as duas ALU e obterei os valores
falsos aqui Então, deixe-me executar esses dados de tendência e esses
serão os dados do teste. Então, conjunto de dados de treinamento
e esse conjunto de dados. Agora, se quisermos conhecer o sentido diamantado desse conjunto
de dados de
treinamento e treinamento e do conjunto de dados, você pode usar um nome de função escuro,
treinar dados de sublinhado 22.007, 85 linhas e 31 colunas. E para theta 5.696,31 colunas, as linhas e
as Dessa forma, podemos obter o conjunto de dados
de trem e teste. Na próxima palestra,
avançaremos na criação
do modelo
preditivo
92. Métodos de amostragem aleatória sobre e em baixo da amostra: Agora temos os dados do teste e
os dados de treinamento. Vamos lidar com o conjunto de dados
desequilibrado. Portanto,
há duas, três abordagens
que
veremos neste projeto. A primeira é a
sobreamostragem aleatória. E então veremos a subamostragem
aleatória
e, em seguida, veremos
os dois juntos. Ok? Então, deixe-me começar com
a sobreamostragem aleatória Então, o que é sobreamostragem aleatória? A sobreamostragem aleatória significa que
precisamos colocar 50,
50 por cento dos casos legítimos e de fraude
. Ok. Então, para isso, o que vou fazer, vou usar os dados do trem
e sobre esta mesa de vidro. E deixe-me fazer isso. Então, veja aqui agora
que temos a rosa legítima,
22.007, 50 e, para nosso Ok, então isso está desequilibrado, então precisamos fazer uma
sobreamostragem aleatória desse conjunto A sobreamostragem aleatória
significa que precisamos colocar os dois de
acordo com os acordos dos alunos Precisamos fazer com que
os dois sejam iguais. Então, para essa análise, o número de transações é chamado de
colágeno, Ashley 22.007 E o que eu quero fazer de
novo e, muitas vezes,
legítimo, é como, o que eu quero 50% Ok, agora vou coletar
o número novo e total,
novo e total de linhas
necessárias em nosso novo conjunto de dados
sobre o conjunto de dados de amostra Então,
aqui está o que vou fazer vou ser alérgico legítimo a este dividido
pela fração de portas
lógicas que
queremos, para que
façamos e obtenhamos um novo número Ok, então deixe-me fazer isso. Portanto, são 45.500 linhas. Precisamos de um ônibus para isso, ok? Então, agora vou
usar o pacote Roche aqui. Então, se você não instalou, basta instalá-lo.
Caso contrário. Simplesmente enorme. É bastante sólido
instalado aqui e cria uma sobreamostragem valiosa, chamada
de jarra E ele tinha um grande método de amostragem de
pontos benéficos. E aqui vou dar a classe como uma variável, variável
independente. E esse ponto de sinal
fornecerá todas as outras variáveis
disponíveis nos conjuntos de dados. E então vírgula e
depois dados são iguais a, estamos usando os dados do
trem, os dados do sublinhado do treinamento
que criamos E então o método é a sobreamostragem. E n número de rosas, novas e um total que
está chegando a 45.500 E a semente que estou usando aqui, para que sempre tenha o
mesmo resultado. Então, deixe-me fazer isso. Então, agora está executado. Agora, se olharmos para isso ou para a sobreamostragem
aleatória,
eles cobram, você pode
ver aqui Clique aqui e você pode ver
que agora, se você quiser ver os dados,
temos que usar a
sobreamostragem, que é chamada de dados do sinal de dólar do resultado Então, ele nos dará o conjunto de dados. Ok? olharmos para esta
tabela do conjunto de dados, a sobreamostragem, crédito verá 45.500 linhas e os casos com pernas em 22.017, 50 e os
casos fraudulentos Agora, se
olharmos para esta
tabela do conjunto de dados, a sobreamostragem, o
crédito verá
45.500 linhas e os casos com pernas em 22.017, 50 e os
casos fraudulentos também são um tutorial impresso. Certo? Agora, o que vou fazer, vou traçar isso com
a ajuda do GG plot Então, aqui, teta é igual a, vou pegar essa sobreamostragem de
grandes Por quê? Nós classificamos cor, classe, classe e ponto
geométrico e azul fino, a mesma coisa que
fizemos anteriormente Então, deixe-me traçar isso e ver
como estão nossos dados. Agora, eu tenho uma sobreamostragem. Ok, porque eu clico no preço. Veja aqui agora nosso conjunto de dados novo
ou de amostra em palavras está assim Este é o gráfico de dispersão e,
por isso, ainda
estamos vendo um número muito menor de casos
de terras agrícolas conforme lidos A maioria deles está em
azul apenas por causa de cada caso fraudulento.
Criamos entradas duplicadas
durante a sobreamostragem E é por isso que cada um
deles conterá
mais valores duplicados É por isso que, por trás disso,
há mais pontos. Ok? Então, para ver, para traçar melhor,
podemos usar o teste t. O teste t lhe dará
mais visibilidade sobre isso. Então, deixe-me te contar aqui. ponto geométrico para Giussani
é a posição quadrúpede O ponto geométrico para Giussani
é a posição quadrúpede, o detalhe sublinhado e a largura. Podemos colocar 0,2 ou eu
posso colocar até 0,5. E deixe-me fazer isso. Agora, esses pontos serão detalhes
um pouco maiores. Então, isso saberá
que há mais pontos. Não apenas esse ponto,
porque, ao sobreamostrar,
não duplicar, ele
criará a duplicata dos dados existentes. ele
criará a duplicata dos dados existentes. Podia ver aqui.
Agora você pode ver que há mais pontos, pontos maiores. Então isso é, isso é por causa
das coisas duplicadas. Ok? Agora entendemos o que é sobreamostragem e
como podemos fazer isso Ok, a sobreamostragem é que
há um problema com algo em que podemos
criar os Agora veremos a subamostragem
aleatória. Para subamostragem, use
também o mesmo. Em seguida, sublinhe os dados. E aqui, há um número de linhas fraudulentas
aqui Comece se eu escrever N, fraude será 35. Sabia o que eu queria. Eu quero 50 por cento
do conjunto total de dados. E o novo e o total não
serão fraudes divididos por 0,5. Então, isso nos dará o
número total de estradas necessárias para a subamostragem aleatória.
Agora estamos falando sobre isso. total novo será de 70.
Portanto, haverá uma
lista, 70 funções necessárias. Se fizermos uma
amostragem insuficiente, isso é muito baixo e isso levará
à perda da versão beta Ok, novamente, para
outros candidatos, então vou usar o pacote Então, aqui vou criar uma amostra de
subamostragem, sublinhado, adulto e própria.
A mesma coisa que vou usar. Tudo será o
mesmo, exceto que esse metalúrgico até o submétodo
estará sob E aqui vamos passar o
novo total e o assento. E deixe-me fazer isso. Agora, fizemos os dados
abaixo da amostra. Agora você quer ver
o conjunto de dados, USDA, amostragem dos dados
e
subamostragem, o grande escritor Nós administramos isso. Agora temos
essa subamostragem O que Lisa Monday
lança por aí. E metade deles
são legítimos e metade deles são fraudulentos Mas isso nos levará à
perda de dados se você traçar a mesma coisa. Vamos ver. Aqui. Os
casos legged e fraudulentos são Mas aqui perdemos
quase 22.700 linhas. Isso não é bom para nenhuma
análise ou dados de previsão. Então, na próxima aula, combinaremos
essas duas subamostragem e
sobreamostragem e
tentaremos prever
93. Como usar ROS e RUS para balanceamento de dados: Olá e bem-vindo de volta. Então, agora vimos como
podemos trabalhar com o ROS de
sobreamostragem aleatória E então vimos como
podemos trabalhar com essa subamostragem
aleatória,
sobreamostragem e
subamostragem sobreamostragem e
subamostragem Mas ambos têm algumas desvantagens, pois a
sobreamostragem também
causa feridas e a
subamostragem causa a suavização ou exclusão da maioria
das linhas, o
que pode afetar a
tomada de decisão na previsão e nossos modelos não serão ou exclusão da maioria
das linhas, o
que pode afetar a
tomada de decisão na previsão e nossos precisos Ok? Portanto, abordagens que usam
ambas juntas significam que a
sobreamostragem aleatória e a subamostragem, ambas Então, esse método é chamado de placa. Então, tudo será o mesmo aqui. O que faremos, eu usarei um novo
e Andrew, o número de linhas
no conjunto de dados de treinamento. Então, será o 785 para 12.000
bolsistas de estudo. Ok. Então, aqui podemos colocar o comando e a nova inteligência 785 Agora, fraude e fraude, novo, o que queremos fazer
é encontrar 5%, 0,5 Metade disso seriam
transações fraudulentas e metade das transações
contábeis da fonte de dados Agora, vamos fazer a amostragem, então vou usar a amostra de pontos e a mesma coisa
que usamos o parâmetro de subclasse E então todos os outros criarão
esse ponto, resolva outras colunas, na verdade, venha , depois, o treinamento de dados
sublinhe o método de dados Aqui. Anteriormente
, usamos o método repetidamente. Agora vamos usar os dois. Portanto, isso fará tanto a amostragem
inferior quanto a excessiva. E você pode sublinhar um
novo e ser igual a
flexionar e sublinhar que a fraude ou a má conduta conheciam Então ainda somos sementes. Então, isso obterá
o mesmo retargeting. Em seguida, vamos executar isso. E se você quiser ver a amostra
do conjunto de dados
de crianças onde elas irão
alquilar e amostrar,
a amostragem sublinha os dados em dólares. Então, isso dará sua
amostra porque eles pularam. Então, esses são os dados. Ok? Agora vamos criar nossa tabela. Então nos vemos agora. 11.004, 31 é
menor ou igual a cinco. Então, quase o mesmo número de casos
legítimos e fraudulentos. Então, isso é meio que
um pouco de equilíbrio. Certo? Agora vamos criar a tabela de adereços. E aqui você pode ver
a porcentagem de tão legítimas e trágicas que quase não são pessoas
apropriadas E 49% são as transações da
pátria. Agora, se plotarmos
essa distribuição, usaremos a mesma parte do exame, essa ou esse conjunto de dados. E queremos refazer x e y.
E cores frias são feitas no vidro e
no ponto geométrico G e 0,3 Ok, vamos executar isso. Então C, mas este é
o gráfico de dispersão. E vejo que os pontos
azuis ainda estão, você pode ver que está
vindo de mais, mas na verdade não é aquela coisa porque temos uma amostra robusta e outra amostra ou amostra dela Portanto, os casos com pernas com
menos no conjunto de dados duplicados dos criados pelo administrador e é
aí que
eles se Portanto, vermelho e azul são quase iguais, mas as taxas estão se sobrepondo Um à direita
parece menos um, mas dá para ver. Eu usei os detalhes aqui. Então, essa característica está ficando
um pouco nervosa. Ok? Então, agora vimos como
podemos fazer a sobreamostragem, a
subamostragem e o subamostragem e Em seguida, usaremos a técnica de
sobreamostragem minoritária sintética para equilibrar os dados Isso é chamado de técnica
inteligente. E para isso, também usaremos a biblioteca da família
Smart. E na próxima palestra,
aprenderemos mais sobre
esporte e depois
escreveremos o código da técnica inteligente para
sobreamostragem de minorias
sintéticas Ok, então nos vemos
na próxima palestra.
94. Vantagens e desvantagens de SMOTE: Nesta palestra, aprenderemos sobre a sobreamostragem de
pequenas minorias sintéticas,
que é uma técnica muito popular de
sobreamostragem, usada para resolver o problema do desequilíbrio de
classes no aprendizado de máquina classes Ele funciona criando amostras
sintéticas de
classes minoritárias que são semelhantes às amostras de classes
minoritárias existentes. Isso ajuda a equilibrar a distribuição de
classes e melhorar o desempenho dos modelos de aprendizado de máquina
em conjuntos de dados desbalanceados Então, isso realmente
resolverá o problema que
enfrentamos nos métodos de sobreamostragem e
subamostragem É por isso que são chamadas sobreamostragem minoritária
sintética Então, essa transação,
que é minoritária, superamostrará
essa classe minoritária, mas em uma semana muito sintética Ainda assim, essa também é
apenas uma técnica
de sobreamostragem , mas Então, veremos como isso é feito. Aqui estão algumas das vantagens
da técnica inteligente e inteligente. É uma técnica muito simples e
fácil de implementar. Ele pode ser usado em vários algoritmos de aprendizado de
máquina. Ele pode ser eficaz para
melhorar o desempenho de modelos de aprendizado de máquina
em conjuntos de dados desbalanceados Então, a primeira coisa é que é muito simples e
fácil de implementar. E também pode ser usado com uma variedade de
algoritmos de aprendizado de máquina E isso melhorará o desempenho dos modelos de aprendizado de
máquina. Em um conjunto de dados desequilibrado. Também existem algumas desvantagens
do smart. Ele pode criar amostras sintéticas que são muito semelhantes
às amostras de
classe magnética existentes, o que pode levar ao sobreajuste Portanto, isso pode levar ao
sobreajuste, pois sobreamostrará o banco de dados
nas amostras de classes
obrigatórias existentes Portanto, isso pode levar ao conjunto de dados de tal
forma que ele possa se ajustar demais ao modelo
e nosso modelo não preveja o resultado correto Isso pode aumentar o
ruído no conjunto de dados, que também pode levar
ao sobreajuste Pode ser computacionalmente
caro,
especialmente para grandes conjuntos de dados, já que estamos fazendo uma sobreamostragem E se o conjunto de dados já
for grande, ou
seja, será
mais demorado e
computacional E as despesas serão muito altas porque
levará mais tempo para fazer cálculos para
aplicar qualquer método a esse respeito Portanto, no geral, mais sintética de
sobreamostragem minoritária é uma técnica poderosa que pode
ser eficaz para melhorar
o desempenho de modelos
de aprendizado de
máquina em conjuntos de dados uma técnica
mais sintética de
sobreamostragem minoritária é uma técnica
poderosa que pode
ser eficaz para melhorar
o desempenho de modelos
de aprendizado de
máquina em conjuntos de dados desbalanceados. No entanto, é importante
estar ciente de suas limitações e
usá-lo com cuidado. Então, agora vamos ver quais são
as desvantagens e vantagens , primeiro, a técnica inteligente. Mais uma vez, as vantagens do EEG e a simplicidade de implementação e as desvantagens que ele pode criar ou sobreajustar podem ser usadas em uma variedade de algoritmos de
aprendizado de máquina podem aumentar Eles disseram que era um teste. E
podemos considerar a melhoria do desempenho dos modelos de
desempenho da bomba de aprendizado de e, computacionalmente,
isso será caro Portanto, agora temos o
conhecimento básico de inteligência e como, e quais são as vantagens e desvantagens que são
exploradas Na próxima palestra,
implementaremos a técnica inteligente
em nosso projeto
95. Como aplicar a técnica SMOTE no conjunto de dados de treinamento: Olá e bem-vindo de volta. Nesta palestra, vamos
escrever nosso código mais detalhadamente. Técnica inteligente, técnica sobreamostragem minoritária
sintética para balancear o conjunto de dados ou
a
técnica usada
no conjunto de dados do GitHub Então, aqui precisamos instalar
o backend
install.packages Então, vou usar a família
Smart aqui. Portanto, se não estiver instalado, basta instalá-lo executando este comando e, em seguida, usar a família spot de
bibliotecas. Ok. Então, a primeira coisa que
precisamos fazer é executar isso. Ok, o próximo é usar os dados do
trem no vidro. Então veja aqui agora, este é o nosso oriental,
nossos dados de treinamento. Portanto, 22.007, 50 é o
número de casos,
35 são os casos em terras amplas Agora, definiremos o número de fraudes e deixaremos que ele faça suposições A pessoa desejada
disciplinou os gases medicinais. Ok. Portanto, o número de suposições
está na arte, os dados de treinamento
originais e
os casos predominantes em 35 E o que queremos do nosso
giroscópio, eu dei 0,6. O que isso significa?
Isso significa que eu quero o, nosso novo conjunto de dados. Depois dessa técnica inteligente. Eu quero que sejam cerca de 60%
das suposições legítimas e 40 por cento dos
casos fraudulentos, ok, então 60,
40 este ano eu quero cinzear, estou dando, mas Arg2
é igual a 0,6 min,
60% dos casos, e 40% das suposições
da linha de frente serão as do nosso novo conjunto 40 por cento dos
casos fraudulentos, ok, então 60,
40 este ano eu quero cinzear,
estou dando, mas Arg2
é igual a 0,6 min,
60% dos casos,
e 40% das suposições
da linha de frente serão as do nosso novo conjunto de dados. Então, como calcular os principais sites? Então, quando nós,
se você olhar para esta
função de modo, de forma sintética, você pode colocar F1 e você pode ver essa técnica de
sobreamostragem minoritária sintética aqui Então, isso é por meio de dendrito, pincel
sintético para instâncias,
instâncias usando algoritmo inteligente E quais são os parâmetros? Tx, dx, dx, esse é o nosso conjunto de dados. Alvo, é que a coluna
na qual queremos direcionar, como no nosso caso, é o vidro. E então k. E então temos
os tamanhos dub, dub, dub. Número de vezes c de x é o DataFrame do conjunto de dados
numérico atribuído Target é um vetor
da classe alvo correspondente
ao que ele faz se dx k, número de vizinhos mais próximos
durante
o processo de amostragem
e, em seguida, o tamanho do sublinhado duplo for o número
ou o vetor que representa
o dígito multiplicado instâncias minoritárias
sintéticas sobre
o número original de instâncias majoritárias o número original Ok? Então, quantas vezes você quer essa técnica inteligente
seja executada , precisamos decidir
e como podemos decidir. Podemos decidir
usando essa fórmula. Aqui, estou usando a fórmula um
-0/0 em n dividido por n,
n1, e isso colocará menos Ok? Então essa é a fórmula. Essa fórmula
fornecerá n vezes que
serão lixões iguais
ao estágio de dublagem Então, vamos calcular isso. Vamos executar isso e
deixe-me ver quanto. 422 vezes ele precisa ser executado. Ok, 432 abertos, 334433. Ok, então agora também temos
o palco de dub. Então, agora vamos usar a
variável de saída de sublinhado
inteligente para armazenar os
dados que serão obtidos daqui Então,
usaremos uma função suave e, em seguida, x, x será nosso treinamento de
conjunto de dados de treinamento e
, portanto, coordenador E aqui estou
usando uma vírgula em branco e depois vou fazer
menos c uma vírgula um Por que estou fazendo isso?
Porque em nosso conjunto de dados, em nosso conjunto de dados de treinamento,
em nosso conjunto de dados de treinamento Se você olhar aqui. Então, v1 para a primeira coluna de cada
carimbo de data/hora que não precisamos. É por isso que estou movendo
essa primeira coluna, timestamp e depois temos
outra. A turma. Então, classe, também estou
removendo o Chrome. Sim, então está certo, 1,31 primeira e na última coluna que estou nivelando Em seguida, o objetivo é
treinar dados de sublinhado coluna de
destino é uma
classe conhecida como classe Estou dando cinco e aumentei o tamanho
é igual a n vezes. Então, deixe-me fazer isso. Ok, agora, se executarmos isso e você
quiser ver os dados, será nos dados que
eles querem ou nos dados em dólares. E vamos executar isso para
analisar os dados, pode ver aqui. Agora, o novo conjunto de dados inteligente
tem V1, V2, V3, até ler 28 e depois a
quantidade e depois a classe,
ok, então agora a classe aqui é c
minúsculo. Anteriormente,
usamos que estava na capital. Então, para remover a confusão, vamos mudar isso para
maiúsculas C. Então, para fazer isso,
precisamos usar a função de
comprimento, que pegará o
nome do conjunto de dados e, pegará o
nome do conjunto de dados em seguida, o número da coluna E então você pode dar
o nome que quiser
para o nome da coluna que
estou dando à sua classe. E quando eu executar isso,
ele será alterado. E se eu clicar novamente, agora a classe está
em maiúsculas, ok Agora, se você quiser
ver a porcentagem de perturbação, a sobreamostragem ou amostragem foi feita por S2 por Você não está. Então, usaremos a tabela de adereços que
usamos anteriormente E aqui passaremos o crédito
sublinhado, pequenos conjuntos de dados, a coluna de classe,
e executaremos isso Veja, agora d rho é 60%
e um é quase 40%. Então, agora nosso conjunto de dados
é distribuído em torno de 60% dos casos e a porcentagem desejada são
os casos fraudulentos Agora, vamos comparar com
o gráfico de dispersão original. seja, esse é o gráfico de dispersão original que fizemos no conjunto de dados de
treinamento Então, deixe-me mostrar
como estava. Veja como está assim. Eu não sabia a
distribuição dos dados. Os casos de fraude
foram muito pequenos. E agora vou traçar o
novo, correto. E isso porque aplicamos uma técnica
inteligente e inteligente. Agora você pode ver que nosso conjunto
de dados está mais equilibrado. E esse
campo de gás mais técnico, porém, acontece com o maior número de suposições
fraudulentas E esses não são os valores
sobrepostos ou duplicados. Esses são os
pontos sintéticos que
foram preenchidos com a técnica
inteligente. Agora temos o conjunto de dados, conjunto de dados de
desequilíbrio. Em seguida,
precisamos criar uma árvore de decisão e prever os casos fraudulentos que
faremos na próxima
96. Como prever casos de transações com cartão de crédito com o modelo: Olá e bem-vindo de volta. Portanto, agora estamos prontos para
prever casos de fraude com base
no conjunto de dados que
criamos nesse modo. Então, vamos prever o
valor com base em nosso modelo. Então, para isso, vamos usar
os pacotes rpart e rpart
plot Portanto,
se não tiver instalado, você não o instalou executando
esses dois comandos. E então a biblioteca rpart
e a biblioteca nosso diagrama de pontos. Ok? E aqui eu geralmente sou o
modelo de guarda como uma variável. E aqui, o que vou fazer, vou usar a função rpart Se quisermos saber o que
é a função rpart, você pode colocar rpart F1 e ela
fornecerá a árvore recursiva de particionamento e regressão recursiva nossos parceiros Então, se quisermos saber
mais sobre isso, você pode ler a documentação e quais são as coisas
necessárias a fórmula apresentada
com o índice x e nossas falhas de peça e modelo
e todas essas Ok? Então, se você
quiser ler em detalhes, pode ir e lê-lo. Ok? Então, a próxima coisa é latir, e então damos
a eles as colunas ou a variável
dependente. Então, no nosso caso, cada classe e , em seguida, sinal e ponto significam todas as variáveis
independentes. Então, dot pegará todas as outras variáveis independentes. E aqui
usaremos o conjunto de dados. Ótimo curso de honras. Mais dados. Nós temos, nós fizemos aplicando
a inteligência no mercado. Então, vamos executar isso. Agora você pode ver que o modelo
GARCH está aqui. E tudo bem, a próxima coisa, precisamos usar o R. Agora, eu vou fazer a
árvore de decisão para isso. Então, vamos ver como
nosso modelo prevê, classifica as coisas nelas. Casos legítimos e
o problema diz, então fica com a lesão. Então, nosso gráfico, nossa parte diagrama de pontos
e depois passaremos isso. E então extra é igual a integral do tipo
zero da
fibra. E rápido 1.2. Ok, então vamos executar isso e ver, sim, esta é a árvore de decisão. Isso 1,1, 0,2,
vai ferver essa coisa. Ok? Então essa é a árvore de decisão, e é assim que nosso modelo
decidirá qual é. Então, suponha que isso seja antes. Se o valor for
maior ou igual a -2,5, ele será aplicado
como um caso legítimo e produzir
menos de 0,5 a 2,5, será como convidado
fraudulento Então esta é a
árvore de decisão que ela seguirá, ok? E então, se você quiser
ver os valores previstos, podemos usar a previsão e, em seguida, passaremos
o modelo GARCH. Em seguida, dados do Daesh sobre dados que predirão sua classe de tipo Ele classificará zero ou um. Então, vamos executar esse modelo em nossos dados de teste
e ver como ele está prevendo. Então, vamos executar isso. Ok? Agora, se olharmos, podemos ver aqui, agora, para uma jogada, que ela previu que para a quarta linha, assim, 0,1, ela
foi classificada Agora, se quisermos ver qual é o
nível de precisão até agora,
podemos criar uma matriz de confusão
usando a biblioteca Keras Uma cenoura enorme e então ele conhecia as métricas
convergentes. E vou passar esse
valor previsto aqui e aqui. Dados sobre a variável dependente e
dependente do vidro. Ok? Então, vamos executar isso e ver aqui a matriz de
confusão. Portanto, do nosso total de
nove
casos fraudulentos em que houve
97, sete
casos predominantes foram classificados
corretamente e o uso não
foi classificado corretamente Da mesma forma, para os casos vermelhos da
legenda, quase todos os casos
foram classificados corretamente. Portanto, a precisão desse
modelo é 98, quase 99%. Dessa forma, implementamos o modelo de
detecção de fraudes com cartões de notas usando nossa programação. E aprendemos muitas
coisas, como lidar com dados desequilibrados e quais são os algoritmos que podemos aplicar Quais são as técnicas de balanceamento
da melancia no conjunto Então, espero que você tenha entendido,
se tivermos alguma dúvida, você pode perguntar em sala de aula comentando ou fazendo
uma pergunta. Obrigada
97. Introdução ao ggplot2: Olá e bem-vindo de volta. Nesta série de palestras. Nas próximas palestras,
aprenderemos sobre o enredo do GG. Temos usado o gráfico GG
muitas vezes em nossas palestras Mas o que eu escolho
é que muitos de nós reutilizamos gráficos como gráfico de barras,
gráfico circular E há muitos potes ou as bibliotecas
do braço direito são Como as turnês GG Plot, GG plot. Mas esquecemos de saber
o básico por trás disso. E deveríamos saber disso. Mantendo isso em mente. Estou criando algumas palestras
sobre os fundamentos do gráfico 2 do GG. Da mesma forma, criarei mais palestras cobrindo
todos os outros tópicos, o básico de todas essas
coisas, para que possamos ter uma
compreensão clara das Portanto, o DJ ggplot2 é um pacote R para Foi desenvolvido
por Hadley Wickham, tem uma implementação
de gramática de gráficos Verá o que é
gramática de gráficos, que fornece uma abordagem
estruturada para criar gráficos
personalizados. O pacote é construído com base
no princípio de
permitir estética, mapeamentos e permitir que os
usuários criem gráficos altamente
personalizáveis e com personalizáveis Então, GG plot to Deb adorava criar
chaves públicas e gráficos 3D Então, antes disso, costumamos
criar gráficos, mas não estamos prontos para
publicação. Então, se você quiser criar uma unidade
gráfica 3D
pública, não é melhor usar ferramentas
como Power BI ou Tableau, alguma outra ferramenta gráfica Mas o GG plot two tem a capacidade de criar gráficos com qualidade de
publicação E é muito personalizável. Portanto, quaisquer camadas que
você queira adicionar os usuários podem adicionar com
base em suas necessidades. Ele segue uma abordagem gramatical
gráfica que é muito, muito importante e é por isso
que tem
tantos recursos para criar uma aparência
incrível em
gráficos e tabelas Ok, então vamos
entender algumas das características e características
do gráfico GG
para plotar dois segue a gramática
dos gráficos GG plot two Como eu disse anteriormente, problemas a gramática
da estrutura gráfica, o que significa que os gráficos
são construídos combinando diferentes componentes de
camadas, como dados,
estética, objetos geométricos problemas a gramática
da estrutura gráfica,
o que significa que os gráficos
são construídos combinando
diferentes componentes de
camadas, como dados,
estética, objetos geométricos e transformações estatísticas. Portanto, ele não apenas
plota os dados, mas também cuida dos dados,
da estética, objetos
geométricos e das
transformações estatísticas Estatísticas, estética
e mapeamentos. Gráfico Gg para permitir que você
mapeie variáveis em seus dados
para diferentes estéticas, atributos como coordenadas x
e y,
cor, forma, tamanho
e Os mapeamentos definiram como os dados serão
apresentados visualmente no gráfico O próximo recurso é a estratificação. O primeiro é a
gramática dos gráficos, e depois temos a
estética e o mapeamento. E então temos a terceira chave, características e características.
Isso é camadas. lotes no gráfico 2 do GG são construídos
adicionando camadas de elementos
gráficos , como cada camada representa um componente diferente de
fluidos, como pontos,
linhas, barras Por isso, é construído adicionando camadas, uma sobre a outra. E as camadas têm
componentes diferentes, como plotagem, componentes dos
gráficos, como pontos,
como ponto geométrico, para usar Reutilização da linha Geom. Então, as barras que usamos em nossa
camada de texto também estarão lá. As camadas podem ser adicionadas e
personalizadas de forma independente, permitindo uma visualização complexa e
em camadas Transformadores estatísticos
e gráficos GG para fornecer uma ampla gama de transformações
estatísticas
que podem ser aplicadas aos dados
antes de visualizá-los Essas transformações
incluem agregar dados, calcular o resumo das
estatísticas, suavizar os dados. O mínimo
e altamente personalizável gráfico 2 de
GG mínimo
e altamente personalizável oferece um alto nível
de opções de personalização, permitindo que você modifique quase
todos os aspectos do enredo,
incluindo acesso,
rótulos, títulos, legiões, cores calcular o resumo das
estatísticas, suavizar os dados. O gráfico 2 de
GG mínimo
e altamente personalizável oferece um alto nível
de opções de personalização,
permitindo que você modifique quase
todos os aspectos do enredo,
incluindo acesso,
rótulos, títulos, legiões, cores e temas. Portanto, ele não apenas permite
que você goste de uma equipe, mas também pode personalizar itens como eixos,
rótulos, títulos, legendas, cores e tem muitos temas
que você pode aplicar Essa flexibilidade permite criar gráficos que atendam
a requisitos
específicos que correspondam ao
seu estilo visual preferido Suporte para facetagem, o
gráfico GG two suporta facetagem, o que permite criar
vários gráficos ou painéis,
licitar, cantar em uma ou mais
variáveis em Isso é útil para
explorar e comparar diferentes subconjuntos ou categorias
em seu conjunto de dados Integração com nosso gráfico
GG para se
integrar perfeitamente aos nossos pacotes
e ferramentas de manipulação de dados Você pode combinar facilmente o gráfico GG two com bibliotecas de
manipulação de dados, como playa e tidy R para pré-processar e transformar seus Portanto, no geral, o gráfico GG fornece uma estrutura poderosa e
intuitiva para criar uma ampla variedade
de medulas de Jason,
desde simples gráficos de dispersão até
gráficos uma estrutura poderosa e
intuitiva
para criar uma ampla variedade
de medulas de Jason,
desde simples gráficos de
dispersão até
gráficos facetados complexos de vários painéis. Ele se tornou um
dos pacotes de
visualização de dados mais populares e amplamente usados em R devido à sua flexibilidade, estética e
ênfase em bons Então, agora também temos o
conhecimento básico do gráfico GG. Vamos mergulhar nessa
gravação e criar alguns gráficos básicos
usando o gráfico 2 do GG Então, eu criei um arquivo de script R de
dois pontos do gráfico GG. E aqui tentaremos usar o gráfico GG para criar um gráfico e um gráfico
básicos, e tentaremos entender as diferentes
camadas adicionadas a ele A primeira coisa que
precisamos fazer é instalar o pacote
ggplot2 Portanto, se ele não estiver instalado
em seu RStudio, você pode fazer isso executando
o script install.packages e dar ao
pacote o nome GG Depois de instalar os pacotes,
você pode usá-los escrevendo a biblioteca e, em seguida,
fornecendo o nome do pacote aqui. Então, isso permitirá que você
use o pacote GG plot. Então, o primeiro passo é
carregar o pacote, instalar e carregar os pacotes. A segunda etapa é criar
um gráfico de dispersão básico. Então, para isso, o que vou fazer, primeiro
criarei um DataFrame Então, para criar um DataFrame, criarei uma
variável E então vou usar data.frame
para criar um DataFrame. E aqui vou fornecer os pontos
x, o vetor x, o vetor c12, 345 e y e o eixo y para o
eixo y e
presentes, consulte 246810 Portanto, 12.243.648,5 dez serão
as coordenadas do nosso. Então, dessa forma,
criarei um DataFrame. Agora. Vou criar um gráfico de dispersão usando o gráfico 2 do GG
é Usaremos a
função de gráfico GG aqui, gráfico GG. E então forneceremos os dados, aquele DataFrame que
criamos Os dados nos quais você
deseja criar o gráfico. Então, os dados fornecerão, então a próxima coisa
é estética A estética fornecerá os eixos x e y nos quais você deseja
traçar os pontos Então, x é igual a x
e y é igual a y. Então, daqui vai pegar, e depois daremos o gráfico,
desculpe, mais o ponto geométrico Então, ponto geométrico,
traçaremos os pontos. Ele pegará os pontos
do gráfico de urina. Então, deixe-me fazer isso. Então veja aqui agora nosso gráfico de
dispersão está pronto. Veja, o primeiro ponto é um-dois, eixo x e eixo y Então 242,4 a quatro
são plotados aqui, depois 36 e depois 4,5 décimos Portanto, esses pontos
foram plotados corretamente usando o gráfico GG dois Então, deixe-me explicar um pouco
mais sobre essas coisas. Então, criamos um DataFrame
chamado data com duas colunas, x e y. A
função de plotagem Gg inicializa
um objeto de plotagem GG que envia texto para
o DataFrame em seu primeiro argumento o E então a função estética
aqui
que usamos, para tomar a função ,
especifica o mapeamento estético do eixo X para o X e do eixo Y para o eixo Y. Então, aqui estamos mapeando o
eixo x para os eixos x e y. Por quê? E então o ponto
geométrico fornece fontes e adiciona os pontos ao gráfico Então, a função de ponto geométrico,
o que
ela fará, pegará os pontos
dela e plotará os
pontos no gráfico Agora, o próximo passo é
tentar personalizar o enredo. Então, o que
faremos é tentar personalizar
o enredo pela aparência. Portanto, personalize a aparência do
enredo. Então, aqui vamos usar a função de plotagem GG.
A estética dos dados será E depois mais ponto geométrico. E depois do ponto geométrico, o que faremos,
daremos uma infiltração igual a 21.
E a cor de preenchimento será azul
e a cor será preta E sites, estou te dando três. Em seguida, usaremos a
função labs para criar um título. Portanto, o título do gráfico
será o gráfico de dispersão. E então qual eixo x, daremos o nome de eixo x e o eixo y dará a
eles eixo y. Então, novamente, mais. E então usaremos,
usaremos o tema aqui e usaremos o sublinhado do
tema, coisa
mínima, mínima que
vamos usar, sim Então, deixe-me primeiro
executar isso e depois explicar ao usuário
vários pontos. Agora nosso gráfico de dispersão
está pronto e você pode ver Uma vez que eu fui plotado aqui, mas este é o, já que aqui temos aqui em azul, os pontos são preenchidos com o azul e
a
parte externa Então, aqui nós demos preto. Se eu colocar laranja,
e se eu usar. Agora, altere as festas em laranja. Então, deixe-me fazer um
pouco maior para nove. O IP e a porta concedidos
e o tamanho e 31, desculpe. Agora você pode ver aqui que o
tamanho foi aumentado. Ok. Então esta é a calça YuJa
See que eu acho que é azul se você a deixar amarela Então, isso ficará amarelo. Ok? Dessa forma, podemos personalizar e você
pode fazê-lo funcionar. E veja que este é o
gráfico de dispersão vindo aqui embaixo,
e os eixos x e y
estão no próximo E a equipe que estamos usando o mínimo. Então, deixe-me executar isso novamente. Então, o tamanho ficará bem. A próxima coisa é a fonte geom point, alguns textos que não são argumentos para personalizar a
aparência dos pontos Aqui dissemos que o beneficiário é um círculo
completo e uma cor de
preenchimento em azul, contorno de cor em
preto e tamanho Então isso foi o mais cedo.
Agora mudamos nível dos
dois lados chamado cor
externa é laranja, cor de
preenchimento é amarela. Ok. Você pode colocar F1 selecionando ponto
geométrico e ele fornecerá a descrição do ponto geométrico,
do Algoma e
do mapeamento Algoma e
do mapeamento Ok? Se você quiser saber mais, você pode ir e aprender mais
sobre o ponto geométrico com você Salvar. Você pode ver aqui se quiser saber mais
sobre o CEP, você pode vir aqui e aprender sobre aqueles seguros A estética segura
pode ser especificada com um número inteiro 0225 ou um
único caractere, que usa os caracteres no símbolo de plotagem para secar
o menor retângulo visível em cerca de um pixel E não traçará nada
mapeado para uma variável discreta. Então, se colocarmos aqui 25, vamos ver o que está
sendo plotado O outro triângulo foi
traçado se colocarmos dois. Então, como você vê, o triângulo sem preenchimento, ok, então um
será o retângulo Um é o círculo cinco. Se você colocar cinco diferentes, diga esse retângulo novamente. Então, para oito, vamos ver
o que está sendo plotado aqui. Ok, linhas 11. Então você pode ver, então você pode explorar e você
pode usar outras coisas, ok? Depois, temos os laboratórios que adicionarão o título
ao eixo x, ao eixo y e
ao Então Tim minimal é a
função que se aplica ao tema
minimalista da trama Podemos usar outro tema
que seja preto e branco. Então, a seguir, o que
faremos, aprenderemos como
adicionar várias camadas e
anotações ao nosso gráfico Então, aqui tudo
será o mesmo ponto geométrico. Nessas coisas
haverá a mesma linha geométrica. Adicionaremos uma linha geométrica
para que uma linha seja desenhada e, em seguida,
escreveremos algum texto aqui Portanto, os decks do eNodeB x é igual
a três, y igual a zero, e os laboratórios de nível 999 intitulados darão o mesmo e
a equipe os usará o mínimo Então, vamos executar isso. Então, veja aqui agora, uma linha do genoma foi
desenhada juntando os pontos E veja aqui, por 3,6, 3,6 pontos, nós
escrevemos textos, então o alinhamento do texto está escrito
aqui, rotulado como linha Você pode alterá-lo para qualquer coisa. Suponha, suponha que você queira escrever qualquer coisa aqui
e apenas executar isso Agora está escrito qualquer coisa. Então você pode colocar qualquer coisa aqui. Então, linha. Então, vamos executar isso novamente. O que quer que você escreva,
virá aqui. Então, aqui por 3,6, o eixo x três
e as ondas são seis Nós o
anotamos sem textos
e fornecemos os textos e o nome do nível como Ok, e equipe,
estamos usando o mínimo. Ok, o próximo passo é que geom da linha Sonata até os gráficos anote uma vez e
reutilize para adicionar notação Aqui, o
texto especificado a ser exibido , bem como as coordenadas x e y. E você pode modificar os níveis
x e y aumentados
pela função de anotação Ok, em seguida, abandone a
configuração rápida e os temas. Portanto, podemos usar facetas para adicionar
vários gráficos a um lote. Para isso,
usaremos o data.frame criar uma faceta variável de sublinhado de
dados, data.frame Os pontos X e y
darão e depois agruparão. Aqui estou criando um grupo cada ponto será
anexado a um grupo E, a, B e C. Então agora
temos grupos aqui. Agora vamos executar isso. E agora crie nosso gráfico de dispersão
facetado. Então, primeiro deixe-me criar
os gráficos de dispersão. Agora temos os pontos. E então outras categorias
ou grupos da ABC estão lá. Então, Geom Point, tudo
menos rap. E aqui vamos fornecer
ao grupo, ok, esse signo e o grupo pegará o grupo daqui
e ele se facetará Agora temos grupos ABC e todo o resto
é a mesma coisa Estamos usando o mínimo, novamente, função
facet underscore wrapper é usada para criar um gráfico facetado com
base na coluna do grupo,
cada grupo Harris Agora, vamos mudar o
tema para preto e branco. O tema sublinha
v, w. Usaremos e veremos o que ele
vai ver aqui Agora, o tema foi alterado e agora está
mostrando um claro, opa, ABC Tem que o ponto B até que o
ponto C tenha um ponto. Ok. Então, sua música
punk com tema muda o enredo,
ele para preto e branco E esse segundo enredo do GG tem vários temas embutidos,
como sublinhado mínimo,
tema sublinhado clássico
e tema sublinhado Então, deixe-me copiar isso e
tentar usar o cinza sublinhado t. Agora está em cinza. E então a equipe
ressaltou o clássico. O clássico é como dois grupos
aqui e depois pontos. Ok, então vamos fazer isso hoje. Ok? Portanto, este é o básico do gráfico de
GG para I. Suponho que você aprenda e eu o
encorajo a praticar mais criando alguns pontos e traçando
vários E jogando com
os pontos geométricos, adicionando os laboratórios, acho que o mesmo jogar com
os mesmos segmentos de perna Me perguntei 25. Então você pode colocar várias formas e secar o que os números significam
para o mesmo, ok? Então, essas são as
coisas que você pode fazer
98. Trama de dispersão e enredo com jittered: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre
outra coisa importante de plotagem que é o gráfico de dispersão e o gráfico Então, deixe-me dizer
que vamos ver alguns exemplos. E para isso vou
usar o conjunto de dados embutido, que é o conjunto de dados Iris, que está disponível com o R. Ok? Então, deixe-me dizer brevemente que gráfico de dispersão você deve ser, sabendo o que é gráfico
de dispersão. Mas para refrescar sua memória, estou dizendo que os gráficos de
dispersão são semelhantes aos gráficos de linha, que geralmente
são O gráfico de dispersão armazena
o quanto uma variável está relacionada a A relação
entre as variáveis é chamada de correlação, que geralmente é usada
em métodos estatísticos Ok? Então essa é a definição
de gráfico de dispersão. E para essa aposta,
para esta palestra, eu sou
um acordo escrito à mão E aqui estou usando
o conjunto de dados da íris,
que é um conjunto de dados muito conhecido
que contém medidas de sua impressão, flores
da
íris, flores
da
íris sépala e comprimento da
pétala e todo Então, para isso, precisamos do conjunto de dados da íris
que está embutido com os dados do nosso pacote
e, em seguida, precisamos gráfico
GG que já baixamos E se não for baixado, você pode usar install.packages e o
nome do pacote GG E ele será reinstalado,
baixado e instalado no seu RStudio E então, para usar o gráfico 2 do GG, precisamos usar a biblioteca e, em seguida,
passar o nome do back-end Portanto, a biblioteca GG plota
para realmente nos permitir usar as funções do gráfico GG E então, para carregar
o conjunto de dados da íris, simplesmente
precisamos
gravar E então precisamos passar o nome do conjunto de dados. O tipo de dados
é a íris Ele carregará o conjunto de dados da íris. E quando você clica
nesse conjunto de dados da íris, você pode ver aqui que ele
contém o olho,
a cauda da Flórida
que tem comprimento da sépala, largura da sépala,
comprimento da pétala , largura da pétala espécie Portanto, existem espécies. Ok? Portanto, neste conjunto de dados
estão os objetos de
uma
propriedade e os rótulos privados, um por p linhas e cinco colunas. Ok, então deixe-me
voltar ao código. Então, agora, o que
vamos fazer , vamos
criar um gráfico de dispersão Então, para criar um gráfico de dispersão, usaremos a função de gráfico GG e usaremos o nome do
conjunto de dados Isso é conjunto de dados para conjunto de dados Iris. Então, para estética, para o eixo X, traçaremos o
comprimento da sépala e Traçaremos a largura da sépala. E então usamos a função de ponto de
sublinhado do genoma para traçar esses É bem simples. Função de plotagem Gg, em seguida,
nome do conjunto de dados e não estética. Precisamos passar as coordenadas
x e y. Então, barra x, coordenada X
usará o comprimento da sépala. E para a coordenada y usaremos largura
da sépala e a função de ponto
geométrico para traçar esses pontos,
pontos Então, quando executamos isso, obtemos esse gráfico de dispersão aqui. Então, agora todos os pontos
no comprimento e largura da sépala
foram plotados Agora usamos a função de plotagem GG para qualquer objeto de plotagem GG deslizante
e especificamos É isso que fazemos aqui. Então, a
função estética aqui, estamos perdendo a função
estética. Dentro do gráfico GG,
defina os mapeamentos estéticos
com O que estamos fazendo
aqui é mapear o comprimento e a largura da sépala O comprimento da sépala é
mapeado no eixo x
e a largura da sépala é
mapeada E a função geom point
adiciona pontos ao gráfico. E assim obtemos o gráfico de
dispersão para que você distorça. Então, estamos usando a função de plotagem GG dentro da qual estamos
passando o nome do conjunto de dados. Em seguida, alergenamos a função
estética para atribuir as coordenadas Porém, mapeie,
nome da coluna ou para os x's. Portanto, x é igual às chamadas saídas e à largura do ponto sépalo
do eixo y. E então estamos usando a função de ponto geométrico
Jin para traçar os pontos
no gráfico de dispersão. Então, estamos recebendo esse enredo. A próxima coisa é que agora vamos
personalizar o gráfico de dispersão. Então, a personalização passará novamente. Usaremos o gráfico GG. Primeiro, desenhamos o enredo. Então, para esse gráfico GG,
então o conjunto de dados nomeia
essa estética Aqui, estética, a mesma
coisa que estamos lendo. E o que estamos personalizando. Estamos personalizando
adicionando uma cor a ela. Portanto, a cor é igual à espécie. Portanto, todas as espécies
serão uma espécie específica,
o comprimento específico comprimento da
sépala e largura da
sépala serão coloridos Portanto, para cada espécie,
haverá uma cor atribuída. Então, a cor é chamada de espécie. Então, estamos usando o ponto geométrico. E aqui, e aqui,
acabamos de plotar fontes geom point. Estou usando a
função de ponto geométrico aqui que
personalizaremos adicionando
argumentos a ela, como psi é igual a três
e alfa é igual a Em seguida, laboratórios aqui com
a função labs, atribuímos o título,
então, título do gráfico de dispersão, forneceremos um gráfico de dispersão para o forneceremos um largura da sépala para o eixo X
dará o nome de comprimento da sépala e o eixo y
fornecerá E então o tema aqui
usaremos o, usaremos
o tema t match, o tema
mínimo, e isso é
chamado de função mínima. Temos que usar o tema minimalista e
minimalista. Então, vamos traçar isso e depois
discutiremos mais. Então agora você pode ver aqui, já que fornecemos as espécies
ecológicas. Então, todas essas espécies, existem três espécies e três cores foram atribuídas. Olhando para isso, podemos dizer que o
verde é para versicolor, o rosa é
para setosa Virginica é azul escuro. Ok, agora vamos entender
um pouco mais. Então, adicionamos cores que você chama de argumento de
dois espaços dentro função
estética para colorir os pontos com base nessa
precisão do olho. Esses gráficos que
já discutimos, o argumento dos lados
no ponto de sublinhado geom,
define o tamanho do ponto Então agora são três. Se eu fizer com que suporte nossos 15
, o que acontecerá? Assim, os pontos
serão maiores insights. Se você quiser ver, veja aqui agora a
dorsal maior em tamanho Então, conforme a exigência, você pode, se você colocar um ou cinco, vai ficar assim, ok? Agora, há outra coisa, alfa igual a 0,7. Então, o que é esse argumento
alfa, alfa controla
essa transparência. Então, se eu colocar, se eu aumentar para
um, o que vai acontecer? Vamos ver. Veja que é mais escuro, certo? Se eu colocar vento, um, veja que não está tão escuro. E se eu colocar 0,8
, ficará mais escuro. Martin, mais sombrio. Ok? Então, vou disparar esse amperímetro controlar a
transparência dos pontos Ok. Em seguida, a função
esquerda é usada para definir o título dos rótulos do
título e do eixo. Portanto, para os níveis de acesso, o eixo x temos o comprimento da sépala, o
eixo y, fornecemos a largura da
sépala E o título
do gráfico de dispersão,
temos um determinado gráfico de
dispersão da amostra
versus comprimento
da sépala versus largura da sépala E o tema ressalta pontos mínimos e coisas
minimalistas Mas a trama. Se pudermos colocar aqui, se eu repetir isso e se eu usar o tema sublinhado, seja VW
preto e branco uma vez
e então o que acontecerá Vamos ver. Nada mudou
muito. Agora vamos
entrar no gráfico de instabilidade. Então, que trama de instabilidade? Os gráficos de dados incluem efeitos
especiais com os gráficos de dispersão
que podem ser representados Um especialista em efeitos com os quais os gráficos de dispersão
podem ser representados. Então, ele adicionará o
efeito especial ao gráfico de dispersão. O detalhe nada mais é do que
um valor aleatório atribuído aos
pontos para separá-los. Ok? Assim, você pode ver se
seu conjunto de dados contém os valores duplicados e, ao traçar
o gráfico de dispersão, os pontos se sobreporão Então, nesses casos, se você quiser saber quais são
os pontos duplicados, você pode usar essa função instável para destacar os pontos que
têm as Ok? jitter nada mais é do que
um valor aleatório que
atribuímos aos pontos
para Ok? Então, agora a função de plotagem GG, estética do nome do
conjunto de dados,
o sublinhado geom, tremulação e a largura darão 0,2, altura fornecerá zero alfa 0,7 e todas as outras coisas são quase
iguais e sua equipe usará preto e branco Ok? Então, vamos executar isso. Veja aqui. Agora, os pontos
foram separados. Ok? Então esse é o terceiro enredo. Então, modificamos o eixo x, uma espécie, e escrevemos o
acesso para mapear o comprimento da
pétala e o retorno do genoma de um ponto
instável para o gráfico O argumento da largura. Controle a largura dos argumentos
de tremulação e altura e a altura da
altura definida como zero Essa coisa regional, o dinheiro
vertical instável. E eu vou controlar
a transparência, como acontece com esse culto e todos os outros
que já discutimos Ok? Então, é assim que podemos
criar um gráfico de dispersão normal e podemos usar um jittered
para criar um
99. Lote de barras e Hostogram: Olá e bem-vindo de volta. Então, nesta palestra,
aprenderemos sobre mais duas tramas
importantes As coisas são como um gráfico de
barras e depois veremos o histograma Portanto, essas são duas
técnicas de roteamento
importantes , tipos de gráficos Então, deixe-me primeiro
dizer o que é barplot. gráfico de barras também é
conhecido como gráfico e também é conhecido como gráfico de
colunas
porque não é uma coluna Ok? E é um tipo de visualização que
representa dados categóricos Você faz uma barra retangular. Cada barra corresponde
a uma categoria específica. E a altura ou o comprimento
da barra representam
a frequência, contagem ou proporção
dessa categoria. Os gráficos de barras são comumente
usados para comparar diferentes categorias ou mostrar
concretamente como a Arábia Saudita
exibiu esses dados de grupo Portanto, um gráfico de barras é usado basicamente para os dados categóricos Ok, então deixe-me dizer como podemos fazer esse pacote de plotagem
GD que usaremos Nós já o instalamos. Se você não tiver instalado, instale-o usando
install.packages. E então não funcionou. E então tem sido uma enorme biblioteca de
TI, ggplot2. E nós simplesmente executaremos isso. Desculpe. Ok, então, para este exercício, vamos usar o conjunto
de dados de diamantes Ok? Portanto, este é um conjunto de dados embutido
no gráfico GG para carregar dados. Para carregar esses dados
nesse conjunto de dados,
precisamos usar dados e, em seguida, o nome do conjunto de dados, ou seja, diamantes Então, ao clicar
nesse conjunto de dados de diamantes, você pode ver a cenoura
do diamante e depois cortar,
depois cor, clareza, profundidade, preço de
tabela, x, y, z.
Essas são as colunas
no conjunto de dados. Essas são as colunas
no Existem 53.009.40 entradas neste conjunto de dados e um total de
dez Então esse é um grande
Deus, ele faz isso. E agora o segundo passo é
criar um gráfico de barras, desenhar. Então, para criar um gráfico de barras, usaremos apenas a função de gráfico GG
e aqui daremos a eles, qual é o nome do conjunto de dados ao diamante e, em seguida,
o x
estético é igual ao corte Você pode ver aqui que a coluna
é a coluna no eixo x. E então o genoma e a função
Escobar serão usados para criar um gráfico de barras Então, vamos executar isso
e ver o resultado. Agora você pode ver aqui no eixo x
a fita lá em cima, e no eixo y, automaticamente a contagem
de números desse corte virá aqui Tão justo, bom, muito bom. Tipo de produto premium e ideal
disponível em nosso conjunto de dados. Você pode ver aqui no conjunto de dados, mas ideal premium, bom prêmio, muito Feira Mundial, muito bom Premium ideal. Eu
não gostei disso. Ok, agora podemos ver que
nosso gráfico de barras está pronto. Então, para criar um gráfico de barras, lidaremos com essa
função Genome Atlas Group, barra no gráfico GG e estética,
religião x é igual a corte, religião x é igual a corte, então ele usará o Usamos o gráfico GG do objeto de gráfico
GG
do controle deslizante de imagem central e
especificamos Não tem esses diamantes. E função estética. Inside GG plot definiu o mapeamento estético
com mapa intestinal para o eixo x e a
barra de sublinhado geom funciona como
barras para o gráfico,
criando o gráfico de barras o mapeamento estético
com mapa intestinal para
o eixo x e a
barra de sublinhado geom funciona como
barras para o gráfico,
criando o gráfico de barras. Ok, a próxima coisa é que
podemos personalizar esse gráfico de
barras ou gráfico de barras usando a função barra geométrica interna podemos passar os quatro diesel
iguais ao enchimento, para
que ele
seja reabastecido E aqui x é igual a cortar e o preenchimento será
preenchido com a clareza. Então, usaremos o eixo x para
traçar o tipo de corte de Deus e encheremos a
garrafa com a clareza. Então, quanto mais clareza, ela removerá
amigos ou cores. Ok? E então geom underscore bar
para dissidência. E depois laboratórios. Isso dará o título de todo o gráfico
de barras, gráfico barras de
frequência de corte de diamante e eixo x, daremos o nome de corte e, para o eixo y, forneceremos proporção E então, equipe, você perde o mínimo. Ok, então vamos executar isso. Agora você pode ver aqui que está
cheio de clareza de pato. A clareza é assim. A clareza foi
dada com cores escuras, amarelo, verde,
verde claro, azul, azul. Ok. Assim, adicionamos um
argumento de clareza de campo dentro da função estética para preencher as barras feitas com a
clareza do diamante. O pobre, decente e
prolongado, entrou
na barra geométrica, apertou a parte inferior, facilitando a
comparação das proporções Então esse é um acima, que é o enorme fora do campo. Ok. Você está enviando pessoas para
preencher. E então os laboratórios funcionam. Adicionaremos o título do gráfico de barras e
os
níveis de acesso e, no mínimo, criaremos uma
equipe minimalista sombria para o Agora vem o histograma. Portanto, o histograma é uma representação
gráfica da distribuição
de dados numéricos
contínuos Agora,
vimos o gráfico de barras com cada um para os dados
categóricos. E o histograma é para dados
contínuos ou numéricos. Consiste em barras Topsy Regia, em que cada barra representa um intervalo específico ou um conjunto de valores
. E a altura da barra indica
a frequência ou
a contagem dos pontos de dados de Pauling que
estão dentro dessa faixa histograma fornece uma visão sobre a tendência central
e distribui os dados, alinhando a análise
visual da Então, tudo isso tem a ver com histograma. Vamos criar um. Para criar um histograma, usaremos o gráfico GG a partir do
pecado e dos diamantes do conjunto de dados Estética x é igual ao preço. Então, no eixo X,
traçaremos o preço e seguida, sublinharemos a função de
histograma geom Dentro do lote GG. O histograma. O histograma
da largura do compartimento fornecerá 500
e, em seguida, os laboratórios para fornecer os
rótulos e a barra de título, a barra, nosso título mais longe, mas infelizmente
o E então a equipe
usará preto e branco. Ok, então vamos executar isso. Esse é o histograma. Você pode ver o preço no
eixo x e a frequência aqui, preços
extras de diamantes brutos. Então, aqui modificamos o
eixo x por esse preço. E Yom sublinha a função de
histograma, adicione o lote ao sangue criando
o histograma sem
ferimento, controle
os compartimentos de dados de largura
no Então, se colocarmos isso como 100, vamos ver as mudanças. A largura está sendo reduzida. Se eu fizer um Tao Qian
, o vermelho aumentará Então relatou 400. Ok. É assim que
criamos um gráfico de barras e elevadores de
histograma para entender um pouco mais sobre
gráficos de barras As principais diferenças
entre os gráficos de barras e os histogramas serão compreendidas em termos de sangue que comprei,
posicionamento, modelo,
apresentação e Portanto, em termos de tipo de dados, gráficos de
barras são adequados
para dados categóricos, em
que cada barra representa a categoria ou o grupo, enquanto
os histogramas são aprovados os gráficos de
barras são adequados
para dados categóricos, em
que cada barra representa a categoria ou o grupo,
enquanto
os histogramas são aprovados
para dados numéricos contínuos. Portanto, essa já é uma
diferença fundamental porque o tipo de dados,
os gráficos de barras do tipo de dados para dados
categóricos e para dados
numéricos ou dados numéricos contínuos, podemos usar o histograma. As barras do histograma representam esses intervalos ou intervalos de Já na barra, no gráfico, barra representa a
categoria ou o grupo. Em termos de
posicionamento de barras no gráfico de barras, as barras normalmente são baseadas
uniformemente ao longo do eixo
x, com uma lacuna entre cada barra para representar categorias
diferentes No histograma, as barras
que são distintas adolescente e
se
tocam , pois representam intervalos
contínuos ou
intervalos de valores Beta
ao longo do Então, essa é outra diferença
muito clara. Se você puder ver a barra, os gráficos, as barras que estão ao longo do eixo x e
há uma lacuna entre cada barra e que representam categorias
diferentes Ok, e ele gerenciava programas, índices traçados em
dados contínuos, dados numéricos Não haverá espaço entre
as barras e elas
ficarão adjacentes uma à outra. Como os outros intervalos brilhantes e
contínuos em depósitos de representação de dados
em um gráfico de barras, a altura ou o comprimento
de cada barra representam específica proporcional do contador de
frequência Enquanto estiver no histograma, a
altura de cada barra indica que a frequência ou a contagem Os pontos de dados que estão dentro
do intervalo específico estão verdes Então, isso fala
sobre histograma, fala sobre o número de contagens que estão caindo
em um determinado intervalo Já o gráfico de barras fala sobre o número de contagens em
uma categoria específica E a grande suposição,
que está muito clara agora, de que gráficos de barras são comumente usados para comparar
diferentes categorias,
exibir dados concretos, discretos, desculpe, exibir
dados discretos ou ilustrar a relação entre variáveis
categóricas
e variáveis categóricas Já os histogramas são
frequentemente usados para
visualizar a distribuição
ou identificar padrões, tendência
central e disseminação
de dados numéricos contínuos Então, essas são as principais diferenças entre o gráfico de barras
e um histograma Espero que isso o
ajude a entender e você
saiba que devemos
usar o gráfico de barras e onde
usar o histograma
100. Gráfico de pizza com ggplot2: Olá e bem-vindo. Então, nesta palestra, vamos
fazer algo incomum, que não fazemos Gg ploy demais, isso seria muito
interessante de fazer Então, o que vou fazer aqui, vou criar um gráfico
circular usando o gráfico GG E antes de fazer isso,
deixe-me contar. Gg plot two foi projetado
principalmente para criar gráficos em camadas e gramática de gráficos. Os gráficos baseados em bits
não têm uma geometria embutida Portanto, o gráfico GG não
suporta bicarbonato. No entanto, ainda podemos
criar um gráfico circular usando o gráfico g, g dois manipulando os dados e utilizando
outros Então, vamos ver o exemplo. Então, primeiro passo, carregue os pacotes
e crie uma amostra de dados. Então, aqui vamos usar o download
bloqueado que não fizemos. E então usamos a biblioteca. Você planejou dois? E então
criamos uma amostra de dados. Para isso, usaremos a categoria
data.frame e as categorias ReLU ABCD
e o valor é esse vetor C,
13º, 20º, 20, sendo Ok, então vamos computar
os dados da amostra. Isso é um
dado categórico, ok? Agora pise brinquedos e
manipule os dados para criar um gráfico circular Então, aqui, o que
faremos, calcularemos a proporção para
cada categoria. Então, dados, quando você cria
uma variável que
dialoga em amarelo e depois
transforma os dados. E os dados passarão para
a transformação novamente, calcularemos
a proporção ok, valor dividido pela soma. Bem, ok, então vamos fazer isso. E agora você pode ver aqui
que os dados são assim. Agora, proposta de valor da categoria, criamos uma proporção, criamos uma proporção
adequada Nós criamos, ok? Agora, classifique os dados em ordem decrescente
, aumentando as proporções deles. Então, para isso,
usaremos a ordem dos dados, os dados. O lucro em dólares será. Queremos classificar pelo suporte do YouTube porque
esses são os
únicos dados numéricos. Então, para esse fim,
diminua o valor verdadeiro. Ok? Estará na ordem
decrescente. Então, vamos fazer isso. Agora, se olharmos os dados, tudo bem, essa é uma nova ordem. Agora, o terceiro passo é criar o gráfico circular, gráfico de barras
empilhadas Ok? Então, GG traça dois, depois passaremos os dados Então, estética,
usaremos x, não usaremos nada. Por quê? Vamos usar adereços
e preencher a categoria, ok? Por categoria. E então a barra geométrica, função
humana de Escobar,
dará que a estatística é igual à identidade e a
largura dará Então, qual polar
dará Y começando em zero. E então você tem que
realmente manter esse título. Meu gráfico e preencha
com a categoria. A equipe usará o tema
em todo o sublinhado. Então, vamos ver. Você sabe, temos um gráfico de barras mostrando a categoria e
esses são os leads. Esse gráfico circular, o gráfico circular é isso. Eles são desenhados com a ajuda
da proporção que
criamos. Ok? Então, deixe-me explicar um pouco
mais para que isso aconteça, eu lhe darei mais clareza. Então, nessa abordagem, uma semana e transforme o gráfico circular
em um gráfico de barras empilhadas Ao manipular os dados, calculamos a
proporção dividindo cada valor pela soma de todos os A função da barra de sublinhado geom com as estatísticas é
igual à identidade Crie as
barras empilhadas com o, com a maior proporção de
produto correspondente Ok? E então o quadrilátero sublinhou a função
polar. função What it will do
converte o gráfico de barras em uma forma circular para
imitar o gráfico circular Ok, e então os laboratórios
fornecerão as fontes das
palavras de sublinhado do título
e da legenda e do tema e removerão o fundo desnecessário e humano, proporcionando uma aparência
limpa Então é assim que criamos um gráfico
circular usando esses dois. E eu vou te dar
um aviso aqui. Como eu disse anteriormente, o gráfico GG não é por gráfico circular não
é suportado
porque ele é feito no chão com gráficos Portanto, você deve observar que
gráficos circulares geralmente
não são recomendados para dados. Aprendemos um pouco devido
à dificuldade em perceber com precisão as diferenças nos ângulos
das áreas das fatias Ou que tipos de gráfico, como gráfico de
barras ou gráficos de
barras empilhadas, geralmente são mais eficazes para representar
os dados verticais Portanto, sempre que existem
dados categóricos, não
podemos usar, embora
não tenhamos usado o gráfico circular de ônibus Em vez disso, podemos usar os potes de bugs
ou os gráficos de barras empilhadas Ok? Então, espero que isso agregue algum
valor ao aprendizado deles.
101. Lotes de linha usando o ggplot2: Olá e bem-vindo de volta. Nesta palestra, vamos
explorar como criar gráficos de
linha usando o gráfico GG
em Portanto, os gráficos de linha são úteis para visualizar tendências e
padronizar dados contínuos, anexar
dados de séries temporais contínuos E aprenderemos como
criar gráficos de linhas básicos, plotar várias linhas
no mesmo gráfico e personalizar a
aparência das linhas Então, o que basicamente
vamos aprender, aprenda sobre a linha Plots. Gráficos de linha, por que usamos, usamos para visualizar tendências e
padrões em dados contínuos Gráficos de linha, não podemos nem mesmo
pagar os dados categóricos. Podemos usá-lo ainda mais. Dados contínuos, dados numéricos ou o que é um intervalo contínuo O alcance
também deve ser contínuo. E o melhor exemplo
são os dados de séries temporais. E também aprenderemos como
criar gráficos de linhas básicos. E também veremos, também veremos a criação de um gráfico básico de linhas. Como podemos traçar várias
linhas no mesmo gráfico. E como podemos personalizar a aparência das luzes de polegar Há três linhas
no mesmo gráfico, como podemos ir em linha reta
, mas em algumas linhas, como cores
ou gênero, agora, ok, então vamos começar. Então, a primeira coisa é
criar um gráfico básico de linhas. Então, para criar gráficos de linha básicos, temos um conjunto de dados com
duas variáveis contínuas Normalmente, eles apresentam saídas. Essa será a
variável independente e o eixo y, que serão as variáveis
dependentes Ok? Então, quais são as duas
coisas de que precisamos? Precisamos desse conjunto de dados. Obviamente, precisamos de um conjunto de dados. E os conjuntos de dados teriam pelo
menos duas variáveis
contínuas E normalmente, o
eixo x será a variável independente e eixo
Y
representará as variáveis dependentes Ok? Portanto, nosso conjunto de dados com duas variáveis
contínuas, uma para gênero, dados
independentes, valiosos e outra,
será dependente Tão independente,
brilhante no eixo y. Então, para isso, o que
vou usar, vou criar um gráfico simples de
uma linha que
representará a curva senoidal Ok, até agora vamos dar um
exemplo de líder que estou criando que
dependesse do eixo x, definitivamente com a variável
independente Então, aqui está o que vou
fazer, vou explicar. Bem, vou criar com
nossa sequência Fontan. E ele tinha a sequência, eu darei zero vírgula dois em pi
e à esquerda ou filha, eu darei cem hóquei Então, isso criará a variável aleatória de
poeira X, que vai estourar a sequência e depois Y, que é a variável dependente, que dependerá do eixo x. E como você não
quer ir para o Canadá, mesma calçada, a função senoidal é você e a variável
X aqui Então, para cada expiração,
então, para cada Excel, será atribuída
a curva, aquela álgebra e
no Então, X, estou usando a função de
sequência, e aqui estou passando
a vírgula zero 2,2 pi e, alongada ou duvida, estou dando cem e esse valor X quando estou
passando a função de dois Então isso levou ao pecado, Deus. E desta vez, seja o que
for, ela virá com base no X. Então X é a variável independente e as variáveis dependentes porque, por que o valor agregado depende
do X que estamos passando
para a função seno Então, por que a variável dependente e X é uma variável independente? Então, desta forma,
obteremos o X e o Y. Agora, a linha básica da biblioteca
Plots ggplot2, então já a instalamos Então, deixe-me primeiro dar a
você, execute esta linha, duas linhas para que Ok. Ok. Então, grite se tentarmos
imprimir os valores X, então veja o valor X dos dados que temos na tentativa renal com a ajuda da função de
sequência E se eu imprimir Y, então será o valor Y
dependendo do valor X. Então, com a ajuda desse seno
de X, obteremos o valor y, que é na próxima sexta-feira Bem, agora temos os E temos os pontos de referência Ok, então o próximo passo é usar
a biblioteca GG plot two. E então, o que vou fazer, vou tentar configurar gráficos
de linha Pode qualquer linha, sem falar na função de plotagem GG. Ambos os dados. Você vai para data.frame. E ele havia passado que as
coordenadas X e Y são valores X e Y. Os anéis são a função
estética. E saída igual a X
e Y é igual a Y. E mais eu aqui vou usar o
alil tentado para traçar uma linha,
então vou usar a linha de sublinhado geom Então, deixe-me levar isso para C.
C. , e agora estou recebendo a
designação de golfe. Então, na combinação de
cem do eixo x, agora, plotando as
explorações e Y e Y. Dessa forma
, obtemos mesma curva feita em X e Y.
Então X é o independente credível e Y o dependente. Então X é o independente credível e Y o Para cada X, há um valor y. Portanto, essa é a mesma
curva que estamos obtendo. A maneira como podemos simplesmente
lotar gráficos de linha. Gráficos de linhas simples e básicos para transformar
em cosseno, por exemplo. Então. Se quiser, você pode acessar
a explicação mais uma vez. Portanto, data.frame X comma Y criará um DataFrame Então, as variáveis X e Y que
criamos aqui usando a sequência de pulmões
e a reabertura e os valores
X e meu passageiro
adiciona a função senoidal Temos os valores Y
e X e Y. Nós me vimos adicionar água. E então usamos
a biblioteca de peças DD e você não obteve Plot and Data is equal to data
frame X vírgula Y. Isso criará um DataFrame
com E então
função estética, X é igual a XY. Basta fazer isso,
o que isso vai fazer, esse mapeamento estético real Portanto, X macro o X
e Y mapeia o eixo y. Em seguida, revise a função de linha de
sublinhado geom para adicionar a linha aos gráficos Ok? Então, isso será feito de forma linear. Ok, então esta é a explicação para criar essa linha
simples Plots UG, X e Y, aquela amostra que criamos
posteriormente Agora veremos como podemos traçar várias linhas
no mesmo bloco. Ok? Então, para esta palestra, tudo bem. Ok, agora podemos adicionar
várias linhas ao gráfico fornecendo diferentes
conjuntos de dados agrupando os dados usando a
variável de
agrupamento Agora, vamos traçar as
curvas de seno e cosseno no mesmo Então, aqui vou
traçar as curvas de seno e cosseno no mesmo Então X será a mesma função de sequência, mas a
mesma função de sequência, doodle, eu não vou comprar um
terreno naquela interrupção chamada 100 Portanto, o valor X
será o mesmo aqui. Por que o seno e o branco crochetando
essas duas variáveis, alquídicas aqui e aqui, vou passar Vou obter os valores do sinal de
sublinhado Y. E o
custo de sublinhado Y passará para
a função de custo
porque de X
nos dará a forma como sublinhar os valores de
custo. Ok? Dessa forma, vou fazer ciclos de
tempo para cada X.
Então, cada X pontos terá o
seno de X e o valor X da mandioca Sudbury para X, temos duas pontuações de
Y, seno e cosseno. E esses dois pontos, eu vou traçar
no mesmo enredo. Portanto, para criar o gráfico de linhas com várias linhas,
usará a função de gráfico GG E aqui você pode ver
aqui o plano de reabilitação do GG. E temos, pelos dados, data.frame X vírgula
Y porque ele tinha, por que era Então, mapeamos VX é
igual a X e Y ao quadrado Y.
Aqui, quando você plota a
função GG. Aqui, quando você plota a E usaremos o operador
plus aqui. E então usaremos a função de linha de
sublinhado geom. E na função de linha,
passaremos os dados. Moldura. Os dados são iguais a
data.frame X vírgula Y. Aqui Y será o sinal de
sublinhado Y Então aqui temos até
X vírgula Y simplesmente porque apenas um caminho
era o único Por que estava lá? Uma vez que existem dois valores y. Então aqui vai me dar X vírgula Y, X será o mesmo Então, a gama, por que a cada trimestre, por que sublinhar o sinal e seguida, a
função estética passarão X é igual a X e
Y é igual a Y. E presentes
laterais, sinal E então, a
mesma coisa que faremos com a pergunta por que. Portanto, dados são iguais a data.frame X será o leitor de X e Y. Por que os custos do endoscópio? E o X estético é chamado de
reage OH, ou o porquê. E cor É chamada de recursão. Aqui daremos o título Curvas senoidais e cossenoidais
do Azure. E X é igual a
X maiúsculo e Y é igual à função de cor Y
maiúsculo e
Tim será o mínimo. Então, deixe-me fazer isso de novo
e ver o exterior. Veja aqui agora que temos a curva seno e
cosseno. Este é o temp1 aqui. E então temos as linhas seno e cosseno no enredo temático Te vejo, existem
duas parcelas agora. Duas linhas. Uma representa a vergonha e a outra é brilhante
na mesma Dessa forma, podemos traçar várias linhas
no mesmo bloco. Então, vou repetir isso novamente. Agora, aqui está o que
fizemos, criamos um X usando a sequência que já
usamos. Ao criar o gráfico básico de linhas. Sequência e zero vírgula dois em pi e depois
ponto, ponto cem E aqui por que ressalta? Porque vamos
traçar as retas seno e cosseno no mesmo Então, eu preciso de dois pontos, Y pontos para explicar por que sublinhar o pecado será o
seno do sublinhado X e Y. cosseno será Y custo do
sublinhado será o
custo de ZR Cosseno de X. Então, esses, esses, esses podem
considerar esses três X vírgula Y assinada e
X vírgula Y é igual. E agora eu preciso
traçar esses pontos. Portanto, para o valor dos dados, a função de gráfico GG E aqui você se levantou transferindo o dataframe para a função de gráfico
GG,
o operador positivo E vou usar a função de linha de
sublinhado geom. No entanto, os dados do consultor são
iguais aos dados. O quadro X vírgula Y é igual ao
sinal de vigília e aos valores estéticos A cera é igual a X, Y é igual a branca e colorida. No entanto, a cor alérgica é
igual à mesma, ok? E a cor é igual ao nosso brilho. E aqui, a mesma coisa. Somente YOLO enfraquecerá Niceia. E então o título dará aos laboratórios a
função de indicar a hora. E X é igual a X
e Y é igual a pesar uma
função de visão lateral e o mínimo E quando corremos, recebemos esse login ou
saímos envergonhados quando a Então, eu já expliquei criamos dois
conjuntos de dados separados para curva de seno
e cosseno usando
data.frame X vírgula Y, X vírgula Havaí, sinal havaí e
X vírgula Y.
Y é igual a X vírgula Y. Você pode fazer por que custa, ok que
criamos dois
conjuntos de dados separados para a curva de seno
e cosseno usando
data.frame X vírgula Y, X vírgula Havaí,
sinal havaí e
X vírgula Y.
Y é igual a X vírgula Y. Você pode fazer por que custa, ok? E então cada uma é a camada da linha Yom. Aqui estamos basicamente
criando duas camadas de camadas de linhas separadas. Ok? Assim, cada linha geom, função de linha de sublinhado
geom criará uma camada
correspondente a uma linha separada,
Ok, um sinal de Park
e outra Usamos a estética das cores
para distingui-las. E então, a função de laboratório que
usaremos, seremos usados para definir o título e o
eixo dos níveis em excesso, ok? E a equipe ressalta a aparência geral
mínima e minimalista
da trama Em seguida, o que
faremos, tentaremos personalizar
as propriedades da linha. Agora podemos personalizar as várias propriedades das
linhas, como cor, linha, tipo e tamanho. Então, aqui, os dados de amostra serão a mesma sequência de
San Values e
recriarão X where loop E então criaremos
por que o
sinal de sublinhado e o sublinhado Y custam usando as funções de seno e
cosseno
aqui e passando a saída
extra ilusória para a independente, para onde, de qualquer forma,
o sinal de sublinhado e a conexão sem fio
irão usando as funções de seno e
cosseno
aqui e passando a saída
extra ilusória para a independente, para onde, de qualquer forma,
o sinal de sublinhado e a conexão sem fio
irão. crochê será a variável
dependente porque esses valores
dependem do X. E aqui criaremos um
gráfico de linhas Você adiciona Plot mais linha
geom aqui, DataFrames, a mesma coisa
que usamos anteriormente E aqui vamos usar cores. Ele vai sinalizar que um tipo de
linha é chamado de sólido e tamanho
aqui e dar 1,5. Então, digite linha sólida e
diga isso, mas estou usando tamanho para determinar a
espessura da linha. Ok? Então, estou deixando 1,5 aqui. E a mesma coisa
quando uma lavagem branca. E então todo o
resto será o mesmo. Título do laboratório. X é igual a XY é
igual à cor I. Então, vamos te dar
isso, executar isso, e agora estamos conseguindo. Isso é pontilhado e essa
é aquela espessura. Ok. Juntos, concluímos o tipo de
linha como Painel, que vem como uma linha tracejada E aqui temos o seu sólido, então ele está vindo como
um suporte sólido. Eles farão com que seja 111,5. E se eu executar isso novamente. Então, vamos ver o que você vê aqui. Agora. A linha tracejada está chegando. Dessa forma. Podemos aumentar ou diminuir
a espessura da linha. Ok, então espero que sim, espero que esta parte esteja clara
sobre como criar um gráfico de linhas no gráfico GG para
a próxima
102. Visualização de dados com o ggplot2: Olá e bem-vindo de volta. Na aula anterior, vimos como
criar gráficos de linhas E também
vimos como podemos traçar gráficos de
várias linhas e como
podemos personalizar os gráficos de linha Nesta palestra,
vamos fazer mais alguns dados, gráfico
GG para adicionar programação Então, o que é isso, vou
aquecer nosso conjunto de dados, que terá nome, alguns nomes e sexo,
masculino, feminino, e depois sua
idade e a pontuação do teste A pontuação será repetida em
100 e, claro, tudo bem, então, com base nisso, tentamos visualizar esses dados, que incluem nome,
idade, sexo e pontuação no teste E tentaremos visualizar esse conjunto de dados com a ajuda de gráficos de raio ou
viver em um gráfico GG para,
e tentaremos fazer
personalizações nele, e tentaremos fazer
personalizações nele esse conjunto de dados com a ajuda
de gráficos de raio ou
viver em um gráfico GG para,
e tentaremos fazer
personalizações nele, como gráficos realmente facetados. E tentaremos usar várias coisas nesses conjuntos de
dados simples Então, estou usando um conjunto de dados
simples para
que
cada um possa entender Antes disso, deixe-me esclarecer isso. Então, vamos começar a
visualização de dados com ggplot2. E com esse conjunto de dados simples, tentaremos
entender melhor o que aprendemos até agora
na Guiné ggplot2 Portanto, isso obviamente
carregará as bibliotecas necessárias, ou
seja, o gráfico dois do GG Então, biblioteca e passaremos a
biblioteca de nomes do bucket chamada GG plot A próxima coisa é dendritar o conjunto de dados de amostra
que normalmente
continuamos neste exercício continuamos Ok, então aqui vou usar o
set seed um-two-three. E isso é para a
reprodutibilidade. Reprodutibilidade da semente.
Porque veja, vamos usar a amostra
usando a função de amostra. E terá entre 18
e 25 anos. Ele se moverá de 18 a 25. Então esse será o gerador
aleatório. Então, o que eu quero fazer sempre que quiser usar esse exemplo de dados, se eu usar set.seed, o fará, os dados não
serão regenerados Será que, uma vez
gerado para este exercício, realmente terá o mesmo significado. Portanto, ele reproduzirá os mesmos
valores aleatórios de configuração. Ok, até agora. Então set.seed reproduzirá os mesmos valores
mesmo que estejamos atingindo a
função de amostra Caso contrário, se você não
usar set.seed todas as vezes, ele criará novos valores aleatórios,
novos valores Ok? Então, agora, primeiro usaremos set.seed e depois criaremos
nossas variáveis students E aqui você usa data.frame. E aqui o quadro criará a variável de nome
e armazenará esse vetor que
conterá os nomes Alice, Bob, Charlie, David, Eva, rank,
Frank, Grace, Hannah,
Yan e Jack Ok. E então criaremos outro fator que
armazenará o gênero e o gênero usará o
vetor sim, masculino e feminino. Ok, e parte dez por dez, ok? Dez a dez e substitua verdadeiro. Em seguida, para Angel, use
a amostra 18 a 25. E quantos eu quero, eu quero valores finais que
acabei lendo para quantificar e pontuação do
teste até 210 Discord, eu quero gerar
usando a função de amostra Assim, obteremos os conjuntos de
dados de amostra de dados. Então, deixe-me fazer isso. Então, agora temos o conjunto de dados de
amostra criado. Ok? Então veja aqui agora, se
imprimirmos o aluno, podemos ver seu nome, sexo e Tesco Então ele tinha o nome, nós demos nomes. E o gênero
foi gerado aleatoriamente usando
a função de amostra Ok?
Pagamentos masculinos, femininos e masculinos na prática, certo Masculino, feminino, masculino, feminino. Portanto, o gerador aleatório de litros, os maridos de 18 a 25 anos
atribuídos aleatoriamente a esses nomes e resultados dos
testes também foram gerados
de Dessa forma, podemos criar um conjunto
de dados de amostra. Em seguida, o que eu, o que eu quero fazer, eu quero criar um gráfico de dispersão entre essa era e a Tesco Quero ver como a pontuação do teste está se desgastando com
base no que cada uma delas eu quero traçar ou gráfico de
dispersão que fornecerá a pontuação para a idade
correspondente Então, para isso, o que eu estou
confundindo é gráfico de dispersão, idade versus pontuação do teste Então, para isso alude,
criarei um gráfico de dispersão variável. E aqui vou usar a
função e passar o conjunto de dados do aluno
aqui. Ok, estudantes. E então eu vou ter
um enorme eixo x estético e X é
igual aos eixos H Pontuação. E ponto de neodímio, vou usar a função de ponto
geométrico para traçar
os pontos nos E no seu laboratório, X é igual a
is e por isso é chamado de r2. Pontuação. E o título da trama será o gráfico de
dispersão, idade versus discórdia E então vou imprimir
esse gráfico de dispersão usando a função rand
para exibir aqui embaixo. Então, deixe-me mantê-lo aqui. E tudo bem. Então veja aqui, agora temos
um gráfico de dispersão aqui, que está nas páginas 18 a 25, e o eixo y e destruindo a pontuação,
a pontuação do teste Então, para 18, é
algo em torno de 85. Então, para 18, se você estiver
bem aqui. Que identidade aos quatro? Então veja aqui timidina ou em
400 e faça um gráfico. Dessa forma. Podemos traçar um gráfico de dispersão
usando o ggplot2. Então, aqui, na camada estética, fornecemos os eixos X e Y, passamos na pontuação do teste. E usamos a função de
ponto geométrico para traçar esses pontos
no gráfico e sua função de laboratório, temos X é igual a H. E por que ela é
chamada para testar a pontuação E mais apertado, gráfico de dispersão
versus gráfico de dispersão, idade versus lenço Então, desta forma, podemos fazer um
gráfico ou gráfico de dispersão. Ok, a próxima coisa é
o que eu quero fazer. Quero a mesma explicação escrevi aqui e deixar os dados ficarem arquivados, você pode
examiná-la. E se você quiser,
vou explicar novamente. Então, aqui vamos começar carregando
a biblioteca GG plot pull. Em seguida, criaremos o conjunto de dados de
amostra usando data.frame que
criamos aqui,
data.frame e nome, idade,
sexo e ,
sexo E então usaremos a função de gráfico
GG para
iniciar o lote e
fornecer os dados Estudantes e estética. função estética X é igual
à graduação da Tesco, que mapeia a variável
para o eixo x. Portanto, o eixo x será
mapeado no eixo x
e a variável de pontuação
será mapeada A função geom point é usada para adicionar pontos ao gráfico Esses pontos serão
adicionados ao gráfico usando ponto geom, função de ponto
geom sublinhado para
cada
ponto de dados para criar um E, finalmente,
personalizamos os rótulos e título do gráfico
usando a função labs. Então, aqui a função Lab
será usada para personalizar os rótulos e
o título do gráfico. E então usaremos
a função de impressão. Henry, pause o gráfico de dispersão, o nome que
atribuímos a esse gráfico, e o passaremos
para a impressão e
o gráfico de dispersão será
impresso em Dessa forma, podemos criar cada um versus o conjunto de dados da amostra de pontuação
que geramos A próxima coisa é que eu quero adicionar
a faceta facetada a dispersão é qual é
a pontuação do teste para cada gênero separadamente Ok, então esse
será o primeiro bloco. Então, para isso, criarei um
identificador de gráfico de primeira etapa variável, você adiciona Plot. E ele tinha um usuário.
Mesmo DataFrame Conjunto de dados de estudantes. Estético, você seria X igual
a X e Y igual a Tesco. E ele vai, já que eu quero muito fazer
isso com base na pontuação do teste
Cada versa, com base
na pontuação de cada gênero separadamente. Então, aqui a cor é enorme. A cor vai para o gênero, modo que o gênero será
especificado pela cor. E então geom point. Eu costumava traçar a função de pontos e laboratórios que costumávamos fornecer A seguir, a pontuação do teste e o
título do Senhor. E aqui, use a função facet
underscore wrap. E aqui vou embrulhar este. X1 de Mao estava na licitação. Você ainda usa o gênero
quatro se eu subtrair, ok, então deixe-me executar isso
e ver o resultado Ok? Agora estou pintando a tinta e veja aqui que temos
o gráfico facetado, idade versus pontuação do teste por gênero Então o eixo x é, novamente,
e o eixo y é o código de mortes Mas aqui, o plano de dispersão de nosso Senhor foi dividido em duas partes, feminina e masculina.
Feminino ou feminino. O gênero feminino
foi traçado aqui. E o para o sexo masculino
foi traçado aqui. Portanto, é um corte claro. Podemos ver aquela mesa
digital de alguns minutos ou feminina chamada
Valores e em mim. Ok. É assim que podemos
usar o gráfico de fester para usar para dados
classificados por gênero Ok? E queremos saber
o que dizer da explicação? Vou repetir isso novamente. Então, deixe-me descrevê-lo aqui. O que fizemos, como já
fizemos antes. Usamos a função de gráfico
GG para salvar o gráfico e
fornecer os dados, dados dos
alunos que
criamos usando
a função de amostra E depois a estética. As fontes estéticas e
X são iguais a SY ao quadrado chamado score Temos sua agenda para mapear
a variável de idade chamada agenda para mapear a
variável de idade no eixo x. Tesco é valioso para o eixo y, e salve essa cor na velocidade
do vento de acordo com o Portanto, a cor dos pontos
será baseada na agenda. E há dois gêneros. Naturalmente, o
marido bicolor usa vermelho e azul. Ok? Então,
isso resultará em cores diferentes para estudantes do sexo masculino e feminino. Então, Cl para homens e mulheres nas diferentes
cores foi usado. E isso é porque a gente tem uma cor enorme que se
chama gênero, ok? O ponto geométrico dos anos de
Sandy para criar o ponto de dispersão para cada ponto de dados que já
vimos E personalizamos os níveis, o título
e o enredo. Você não foi a última função
que já conhecemos. Em seguida, o laboratório Facet Underscore. E aqui vamos ver que a disfunção de gênero
criará painéis separados, facetas nesses dois
painéis, masculino e feminino Você pode ver aqui que elas
são chamadas de visitas. A faceta e o
invólucro sublinhado criarão dois painéis separados que são definidos
primeiro para Então, aqui passamos pelo gênero. Então, com base no gênero
escalado, duas facetas são dois painéis para
representar os pontos Ok? Isso significa que a parcela será
dividida em duas subparcelas Ok? Se houver três
gêneros, como masculino, feminino e neutro,
ele será
dividido em três partes, ok Subparcelas. Uma empresa
Mileage to Runtime, outra estudante do sexo feminino E a função de impressão será usada para exibir o gráfico de
dispersão na tela Ok, então esta é a explicação para criar um gráfico de dispersão
e facilitar o bloqueio Em seguida, o que faremos, criaremos um gráfico de barras. E aqui usaremos gênero. O que queremos representar graficamente, queremos representar graficamente o gênero versus o código de
teste usando o
valor médio no resumo. Então, aqui vamos
criar um gráfico de barras. E o bar Plot será
criado com base nessas duas variáveis, gênero
versus Tesco Vamos traçar um plano. E o que usaremos aqui, você usará o
valor médio, o resumo. Então, vamos ver aqui alquilado onde quer que seja a barra
e é E vou usar a
função de plotagem GG como conjuntos de dados. estética X do aluno é igual à pontuação do teste de raiz
quadrada em termos de gênero. E vou usar o operador plus. E aqui vou usar a barra de
sublinhado geom para criar o gráfico de barras ou gráfico de barras E aqui, eu vou te dar que
estática é igual a resumo. E a função
será a função principal aqui e preencherá cada uma
igual a estável. Então, ele será reconstruído
com o azul de aço. E a função
será feita no MDA, feita no valor
médio ou médio de Alguém e a pilha
será o resumo Então, resumindo, vou
resumir pelos
valores médios e rir: funcional,
enorme, ecológico,
eixo x, gênero e Y,
X, X está realmente com uma pontuação média no teste na pontuação
média do teste E o título estará
com um gráfico de barras, gênero era a
pontuação média do teste e o gráfico da barra de impressão. Então, deixe-me executar isso e
ver o resultado que você vê. E agora temos bar Plot
para homens e mulheres. E aqui no eixo y mostramos a pontuação
média do teste, um homem e uma mulher Até agora, a
pontuação média feminina nos testes é essa. Para mim? Eu sou apenas a pontuação do teste, é essa. Dessa forma, podemos
criar a barra Plot. Então, aqui, se você ver a
explicação semanalmente, nós lhe diremos. Então, usaremos a
função de plotagem GG para iniciar o gráfico. Estética. X é
igual ao sexo ou à pontuação do teste ao
quadrado y,
mapeie a variável de gênero
para o eixo x e a
variável de pontuação do teste para E a função Escobar é
criar um gráfico de barras. E nos sentamos. Stat é chamado de
resumo de dois e phon é igual a significa que duas funções principais
serão calculadas e A pontuação de cada cúpula. média da pontuação deles
será exibida e o campo
que restringirá a cola será a cor do pelo
no Barstow Azul, a cor das barras. E personalizamos
os níveis
usando a última função
que já conhecemos. E então faremos a
função de impressão para imprimir o gráfico na tela. O próximo passo é
criar um boxplot. Gênero versus
discurso, a mesma coisa. Então, aqui, o gráfico GG, a
função, o ativo encalhado, estética X é igual
ao gênero de distância na pontuação do teste do
eixo y e é
preenchido E usaremos a função
geom underscore boxplot para criar
o boxplot e a função latch será
usada para dar o título da barra e a nomenclatura dos eixos x e y
e simplesmente a imprimirá boxplot para criar
o boxplot e a função
latch será
usada para dar o
título da barra e a nomenclatura dos eixos x e y
e simplesmente a imprimirá. Então, vamos executar isso. Agora temos um boxplot, gênero versus pontuação do teste O eixo x é o gênero
e a pontuação do teste do eixo y. E este é o boxplot
para homens e mulheres. Então você pode ver, ok. Então, com base nisso, você pode fazer
uma análise adicional, ok? O que quer que você faça
com eles, boxplot, primeiro quartil e todas essas
coisas, você pode relaxar A mesma explicação: Górgias, gráfico
DG para iniciar a estética
do gráfico para
mapear os ventos e a
jovem função boxplot usada para criar o boxplot E personalizamos usando
a última função de impressão. Ok? E aqui você pode
ver as duas caixas, uma para cada sexo,
masculina e feminina. As caixas Entropy na faixa
interquartil que eu já A linha dentro da caixa
representando a média, o valor
mediano e os bigodes
externos aos valores mínimo e
máximo dentro de
um quartil do FY15, intervalo
interquartil interquartil E ressalta que os
bigodes são considerados último ponto fora desse risco porque quando gritamos menos, essas são as
análises
que você pode fazer para encontrar valores discrepantes
e, se estiverem, esse conjunto de dados
não é Lá. Esse conjunto de dados não é suficiente para analisar a classe de
cães. E tudo. Este é o conjunto de dados de amostra
que criamos
apenas criando os diferentes gráficos Ok, então a próxima coisa que faremos é criar um histograma E aqui usaremos a
distribuição etária dos estudantes. Aqui. Vou usar o histograma Vou criar um histograma onde eles funcionarão no gráfico Year
GG Vou usar o mesmo conjunto de dados e ainda assim, uma saída estética
igual a H, além de
usar a função geom histogram
geom underscore Hostogram geom E aqui, binwidth,
eu darei um. Vou preencher com esta tabela,
a cor para branco, a cor para branco, e vou usar a função esquerda
para dar o nome do
gráfico e dos eixos X e Y e, em seguida, simplesmente
imprimir o Aqui, este é o histograma. Nós os criamos
dizendo, ok, então este é o histograma para a distribuição etária
dos alunos Ok. Vou rapidamente retomar
a explicação. Então, aqui, novamente, temos aqui a função de gráfico GG
para salvar o gráfico e, em seguida, o painel e os dados de
deformação para o gráfico GG E usaremos a
função estética e a idade
porque vamos desfazer
a distribuição etária
dos alunos usando o histograma Portanto, X é igual a H e mapeie a história
valiosa para o eixo x. Geom sublinha os valores da
função do histograma para criar o histograma quando cada barra
representa a frequência,
conte até a faixa etária específica conte até Então, aqui, o que estou tentando dizer é que cada barra representa a frequência de
aluguel de peixes em uma faixa etária específica. Ok? Então, nessa frequência
da tensão de 20 a frequência
disso vai alugar quantas fitas
existem que você pode ver? Você vê aqui problemas
para a idade. Aos 24 anos, não há estudantes, então não
mostrou nenhuma barreira. E o branco usando
argumentos coloridos, uma barra que é branca, a lacuna entre esses brancos, então esse
peso colateral não pode
vê-la delineada, não vê-la delineada, Em seguida, personalize usando
a função esquerda. E a impressora que usa a função de
impressão é um eixo x. E o presidente,
as diferentes
faixas etárias e, por acidente, marcas que não frequentam, mas eu
pesquei aluguel em cada grupo Então, o que é 181 concorrer para
20, há estudantes, então eu sou crítico ou para
o conjunto de dados CF1 18, apenas um é E para 2.012,3
fios, tudo bem. Se você olhar aqui, para 23 estudantes, o que são 25? Isso é Nostradamus. Então, quando olhamos para os dados, a Parte D está totalmente bem com eles
depois de 24 anos, depois Nostradamus Ok? Então, dessa forma, podemos criar várias licenças
médias líquidas usando o gráfico GG
103. Adicione estética de cores: Olá e bem-vindo de volta. Na palestra anterior, vimos como
podemos obter vários gráficos usando ggplot2 em nossa reabilitação manual, criando esse conjunto de dados simples que
contém nome, gênero e discórdia vimos como
podemos obter
vários gráficos usando ggplot2 em
nossa reabilitação manual, criando
esse conjunto de dados simples que
contém nome, gênero e discórdia. E com isso,
vimos como
podemos traçar um gráfico de dispersão, que representará
cada palavra, diz Tesco E então vimos como
podemos usar fontes geom point e como podemos usar
a função labs. E vimos todas
as explicações. Vimos como podemos criar
um enredo facetado que o fará. Portanto, os logins são duas partes,
como idade e pontuação do teste. Com base no gênero. Será classificado de acordo com o gênero. Também acontecerá nas duas
partes, masculina e feminina. Ok? Então, todas essas coisas
que vimos
assim, não seriam tão rápidas entre homens e mulheres. Então, nesse
fascinante lote de enredo, também um gráfico de
dispersão,
vimos como podemos fazer isso Então, vimos como colocar
a barra Plot. E entre idade e
sexo e discórdia. Discord que também vimos. E então
vimos como podemos colocar seu chefe, mesquita, lote, boxplot e entre gênero e código de teste
e, como podemos, também
vimos
a explicação de como podemos analisar os valores discrepantes, mas na faixa interquartil e em todas essas Portanto, nem tudo é distinto, então
vimos o histograma. Muitas outras coisas que você pode fazer
com base em suas necessidades. A seguir, o que
vou contar
sobre adicionar estética
aos enredos Então, deixe-me supor que você assistiu, nós criamos esse
gráfico, gráfico de dispersão aqui Então, quando vemos o gráfico de dispersão, esse é o gráfico de
dispersão como Ok? Agora, o que eu quero fazer adicionar cor mais tarde
na agenda desta trama. Então, a mesma coisa acontecerá com a
biblioteca U-Dub e adicionará ggplot2. E aqui está o motivo pelo qual eu
queria modificar essa
estética desse Porque, olhando para eles, não
sei qual é esse
ponto masculino ou feminino. Feito nele. Fizemos em cada mesa de agente, poderíamos ter planejado, mas não
sabemos, sou eu Essa pontuação é masculina
ou feminina. Ok. Eu quero colocar os pontos em uma cor para que possamos
ver o gráfico. Eu posso saber que, ok, esse ser pertence à mulher
e o azul é para mim. Então, esse tipo de
coisa que podemos fazer com a mudança estética
adicionando a cor. Então,
o que vamos fazer é adicionar estética de
cores aos gráficos para diferenciar
entre
estudantes do sexo masculino Ok, então aqui está o mesmo
exemplo de configuração que os dados criarão. Então, primeiro precisamos
executar a biblioteca e depois fui esse conjunto de dados que
já criamos. E então criaremos um vetor aqui que
conterá o macho, atribuirá uma cor azul para a memória atribuirá
a cor rosa E esse reitor atribuirá
à variável de cor. Ok, então agora, na mesma semana, o que criamos aqui, gráfico de
dispersão, da mesma
forma ficará escuro O gráfico de dispersão aqui fornecerá uma variável chamada gráfico de dispersão para você a função de gráfico
GG Nós passaremos o conjunto de dados
como estudantes. Este que criamos, então usaremos a função
estética. No entanto, X é igual a H e Y é igual à
pontuação do teste será a mesma. A única coisa é que vamos atribuir
outro parâmetro aqui, colorir cada chamada de acordo com o gênero Então, vamos atribuir a
cor com base na agenda. E essa cor virá
desse vetor de cores
aqui que criamos. E então usaremos o ponto de sublinhado
geom para traçar o ponto no E então usaremos a
cor do sublinhado da
escala na segunda Portanto, essa função será usada para colorir os pontos
apresentados na agenda Portanto, a cor vai para o gênero. E aqui estamos passando, essas fontes e a escala de cores sublinham a cor sublinham o manual
Os valores são iguais à cor Os valores são iguais à Portanto, esse valor
virá desse vetor. Masculino e feminino. O macho será azul e
verde. Quando estamos fazendo um loop A partir daqui, ele
escolherá a cor e será plotada
e funcionará em laboratório Agora já sabemos. Então, deixe-me fazer
isso e ver aqui. Agora temos o gráfico de
dispersão que criamos. Agora vamos simplesmente imprimir
no gráfico de dispersão aqui. Agora, o gráfico de dispersão
tem rosa e azul. Os pontos que estavam
anteriormente em Leap black. Está sendo mostrado
em azul e rosa. Os ventos cor-de-rosa pertenciam
às fêmeas e os
azuis aos machos Dessa forma, podemos personalizar o gráfico de dispersão
adicionando estética de cores Então, deixe-me explicar isso novamente. Criamos esse conjunto de dados de
amostra. As pessoas que têm esse conjunto de dados de
desconto na tabela são o nome,
sexo, idade e pontuação do teste de Eric sexo, idade e pontuação do teste de E aqui queremos adicionar
uma estética de cores. Então, criamos
nossa cor, vetorizamos, onde atribuímos um azul
às cores masculina e feminina. Nesta cor, tocamos as barras na escala, sublinhado, função manual de
sublinhado Essa função fornecerá valores
desse vetor de cores. E, na verdade, ele atribuirá com
base na agenda, pois
se atribuir a pois
se atribuir cor
azul e se for NDA
livre em miliequivalentes,
eu acho, ok, então traçamos Coisa semelhante que podemos fazer com a barra Plot,
boxplot e histogram Então, vamos fazer isso também. Então, aqui estou criando um valioso botão de barra,
faz gráfico de dispersão, função de gráfico GG, estou usando estética
X para estudantes do
Dataset é igual ao gênero Por que é chamado de pontuação. E vou preencher com gênero. E então eu vou usar a barra de sublinhado
geom,
Plot, clique em Stat Summary e,
e plotar com o resumo
com o valor médio E então eu vou usar a escala,
escala de sublinhado, manual de
sublinhado Então, aqui temos a escala da cor do
sublinhado, e isso é chamado de manual
para a barra Plot Manual de habilidade, sublinhado,
sublinhado. E passaremos o
valor agregado da cor. E então o laboratório que Swanson
pegará as sebes. Então, deixe-me fazer isso. E agora vou imprimir a barra Plot. Veja aqui agora, a
fêmea está conspirada. Boxplot, PMM em caixas
trazem e caixas de correio. Correio azul. Dessa forma, podemos
colorir a estética. Bach, bar de praia Plot, desculpe. Em seguida, boxplot. Usarei o mesmo
conjunto de dados estético X é
igual ao gênero, por isso é chamado de mesa
ou gênero feminino. E então barra geométrica, caixa de sublinhado
geom para traçar os pontos e,
em seguida, escalar sublinhado, manual de
sublinhado e
seus valores quando
colorimos e Por que Deus ama o gráfico
? Os testes de
resistência ao gênero do boxplot E vamos executar isso. E então um
boxplot aleatório. O enredo da caixa O boxplot também tem
as cores rosa ou feminino e azul para a refeição Ok. A próxima coisa é
fazer com o histograma. Portanto, a mesma
função de plotagem GG dos alunos estética X do
conjunto de dados X
é igual ao campo H. É chamado de agenda e, em
seguida, histograma de sublinhado geom E ele
deu a largura de banda um homem em cada chamada para um e colorirá
cada cor para branco E depois escale. Escale o campo de sublinhado
e seu comando. Vamos passar os valores
como as cores. Então, esse branco será a cor da borda, e
isso será feito. Cores do histograma
com base no gênero. Ok? E a última função é o histograma de
Israel e a
distribuição dos alunos. Isso e, em seguida, imprima
o histograma. O histograma é que eu não tenho. A cor rosa e azul e a cor da borda
escura são brancas. As linhas adjacentes são brancas. Se você quiser fazer com
que seja verde. Vamos executar esse programa. O Nauta, mais
ou menos grau. Ok? Portanto, essa cor é para o limite e esse valor
para as cores que estamos escolhendo desse
vetor de coluna que
criamos sendo feminina
e crescendo formil, você pode dar qualquer
cor que quiser
para dar vazão à sua Ok? Dessa forma, podemos
adicionar a estética aos gráficos em ggplot2 Então, espero ter
explicado claramente. E você pode andar sobre isso. Você pode começar a brincar com
os dados da função de raio. Você pode cavar outro
conjunto de dados e começar a explorar as coisas
e começar a expandir, explodir as coisas e
começar a experimentar coisas A cor diferente, a estética
diferente. Ok, então nos vemos
na próxima palestra.
104. Estética de sintonia fina: Olá e bem-vindo de volta. Então, na palestra anterior, vimos como podemos
adicionar estética de cores Vimos como podemos
adicionar cores aos gráficos, gráfico de
dispersão, barra, gráfico, gráfico caixa e armazená-los Agora, o que eu tento é
ajustar os gráficos usando funções de escala
e escala Então, ajuste fino do
que está bem também. As descobertas realmente tentam tornar
um pouco mais atraente,
tudo bem, ajustar o gráfico,
a estética e o ggplot2, podemos usar a função
estética, a função
aes para mapear
variáveis para a estética e a função variáveis A escala de sublinhado começou com, há várias
funções abaixo dela. Assim, podemos usar as
funções de habilidade para personalizar a aparência dos elementos do gráfico de
raio Simplicidade, eles
podem aprimorar a estética, podem escalar funções para
ajustar a estética do gráfico Então, por último, vamos
carregar a biblioteca. Em seguida, criaremos o
mesmo conjunto de dados de amostra que criamos
nas aulas anteriores E então faremos o
ajuste fino de um gráfico de dispersão. Então, a mesma coisa que faremos, idade versus pontuação no teste. A mesma coisa. Aqui. Vamos ajustar o lote usando funções
estéticas e de habilidade. O valioso gráfico de dispersão a função de plotagem usará
passará o conjunto de dados Então, a função estética quando
X é igual a H de Y é igual à pontuação do teste e à cor
feita no gênero do gel. E aqui usaremos outro
parâmetro chamado Salvar. E economize. O que podemos associar à Save
decidirá com base no gênero. E aqui, usaremos função de ponto
geométrico
para traçar os pontos Mas aqui os
lados do ponto realmente especificam. Então, anteriormente, não especificamos nenhum tamanho de ponto, aqui
especificaremos três. Então, geom aponta lados
iguais a três. Esse parâmetro passará. E então usaremos
a escala sublinhado, sublinhado E ele tinha valores para
a cor que daria C. Rector aqui azul e rosa E então, para o CEP, também
usará sublinhados. Manuel sublinhado aqui
fornecerá os valores. Tem 16, 17. Então, isso criará
várias dicas seguras que você pode criar
e, em seguida, usaremos
a função de laboratório. E deixe-me executar isso de forma simples. Quando eu executar isso, o gráfico de
dispersão será criado. Vamos trazer o gráfico de dispersão. Então agora você pode ver aqui, agora o gráfico de dispersão
que o criará, mas veja que o tema dos pontos para homens e
mulheres é indiferente Veja que os pontos são um
pouco maiores porque não
especificamos o
tamanho igual a três. Se eu fizer tartan,
o que acontecerá? Vamos ver. O tamanho aumentará e
ele se moverá, imprima novamente. Agora, o tamanho dos
pontos é maior porque temos um
tamanho especificado igual a 13. E a cor que
demos aqui, azul e rosa. Então, cores azul e rosa, parte
azulada, feminina e masculina Nós demos rosa. Então aqui está. Appoggiatura Agora podemos corrigir simplesmente. Ok. Portanto, isso não é preciso ou ,
na verdade, é para que você
possa calcular a letra C. Agora os pontos são maiores. Então, com base neste lado é igual
a 30 e a cor
vem daqui e veja se está
vindo dessa pilha Sejam quais forem os valores que
estamos transmitindo aqui. Se eu fizer 117, vamos ver. Você pode simplesmente brincar com os números e ver
agora esse mesmo. Então é só um círculo. E se eu colocar uma letra
como suporte da equipe do processo de recozimento, colocarei 88 E vamos ver qual é o
segredo que está escondendo agora. Observe que está vindo assim. Então, com base nessas coisas, você pode ver,
se eu colocar 18, quais seriam
os mesmos dados também, você pode ver que me
deixa copiar isso. Dividir. Isso, por favor, veja, e agora está entrando nessa fita laminada
e isso é um triângulo Se eu conseguir. Isso também com o que
virá da mesma forma, digamos, se eu fizer 28,
28 não é nada parecido com isso. Nós podemos fazer isso direito. Ok. Então, com base nos números do
cofre, mudará. Então, é assim que
podemos ajustar os gráficos. Em seguida,
ajustaremos a barra Plot. No entanto, a pontuação do teste de gênero
inverso geralmente significa o valor médio
do resumo. Vamos traçar o que
já traçamos aqui. O mesmo conjunto de dados. Estética do aluno, gênero, por que pontuação do teste e
preenchimento por gênero. E então geom sublinha a função
Bar. função Geom Underscore
Bar iniciará o resumo e o telefone será sensível à média
e à escala do O manual do sublinhado
verá azul e rosa. E isso é simples, será só isso
e colará aqui. Da mesma forma, podemos fazer a
mesma coisa com o boxplot. Isso para boxplot. Ok? Então, CEO, agora, uma linha de pontos está chegando
aqui para que tenhamos um
biggênero fluido de gênero não binário E aqui. Da mesma forma, podemos
fazer esse histograma. É assim que podemos
ajustar os gráficos usando funções estéticas e de
escala Os alunos gostam da próxima palestra
105. Modifique temas, rótulos, títulos e machados usando a função tema: Olá e bem-vindo de volta. Nesta palestra, vamos
modificar temas,
rótulos, títulos e eixos usando a
função do tema para modificar temas,
rótulos, títulos No gráfico 2 do GG, podemos usar a
função do tema junto com vários elementos do tema para personalizar a aparência
de nossos gráficos Então, vamos começar com
um exemplo e ver como podemos usar a
função do tema para modificar temas, rótulos, títulos e eixos. Então, uma coisa muito rápida
é que vamos
carregar a biblioteca como está
relativamente plotada. O próximo passo é
criar esse conjunto de dados de amostra que já
fizemos Então, deixe-me executar isso por enquanto. Agora, a próxima coisa é
modificar temas, rótulos, títulos,
grande coisa, Banza Então, para recriarmos
o barplot. Então, primeiro criaremos o gráfico de dispersão entre idade e código extra que já
fizemos Mas aqui vamos tentar modificar os níveis,
títulos e eixos do tema usando a função
do tema Portanto, o jejum é bom se as variáveis forem representadas como de costume,
então usaremos a função de
gráfico GG Vamos passar o conjunto de dados e,
em seguida, usaremos a função
estética E aqui, X igual a H, Y será a pontuação do teste Cor mencionada na agenda e,
digamos, construir na agenda. Então, já fizemos isso. A próxima coisa é a função geom underscore point
Sij igual Isso representará
graficamente os pontos do lote. O tamanho será dimensionado, os lados do ponto serão três. Então, aqui usaremos as funções escaled underscore
color e DashCon E aqui
forneceremos os valores para as cores azul e rosa e seguros para a amostra. Os vetores 16, 17, para as cores azul e rosa e
seguros para a amostra. Os vetores 16, 17, que já vimos
no slide anterior, na aula
anterior, como as formas dos pontos ou pontos
mudarão com base nos
valores que passamos Ok? Então, a próxima coisa é laboratório que Swanson usará
para dar o título do gráfico e o nome
dos eixos x e y. E então usamos o tema
Underscore Minimal Function. E então essa é a principal coisa que vamos
aprender nesta palestra. Esse é o tema Function. Então, dentro do tema Função, o que muito perderemos, o título do
ponto, daremos. E aqui o elemento sublinha X, seja, essa
função será usada para fornecer os lados do título Ok? Escolha lados do título. Como se um gráfico de dispersão
com a idade fosse um Tesco. Esse título virá
dos gráficos cujo tamanho de
texto podemos
alterar a partir daqui usando o elemento imposto de sublinhado
e o parâmetro de tamanho
que faremos E então vamos dizer que
a face é igual a negrito. Aqui podemos mudar
o estilo da fonte. estilo de fonte que podemos mudar
se você não
enfrentou, se você chamar dois volts de
itálico como
quiser e agir apenas
fornecerá 0,5 e existe ponto para o título do eixo x
e y, usaremos lados do texto sublinhado do elemento fornecerão o que você quiser
ouvir. Estou dando 12 E depois face bowl. E então, para acesso,
os textos
fornecerão o elemento sublinhado função
sexual e
o tamanho fornecerá dez E, em seguida, legenda,
título do ponto, usaremos o elemento. E isso é chamado de função
em branco. E textos do LoginData. Usaremos o elemento abaixo de
certos textos e os lados fornecerão dez e a posição
da legenda aparecerá na parte inferior. Então, vamos dar o fundo aqui. Então, vamos executar esse gráfico de dispersão. Antes disso, deixe-me copiar esse gráfico de dispersão,
dispersão impressa E vou dizer,
basta nos ver naquele terreno de dispersão plantado e ao mesmo tempo Então, deixe-me fazer isso. Até agora, estamos obtendo
o gráfico de dispersão aqui. E veja, este é título do
nosso enredo tecnológico
que fornecemos em uma tigela aqui. se eu mudar
isso para 14 para 24, isso será, quanto maior, os textos serão
maiores em tamanho. Então, deixe-me fazer isso. Agora é ômega, certo? Da mesma forma para o
título do eixo, se eu o atribuísse a 22. Se eu executar isso. Veja agora a
pontuação do teste NAs ou em números maiores. Ok? Então, a maneira como podemos modificar os títulos, níveis e eixos. Ok, então deixe-me fazer isso
e 14, parecendo importar Este gráfico de dispersão de cada percurso Ok, em seguida, faremos a mesma coisa com o bar Plot. Portanto, para bar Plot também
usará o mesmo conjunto de dados. E criaremos uma
variável de plotagem de barra aqui e, em seguida, o conjunto de dados da função de
plotagem DD X é igual ao gênero. Por que é chamado de mesa ou gênero. A mesma coisa que
fizemos anteriormente ao levantar é vamos usar este tema Function extra year
plot dot title. A mesma coisa que também estamos usando
para a barra Plot. Então, eu não vou passar o tempo explicando a mesma coisa repetidamente. Vou apenas copiar isso. E é melhor
acabar com isso em um adulto. Ok? Ok. Então veja aqui que essa
é a trama ruim. Da mesma forma, também faremos
o boxplot. Então, essas são as coisas que já
fizemos. A única coisa extra que estamos
fazendo aqui é o tema. A mesma coisa, Elementos e
discurso. Eu sou a mesma coisa. Também estamos fazendo mais
boxplot. E eu vou até
isso e colá-lo aqui. E execute isso para boxplot. Para ver o boxplot. No boxplot, tudo
foi alterado de acordo. Ok, a próxima coisa é
realmente fazer o quê? O histograma é,
Obstruentes de distribuição aqui também, tivemos esse tema Modificando o tamanho do baralho
do tamanho do lote. Então, deixe-me fazer isso. Então é assim que podemos
modificar esses temas, rótulos, títulos e eixos. Muito usado em ggplot2. Em cada tema do gráfico, a
função é usada para modificar os vários elementos do tema,
como título do ponto do gráfico,
eixos, título do ponto existia ou legenda do
texto, título do ponto,
legenda, texto do ponto e posição do ponto ligante O tema ou a função de texto
sublinhado do elemento é usado para definir o site, fonte e a justificativa
para o próximo Usamos um tema sublinha a função mínima para começar com o tema
minimalista,
onde todos os gráficos e, em seguida personalizamos
ainda mais a aparência
com o Esses exemplos demonstram
como modificar temas,
rótulos, títulos e eixos com o tema Função no ggplot2 Agora, você pode explorar elementos temáticos
adicionais e personalizar
ainda mais
a aparência de seus gráficos para corresponder à sua
visualização e necessidades específicas pois cada projeto terá sua própria visualização.
Precisa ser
feita para que você possa usar
essas funções e
106. Projeto 6: Olá e bem-vindo de volta. Nisso, vamos
fazer um projeto simples. E com isso, caminhará em um conjunto de dados do mundo real para criar uma regionalização de
insights Por isso, estamos trabalhando com um conjunto de dados
do mundo real para criar licenças
perspicazes e aspectos
importantes da análise de dados,
da ciência
de dados e da narrativa licenças
perspicazes e aspectos
importantes da análise de dados,
da ciência
de dados e da narrativa de nossos projetos. Vamos ver
um exemplo usando um dados do
mundo real para criar visualizações
perspicazes usando ggplot2 perspicazes Neste exemplo, usaremos
o famoso conjunto de dados Iris, que está prontamente
disponível com o pacote R por padrão. O IDT contém
as informações sobre
diferentes espécies de flores de íris, IDT contém
as informações sobre incluindo comprimento
da sépala, largura da sépala,
comprimento da pétala e largura da
pétala e a espécie da flor incluindo comprimento
da sépala, largura da sépala,
comprimento da pétala e largura da
pétala e que está prontamente
disponível com
o pacote R por padrão. O IDT contém
as informações sobre
diferentes espécies de flores de íris,
incluindo comprimento
da sépala, largura da sépala,
comprimento da pétala e largura da
pétala e a espécie da flor. Ok, então este é o
projeto simples que confia e
tenta criar algumas visualizações,
visualizações Então, primeiro, perdemos
essa biblioteca, ggplot2. Em seguida, carregaremos o conjunto de dados da íris escrevendo a função de dados,
a função Data transmitindo o nome do conjunto de dados Portanto, esses dois são a etapa essencial para carregar
a biblioteca
de necessidades carregar o conjunto de dados irlandês e explorar a estrutura
do conjunto de dados Usaremos a função STR
e passaremos o nome do conjunto de dados. Então, vamos ver a
estrutura do conjunto de dados. Então você pode ver aqui que há um
objeto por funcionário ou cinco variáveis. Cinco variáveis são comprimento da sépala, largura da
sépala, comprimento da pétala, largura da
pétala Ok? E então os valores são fornecidos aqui. Ok, então a próxima coisa é que veremos o resumo do conjunto de dados, que nos fornecerá
as estatísticas As cinco colunas, comprimento da sépala, sépala, comprimento, largura da
pétala e uma espécie E seus valores mínimos, quartil
esmagado,
mediana, valores médios Terceiro, valores de quartil e máximo
para cada uma das variáveis. Ok? Então, desta forma,
podemos ver a análise, ok, a próxima coisa é recarregar Essa é a estatística
que obtemos
ao obter o resumo
do conjunto de dados. Agora, o que eu quero fazer é criar um gráfico de
dispersão para esse Então, para isso, o que vou fazer, vou criar uma variável de gráfico de dispersão
sublinhada E vou usar a
função de plotagem GG para criar o gráfico, atribuirei essa
variável e depois a imprimirei Então, função de plotagem GG, vou passar o conjunto de dados, conjunto de dados
Iris Da mesma forma, como
nas palestras anteriores, usamos a
função estética aqui também deixa
a função estética aqui também sai da função estética usamos a
função estética aqui também deixa
a função estética aqui também sai da função estética. E ele tinha XXS para o
comprimento da sépala e a saída do eixo y. Largura e cor simples do ponto. Coloque a
função de ponto de sublinhado de espécies e geom que usarei para traçar os pontos no gráfico
e uma função grande, funcional, enorme para manter o
título do eixo x,
eixo y e o
título do E aqui vou usar a função
mínima sublinhada pela equipe E então vou imprimir
esses gráficos de dispersão. Então, vamos fazer isso e ver como o sangue que
sobe se dispersa Então, vamos torná-lo maior. Este é o gráfico de dispersão que estamos obtendo
depois de executar isso Então veja aqui,
comprimento da sépala no eixo x, largura
simples no eixo y e cor com base na espécie Portanto, existem duas dosa,
versicolor e virginica. Então veja, todas as espécies são plotadas aqui com base no comprimento e na largura da
sépala Portanto, esse é o mesmo gráfico de dispersão do
passado que criamos próxima coisa
é que o conjunto de dados Iris tem para variáveis numéricas, comprimento da sépala, sépala, comprimento da pétala,
largura da pétala e
uma variável
categórica que é a espécie A próxima coisa
é que o conjunto de dados Iris
tem para variáveis numéricas, comprimento da sépala, largura da
sépala, comprimento da pétala,
largura da pétala e
uma variável
categórica que é a espécie. Portanto, essa espécie é a
variável categórica. Agora, vamos criar uma visualização
perspicaz De repente, você bloqueou Então, o primeiro
é o gráfico de dispersão, nossos dados que
já criamos Então, deixe-me executar isso
novamente. Você recebe o mesmo. Agora vamos criar um boxplot. Então boxplot, a mesma coisa, boxplot GG plot to will you it, then E aqui X, X é, vou colocar essas peças
e o eixo y vou colocar o hotel, coloco o comprimento
da pétala Então, as espécies e o comprimento de
suas pétalas e preencheremos
com espécies escuras E então geom
underscore boxplot. Vou usar para desenhar o boxplot e depois a
função Laugh chamada title and all E depois vou imprimir.
Então, deixe-me fazer isso. Veja aqui este é o diagrama da caixa, comprimento da
pétala por espécie Então, cada um para setosa, este é para este boxplot é para versicolor,
isso
é para assistir.
Da mesma forma, isso
é para assistir eu quero criar E o histograma que
criarei com base na distribuição
da largura
das pétalas Então, para este
histograma, a variável de
gráfico Gram sublinhado DG, a função
ggplot2
faz, ela passará íris que estamos usando a largura estética da pétala X. E vou preencher
esta peça com suas espécies e, em
seguida, histograma, uso funcional do
histograma e largura do binário, darei 0,1 cor, darei cor branca suas espécies e, em
seguida, histograma,
uso funcional do
histograma e largura do binário,
darei 0,1 cor, darei cor branca
. Essa é a
cor de supressão entre os compartimentos. E darei 0,7 e uso funcional aos
laboratórios para
dar os títulos e tudo E então o tema mínimo
que estou usando aqui. Então, vamos executar isso e ver, sim, essa é a largura
da pétala no eixo x e no eixo y. Nós temos a frequência. E este é o primeiro
conjunto de peças de tamanho. Esverdeado para o
versicolor e virginica. Virgínia. Azul
para a virginica. Ok. Dessa forma, podemos
criar esse histograma A próxima é criar
um gráfico de dispersão facetado. E aí eu quero mostrar o comprimento da pétala versus a
largura da pétala para cada espécie Então, para isso, estou
usando o eixo x, estou usando o comprimento da pétala, o eixo y, estou usando a largura e a
cor da pétala que estou fornecendo melhor
do que a velocidade da espécie e o tamanho do ponto geométrico Recebi três e todas as
outras coisas no mesmo ano, amizade para sublinhar a função de
embalagem darei a conhecer esta espécie Ok, então esta função predefinida de empacotamento de
sublinhado fornecerá o gráfico de dispersão
feito pelo professor Vamos executar isso e
ver a saída. Agora, estamos vendo o gráfico de dispersão
facetária. Aqui, o conjunto de tamanhos. Possivelmente, é melhor aterrissar
no eixo x e a
largura da pétala no Isso é para a setosa, esse verde para a versicolor
e azul para a e azul para Então esse é o gráfico de dispersão
facetado. E aqui também você pode
ver o bloqueio setosa, versicolor Essa é uma
categorização clara. Ok? Em seguida, o que
projetamos é que, ao utilizar esses conjuntos de dados
do mundo real,
como o conjunto de dados Iris, podemos obter informações sobre relacionamentos e a
distribuição de variáveis,
identificar
os padrões e identificar
os padrões podemos obter informações sobre os relacionamentos e a
distribuição de variáveis,
identificar
os padrões e fazer interpretações perspicazes. Ok, agora você está livre
para explorar mais gráficos, digitar e personalizar a estética
que fizemos anteriormente exemplo, você pode modificar os rótulos do
tema,
os títulos, todas as coisas que
aprendemos na aula
anterior, que você aplica a isso e
cria seu próprio projeto Em seguida, experimente
os diferentes conjuntos de dados. Além disso, para
praticar e desenvolver suas próprias habilidades de aula de DWT Portanto, este é o projeto
simples
baseado no conjunto de dados da íris para criar um
histograma de gráfico de dispersão, diagrama de dispersão, diagrama de caixa e todas essas criar um
histograma de gráfico de dispersão, diagrama de dispersão, diagrama de caixa e todas essas coisas. Espero que você tenha uma ideia de como você pode usar
o conjunto de dados do mundo real. Você pode acessar o conjunto de dados do mundo
real. Obrigada
107. Gerenciando dados de data e hora no ggplot2: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre como
lidar com dados de
data e hora no ggplot2 Portanto, lidar com a data e a
hora em que o gráfico T2 é invocado, inserindo esses dados, é
reconhecido corretamente como armazenamento de objetos de data
e hora esse gráfico GG pode formatar adequadamente rótulos
dos eixos e criar as habilidades O que significa isso? Significa que se você passar os dados, dados data e hora
em um formato correto, você
plotará dois, cuidará dos vegetais, das coisas por meio de plotagem e
eles não coletarão Então, April ensina objetos de
data e hora
clinicamente reconhecidos gráfico Gg pode formatar adequadamente rótulos
dos eixos e criar as habilidades
apropriadas Em nossa data e hora podem ser representadas usando
várias classes, como lógica de cidade e
auditorias e funções LD Ok, então veremos o projeto
City e os projetos LTE mais tarde. Por enquanto, basta
saber que os dados podem ser representados usando
várias classes,
como cidade lógica e
projetos como, ok, então vamos dar um
exemplo simples usando um conjunto de dados com
dados de data e hora
para demonstrar como lidar com data
e hora no ggplot2 Então, a primeira coisa que precisamos ggplot2 e da biblioteca é até que ponto esses exemplos
carregarão essas E então, o que eu quero fazer criar um
conjunto de dados de amostra que tenha um valor temporal. Então, aqui vamos criar um
conjunto de dados que terá a data e os valores
correspondentes a cada dia. Então, para isso, use set.seed 123, para que eu sempre obtenha os mesmos dados de amostra de
configuração Quando eu executo o programa. Então, para Data, criarei datas valiosas
e, quatro dias,
perderei uma função de sequência
para criar os decks para mim Então, os insights sequenciam
a
funcionalidade de adicionar escuridão para seis cidades, adicionar escuro quatro DX DT E aqui vou dar a
data como 23 de geração,
primeiro, primeiro de janeiro de 2023 Então essa é a
origem da data. Então, a partir dessa diminuição
, começaremos, ok, aqui, estou
usando por um dia. Então, um dia
será a diferença entre cada data de tempo e
lynda dot dot será 30 30. Eu queria criar 30 dias. Nesses 34, 30 dias eu
quero criar, ok. Eu uso a sequência Ronson e para valores usando a função pnorm ímpar, a
função pnorm Aqui vou deixar o número
de valores que eu quero criar. Então, eu quero obter 30 valores. O que são esses 30 dias? E então eu quero usar
a média igual a 50 e desvio
padrão
ou dez, ok? E quatro dias eu tenho função de sequência de
união e a função de sequência
interna que estou usando é igual
a Ag ponto Cp. Estou dando a data de início. E por um, por cada
dia que eu vivo. Em títulos serão
criados a partir de 30 dias, serão criados a partir da primeira geração,
continuarão impressos três E então estou criando um
DataFrame, data.frame. Cada chamada até a data ou data. Estou usando esses testes
Valores e, para Valores, estou usando esse valor. Ok? Então, vamos executar isso e
ver o que está acontecendo. Agora, execute, vamos trazer para o dataframe df8 Então veja aqui. Agora tenho duas
colunas, data e valores. Os dados começam
na primeira geração de 2023 e vão da primeira geração até o
terceiro dia. E para cada dia,
temos valores
diferentes
associados a isso. Agora temos dados simples, conjunto de dados de
amostra, data
e dados correspondentes Qual foi o valor? Pode ser algo
como
o custo de um item específico ou algo assim. Portanto, temos a coluna de data
e revisão. Agora podemos tentar
plotá-los usando ggplot2. Então, neste exemplo, criamos um conjunto de dados
com duas colunas, dados representando
dados temporais e valor representando
alguns valores numéricos Ok, então, primeiro, o que eu quero criar um gráfico de linha
simples com data no
eixo x para esse gráfico de
sublinhado de linha valiosa
alquilada e aludir ao gráfico GG, para criar o gráfico de o que eu quero criar um gráfico de linha
simples com data no
eixo x para esse gráfico de
sublinhado de linha valiosa
alquilada
e aludir ao gráfico GG, para criar o gráfico de linha. Então ggplot2 e conjunto de dados, vou passar o dF Só saiba que o anestésico X existe. Eu queria colocar a data e o
eixo y Eu quero colocar valores, então X é igual à data
e por que o valor? E então eu vou usar a linha
geom underscore Human, que é chamada de função de
linha para traçar esses pontos no E a última função é dar nomes como para o estado do eixo
X, valor do eixo y
e banco de dados, porém, o
gráfico é a linha, o valor do gráfico ao longo do
tempo e o tema, mínimo Então T menos quatro milimoles, e então eu
imprimirei Então, vamos executar isso e ver qual
é a saída que vem aqui. Este é o comando de plotagem de linha. A linha traça o valor ao longo do tempo. Então, para 1º de janeiro, dia e valores Como
plotamos aqui, por exemplo, existem nove
densidades como essa, ok Portanto, valorize ao longo do tempo, com isso, você pode simplesmente visualizar que está produzindo a segunda parte
do gráfico desse tempo de dados Ggplot2 é o simples. No eixo x, os valores do
eixo Y de dados e
o resto das coisas quando estamos retirando ggplot2
neste amplo gráfico GG para reconhecer que o conteúdo da coluna de data, os dados de
data e hora
e os agricultores
acessam automaticamente esses níveis de acordo o ggplot2
neste amplo gráfico GG
para reconhecer que o conteúdo da coluna de data, os dados de
data e hora
e os agricultores
acessam automaticamente esses níveis de acordo. Ok. Então, rótulos aqui.
Bem, ao criar isso, não
fornecemos nenhum, como se o formato
fosse 01012323 aqui, não
recebemos assim, mas o GG plot o reconheceu
como uma data, hora
e
deu mas o GG plot o reconheceu
como uma data, hora automaticamente os rótulos que
Jan to Gemini in Genesis se juntou a essa Jan to Gemini in Genesis se juntou a Ok, então isso foi
feito automaticamente,
pelo gráfico DG. Para saber a
próxima coisa que faremos, tentaremos traçar o gráfico da área com data e hora no eixo x. Portanto, gráfico de área, gráfico GG, Alport data y eixo y sobre ALU e
preenchido Usando a função de
área de sublinhado geom, usarei para criar um
gráfico de área e saída dos laboratórios,
sair do estado do valor do eixo y e área do
título Valor do gráfico
ao longo do tempo, tema mínimo e imprimir e imprimir Então, vamos executar isso e ver. Agora você pode ver aqui valor de
Arial Black chegou ao longo do
tempo e aqui também é idiota e aqui também as coisas que
foram cuidadas E esta é a área Plot
criada por you ggplot2. No eixo x está apenas mostrando as datas de janeiro
a 9 de janeiro, homens necessitados que sejam
beneficiários e depois 30. E para cada data e valores ao longo do tempo com desespero e
assim por diante pela área coberta Neste gráfico, temos sua área sublinhada
para criar um gráfico de área E o gráfico GG
polímero automaticamente os níveis do eixo x com as informações de data Então você pode ver aqui.
Agora, a próxima coisa
é criar um gráfico de barras, data no eixo x. Então, agregue dados por dia, crie um gráfico de barras Então, aqui está o que eu quero fazer, eu quero ler um
gráfico de barras com o balanço, os dados de cada dia. Para dúctil, a LLC cria um DataFrame e nosso DF diário de
sublinhado e ele tem o LDF um DataFrame e nosso DF diário de
sublinhado e ele tem o LDF, o operador de tubulação aqui. E eu agrupei por data, adicionei a data do ponto e eles ultrapassarão a data e resumirão
por valor médio Essa será a
média do valor. Então, dessa forma, obteremos o sublinhado
diário DF, ok? Então, se eu
vejo aqui, este é o DF diário Data e valor médio. Descreva-os assim, ok. Aquele drone mais duas fileiras. Ok? Então, agora vou colocá-lo na barra Plot. Então bar Plot, anti-D ggplot2 bar. Desta vez,
adoro passar pelo DF e passar isso para o SQL DB que
acabamos de criar E para o passe
funcional estético, X é igual à data e Y
é igual ao valor médio. Portanto, a data virá dessa data e o valor médio que
virá do medo. E veja sua data. O tipo é
data e valor médio W. Ok? Então, vou usar a
função de coluna de sublinhado geom para criar um gráfico de barras E na função de trava,
darei X é igual à data,
Y é igual ao valor médio e à barra
mais estreita. Valor
médio do gráfico Parte D e T Quilometragem mínima e o tema existe ponto X ponto X elemento sublinha o ângulo
fiscal 45 em Gire o acesso aos níveis de TI
para obter melhor visibilidade. Ok. Então, eu estou girando os níveis de excesso em 45 graus para melhor visibilidade sobre D. Ok, e então
imprimo Então, deixe-me fazer isso. Então, veja aqui, é
assim que nos inclinamos. Sees que Ajahn para Jenae
foi inclinado em 45 graus. Portanto, não conseguimos usar
a função de
imposto sublinhado do elemento e passar o ângulo
é igual a 45 Se eu colocar o ângulo de cada
chamada em nosso 75. E se eu tentar executar isso, então isso estará
no 75 regularmente. Se eu apoiar Albert, 90, 30 graus, ele será
inclinado em 30 graus C. E 45 Isso está parecendo melhor. Ok? Agora temos o valor
médio por dia. Então, embora esteja
apenas traçando 1º de janeiro, gênero me disse três e
quatro assim por 30 dias, valor
médio Parte D, podemos ver o que
fizemos nesta Agregamos o dia a dia e usamos a coluna de sublinhado geom
para criar um Também giramos o nível
do eixo x para melhor visibilidade, o que
fizemos aqui com o
ângulo de 45 dígitos Demonstre como
lidar com dados de data e hora no ggplot2 inserindo
o gráfico GG no
formato apropriado para lidar
automaticamente com o
excesso de nivelamento e dimensionamento,
facilitando a criação de regulamentos criteriosos e virtualmente iguais ao longo gráfico GG no
formato apropriado para lidar
automaticamente com o
excesso de nivelamento e dimensionamento,
facilitando a do facilitando ggplot2 inserindo
o gráfico GG no
formato apropriado para lidar
automaticamente com o
excesso de nivelamento e dimensionamento,
facilitando a criação de regulamentos criteriosos e virtualmente iguais ao longo
do tempo. Então, a única coisa que precisamos
é passar o valor de data e hora correto
para ggplot2 em stop the thing GG plot para
entender como lidar com
108. POSIXct e POSIXlt funcionam com exemplo: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos sobre as funções do
LT da cidade e dos projetos, que é muito comum ver agora,
programar para lidar com
os dados de data e hora Portanto, você não vê as classes
LTE do endpoint judaico
até os dados atuais, data e hora Ambas as aulas fazem
parte do nosso pacote. Você deseja lidar com valores
de data e hora. Mas eles têm diferenças em sua
representação e comportamento internos. Obviamente, se há
duas classes de objetos, então deve haver uma
diferença em seu comportamento. E assim por diante. Vamos entender como o LTE funciona para a
cidade e os projetos. Então, primeiro,
entenderemos como o projeto de
caminhadas urbanas precárias City significa
perícia, hora do calendário Portanto, a hora do calendário CT, calendário
C4 T para projetos de
tempo é
4,6, 0,6 e representa a data e a hora como o número de segundos desde o início do único Isso é 1º de janeiro de 1.970. Portanto, projete o horário do calendário para começar em 9 de janeiro
e sob soberania Mas você não conhece o sistema unix. Ok? Então, e a partir desse momento, contará o
número de segundos desde o início do tempo
a partir do início
da correspondência temporal do projeto City 1971. Ok, então é
assim que funciona. E é a
classe mais comum para lidar com dados de
data e hora em nossa simplicidade
e eficiência neutralizadas.
O anterior começou a falar Portanto, é muito eficiente e
forte que Rita e Israeli Simple também entendam projetos com qualquer Jump Box. Então, suponha que eu queira
criar nosso objeto de cidade. Então, para isso, vou dar um nome e a data e a
hora que cruza a cidade e você adiciona o projeto de
pontos Cidade. E ele tinha data alcena. E dará luz
ao escuro Grundy 3722. Isso significa 20 segundos
para mentir para três. E aqui, Algol, um bar quase
real de 30 minutos, 45 s. E esta é a data e a hora E ele e eu daremos o
tempo, John. Obrigada E eu posso dar o
que eu quiser. Ok. Então, estou fazendo isso de forma menos precisa, UPC e depois vou
tentar prever Ok, então vamos ver
aqui agora que é 22 de
julho de 2023, Dynavox está doendo quando eu 45 é perguntado sobre o horário UTC, John. Ok. Agora temos que o
tipo é um tempo desenhado. Agora eu quero acessar os componentes individuais em
operação e a hora que é ano, mês, dia. Nosso ponteiro de minutos, ponteiro de segundos,
que podemos fazer com muita facilidade. Se eu quiser. O
ouvido sonda a data, posso usar o formato e
depois passarei a data O tempo sublinha a cidade, esse
é o objeto do dia. E então eu vou ceder a porcentagem e isso me
dará um ano. Ele vai caber aqui
a partir deste objeto. Então, vejo você, artista. Ok. Da mesma forma
, ele enfrentou meses. Você pode usar a data e hora,
sublinhar a cidade,
apresentar a eles o que eles fizeram, a
hora ZT e você pode chegar a
apresentar um resumo de apresentar a eles o que eles fizeram, hora ZT e você pode chegar D ou Não foi? M por um
minuto e S4 segundo M e S, minuto ímpar e segundo filho, também foram
os juros do capital. Ok, então deixe-me executar
isso e agora trazer todos esses componentes. Então, eu vou ter uma base enorme. Sim. Ele e ressalta o CPD por mês,
mês e perda de capacidade
por data e escassez E por um segundo, vou usar a mesma coisa, ok? E então vou tentar imprimir isso. Então, quando eu imprimo um ano, esse produto para vender 23
meses tem sete quadrados A segunda chance são 20 artistas que não fizeram minutos e 45
s de projetos City object. O próximo é para a
toxina LT ou LD Stanford para seis horas locais e representa dados de
data e hora que adiciona
uma lista de componentes Então aqui estava parando à medida que alguns segundos se
misturavam E aqui ele o
armazenará como uma lista. Ok? Portanto, os projetos LT usarão Stanford ou horário
local e
representarão
dados de data e hora como um nicho. Os principais componentes do
ano, mês, dia, minuto ímpar e segundo serão armazenados como uma lista no fuso horário local Então, por padrão, ele
irá para o tipo local. É mais flexível do que o
Project City, pois permite acesso
direto aos
novos componentes de força que eu sou John manipulando. Ok, então aqui está um
exemplo de política. Tenente, criarei um objeto
de data e hora,
pia, adicionarei projetos de pontos,
LTE, MLK, Martin, 20 segundos, julho Os retornos de chamada são diferentes, 45 s, e vou tentar imprimi-los Então, você sabe, aqui que não
especificamos o Tango. E quando estou imprimindo,
obtenho colisões de 20 segundos, ozônio, três
Grundy, bem acima de
30 mi 45 s com o horário padrão 30 mi 45 s com O horário John, meu perigo local, é
o horário padrão da Índia. Está chegando ou está fixado
neste objeto tóxico. Portanto, agora é comum,
com o
horário local , você só janela ou
Lias em Project City, especificamos o cronograma, Martin projeta LT. Não
precisamos especificar
a hora desenhada aqui. Ele tomará automaticamente
a hora local, john, porque significa a hora local
dos projetos. Ok. E se quisermos acessar o minuto e o segundo
mensais, podemos simplesmente fazer até Eugene,
data, hora sublinhada LT, aquele objeto que
criamos por esse dólar, mais Então, o que ele fará quando você colocar o LTE armazenado como ano, desde 1.904 meses, data e hora,
sublinhe LT, dólar M1
mês mais um projeto LT, comece Então, Data mais €1 para
janeiro às 11:47. Da mesma forma, por padrão, eles
usarão o MD mês, dia. E os valores ímpares
são para um
minuto, a média do minuto e 4 s. Então, vamos executar isso
e acessar com itens
reais e depois
imprimi-lo Chega aqui no total e
Randy, três meses, sete dias e 20 anos mais ou menos. A mesma coisa que estamos recebendo e projetamos um litro real de LTL A apresentação é uma diferença mas projeta a hora local e o componente
armazenado
foram lançados para onde ele se A hora do calendário representa
data e hora, enquanto o número de segundos
desde o início do Unix é igual
ao tempo a
partir de janeiro de 197 Ok, então isso é algo
que podemos lidar com dados, dados data e hora ou ímpares. E há duas maneiras: projeto Cidade e projetos vazios. E nós entendemos
os dois
109. Projeto 7 transformação de dados: Olá e bem-vindo de volta. Então, neste caso, faremos outro projeto simples
no qual
aplicaremos técnicas de transformação e
resumo de dados em dados do mundo real Portanto, para aplicar a técnica de
transformação e
resumo de dados em dados do mundo real, usaremos o conjunto de dados MPG, que também está disponível Portanto, esse conjunto de dados MPG está prontamente
disponível em nosso pacote. Portanto, não precisamos baixar
o conjunto de dados separadamente. Ele já está disponível
no pacote R. O conjunto de dados MPG
contém informações sobre vários modelos de carros
e sua eficiência de combustível Então, vamos usar o gráfico GG ao
aplicar a transformação de dados e resumir algumas
técnicas para obter informações do conjunto de dados MPG,
que é o conjunto de dados sobre
os vários modelos de cartão e Então, a primeira coisa que vamos
carregar é a biblioteca ggplot2. Senhor, o conjunto de dados
que é o conjunto de dados MPG. Então, deixaremos a função de dados e passaremos o nome do conjunto de dados que já
está disponível
no pacote R. Faça os dados e passe
o nome do conjunto de dados. Ok, então esse conjunto de dados
será carregado. E então, para explorar a
estrutura do conjunto de dados, usamos a função chamada função STR e passamos o nome
do conjunto de dados Então, quando executamos isso, obtemos a estrutura do
Dataset, esse conjunto de dados MPG Então, aqui você pode ver modelos
do fabricante,
cilindrada, anos, número de transmissão de pontos épsilon, cidade
, rodovia Então, todas essas
variáveis estão lá. Ok? A próxima coisa é que você verá
o resumo do conjunto de dados. Então, vamos executar o resumo e
depois passar o nome do conjunto de dados. Sim, então isso lhe
dará melhor compreensão de como,
quantos anos existe, que tipo de leitura: fabricante, modelo,
cilindrada, ano, cilindrada, ano, transmissão de
cilindros e rodovia urbana, e o preenchimento
e depois a classe Para tudo, é
dado o valor mínimo. Primeiro quartil, mediana, máximo do
terceiro quartil, todos esses
valores estatísticos desse conjunto de Ok? Então,
a próxima coisa é que o conjunto de dados MPG tem várias variáveis,
incluindo fabricante, modelo e
deslocamento E então o número de cilindros e, em seguida,
as transições para algum tipo Dre é do tipo Dr. e BYU city
MPG e WY é rodovia MPG. Portanto, essa é a quilometragem
média da cidade, e esse é o IMC alto, menos
do carro Agora vamos aplicar essas técnicas de transformação e
resumo de
dados usando o gráfico GG Então, a primeira coisa que faremos
será usar a barra de grupo Plot. E nisso, o que faremos, faremos a compressão
de cada cidade. Cilindro
numérico baseado em Mpg Mileage. Então, usaremos o conjunto de dados MPG
e usaremos o operador pipe. E aqui, grupo por cilindro. E então esse
agrupamento por cilindro. Em seguida, passamos para a função de
resumo. Portanto, cada média da cidade
sublinha a cidade é chamada
de média da média da cidade E então vamos passar isso para
a função de gráfico GG, função
estética Usaremos o que x é
como.factor e fatoraremos cilindro de rejeição
e por que vamos preencher com
o número de cilindros, o cilindro de fatores
IJ, ok E então o jamboard usará para passar a partida
igual à identidade E então calcula o número de
cilindros no eixo x. O eixo X fornecerá o número épsilon, os
títulos do eixo y de cada cidade, milha, BD e veja milha, BD e veja fornecerão todas as cidades e VD pelo E a equipe usará o mínimo. E então imprimiremos
a barra de grupo Plot. Então, vamos executar isso e ver, deixe-me maximizar
o espaço para que possamos ver o gráfico. Ok? Sim, comprando
alguns que você vê fumando. Mali, apesar disso,
ok, então isso quer
dizer porque
temos a biblioteca Nocturia DPLYR ok, então isso quer
dizer porque
temos a biblioteca Nocturia Então, deixe-me saber que os gráficos Ok, se rodarmos agora, vejo que hoje em dia você está
correto,
porque
a função by vem
do pacote dplyr que
você não carregou está
correto,
porque
a função by vem
do pacote dplyr que
você não Então, naturalmente, foi
arremessador, então agora você pode ver evidências do DMB
D pelo número de Então, número de cilindros
no eixo x. E cada cidade em Mileage
está no eixo y,
então o número da data do cilindro e a mielina são exibidos aqui Mas, na verdade, insira quatro e
diversifique as coisas
de Mileage aqui para, na verdade, coisas de
Mileage Dessa forma, podemos analisar
como vários cilindros em
um modelo de carro estão afetando
cada quilometragem da cidade Em seguida, desenharemos o boxplot e o diretor da caixa de cores são
realmente a mesma
coisa e beleza, saída
estética, seca, rodovia, MPG por tipo, tipo, tipo, tipo eixo Y.
Comportaremos
e favoreceremos o tipo de tipo e como
essas coisas que conhecemos já fizeram esse boxplot
highway MPG Então, estamos chegando aqui. O próximo é três. Vamos criar um gráfico de dispersão que fornecerá o MPG da cidade versus
a cilindrada
do motor por
transmissão. Tipos do que isso representará um gráfico Portanto, a função de gráfico GG, a estética do conjunto de dados
MPG, o deslocamento
X, o eixo
y serão a cidade y E então a cor é a
transmissão e o ponto geométrico para traçar os pontos E então eixo x, eixo y, eixo
x, então eixo y de
deslocamento, um amortecedor E vamos executar isso
e ver a saída. O gráfico de dispersão por MPG
da cidade versus a cilindrada
do motor por colegas de classe Isso é para automático,
automático e manual. Todas essas coisas que podemos ver. A seguir, vou até mesmo colocar a distribuição MPG da
cidade do histograma facetado para Então, aqui, a mesma coisa, cidade
XXS e o tipo derivado e o histograma de sublinhado geom no qual darão
ao título branco, cor
dos olhos branca e tema mínimo e apodrecido E aqui relata o tipo de tipo
e, em seguida, executaremos e
imprimiremos o I'm time. Vai vir assim. Então, este é um histograma festivo, distribuição de MPG
da cidade, MPG
da cidade Tubo seco. Esta é a Mileage da cidade e
esta é a frequência E é por isso que o
cachimbo seco, certo? Ok. Então, o que temos há muito tempo
neste pequeno projeto,
nesses exemplos, aplicamos os dados de formação de
pedras e resumimos algumas técnicas, como calcular a cidade de
evidências MPG por número de cilindros e usar agrupamentos aplicamos os dados de formação de
pedras
e resumimos algumas técnicas,
como calcular a cidade de
evidências MPG por número de
cilindros e usar agrupamentos
para criar uma percepção perspicaz. E também aplicamos
para resumir e
usar boxplot e medula Distribution
Absolutely MPG para
cada tipo de driver que está interessado
no cada tipo de driver Ao aplicar isso
, ele não se forma. Tecnicamente,
não se ressentir de alguém não é
possível descobrir padrões, tendências e adolescentes nos
dados e facilitar a obtenção de informações significativas de um conjunto de dados
do Do conjunto de dados do mundo real. Lembre-se de que o ggplot2 oferece
várias funções e flexibilidade para realizar uma mais determinada a cada
aula Portanto, você está livre para explorar e personalizar o plasmídeo de acordo
com sua necessidade de análise Portanto, este é um projeto simples
de encanadores e, em seguida,
algumas técnicas sobre
dados do mundo real que são um conjunto de dados MPG Para que tenhamos visto
110. Projeto 7 parte 2 Filtragem de dados e escalas de cores: Olá e bem-vindo de volta. Nesta palestra,
usaremos declarações
condicionais e filtragem de
dados no Ok, então ggplot2, podemos usar declarações
condicionais e nosso primeiro link de dados para
personalizar nossos gráficos com base nessa
condição específica Qualquer que seja o requisito baseado nisso, você pode fazer isso. Isso permite que você crie visualizações mais dinâmicas e
perspicazes. Então, também nesta palestra, continuaremos
com o conjunto de dados MPG,
que é o conjunto de cartões,
modelos e sua quilometragem
e outras coisas que é o conjunto de cartões, modelos e sua quilometragem
e outras Ok, então eu estou pregando que
não é para demonstrar
como usar declarações
condicionais e filtragem de
dados Então, a primeira coisa que
escrevemos é o ggplot2. Ok? E então
carregamos esse conjunto de dados, que é o conjunto de dados MPG Fez o conjunto de dados MPG. E então criaremos
nosso gráfico de dispersão, urbano versus MPG rodoviário com cores feitas
no Então, sim, isso
criará nossa variável. Esse é o gráfico de sublinhado de dispersão. E aqui vou usar
o dígito ggplot2. E aqui o conjunto de dados é MPD, é estética, fontes,
e vou passar
o CD e
por que Highway and Color
foram feitos Ok. E então
aponte geom funcionalmente ou para desenhar o ponto no E então os laboratórios funcionam para dar os nomes dos
projetos existentes,
MPD, eixo y, rodovia, MPG, título da
NBA Vamos usar
gráficos de dispersão para TMP versus MPG
rodoviário com a cor
vermelha no Em seguida,
usaremos o tema mínimo e imprimiremos
o gráfico de dispersão Então, deixe-me falar sobre isso. Agora estamos obtendo um
gráfico de dispersão que nos mostra
o CT versus MPG da rodovia
com base no tipo seco Então, esses são o
eixo x real com a cidade MPG, o
eixo y é a rodovia MPG eixo y é E as quilometragens de costura
com base no tubo seco. Então, essa cor, as cores estão
balançando o tubo seco. Ok, então este é o
gráfico de dispersão que desenhamos. Agora, o que fazemos a seguir
neste gráfico de dispersão básico, todos os pontos de dados ou vemos alguém com
cores diferentes, mas sob papel seco Agora, vamos adicionar alguma declaração
condicional e filtragem de
dados para personalizar ainda mais
o gráfico Então, agora esse gráfico são pontos
de dados com as diferentes cores enterrados no tempo de condução. Agora usaremos nossas declarações
condicionais e a filtragem de dados para
personalizar o gráfico Em primeiro lugar,
o que vamos fazer é o que vamos fazer criar
um gráfico de dispersão com pontos
condicionalmente coloridos dentro
do limite de MPG da cidade Então, aqui vamos definir a velocidade
limite de quilometragem. Essa é a
embriogênese sublinhada da cidade chamada limiar. Este é o
lema ou qualquer outro que a ANA testa todos os valores que estou nos dando 20 Então, agora gráfico de dispersão com
ponto colorido condicional. Quando nossa cidade MPG toca tudo o que estamos
definindo aqui como 20 Então, gráfico GG, a função estética do
conjunto de dados. A mesma coisa. Acessando DY é oi Rick
and Color aqui está o CD. E o real, dando
o teste ou menos, maior que o beneficiário do que
esses pontos, só queria que o ponto D tivesse maior
densidade e densidade E isso vai prever
que tudo o que atualmente é um distrito de
origem é
maior do que a quantidade. Ok? E então a função de
ponto geométrico, e então estamos lendo a escala dois pontos,
sublinhado, função manual E aqui estamos fornecendo
os valores para as cores vermelho e azul e os rótulos que
recebemos abaixo do limite
e acima do limite Portanto, se for
maior que, em relação a
, estará acima do limite
e menor que 20, estará abaixo do limite E então a
função Laugh que estamos usando para dar um nome completo
para o gráfico e tudo mais. Ok, então deixe-me fazer isso. Ok, estamos recebendo
algumas cartas. Aqui. Estamos recebendo algum erro. Problema ao
computar a estética. Adicione uma primeira camada de jardim chamada YLL objects
city and sold Não quero agosto, desculpe, eu não executei essa variável. Então agora temos. Então, deixe-me novamente. Então, veja aqui que estamos obtendo este gráfico de dispersão com vento de cor
condicional baseado no City Portanto, esses pontos azuis estão acima do limite, ou
seja, atualmente E os pontos vermelhos
estão abaixo do teste neste MPG da cidade, menor que 20 Ótimo. Então, agora a cidade do eixo x MPG,
eixo y é de maior energia. Os pontos azuis representam o
valor limite acima que
atualmente é beneficiário do MPG da cidade Então, acima do valor limite, loop limpa e milo
nosso swing como um,
ok, então essa é uma
condição que aplicamos A seguir, o que faremos
nesse ligamento que
expliquei um pouco mais Neste gráfico, usamos
a função estética para mapear a velocidade
estética da cor maior que o valor limite de
MPG da cidade
que é
maior que Bronte, condição lógica
rígida cuja evolução é
verdadeira ou falsa com base no
fato de
o MPG da cidade estar acima ou abaixo desse limite é especificada para mapear a velocidade
estética da cor maior que o valor limite de
MPG da cidade
que é
maior que Bronte, condição lógica
rígida cuja evolução é
verdadeira ou falsa com base no
fato de
o MPG da cidade estar acima ou abaixo desse limite é especificada. A cor, a escala, a
mesa ou a colonoscopia
funcionam mal aqui para servir
as cores personalizadas aos pontos
acima e abaixo do pterossauro Em seguida,
vamos usar essa filtragem de
dados para criar
um gráfico de dispersão com a filtragem de dados
respeitando Os dados do filtro para um tipo
específico do Dr. Fred. Por exemplo, F4,
tração dianteira. Ok, então aqui eu preciso de uma
variável e a atribuo como F, ou
seja, com uma
tração dianteira distante Para que eu jogue com
tração dianteira e livremente, Deus, parcela
dispersa neste
valioso alquilato E vou usar a função de gráfico
GG e um consultor de dados, MPG E aqui vou dar MPG e dipolo-dipolo definidos
como um tubo
seco dipolo-dipolo definidos
como um tubo
seco com tração dianteira. Aqui, passaremos o conjunto de dados
para a função de plotagem GG. Estou especificando
isso a partir desse conjunto de dados que
está incorporado, como
se eu quisesse obter dipolo-dipolo Eles processam dados
que têm o tubo seco como
tração dianteira para Dollar DRE é igual
ao tipo de tração, que será a
tração dianteira E então a
função estética
passará X igual a CT. E por que eu testei cores com base
no tempo de viagem e em
todas as outras coisas? Geom sublinha o ponto
de algum lugar solto para a função Plot, lote e laboratórios E então vamos tentar
executar isso e ver como
os gráficos podem ver esse gráfico de dispersão,
MPG
da cidade era essa rodovia, MPG MPG Então esse é o gráfico de
dispersão do CD. E eu coloco meu pequeno carro que está com
tração dianteira Ok, então agora você
pode comparar, ok. Portanto, neste gráfico, para
usar o arquivo de dados no gráfico de
dispersão de pilha
Procreate apenas para um tipo específico de tipo que tração dianteira,
substituindo o conjunto de dados MPG,
onde fizemos a
substituição aqui, os dados são iguais a MPG, dólar MPG, dr. gráfico de
dispersão de pilha
Procreate apenas para
um tipo específico de tipo que tem
tração dianteira,
substituindo o conjunto de dados MPG,
onde fizemos a
substituição aqui, os dados são iguais a MPG, dólar MPG, dr. V é
igual à preparação seca Então, aqui pegamos
o subconjunto do conjunto de dados
do conjunto de dados
MPG E isso é um
subsídio de projeto baseado
no tipo seco que tem
tração dianteira Então, pegamos os dados de veículos
danificados
por veículos dodge,
que têm veículos
danificados
por veículos dodge, tração dianteira
e, em seguida, para modelos de carros
dolt com
tração dianteira, comparamos a
cidade my ligand hybrid
Mileage usando a Mileage modelos de carros
dolt com
tração dianteira,
comparamos a
cidade my ligand hybrid
Mileage usando a condição MPG dollar, dr.
V é igual ao jumper do tipo
mergulho Demonstre como usar a declaração
condicional
e a filtragem de dados no ggplot2 para criar mais A próxima coisa que faremos
será usar a cor, personalizando
escalas de cores e legendas Personalizar escalas de cores e legendas no ggplot2
permite que você melhore as representações visuais
dos dados e
torne seu gráfico mais informativo e torne seu gráfico mais Você pode personalizar
cores, rótulos, quebras e outros aspectos da cor, escala e legenda para combinar com sua
visualização e lista específicas Vamos continuar usando o gráfico GG. Como personalizar escalas de cores legendas
e tramas instáveis Então, usaremos a biblioteca de
plotagem GG aqui. Então, vamos executar isso. Usaremos os dados Data, conjuntos de dados MPG para carregar o conjunto de dados que é o
conjunto de dados MPG Em seguida, criaremos um gráfico de
dispersão, cidade, MPG, rodovia. Mpg. Mpg significa MPG. Ok. Espero que você saiba,
expliquei anteriormente também com cores
baseadas em tipo, tipo. Ok. Então, seu plano de GG para MPG
é que isso não desculpa estética de alguém
projetar rodovia direta e cor e dirigir a
estética de alguém
projetar rodovia direta e cor e dirigir. E a mesma coisa
que fizemos anteriormente. Então, vamos executar isso. Este é o gráfico de
dispersão que estamos entendendo Ok. Portanto, a tração nas quatro rodas amiga
da cortina real para tração
nas quatro rodas é a vermelha, azul é a tração traseira
e a verde é para tração dianteira e a verde Ok. Agora, nesse gráfico de dispersão básico, todos os pontos de dados são juramentados com cores diferentes
com base no tipo seco No gráfico GG para
atribuir cores automaticamente e
criar uma Agora, cores
e legendas personalizadas
tentarão fornecer cores
personalizadas para criar uma variável. O cliente sublinha as cores
e cria um vetor. Aqui. Criará um vetor
e o amarelo
dará o que F dará. Azul para nosso atribuirá leitura e para quatro
atribuirá orla marítima do Queens
dirigirá, será azul, com tração traseira, será vermelha e a pobre desviará, será verde. E então criaremos o gráfico de
dispersão com Deus. Vamos usar a lenda de Galeno, então aqui chamada de sublinhado
personalizado, cor sublinha dispersão
e isso Neste gráfico de dispersão,
vamos criar um gráfico GG, o mesmo conjunto de
dados, e sair E aqui a cor é
baseada na unidade. E então a função de ponto geométrico será enorme para traçar os pontos E então usaremos a cor de
sublinhado Gayle e, em seguida, usaremos
manualmente para atribuir a cor
que criamos aqui manualmente para atribuir a cor
que criamos E daremos que Valores são
iguais às cores personalizadas. E então criaremos
o gráfico de dispersão. Então, vamos executar isso. Agora. Nosso gráfico de dispersão com as cores personalizadas que
definimos está saindo aqui Então, verde é para a tração
nas quatro rodas, azul para a tração dianteira
e raio para a
tração real e A próxima coisa é, ou o que
fizemos em, deixe-me resumir. Neste gráfico, usamos a escala de cores,
sublinhado, dois pontos faz a função
de comando para definir
a cor personalizada
para cada Definimos cores personalizadas de
sublinhado como um vetor nomeado em que os nomes que representam os tipos de acionamento,
o forefront impulsionarão a
RPA madura no mundo real e a tração nas um vetor nomeado em que
os nomes que representam os tipos de acionamento,
o
forefront impulsionarão a
RPA madura no mundo real e a tração nas rodas 444. E os valores representam
as cores correspondentes. A escala e a escala. A cor do sublinhado vem. A função manual nos permite
mapear as cores personalizadas de acordo com a estética das
cores no gráfico Em seguida,
tentaremos adicionar
legendas e rótulos personalizados. Níveis de legenda personalizados com
direito a serem proibidos. Portanto, faça um gráfico de dispersão com a legenda e
o nível personalizados que vamos criar Então, aqui está a função de plotagem GG, MPD, saída estética TY, Por que rodovia e elabore
o tipo, tipo, ponto
geométrico para traçar
o ponto, a escala, a cor do
sublinhado, o manual do
sublinhado
para fornecer as cores personalizadas cor do
sublinhado, o manual do
sublinhado para fornecer as Então, alergistas ligam para ver. Agora que já fizemos. Então, aqui adicionaremos
etiquetas e ele ou C criarão tração dianteira, tração cotovelos e Então, aqui nos é dado. F será substituído
pela roda dianteira, será real e
quatro serão E então daremos o tipo de Dr.. E então a função
Laugh será
usada para manter os nomes. Ok, então deixe-me fazer isso. Nos vemos hoje em dia, o giro
se seguiu para o F, ímpar e 40 destruindo
a mão de obra direta,
pois a roda dianteira
terminará Então, dessa forma, podemos personalizar
as lendas, ok? Então, neste gráfico, usamos o argumento dos
níveis aprendido. A pontuação é a escala, a
cor do sublinhado e
a função rus por
minuto para salvar os níveis do traje, pois os Landry também usam
o argumento do nome para fornecer nosso
título personalizado para a lenda Portanto, esse é o argumento do nome que
usamos para dar o nome personalizado à legenda. Então aí está
chegando, tipo certo. Ok. Então, espero que você tenha
entendido como podemos usar a
declaração condicional e filtragem de
dados e como
podemos personalizar
as habilidades e legendas de cores
111. Criando tramas interativas com plotly e ggplotly: Olá e bem-vindo de volta. Nesta palestra,
vamos criar tramas
interativas com plotly e
ggplotly Então,
usaremos as
bibliotecas plotly e ggplotly para criar gráficos interativos usaremos Ok, então o que é ggplotly? O Ggplotly nos permitirá fazer ggplotly uma função
que nos permitirá
converter o lote que criamos Nós chamamos de maneira
interativa. Portanto, qualquer gráfico criado
com ggplot2 pode ser convertido em gráficos interativos
usando plotly e ggplotly usando Gplotly. Ok? gráficos
interativos com
plotly e ggplotly em nosso permite que você aprimore suas
visualizações com o Interactive Planning Portanto, criar gráficos
interativos com
plotly e ggplotly em nosso
permite que você aprimore suas
visualizações com o Interactive Planning. E muitos outros recursos. Plotly é um pacote R
que converte ggplotly em gráficos em visualizações interativas baseadas na web . Ok? Então, o Plotly é outro pacote
que vamos para você. Então você pode instalar o enredo. Ok, então, para instalar,
você pode acessar as ferramentas e
clicar em Instalar pacotes. E aqui você é só
pesquisar por Plotly, clicar, selecionar isso e
clicar em Instalar, e ele será Eu já instalei, então não vou fazer isso novamente. E para verificar isso, instale
diferentes densidades. Ok? Então, estou cancelando. Você pode clicar em Instalar
se ainda não estiver instalado. Ok. Então, vamos para a biblioteca UGG ggplot2 e plotly neste pacote, ok,
aqui . Então, o que eu vou fazer,
o que eu vou fazer. Vou te dar um
guia passo a
passo para criar tramas
interativas
com plotly e ggplotly. com Ok, então o primeiro
temperate instala e carrega as bibliotecas
necessárias Como já sabemos, vimos como podemos instalar. Então, deixe-me carregá-los para
aproveitar isso primeiro. Então, uma vez carregadas essas duas
bibliotecas, próximo passo é um bom
gráfico GG de dados, você plot2 Ok, então vamos começar criando um gráfico GG básico para plotar usando MPG aquele conjunto de dados mtcars que já
vimos Ok, então carregue o conjunto de dados MPG, mas você não recebeu
uma função. Carregar. E então criaremos um gráfico de dispersão,
um gráfico de dispersão simples para criar
uma dispersão de sublinhado do gráfico GG variável E eu vou usar o ggplotly. Wong Sun usou
o conjunto de dados MPG. E então usaremos a função
estética, eixo x,
sprint e eixo y e traçaremos a quilometragem
da rodovia e depois coloriremos vermelho na classe
da função de ponto
geométrico de Reagan que
usaremos para traçar os pontos e lagoas de
laboratório e usaremos para dar o nome
ao eixo x neles. O
desembolso L e Y existem
rodovia MPG e
o rodovia MPG depois coloriremos vermelho na classe
da função de ponto
geométrico de Reagan que
usaremos para traçar os pontos e lagoas de
laboratório e usaremos para dar o nome
ao eixo x neles. O
desembolso L e Y existem
rodovia MPG e
o título do gráfico de dispersão será gráfico de dispersão, E então, ainda assim,
usaremos o tema mínimo. E depois imprimiremos
o gráfico de dispersão. Então, vamos imprimir esse gráfico de dispersão
simples que você não fez no ggplot2 Veja, veja aqui que este
é o gráfico vertiginoso simples, aqueles gráficos de dispersão desenhados
entre a
cilindrada do motor e o MPG entre a
cilindrada do motor Por que classe de veículo? Então, classes radicais aqui: compacto
de dois lugares,
médio, eu, minivan,
pickup, subcompacto, um Então, essas são as cores
diferentes para cada classe. E aqui no eixo X estamos
lançando o deslocamento, ok? E então, no eixo y, estamos
vendo a rodovia MPG. Então esse é o gráfico de dispersão
simples. Isso não é interativo, certo? Agora. Quero fazer esse gráfico, tornar esse gráfico de dispersão interativo
ao passar o mouse sobre ele Então, alguma coisa, ok.
Assim, os Valores, cada ponto e em todas as
coisas em
que posso clicar em junho, posso gerenciar todas
as coisas que quero adicionar
à nossa dispersão, tornam-se mais
interativos para que possamos interagir com o gráfico de dispersão Então, para fazer isso, usaremos, converteremos
esse gráfico
GG Plotly. E para fazer isso, tornaremos o ggplotly interativo
usando a função ggplotly.
Essa função é muito importante
para converter qualquer gráfico GG, gráfico
DG em função, desculpe, plotar DG em função, desculpe, plotar tornaremos o
ggplotly interativo
usando a função ggplotly.
Essa função é muito importante
para converter qualquer gráfico GG, gráfico
DG em função, desculpe, plotar em gráficos interativos. Então, você funcionará ggplotly a
partir do pacote Plotly,
ok, e então converterá gráfico
digital em um gráfico O que vou fazer é
criar uma variável aqui, simples interagir para
sublinhar o gráfico Qualquer nome que você possa dar aqui e depois descarregar a função
ggplotly Aqui temos o gráfico UGG. Agora, você vai fazer o ggplotly. E vou deixar de lado
o gráfico de dispersão, os dados
que criamos
usando o gráfico GG Portanto, a menos que seja passivo
à função ggplotly. E então vou imprimir
esses gráficos interativos. Então, apenas passando
para esse ggplotly, esse
gráfico de dispersão simples será convertido Funciona, convertido em
um enredo interativo. Então, vamos ver se isso
está acontecendo ou não. Agora você pode ver aqui este gráfico de dispersão: deslocamento em den versus
rodovia MPG O enredo é tema, mas sempre que estou
passando o mouse sobre qualquer ponto, ele mostra os valores
correspondentes a esse Por exemplo, neste ponto, deslocamento é 1,8 rodovia, MPG é 36 E classe da
lista subcompacta. Se eu vier aqui, cilindrada
1.837, classe compacta. E se eu for para o rosa, esses cilindros 2.5 híbridos 27 e classes SUV para Ok, então veja aqui, é muito legal que agora
o simples gráfico de dispersão,
apenas contornando esse gráfico apenas contornando esse gráfico para os fundos
e aposentadoria do ggplotly, converta em um lindo terreno interativo.
Aqui. Aqui podemos escolher o
C. Quando estou clicando em C, não adianta ser
sonya Porque eu
selecionei isso,
desmarquei Então, vou selecionar dois lugares. Então, embora sejam ferrovias de dois lugares serão Sônia, se eu quiser
adicionar Então eu vou voltar, clicar em compactar e compactar. Os pontos excluídos
estarão acessíveis. Agora, se eu clicar em tamanho médio e for a minivan Missing
Card Scheme, sabíamos que eu corri pode se tornar a forma que
você quiser analisar, você pode adicionar, se
quiser remover isso, até mesmo desmarcar Portanto, esse é o elemento
interativo que foi adicionado simplesmente passando o gráfico de
dispersão para o ggplotly E é bem
simples e muito frio, aqui você pode ver o download
do gráfico em PNG. Essa opção também chegou aqui. Então temos a Duma. Muitas vezes, podemos clicar
e fazer isso. Você vê aqui que várias
opções estão chegando aqui para banir, banir, banir assim. E você pode analisar que essa
é a banda punctum. Em seguida, selecionamos a caixa. Podemos selecionar
ventos específicos aqui e você pode analisar os pontos coletados que serão destacados. A próxima coisa é que
podemos Lasso Select Você pode selecionar desta
forma da maneira que
quiser selecioná-la e selecionar se quiser selecionar
apenas uma coisa específica que você pode selecionar aqui. Então, essas
coisas interativas foram adicionadas, acho que foram adicionadas
apenas passando a função
Plotly de cores do gráfico de dispersão Nós podemos apagar isso. E podemos colocar Jermaine. E então eles disseram Texas. E então temos
a subtrama. Ok? Dessa forma, ok, agora somos anestros, mas simplesmente passando gráfico de dispersão para
a função
ggplotly, agora somos anestros,
mas simplesmente passando o gráfico de dispersão para
a função
ggplotly,
ele criará um Interativo. Agora, o gráfico GG para gráfico de
dispersão foi
convertido em um gráfico interativo com
plotly. E você pode interagir com ele usando o mouse e a aposta holandesa. Você pode passar o mouse sobre o ponto de
dados que
já vimos e ver o humor ou tom Tips e Jermaine e sua
banda bucal Plot e muitas outras coisas
que já fizemos Agora, vamos colocar mais miosina em
cache neste gráfico. Então, novamente, ok, então esse é o enredo, o enredo interativo que
criamos. Agora faremos a personalização
adicional. Então, agora podemos personalizar ainda mais os gráficos
interativos
usando a função Plodly Por exemplo, podemos
modificar o imposto de Harvard
apenas com a cor e adicionar mais anotações a ele.
Então, vamos fazer isso. Então nós, o que vamos fazer, vamos personalizar
o enredo interativo. Até agora, isso criará um gráfico de
sublinhado interativo variável, sublinhado personalizado Este é o nome dos
lotes interativos do cliente que você pode dar. E aqui, vou usar o Interativo para traçar
o que temos aqui. E usamos o layout sun. E dentro do layout, o que podemos dar, podemos personalizar o título. gráfico interativo
será o título, o título do eixo x fornecerá cilindrada
do motor entre colchetes. Sim. Desculpe. E o eixo y colocará a lista de saída da legenda
MPG da rodovia E será a classe do veículo e o corredor e o
modo serão os melhores Então, deixe-me executar isso
e isso criará o enredo do fim da Interactive, e vamos imprimi-lo Agora você pode ver aqui o eixo x, ele pode prever a
queda do meu gráfico interativo E aqui você pode ver
os pontos sendo uma música. Podemos nos unir assim. Você pode selecionar a caixa de seleção. Quer dizer sua boca. Todas essas coisas que podemos fazer. Neste exemplo,
dividimos os eixos e
níveis do título e o título da legenda Ok? Portanto, usando a função plotly e
ggplotly, pacote Plodly e o
ggplotly calculam onde você
pode criar e eliminar facilmente
a cobertura que está na pode Gg plot to Plots, facilitando a exploração
e a compreensão de seus dados Então, espero que você tenha entendido
os alunos na próxima aula.
112. Introdução a características plotly e principais: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos
sobre o Plotly, e ele é gratuito Só. Portanto, o Plotly é uma biblioteca de
código aberto que permite aos usuários criar linguagens de programação
interativas, de alta qualidade, carregadas e
práticas ritualizadas,
não apenas no meu Plotly, que está
disponível em disponível em Então, Python e diga-nos Control
para que você possa usar plotly. E aqui. Além disso, aprenderemos sobre
o Plotly Plotly oferece uma ampla variedade de tipos de
gráficos, desde gráficos de dispersão
básicos até tipos de
gráficos, desde gráficos de dispersão
básicos essências 3D
complexas, e veja como agora podemos
regionalizar e 3D Anna, O Plotly oferece uma ampla variedade de tipos de
gráficos, desde gráficos de dispersão
básicos até essências 3D
complexas, e veja
como agora podemos
regionalizar e 3D Anna,
como podemos mapear brócolis. Então, vamos analisar as interrupções e aprimorar o
Plotly e os A primeira coisa é a interação da visualização do
trator. Então, o Plotly
nos permite continuar. Aula interativa, recursos interativos não ferrosos. Ele permite que os usuários interajam. Vamos fazer um gráfico e dois, entrar e sair do ventilador
ou pontos de dados para ver os detalhes e ativar e desativar a Série de
Dados Portanto, esses são os principais recursos que oferecem uma
interatividade pontual com os
gráficos e coisas do Interagindo com os gráficos. Mostre-me sua boca. Proibindo a cobrança, passando o mouse sobre
o ponto de dados para ver os detalhes
do problema, ligando o ponto de dados para ver os detalhes
do problema, o CDJ de dados Essas interações
facilitam a exploração e a análise de dados de forma
intuitiva. Então, essa é a melhor
coisa sobre a trama, pois faz com que a
vida do gráfico esteja em sintonia com o acordo Então, a próxima coisa
é fácil de usar. O Apa ou CLI fornece
um APA simples que qualquer UCR usa para
criar o que é sua licença Com algumas linhas de código. Você pode gerar um Josh complexo
e interativo, tornando-o o favorito entre cientistas e analistas de
dados Então, já que é muito simples de
usar, é muito popular entre as táticas de
aula de ciência de dados Portanto, como traçar o nível do laser em
nosso telescópio e, por Thomas, várias linguagens de
programação
bastante populares, essa é outra
característica fundamental do plotly O Plotly suporta várias linguagens
de programação, incluindo Python Isso permite trabalhar com o idioma do relatório e alternar
facilmente entre eles. Para tarefas diferentes. Chart Plotly suporta
uma ampla variedade de tipos de gráficos, como gráficos de linhas,
gráficos de dispersão,
gráfico de barras,
histograma de Josh, provavelmente gráficos 3D, coropletos O Chart Plotly suporta
uma ampla variedade de tipos de gráficos, como gráficos de linhas,
gráficos de dispersão,
gráfico de barras,
histograma de Josh,
provavelmente gráficos 3D, coropletos, mapas e muitos outros. Ele oferece flexibilidade e versatilidade na ritualização de tipos de radônio de
raio. Em seguida, o Plotly também fornece visualização baseada
na web. Plotly, baseado na web, o que significa que você pode facilmente
interativar gráficos e painéis on-line e
incorporá-los Poros úteis. Então, o Plotly realmente
oferece a opção integrar seus gráficos e painéis do Plotly. Agora, incorporamos isso
aos relatórios. Isso é mais do que um
aplicativo web com o Plotly dash, você só pode criar aplicativos web
interativos
e isso é Clique na visualização de dados. Tornando-o uma ferramenta poderosa para
criar aplicativos orientados por dados para
quem quer que seja Existem poucas
substâncias econômicas. Na verdade,
em parte, em parte,
em parte, oferecem uma ampla
gama de opções ao cliente para personalizar a aparência da
cobrança de acordo com um requisito
específico Você só poderá
personalizar cores, rótulos, fontes, estilos,
regressão e muito mais Animation e ggplotly suportam animações e transições suaves. O Wechat é muito útil para visualizar dados
coloridos Ao explorar diferentes estados
de maior exportação, o agricultor ggplotly percebe que
pode ser exportado para vários formatos, como PNG,
JPEG, SVG, PDF e até mesmo GIFs animados, criando ggplotly percebe que
pode ser exportado para
vários formatos, como PNG,
JPEG, SVG, PDF e até mesmo GIFs animados, criando. Você não podia usar ótimas
apresentações e documentos. integração com outra
biblioteca, também possível em parte, o Plotly pode ser facilmente integrada com outras bibliotecas de aulas de Análise de Dados e
Teoria como pandas na minha língua, RTT ggplot2 em R. Isso permite que
você combine a força de diferentes ferramentas Portanto, essas são as principais características do NADPH
religioso interativo da Plotly Várias
linguagens de programação oferecem suporte cada tipo de dados para aplicativos
baseados na web Apoie-a da melhor maneira. Isso é esportes e aplicativos
da web. Minhas animações e transições. Plotly é amplamente utilizado
em ciência de dados, inteligência
de negócios, recursos científicos
e vários outros domínios Troclear, intuitivamente
atraente e interage para substituir o vermelho. Ok, então, na próxima aula, começaremos a fazer
o bloqueio na prática começaremos a fazer
o bloqueio na prática.
A próxima palestra.
113. Trabalhando com Plotly: Olá e bem-vindo de volta. Então, nesta palestra,
vamos falar sobre plotly, criaremos gráficos usando Plotly Na
palestra anterior, vimos a introdução ao Plotly vimos quais
são as características,
quais são os gráficos que
podemos fazer usando o Plotly Então, nesta palestra,
faremos o trabalho prático. Então, eu escrevi um código para você e vou explicar
e vou
executar o código até morrer ,
e então veremos quais são as coisas que
podemos fazer com o Plotly Algumas coisas
como
criarão esses gráficos 3D usando o Plotly Então, isso é muito
interessante e eu digo como
podemos traçar esses três gráficos de dispersão
3D Ok, então essas são as poucas coisas que vamos
fazer nesta palestra. Ok, então vamos
começar esta palestra. E coisas foram retiradas do site
rStudio rpubs.com
e Então, vamos começar. O Plotly é uma ótima
ferramenta para
criar lindos enredos interativos Isso pode ser plotado usando o pacote
Plotly, bem
como usando o TD ggplot2 Portanto, podemos fazer coisas que só
podemos traçar com o enredo,
ou também podemos usar o
gráfico GG junto com o Plotly ou também podemos usar o
gráfico GG junto com o Para isso, precisamos das bibliotecas
Plolly e DD ggplot2. Então, eu já instalei, então você acabou de executá-lo. E aqui vou usar o conjunto de dados do Centro-Oeste que
está prontamente disponível
com o pacote RStudio Então, deixe-me mostrar
como isso parece. Então,
deixe-me colocar Control Enter. Veja, sim, este é
o conjunto de dados que vamos para o
enorme Centro-Oeste, Ok Portanto, há um PID,
então país, estado, área, população, população
total, densidade
populacional, população
ampla, preto, meridiano
pop, pop,
antigo, Mas por que preto? Portanto, embora cada coluna
esteja lá junto com D, cada coluna adiciona mais variáveis e elas estão
todas em variáveis em inglês. Nós seremos os
enredos, ok? Então esse é o conjunto de dados. Então, como um país, uma área estadual, população total, todas essas
variáveis estão bem? As pessoas disseram isso. Ok. Agora
reutilizamos esses dados para representar graficamente. Então, a primeira coisa que vou fazer, vou usar a
função Plotly, plotar sublinhado E por que
a função Plotly para criar um gráfico para esse LPA,
passar esse conjunto de dados
centro-oeste e eixo x,
eu vou grande parte da classe, mas a classe é um conjunto de dados, coluna de dados aqui, variável. Mas Clark College, ok? E pinte e use o estado
oculto e a caixa Tipos. Vou criar um boxplot aqui. Lote por cento
de ensino universitário, apressado
, por cento
educado pelo estado Para traçar isso. Então veja aqui que este é o boxplot porque o tipo que
fornecemos aqui como caixa aqui Ao clicar aqui, você pode ver o primeiro quartil
mínimo,
mediana, terceiro
quartil, E você pode ver o
valor máximo, essas coisas. Dessa forma, podemos criar
rapidamente um boxplot, 4% com ensino superior por etapa Por meio de quantas pessoas estão
sendo educadas? Faculdade? Diga que este é
o boxplot, ok? Agora vamos tentar colocar alguns gráficos
básicos usando o Plotly. Para isso. O que eu quero fazer, o que eu
quero é criar um gráfico básico diretamente usando plotly ou
também podemos plotar UGG dois Então, aqui, UGG ggplot2 também. Então, aqui vou usar o conjunto de dados irlandês que já
vimos Então, se você quiser ver
como isso neste conjunto de dados você pode colocar a íris da cabeça Então, deixe-me primeiro carregar isso. Então, acabei de criar um conjunto de dados onde você pode
ver o comprimento da sépala, a largura da
sépala, o comprimento da pétala, a largura da pétala Essas são as colunas ou variáveis que têm um nível
neste conjunto de dados irlandês Ok? Então, se você quiser executar isso, você pode ver, sim, tudo bem. A próxima coisa é que vou usar a função plot underscore
LY novamente, e o conjunto de dados será itis Portanto, os dados são iguais à íris, Xe, eixo x e comprimento da sépala
e comprimento da pétala no eixo Ok? Então, vamos desenhar esse gráfico melhor de
que está surgindo assim. Ok? Portanto, no eixo x, comprimento de ponto simples,
e no eixo y, comprimento da pétala, comprimento da
sépala e comprimento da pétala E esses pontos
foram desenhados. Então, para este comprimento de sépala
e comprimento de pétala, o
marido traçou Agora, com ggplot2,
o mesmo gráfico
também pode ser criado no ggplot2 Em seguida, o gráfico pode fazer, pode ser feito em versão interativa ggplotly, Observe que nem todos
os recursos
funcionarão ao usar o ggplotly Então, às vezes, tenho que fazer
algumas tentativas e erros. Ok? Então, aqui, o mesmo gráfico de
dispersão que tentarei traçar usando o gráfico GG e o
gráfico que criarei uma figura onde o armazena
na figura a figura, para armazenar na figura dois Então, vamos executar isso agora. E eu aludi ggplotly a planejar isso.
Figura dois. Ok, então deixe-me fazer isso. Então veja aqui, agora, chegando assim, ok? A mesma coisa com a
ajuda de e ggplotly. Nós planejamos. Ao ser capaz de traçar,
você pode plotar para. Você pode personalizar o
gráfico da mesma forma que você pode com ggplotly Veja os nomes comuns das colunas. Então, se você quiser promover o nome da coluna para
o conjunto de dados Iris, você pode simplesmente executá-lo Veja os nomes das colunas que
já vimos, certo? Existem cinco
pontos de coluna por espécie. Então, aqui estão
os dados, a íris, a estética, as fontes, e usaremos X, comprimento da
sépala, comprimento da pétala
e a cor é multiespécie Então, vamos colorir os
pontos por espécie. E então eu vou usar
a função de
ponto de sublinhado geom para
traçar esses E então esse número que estamos obtendo do TG Plot, vou tentar traçar
com o ggplotly Ok, então simplesmente imprima
isso e veja aqui, agora temos o gráfico de
dispersão colorido e onde está esse rosa que é esverdeado para
versicolor Dessa forma, podemos determinar a cor. Agora você também pode ver que as espécies aparecem
na caixa de texto quando você passa o
mouse sobre elas. Agora está mostrando que
você passa o mouse sobre eles. Agora está costurando o comprimento da sépala, o comprimento da
pétala e é
precedido Assim como no ggplotly, você também pode personalizar
o eixo, o título
e a cor, um setor Então ele tem um gráfico GG. Tudo o que podemos fazer no
gráfico GG é o que fazemos aqui. E então passaremos
o cálculo do
valor da variável de plotagem para o ggplotly Este objeto figura dois no ggplotly e ele traçará, ok, então aqui o eixo X do diário
e depois os pontos geom Dentro da função de
ponto de sublinhado geom, a estética e a
cor
do mundo real, a cada trimestre estão
os preços e o relatório de salvamento Ok. E então o comprimento da sépala
xlab, o comprimento da pétala e o título GG
serão o comprimento da sépala, o comprimento da pétala.
Ok? Então, vamos executar isso. Agora. Você pode ver aqui. Agora, os pontos também são muitos. E para esse versicolor
está vindo em triângulo, e para esse cara, os
pontos estão vindo ao quadrado da mesma forma Isso ocorre porque usamos espécies
separadas
dentro da função humana de pontos
Netskope Dessa forma, também podemos
personalizar o eixo, o título e a cor. Agora vamos criar um gráfico de barras
básico. Então, para criar um gráfico de barras básico, usaremos o data.frame. E aqui vou criar um conjunto de dados de
amostra aqui. Para este conjunto de dados,
haverá três colunas na próxima vez e a fatura total. Portanto, macho fêmea serão o sexo
desse vetor do fator Alcatel, e então a hora será
o almoço e o jantar Nada que não esteja bem. Os níveis serão almoço e jantar, e o total manterá
algumas contas aleatórias por aqui. Então, deixe-me criar esses dados, ativar esse DataFrame primeiro Agora vou criar um gráfico de barras. Tempo no eixo x Color Fill, agrupado por sexo e enorme produzindo a função de
esquiva de sublinhado Então, GG traça para obter
dados enormes à medida que você avança para este,
aquele objeto que temos, alguns dados de treinamento
que criamos E então a
função estética no eixo X, colocaremos o eixo y do tempo, colocarei Crotonville e
preencherei com a barra de sublinhado de sexo e
geometria Vou usar
identidade e policiamento empilhados e colocados, a polícia e sublinhar
a E então eu criarei
outro objeto, a
figura quatro, e vou
estourar o gráfico de barras G de Boston,
ggplotly, ggplotly a, B, e então imprimirei a figura e então imprimirei a figura para C. Você vê aqui. Agora, esse é o gráfico de barras
simples. Ok, então ele
almoçou e jantou. Existem duas coisas este sistema para
mulheres e este é para homens ou mulheres, a
conta total por refeição no almoço. E isso é a mesma
coisa para o jantar. Então, se você quiser analisar
como no almoço de uma mulher, interface
total será abstrata. Total. Adoramos
rúpias sustentadas e, para o jantar, mulheres que amamos cisteína
e MATLAB Então, podemos
analisar que no almoço, homens e mulheres, os gastos com
almoços são bem diferentes Homem, gaste mais no
almoço para o jantar. Até mesmo homens e mulheres. Assim, podemos concluir que,
para o jantar que eles compraram as despesas são quase as mesmas. Dia do homem e da mulher. Bem gasto com
quase a mesma quantia
de dinheiro no jantar. Mas quando vêm para o almoço, as mulheres gastam
menos com o almoço. E eles gastarão
mais no almoço? Isso é o que podemos concluir
com base neste gráfico de barras. Em seguida,
usaremos o SF básico. Para isso, usaremos
a própria biblioteca. E para isso, usaremos o objeto
NCDs, SF, dois pontos,
sublinhado, leitura A
função de arquivo ponto do sistema será sua e
ainda revisaremos SIP slash
NC dot SHP e o pacote será SF e SHP e o pacote será SF e SF e o pacote será SF
e bastante igual a verdadeiro. E então criaremos
um objeto figura três. E ggplotly, muito
grande e ggplotly. E vamos passar por esse NCO. Oponha-se ao ggplotly plus
geom underscore safe. Você sublinha
fontes e resenhas de SF? E ele tinha formas estéticas
e religiões como essa. E vamos preenchê-lo por área. Então, vamos traçar esse gráfico de
superfície simples aqui. Então, agora estamos obtendo
essa área de superfície. Você pode ver aqui no
eixo x e no eixo y. Então, na graduação. E você pode ver a etiqueta
em repouso de maneiras diferentes. Então, dessa forma, podemos
aproveitar para traçar. A próxima coisa é que também podemos
colocar os mapas para isso. Sou sua Zynga. Isso é tudo para
fevereiro, nós e o trânsito. Ok. Portanto, esses dados retirados deste site se readaptam diretamente. Estamos criando
a partir deste E esses dados são
parte 21 de fevereiro, arquivo CSV de pontos do tráfego aéreo dos
EUA Então, vamos armazenar isso
nesse DataFrame. E então usaremos o comando will try to upload desse
tráfego aéreo no mapa. Até agora, esse valor
que você está estilizando. Então, vou criar um objeto
G. G e o escopo são os EUA O escopo deste mapa
são nossos projetos e essas listas digitam projetos
e são do tipo lista. Albert nos EUA. Terra por terra
será nosso filho. A cor da terra será RGB
e usaremos cinza 95. E a cor da subunidade será
de cinco países, a cor será ótima em cinco países com 0,5 e a
subunidade com azul Então, desta forma, podemos usar isso. Ok? E então usaremos
a função plot underscore GO para traçar
isso no mapa Até agora, eles passaram do
conjunto de dados como dF, este, CSV
do entalhe de tráfego do aeroporto que colocaremos aqui. Então, a
latitude colocará a latitude e a longitude
colocará toda a bagagem Essas são as duas coisas que virão
desse conjunto de dados completo É muito grosso? Adicione marcadores e
textos que colocarão aeroporto, cidade, estado e chegada E então cores muito ricas,
símbolos, tamanho quadrado. Eu passo o mouse para ver os textos. Ok, então deixe-me executar essa ferramenta e depois esquecer o valor da cor em
grandes voos de entrada E para o layout e
use o título, a função de layout
para fazer o layout. E então tente ser o
maior tráfego que os EUA estão bloqueados. E depois leiam sobre isso juntos. Então, realmente
tente colocar alguma coisa. Agora está chegando, pois maioria do tráfego adiciona o
porto Hauer ao aeroporto Então, aqui, quando vemos aquele copo, mas as chegadas
internacionais de Buck são 90, então você recebe chegadas ou 100 para esse amigo
que eu quero Assim, você pode passar
o mouse sobre o mapa e
encontrar a Austrália Central Remington está na 26ª chegada deste
292648 regional
de Eagle Country em 1998 Dessa forma, você pode encontrar
o aeroporto mais movimentado. Flua-nos. A próxima coisa é que podemos traçar
o que o ator racional cria. A próxima coisa é que
podemos traçar o raster
trash talk, criando o mapa de calor colorido com duas variáveis atuando como
as coordenadas X E terceira variável
mapeando a cor. Para isso, usaremos a
etapa dois e o Plotly. Para isso, usaremos a função mágica e a
usaremos enquanto não pudermos. Ok, então agora o gráfico GG para este conjunto de dados e o valor estético1,
valor2 e geom Rushton, preenchimento
estético que os valores para este conjunto de dados e o valor estético1,
valor2 e geom Rushton, preenchimento
estético que os valores podem preencher. O Distiller usará esta
escala de função e a sensação de Oscar. O pellet terá a direção espectral um. E essa função de atraso
fornecerá o eixo x de oeste para leste e eixo y de norte a
sul, título E então vamos tentar traçar isso. Então, vamos fazer isso e ver se
depois de ter sido filha, um
mapa de elevação da doença para Mongo enquanto E isso é criado
com base nisso. Ok. Agora, a próxima coisa é tentar fazer um gráfico de dispersão 3D
do ducto renal Então, gráfico de dispersão 3D para isso, vou fazer os carros vazios Ok? Então, carros vazios, um carro vazio, M igual a zero e
M igual a um. Isso é chamado de automático. Manual. E aqui estão os carros vazios, fator de
borda, as cartas vazias
e, em seguida, tente traçar
usando o gráfico, sublinhe apenas o conjunto de dados de carros vazios que
está embutido na área Realmente use X bar, WT, borda de ponto de
acesso Wi-Fi para você,
projeto de
borda de ponto de acesso Wi-Fi
doente para você, cor
doente com base na AM e
na Definiremos aqui também. Isso é para cores e as cores darão cor a
essa palestra. E então, para o layout,
usará exit, tie await e y, a potência
cruzada do eixo y e os eixos de
obtenção serão 141 Então, vamos desenhar esse gráfico 3D. Então, PODE saber que este é o gráfico 3D, o gráfico de dispersão
que fizemos Então, para isso, você pode ver
então nosso eixo x, eixo y. O eixo Y é para potência bruta. E o terceiro exon, minha vez. Então, quando você passa o mouse
sobre o ponto, você pode ver que 3,78 Y
é um em e Então, desta forma, podemos traçar os gráficos 3D
e tudo mais. Então, esse é o eixo x, o eixo y, e esse cartão
excede seus Então, empacote o Plotly em
outro maior para criar gráficos e
mapas
interativos
altamente personalizáveis, porque ele já está pronto para ser integrado ao gráfico GG,
a gráficos e
mapas
interativos
altamente personalizáveis, porque ele já está
pronto para ser integrado ao gráfico GG,
a possibilidade e menos. Ok, então você pode fazer mais
exercícios sobre isso e praticar e criar gráficos
3D
muito mais interativos, mapas e tudo Gráficos 3D, mapas e tudo mais, ok. Então isso está em um barco, Plotly
114. Criando lotes 3D em R: Olá e bem-vindo de volta. Nesta palestra, vamos
criar gráficos 3D em arte. Então, vou dar a todos
alguns exemplos
diferentes dos quais
podemos criar gráficos 3D Ok, então primeiro, vou usar o Plotly e para esta biblioteca de
usuário Então você não instalou,
você pode instalá-lo. Então, primeiro adorei a biblioteca plotly e , em seguida, criarei uma amostra de
dados usando uma Então x, y, z, você sabe, 100,
100 e o projeto existe e
use quadrado mais y ao quadrado. Está bem? Então, mas isso
resultará em três. Isso acontece mais tarde? Agora, quero traçar esses três pontos usando
um gráfico de dispersão 3D Usando o Plotly. Para isso, usarei
uma função de onda amplamente não reivindicada
, sublinhado sempre chamada x,
obtenho x ao quadrado, eixo y x e y e
, em seguida, x tipo será o modo 3D
disperso, serão os marcadores e gaitas
e um tamanho enorme de lista, darei três cores, receberei o pagamento no eixo y e na escala de cores e
pronto Depois do layout, usarei a
cena e, para a lista, fornecerei uma lista que
conterá o eixo x, o eixo y e o
eixo jato E para isso, darei
o Título X, Y acabou. Se quiser, você pode
colocar a existência no eixo x, no
eixo y, e esse x está Então, esses três títulos que eu vou dar e vou tentar,
deixe-me rodar isso. Então veja aqui, este é
o gráfico 3D bloqueado. Temos gráfico de dispersão 3D,
temos gráfico de dispersão 3D Estamos chegando aqui, ok? Agora você pode ver
seu eixo x, eixo y, e este é o eixo do jato, maneira
que quiser Então C e agora o eixo x, eixo y e esse x é, esses são os pontos que
criamos usando nosso número que foi traçado
em um Então, eixo x, eixo y e esse eixo. Então, o que quer que queiramos analisar, dessa forma, podemos criar um gráfico de
dispersão 3D usando Plotly Então, deixe-me revisar novamente. Eu criei uma
amostra de dados usando nossa função normal, ponto do eixo
x. Eu criei nossa norma de 100. O eixo Y não tem mais de 400 e x
morto são os valores de x e y. E essa fórmula para
obter os pontos para o gráfico de dispersão
3D eu usei Plotly e a função de onda
quadrada
para a indexação do produto X
ponto Y do eixo Y do produto AB E então temos essas
coisas, layout e marcadores. E então, quando executamos isso, obtemos esse gráfico de dispersão 3D O próximo passo é que
SP, função SP mais ligações B. E você pode ver em
nossa programação, então sintaxes BER SP, este é o
nome de uma função e precisamos
escrever que 3,4 eixos x, y e mortos neste ponto,
precisamos escrever como
um parâmetro importante
dessa função, pois parâmetros
diferentes separados, x,
y e z com x e y são vetores que
definem a localização
ao longo dos eixos precisamos escrever como
um parâmetro importante
dessa função, pois um parâmetro importante parâmetros
diferentes separados, x,
y e z com x x
e y. definem a localização
ao longo dos E o eixo morto será a
altura da superfície na superfície do jato
da matriz. Então essa altura ainda será
a matriz, ok? Portanto, o valor de retorno para essa função
SP será a transformação alada das
métricas do projeto
em coordenadas 3D x, y no plano usando coordenadas
homogêneas, que serão x, y, z e t.
Então, vamos ver o
exemplo de usar essa exceto a função SP Você pode dizer patrocinador. Então, o que você quiser, você pode chamar, eu
chamo de SP, ser patrocinador Ok, então aqui eu
quero desenhar nosso cone circular
reto simples. Então, para ilustrar um cone circular
reto simples, eu crio um objeto aqui
chamado e para essa função E então passe a função,
função em Boston que eu usarei essa função de
raiz quadrada, x ao quadrado mais y ao quadrado. Está bem? Portanto, esta é a função para x, os valores x e y são sequência
solta de menos um
para um, com retardo mental E o jato será o x
externo, y e frio. Então, esse será o eixo da rede e, em seguida,
trarei a superfície 3D , usarei a função de análise x, y, e esses três pontos,
passarei para isso Ok, então vamos Como está indo? Te vejo? Agora, este é o cone circular
reto 3D que podemos criar usando isso. Então, aqui, a sequência de
funções do código de esforço é pré-gerar o vetor de números
igualmente espaçados
e a função externa para aplicar a função corn em
cada combinação de x e y. Então esse é o
cone circular reto que Agora. Agora veja mais um exemplo aqui. O que eu quero fazer adicionar os
títulos e nivelar o acesso ao enredo até o ponto em
que o tema desta conferência, então esse também será o mesmo Agora, eu planto a superfície 3D
e agora vamos jogar plotando a superfície 3D usando a função
e passando os pontos x,
y, z E depois disso, vou
usar o CTO gerenciado, gráfico de
perspectiva de um cone Está bem? Ok, então,
gráfico em perspectiva de um cone. E então git lab, darei a altura para o eixo do jato, darei o nome
de altura e Theta party ALX1, E então phi é propileno e a cor é laranja.
E veja qual 0,4. Ok, então vamos executar isso e ver qual
saída estamos obtendo. Estamos obtendo esse gráfico em
perspectiva do gráfico ativo de um cone. Então, aqui o elevador morto do X Lab 11
pode ser usado até o nível, o nível para nivelar
os três eixos. E theta e phi são
a direção de visualização. Theta e phi outros Windex
e isso estamos vendo. Então, temos você na quinta
e sexta-feira, 1.245,15. Vamos ver o que
muda. Veja hoje em dia. O ângulo de vitória
foi alterado, certo? Você pode fazer isso. Vamos ver como está se saindo. O ângulo de visão
está mudando, ok? Então, qualquer ângulo que você
queira ver que você possa dar em teta e phi, se eu fizer 4.560,45, vamos ver como isso
acontece e ver esse tipo
de Aqui é T. Então virá
assim. Está bem? Tome uma decisão. Ok. Agora, vou usar, vou
dizer, para visualizar o modelo digital simples de
elevação deles. Ok, até agora serão
dois em um vulcão e um genuíno,
com dez em uma coluna e uma fileira de 10 m voltada para o sul para o norte E por que você será
transformado em um em álcool e frio. E ele pegará o jato e Danton
se dispersará de leste Está bem? Agora, uma grande
parte será a função
de grau e perspectiva. Vou usar X, Y, w1, 35 e lutar contra todos
esses outros ângulos Cor marrom, a pele cai, Theta um menos um Isso é para definir uma
borda e, em seguida, falso. Então, vamos ver como isso vai acontecer. Então, veja aqui, este é apenas um modelo de
elevação digital Alpha. Está bem? em R. Então, vimos
como podemos fazer com a função de onda não descrita
do gráfico
Plotly Então, é assim
que podemos criar gráficos 3D
em R. Então, vimos
como podemos fazer com a função de onda não descrita
do gráfico
Plotly. Então, vimos
como podemos usar a
função to mais b a função de
perspectiva funcional, você
quiser,
você pode chamá-la. É assim que podemos criar TV
115. Criando lotes interativos com Highcharts: Olá e bem-vindo de volta. Nesta palestra,
vamos criar gráficos
interativos
com Highcharts Então, vimos como podemos fazer
isso com as outras bibliotecas. E agora vamos fazer os
Highcharts. A parte de trás está aqui. E para isso, fizemos o
download do Highcharts. Então, basta acessar os pacotes instalados
e, como ele tinha gráfico
alto, como pode ficar
em pó e baixá-los. Ok. Portanto, a biblioteca Highcharts
será a origem disso Ok, então nossa linguagem de
programação é amplamente usada para estatísticas, visualização e
análise de dados que já conhecemos Usando a biblioteca Highcharts. dados da biblioteca Highcharts são representados
graficamente
no software Não apenas o significado, mas também
os gráficos
interativos são preparados. Ok, então vamos ver que tipo
de gráficos podemos preparar. Gráficos interativos que podemos
preparar com Highcharts, gráfico de
colunas, gráfico de barras, gráfico
circular e gráfico de
dispersão Esses são os quatro tipos de gráficos que você pode criar
com os Highcharts Então, Highcharts no
Texas, é bem simples. Usaremos a Carta X e , em seguida, passaremos o objeto de
dados, digitaremos e, em
seguida, em Casos, os pontos
X e Y e depois a cor. Portanto, objeto para representar o tipo de objeto de dados é o
tipo de gráfico que você deseja criar. Ele consiste em X e Y apreender os Xs
para representar os O que é importante e a cor representam essa
representação gráfica de cores, mas você não sabe o
valor que fornece Então, o gráfico criará o gráfico
interativo, ok? E esse gráfico de quatro
colunas por
barra, gráfico de barras, gráfico circular e gráfico dispersão,
não funcionou Essa é uma
sintaxe bem simples de high chart. No gráfico, seu gráfico
é a função. E passaremos o
tipo de objeto de dados da carta que você
deseja criar e Casos, que serão os eixos X e
Y e a cor, mas o que você
quiser dar cor. Ok, então primeiro criaremos
com o gráfico de colunas do documento, ou o gráfico de colunas exibe dados com categorias representadas
por um retângulo, às vezes também chamado de gráfico de
barras verticais E as categorias são
normalmente organizadas
ao longo do eixo horizontal e os valores ao longo do
eixo vertical que conhecemos. Então, a primeira coisa é importar a biblioteca que eu criei,
So Lamport Então, aqui está o que vou fazer, vou criar dados simples, dados
de amostra para o nosso exercício. Então, aqui vou criar
um vetor que conterá o nome do país, América, Índia,
Indonésia, Japão ,
Canadá, China e Brasil. E seu PIB. Portanto, o vetor
do PIB criará e fornecerá o PIB
correspondente ao país. Em seguida,
forneceremos os dados, data.frame,
país e entrega Então esse será o DataFrame. Ok? Então, o próximo passo é traçar o gráfico de barras de colunas ou o gráfico de
colunas. Para isso. Armazene isso
no objeto P1 e gráfico de
borda funcional
use um objeto, tudo bem, dados de pontos, que conterão
o país e o PIB E então digite, eu quero
fazer um gráfico de colunas. Então, vou dar uma coluna aqui. Em Cases, darei X. X é o país e eixos y são chamados
de PIB e Cor Eu quero colocar uma taxa de imposto sobre você. Se você quiser fazer
outra coisa , você também pode dar verde. Ok, então deixe-me fazer
isso e dar uma olhada aqui. Veja como é o hello Interactive, este gráfico de colunas. Então, deixe-me
removê-los e, novamente, quando eu clico em ver como estão aparecendo e desaparecendo de
uma maneira muito interativa. Então é assim que podemos fazer um
gráfico de barras, desculpe, gráfico de colunas. Usando o
gráfico de colunas interativo, você pode sequestrar. Em seguida, criaremos um gráfico de barras ou
gráfico de colunas, exibiremos dados com categorias representadas pelo retângulo, às vezes chamado de gráfico de barras
horizontal Ok? Ok, então vamos
criar um gráfico de barras aqui. Então, no mesmo conjunto de dados
que vou estar com você. Em seguida, veja os dados da visualização. Se você quiser ver seus dados, você pode ver o país e o PIB. Ok? A próxima coisa é que eu
quero traçar um gráfico de barras aqui. Então, vou usar o
objeto gráfico S, tipo de dados Barra, casos
extremos, país, eixo X, país e PIB do eixo y. E eu não tinha lido. Ok, então vamos executar isso. Agora. Esse é o gráfico de barras
que estamos criando. Então, este é um
gráfico de barras interativo usando Highcharts, ok, então veja como
está aparecendo, ok? E quando você ver como isso supera isso, você verá o
país e o PIB correspondentes, ok? Em seguida, cada gráfico circular, gráfico
circular ou tipo de gráfico em que o círculo é
dividido em grupos representam a proporção
dos valores da categoria são divididos entre as várias
conferências no círculo Você setoriza as marcas
dessa categoria. Então, vou usar o
mesmo conjunto de dados, ok? E vou tentar
criar um gráfico circular. Então, aqui vou dar uma
página da web igual a pi. Tudo, todo o resto é mesmo tipo que
estamos mudando aqui. E a cor, se você quiser
dar alguma outra
cor que você possa dar, eu lhe darei o gráfico circular. Então, veja como o
gráfico circular interativo surgiu aqui. Então, vou abordar isso novamente, ver como está aparecendo. E para cada país, quando você passar o mouse, ele
será destacado China, Japão,
Indonésia, América. Assim. Sim. Então é
assim que podemos criar por gráfico. Em seguida, eu queria
entrar no gráfico de dispersão. Gráfico de dispersão, também
conhecido como gráfico de dispersão. Você acabou de chegar aos valores
atuais. O que é diferente os gráficos de dispersão de variáveis
médicas costumavam ver, escutei entre
as variáveis, como uma variável é afetada
por outra variável Podemos visualizar facilmente? Então, eu vou usar da
mesma forma, usa isso, e aquele
país e o PIB realmente opinativos E ele usou a tabela
S e a fralda, vou dar uma dispersão.
É isso mesmo. Ok. Carla, suponha que eu queira nos
dar amarelo. Ok, então vamos
entrar no gráfico de dispersão aqui
e ver como está Você vê os pontos. Então, deixe-me falar de novo, Boxer da
CIA vindo aqui. Então, deixe-me
colocar isso em alguma outra cor. Faça com que seja rosa. Rosa. O rosa também não é muito
viável e torna visível. Ok? Então veja, você sabe, esta é a
raiz quadrada do bloco, ok? Dessa forma, podemos
usar a biblioteca high charter, high Highcharts e fornecer gráficos
interativos
116. Projeto 8 como visualizar dados Airbnb em Nova York: Olá e bem-vindo de volta. Então, nesta palestra,
vamos
fazer outro projeto pequeno,
muito pequeno E neste estudo, faremos um
estudo de caso de visualização de dados do
Airbnb para a cidade de Nova York usando o gráfico GG Então, Airbnb, hospedando
pessoas em sua casa. Então, veremos como as pessoas
estão se aninhando e qual é o custo ou quais são as tendências do bairro
. Então, basicamente, estaremos dentro dos dados da cidade de Nova York. Portanto, os dados serão fornecidos aqui. Então, anúncio ou CSP que eu
baixei do Airbnb. Portanto, ele conterá
os dados da cidade de Nova York os dados do
Airbnb da cidade de Nova York Então, o objetivo do
que esse pequeno projeto estuda
é visualizar o jogo,
visualizar e obter insights a partir dos dados da bola amarela
a e B do Airbnb na cidade de Nova York. Uma
grande entidade usará o gráfico
GG e, grande entidade usará o gráfico
GG para tentar visualizá-los, obtenha os insights dos dados do mundo
real do Ok, vamos explorar
diferentes aspectos dos dados, como distribuição
anterior. Eles eram do setor, ok? Então, conjunto de dados para este estudo
ou para este projeto, usamos o arquivo
CSV de pontos de listagem daqui quando fizemos uma sessão para
a cidade de Nova York O conjunto de dados contém informações
sobre vários anúncios,
incluindo arroz, incluindo arroz, disponibilidade da
vizinhança
e outros detalhes relevantes Portanto, a primeira etapa é a preparação
dos dados. Para isso, carregará a biblioteca
necessária. Então, vou usar
a camada profunda. Se você ainda não
iniciou o plano, pode acessar os pacotes de ferramentas
instaladas, onde coloco o alicate
e clico em Instalar, ele será instalado e
você poderá usar o passivo Está bem? Então, GG traça
e aplique isso em nossa biblioteca que vamos
anotar para este projeto E veremos a
estrutura do conjunto de dados. E pegaremos um
termo (valores ausentes e converteremos o
DateTime, se necessário Ok, então me diga as bibliotecas
ativas necessárias. E o próximo passo é listar um grande arquivo CSV que
temos na minha máquina local.
Então eu escrevi isso. Então, vou usar essa função
csv de cada ponto e passar o caminho do arquivo CSV com o nome do
arquivo E vou armazenar na variável de dados de sublinhado
a
e B e B. Então, vamos executar isso. Ok, então esses dados
têm 48.008,
95, 95 objetos
e 16 variáveis Está bem? Então, deixe-me explorar a
estrutura do conjunto de dados. Estou usando a função STR e
passamos esses dados do AirBnB
e do Discord Deixe-nos isso. Então, deixe-me mostrar a
estrutura para isso. Vamos ver. Então, 48.008 95 objetos
e diz duas variáveis. Faz isso com meu
nome e nome de identificação. Religião para lidar com ID de custo, nome do
anfitrião, bairro,
grupo, bairro. Deixe isso em voz alta. O preço
de curto prazo O mínimo agora é o
número de avaliações. Maior, rico em leucina, que obteve listas de anfitriões calculadas
por mês,
contagem, disponibilidade e pesquisa Então, todas essas variáveis estão lá e seu
tipo de dados também está Então, agora vamos pegar todos
os valores que faltam. Portanto, podemos verificar os valores
ausentes usando Não é uma função f. E passamos esse
conjunto de dados e o número de valores faltantes e alguns monges e, para obter a soma
dos valores faltantes,
ok, número de prótons
dos valores faltantes Então, imprimimos o número de valores faltantes e conjunto de dados imprimindo esse valor
simples. Está bem? Portanto, há dez valores
faltantes
preparatórios pentatônicos de 48 Está bem? próximo passo é que, se a conexão, se seu conjunto de dados
não estiver funcionando, você poderá convertê-los. Ei, dados do Airbnb,
última avaliação, data, a data que você não adicionou de
volta em algum sentido Vou ver que seu conteúdo não
está lá. Está bem? O próximo passo é que queremos
visualizar os dados ou o licenciamento. Para fazer isso, usamos o
gráfico GG para criar uma
visualização perspicaz embutida no alienígena. Então, a primeira coisa que
veremos é uma distribuição precipitada. Até agora, aqui. Vou criar um histograma
para que os escritores identifiquem pessoalmente o bloco
d e Ele tinha dados de sublinhado B&B, que é o conjunto de dados que
armazenamos acessando o
arquivo Csv. arquivo Csv Ok, então para a
função estética do eixo x, nosso eixo x, usaremos o preço E então usaremos o histograma de sublinhado
geom
para traçar a largura do compartimento do histograma para traçar a largura do compartimento do histograma E Phil sentirá que, com o loop e a borda do Skype, a
cor será branca E, nos laboratórios, o eixo x será o
preço, o preço, a diversidade
e a frequência do eixo y, e o título
será a
distribuição de preços do Airbnb A listagem e a equipe
usarão o mínimo. Em seguida, imprimiremos o programa de sublinhado de
preços que estamos criando
aqui. Deixe-me executar isso. Veja aqui. Isso é um gráfico. No eixo x está o preço em dólares americanos e no eixo y está a frequência Ouvindo. Está bem? Então, essa é a Fresh Tissue Vision
que oferece anúncios do Airbnb. Ok. Então veremos a vizinhança. Então, para isso,
criaremos um lote de bar, número de anúncios em
cada bairro. Para isso,
criaremos uma variável chamada
sublinhado da vizinhança. Gráfico de sublinhados Os mesmos dados. Sublinhe os dados. Usaremos o
operador pipe para seguir até o grupo por sublinhado Essa é a única variável
no conjunto de dados. E então resumir por
contagem é igual a n. E então deixamos o gráfico GG
e o eixo x será
ordenado pelo grupo de vizinhança, e usaremos a
contagem menos a coluna Dessa forma, seu acesso
será chamado e nós o preencheremos
com uma barra geom de dentro
que passará a identidade E os últimos punks e a vizinhança
do eixo x, eixo y, o número de cores da pele, o título e o número aqui em cima
não são realistas em cada não Último ano, o
mínimo e a equipe. Elemento de texto com pontos Xis. Você pode fazer o elemento
sob o ângulo de proteção 45. Então esse será o
nome no eixo x. Eu quero propulsioná-lo até 45. E então vamos colocar o
gráfico de barras nisso. Sobre isso. Então é assim que Manhattan
e Brooklyn, Queens, o bairro
do delta, têm uma inclinação de 45
graus E esse é o
bairro e esse é o número de testes
para cada bairro. Cidade de Nova York, você está destruindo
o número de anúncios. Vizinho do grupo, Bronx,
Brooklyn, Manhattan,
Queens, Staten Island. Ok. Então é assim que
podemos usar um gráfico de barras. Como fazer isso, aumente o número de
levantamentos de pesos. E então, o que
entendemos ao fazer isso é que podemos obter o seguinte IR, a resposta mais silenciosa ou
a mais listada abaixo nosso dólar alvo e com
alguma classe antiga por esse preço Então, aquela coisa que podemos ver
neste histograma, ver a maioria dos 10.000 e
alguns dos valores estão
aumentando a produção, o que podemos considerar como Eau Claire Então, apenas a maioria deles. E, em seguida, faça um gráfico de barras do número de
listagens em cada grupo. A distribuição que adicionei entre
os pais e eu emprestamos, fornecendo informações sobre as áreas mais populares para acomodação Então, dessa forma, podemos
ver se você quiser. Você pode
licenciar de forma mais regular, simplesmente analisar os dados e criar um modelo de
instância mais vigilante, diferente e
específico Obrigada
117. Projeto 9 COVID 19 Análise e visualização de dados: Olá e bem-vindo de volta. Então, neste projeto, vamos analisar os dados
da COVID-19. Então, COVID-19, uma
das coisas muito ruins que
aconteceram à
humanidade, à humanidade ou ao
vírus mortal que estava causando
sofrimento a
muitos veterinários e pessoas em todo o mundo Portanto, hoje analisaremos
os dados da COVID-19 e tentaremos fazer
a análise exploratória de dados no conjunto de dados da COVID-19
e Quando fazemos ADA, obtemos informações valiosas. Então, vamos começar carregando os dados e depois prosseguir
com a análise para encontrar os
dez principais países com o número máximo
de casos de COVID-19. Também faremos mais algumas coisas, mas vamos começar
com o mínimo. Então, baixei
o conjunto de dados, o conjunto de dados e o conjunto de dados da rede
nacional, aquele arquivo CSV
que fornecerei arquivo CSV
que fornecerei Então, se você quiser
ir ao banheiro e baixar este aplicativo
do site da OMS. Para isso, precisamos da biblioteca. Portanto, se não tivermos instalado, você pode acessar as ferramentas e os pacotes
instalados e
colocar o plano. Ok. E então você pode
baixá-lo e instalar. Não foi possível baixá-lo
e instalá-lo no seu computador. Ok, então a próxima coisa
é o que eu quero fazer. Então, essa parte, você terá que
substituir qualquer coisa sua. Eu declaro que você
tem o caminho
do seu diretório local. Ok? Então, deixe-me em paz. Agora, este CSV arquivará os dados mais recentes
por país e os armazenará
em um sublinhado do COVID Ok? Então, vou usar o ponto
CSV para ler esse arquivo CSV. E então vamos ver o resumo
desse código, não é? Então eu coloquei o resumo. Você pode ver aqui. Agora temos a região do país, o
prompt, esse registro. Você beija novos dados,
novos para cobrir dívidas, centenas de suposições
e, em seguida, casos recuperados ou não direcionados que eles
colocaram Quantos casos, o esquema e retenção de
éxons
aumentaram a região da OMS Ok. Então, assim, existem essas colunas aqui. Ele lida com
essas colunas
neste conjunto de dados entregues ou médios
mínimos do primeiro quartil Então, a próxima coisa é, agora eu quero descobrir se você quiser, você pode
fazer mais uma coisa. Você pode verificar a estrutura do conjunto de dados
usando a função STR. E agora temos essas
muitas colunas aqui, 197 objetos e variáveis Portanto, a variável país e
região confirmam isso. Então, esse é o tipo de coluna, você pode ver as colunas e o tipo de
dados também o faz aqui. Então, deixe-me descobrir que o plano
superior contém o número máximo de casos
de COVID Isso criará uma variável de países com maior sublinhado e
sublinhado E eles usarão o
arquivo CSV do conjunto de dados e armazenarão todos esses dados de sublinhado do
COVID Então eu vou usar os dados de sublinhado e
usar o operador pipe E adicionarei em
ordem decrescente por casos confirmados e
confirmados e cabeça Eu quero ver os dez melhores. Então, vou colocar heptano. Portanto, ele fornecerá os dez
principais desiguais aleatórios. Nós somos então de lá,
eles me enviaram outro. Então, esses são os países com o
número máximo de casos de COVID Então, quem é a região desses
países, na verdade? Então, América. E é nosso trabalho No registro, primeiro carregamos a biblioteca necessária e
depois lemos o COVID-19. Será que vai pela coordenada ao
quadrado, Theta. Em seguida, DataFrame, exibimos o resumo básico do
conjunto de dados para obter uma
visão geral dos Finalmente, descobrimos que o pino superior contém o número máximo de casos de COVID-19 e a função de verificação da
bomba de sangue,
considerada uma falha, conterá os
dez principais países com o maior número
de COVID confirmados E cada meta representará
o país e cada coluna conterá o vírus
nos dados de cada país. Agora eu quero fazer uma
visualização de dados sobre isso. Então, para visualizar os dez
principais países em casos de números de carbono, use o gráfico circular e usaremos o pacote ggplot2 Então, faça um gráfico circular e
faça o gráfico GG para você, os dez principais países
daqui que obtivemos de você Ok? E então a função
estética dos eixos x, y se contrairá e preenchida com
a região do país barra Geom, a
função Yeoman Escobar usará
e o status igual
à identidade
fornecerá fornecerá Começaremos com o Jira Labs. Eu darei o líder do título
e os países, x-naught, y-zero e o contrário
, e a equipe estará
conectada para esse gráfico circular para isso Então veja aqui. Agora
temos o gráfico circular mostra os
dez principais países com o sistema COVID-19
máximo de cosseno COVID-19 Você pode ver o maior número de casos de COVID e o maior
número de casos de COVID Depois, Reino Unido. Então, gradualmente, é o primeiro
reino, depois o Brasil. E então temos um
meio que é a Índia. Então esse, depois esse
azul, esse é o CR. Então, a partir disso, podemos
descobrir que EUA, Brasil, Índia e Rússia, onde os quatro principais países,
EUA, Brasil no endósteo, os principais países pobres, têm o número máximo de casos de COVID-19 e
nós somos os Ok, então esse código
criará a carga de bytes. Portanto, na proporção
dos casos confirmados de COVID-19 em cada país. Agora, podemos adicionar textos mais
densos e personalizar as cores do gráfico circular
para torná-lo mais interativo, informativo e
visualmente atraente Ok, então esse código
criará o gráfico circular. Agora, queremos adicionar mais coisas. Então, vou criar um gráfico circular
com níveis de personalização de cores. Então, por favor, faça a mesma coisa. Aqui estão os polares e
que já usamos. E anos depois, essa função
de toda a equipe fará a mesma função novamente E ele não tinha colocado Legend
Dot Partisan no fundo, mais preto no E o título do lote de pontos dará
lados, mas nós o daremos. Justiça. Frank Pipe, o tamanho é 16, e a França estará em negrito e textos. A função e o
tamanho do
texto sublinhado do elemento receberão uma legenda O tamanho do texto será 12. E o sábio para este título
serão sites para título ou 14. E seria a força de ponto único da placa
e da caixa. Ok, então
usaremos o gráfico circular. E para isso, vou usar escala, campo de
sublinhado
e fazer manualmente E aqui os valores
serão obtidos manualmente. As muitas cores parecem um jogo, ok, então qualquer código de cores que você queira fornecer, você pode obter. E então criaremos
um gráfico circular com níveis. Então, pego esse
gráfico circular e depois
chamarei de X e
funcionalidade estética, qual virei para
uma região country
e de onde virá o punk, certo? Quando você é filho? Pilha. E então eu vou fazer
tudo isso juntos. E C, e agora estamos obtendo gráfico circular
melhor com ligantes
e cores diferentes Ok? Então agora está contando as lendas. Você disse que existiu
porque seu reino foi gradualmente. E também aqui você
pode ver este quadro,
ok, então, desta forma, podemos criar um texto personalizado de bicicleta e legenda. Agora, quero encontrar os dez principais países
eliminados e o país que tem um número máximo registrado que encontrar os
dez principais países que registraram o número máximo de casos
adicionados da parte
do conjunto de dados da COVID-19 Podemos usar uma
abordagem semelhante à Classificaremos o
conjunto de dados com base na coluna
do deck e, em seguida,
selecionaremos os dez principais países Ok, até agora esse valor. E então usaremos o COVID. Vou ler este conjunto de dados e os dez
principais países usarão
organizados usando essa coluna E então vamos ficar entre os dez primeiros Ok, esse já temos. Então CFTC, os dez principais países com o
número máximo de bits. Ok? A próxima coisa é que eu
quero criar um gráfico de barras, mas o número
máximo de mortes dos dez países porque você é o
gráfico de barras e a barra geométrica, as coisas têm seus cinco angulares, traço um só Agora temos o gráfico de barras e
os países no
máximo da noite para o dia e todas
essas coisas estão chegando. Este é o gráfico circular. Aqui é Sunda. Nós latimos. Ok. Portanto, este gráfico de 1 barra e um gráfico circular. Bem, o mesmo. Ok? Agora quero calcular
a porcentagem de recuperação
de cada país. Então, parte dessa recuperação da
COVID-19, se você cobriu o departamento de
pós-graduação 200. E eu sei que estamos nos recuperando e
passando para a recuperação. Ok. Dados do país. Então foi assim que um país e aquele cobriram a
porcentagem de recuperação. Então,
calculamos essas vilosidades a última, ok. Agora calcule os
percentis que você pode definir para cada país na parte
superior, que indica esses países
iniciais e, em
seguida, crie um Este é o gráfico de viés, o percentual de recuperação
e os países adotados. Ok? Então, a recuperação dos EUA,
Ivana é o máximo. México. A Índia também está se divertindo um pouco com a
comédia e depois com o México. E então eu quero que os dez
principais países sejam cobertos com giz. Essa é a pessoa que se opõe aos personagens da
doutrina
na primeira frase Por Chuck. A maioria dos casos ativos
provenientes do país que nos
encontrará é o país que tem o maior
número de casos ativos. Os dez países com
os casos mais ativos, tão difíceis que ele morrerá. casos ativos confirmados de dívidas
menores menos os casos ativos vêm de
menos isso, menos os recuperados, nos darão o maior número de casos ativos e, em seguida,
adicionaremos essas duas vantagens. Ok? Assim, você pode ver os EUA, Brasil e a Índia no vetor do número
simulado Essa é a porcentagem de países ativos de
doutrina do curso e crie um gráfico circular. Isso nos mostrará o maior
número de casos ativos. porcentagem de países que usam a
doutrina do cosseno vetorial aqui
será de 7,73% dela O que contrai a
frequência máxima das suposições. suposições usarão
essa frequência porque
vai resumir Em seguida, passamos
a nos ver como a frequência disso, qual país experimenta a frequência máxima
da cavidade porque esse produto recuperou
parte disso. E, portanto, o Brasil está tendo a maior frequência
de processos judiciais. Ok? Dessa forma, se quisermos analisar mais,
você condiciona a combinação, sua maneira de pensar e
você pode esclarecer os dados Ok. Então, isso é tudo sobre análise de dados
da COVID-19
118. Projeto 10 Desenhando flores usando matemática em R: Olá e bem-vindo de volta. Então, nesta palestra, vamos
falar sobre o projeto. E neste projeto
vamos fazer uma enorme programação de matemática
e arte para desenhar algumas flores. Então, secar flores usando
matemática em nossa programação. Esse é o
objetivo de qualquer um dos objetivos deste projeto. Todos nós sabemos que
quando você olha para a natureza em tudo o
que a natureza cria, você pode encontrar um bastão nela,
mesmo que veja uma borboleta
que se fechou, volta para Dawn nossa corda
e parece falsa Então, a natureza tem muita criatividade. E podem ser muitos criadores de Baton Under nas flores, nas árvores e até mesmo nos humanos Então nós somos, somos todos humanos com as mesmas
características, como olhos, nariz, boca, aqui, mãos, pernas. Mas cada pessoa
parece diferente. Certo? Além dos gêmeos. Até os Queen's
têm CSS diferentes. E esse é o poder da natureza. Então, o que faremos
nesta palestra, neste projeto, tentaremos
desenhar alguns bastões, o
que será Então, vamos tentar desenhar
um padrão de flores. Você faz matemática
usando nossa programação. Então, vamos começar. Então, a recarga para ver aqui, o mandato tentará entender todas
essas coisas, ok A questão são padrões na natureza, são muitos exemplos
de fatos e
bastões naturais que podem ser descritos
em termos matemáticos Bons exemplos,
digamos, flocos de neve de Bob,
a geometria fractal da escola,
brócolis ou a geometria fractal da escola, brócolis No crescimento das parcelas. Odd é uma ferramenta para fazer análises
sérias, mas nem tudo na
vida é. Como sabemos. A vida também é engraçada e a arte pode ser usada para se divertir e
fazer coisas bonitas. Também podemos fazer muitas
coisas criativas, Eugene, é isso que o objetivo
deste projeto faz Troy, estamos fazendo esse projeto, essa atividade, Newton, arte
e matemática nesta aula Portanto, seu poder gráfico pode ser usado para fornecer imagens
artísticas. veremos como podemos desenhar todas aquelas ilustrações que
veremos quando desenharmos, quando executarmos o código, que é inspirado em como
as plantas são folhas mortas. Esse fato, é chamado de
filotóxico e vamos resolver como
base para este projeto Está bem? Então, usaremos o gráfico
GG de dois pacotes Como sempre, em toda a
vigília existente na arte, usamos principalmente GG
plot to package Então, aqui também usamos o gráfico
GG para empacotar. Além de nos
divertirmos, aprenderemos muitas características
importantes. E isso será útil
não apenas para fazer arte, mas também para os dados atuais
e os problemas da vida real. Então, não vamos atrasar
mais os problemas. Não vamos demorar mais. Vamos começar
carregando a biblioteca. Então, na primeira parte do código aqui, eu estou usando o notebook AAD Portanto, a vantagem de usar
nosso notebook são os dados. Podemos escrever um trecho de código simplesmente pressionando Alt Control. Control, Alt, Control Alt I. Quando você coloca, você pode escrever código dentro desta seção, ok, então você pode escrever as
explicações e então você pode escrever seu código
como fazemos agora Colab do Google. Então, aquela coisa que podemos
fazer no adulto, então você precisa ir ao
File, New e jantar. Estávamos criando nosso script vez em quando, então, você
pode começar a rastrear. Então, eu encorajo você
a escrever o código
sozinho seguindo a palestra, porque isso lhe dará
a experiência prática Se você simplesmente baixar o
arquivo e
executá-lo, não obterá muitos
benefícios com a palestra. Está bem? Então, sugiro que
comece a escrever, ok? Eu não estou escrevendo aqui. Eu já escrevi isso. Porque se eu começar a digitar
todas essas sintaxes, levará muito tempo E isso não será benéfico porque
levará horas. Se eu começar a digitar e
explicar as coisas. Para economizar nosso tempo com
o propósito de aprendizado, quero fazer isso
e vou explicar para você. Está bem? Então, a primeira coisa é que vamos
descarregar a biblioteca de gráficos GG E aqui vamos dizer
as imagens do gráfico com
um bom gosto para que eu possa funcionar
e, para um gráfico brilhante de
pontos, pontos, largura e altura
serão quatro. Está bem? E depois recarregue.
Então, vamos executar isso. Então, aqui você pode ver as
duas opções, três opções. Uma é a opsina do bloco modificada, a próxima é executar
todas as partes acima Acima deles, todos os
termos serão R1, R2. Você pode ver essa opção aqui que é um fragmento atual aleatório Então, vamos usar esse lixo de
execução por enquanto. Ok, então vamos executar isso. Pronto, então a
biblioteca de gráficos GG foi carregada. O próximo passo é que a segunda
etapa deste projeto é diluir e secar
os pontos em um círculo. Então, nesta atividade, o que
faremos é tentar desenhar
os pontos do círculo. Desenhe os pontos ao redor
do círculo, ok? Então, míticamente, tentarei desenhar um círculo aqui com
a ajuda de pontos Portanto, há muitas maneiras de
representar dados no gráfico
GG dois, desde gráficos de dispersão
simples
até gráficos mais complexos,
como gráficos de violino As funções que
começam com geom underscore definem como
a trama é pedra Assim definido o sublinhado geom, mostraremos como será
a trama em breve Neste caderno, queremos
trabalhar apenas com o ponto de
sublinhado geom, que distorce os pontos
do gráfico Só precisamos de um conjunto de dados
com duas variáveis. Vamos chamá-los de x e y. Então, precisamos de duas variáveis, x e y para o eixo x e o eixo y. Agora, quero desenhar dois
pontos em um círculo de raio, um em cada ponto x e y. Em cada ponto x e y. B no círculo unitário, segue-se que x ao quadrado mais
y ao quadrado é igual a Podemos obter isso usando a super famosa identidade
trigonométrica pitagórica,
que é que seno ao quadrado
Theta mais cos ao quadrado Theta é igual a um para qualquer número real zero a super famosa identidade
trigonométrica pitagórica,
que é que seno ao quadrado
Theta mais cos ao quadrado Theta é igual a um para qualquer número real zero
. Então, essa é a
matemática básica que já conhecemos. Tudo bem, então deixe-me
abrir esse código. Então, aqui o que estou fazendo, estou criando uma
sequência de números. Sequência de números.
Então, para isso, vou usar t como uma variável
para armazenar esses pontos. E eu vou colocar, use a
função de sequência para gerar. E eu vou começar com 0,2 de
comprimento será, será 52. O total de pontos será gerado. Aqui. X para o ponto x
é o ponto do eixo x. Vou usar seno t. seno de t. Na verdade, esses
serão os ângulos, ok Portanto, D é o ângulo em que essa
sequência se regenera. Os ângulos que usamos para encontrar nossos x e y x são
seno Theta e cos Theta Então aqui, desde t e depois y ou y, vamos usar o custo, ok? Então você diz que um DataFrame, data.frame B será
o ângulo e então x,
y x vírgula y,
x será seno de t e y
será o seno cos de t, seno de t cos data.frame B será
o ângulo e então x,
y x vírgula y,
x será seno de t e y
será o seno cos de t, seno de t cos para cima. Então, com esses dois pontos, tentaremos fazer um gráfico de dispersão
usando o gráfico GG para o gráfico GG Esse é esse,
esse DataFrame, o DataFrame
que acabamos que acabamos E então vou usar a função
estética para a estética da trama Os pontos x vírgula y. Então eu vou usar o
p mais o ponto geomático. Então, isso os bloqueará. Ok, então vamos fazer
isso e ver, ver, e agora estamos sendo
plotados em um círculo,
ok, pontos desenhados O próximo passo é torná-lo harmonioso Ok, vamos mostrar o código. Torne-o harmonioso
com Colin Angle. Então, loiras adicionando as
folhas nessa espiral. Se você olhar para as folhas de
qualquer planta,
será o suficiente. Na forma final,
experimentei a medula espinhal I, que parte da origem e se afasta de sua ponta. Então, quando você olha para uma espiral, ela começa com
um ponto específico e vai ficar assim Está bem? Então, será
assim para começar a formular o ponto e depois
será assim Está bem? Vamos
revigorar, ok Então, ele começa da origem, se afasta desse ponto, adjunto gira em torno Na trama. Acima, todos os
nossos pontos são os mesmos. Distância da origem. Ou uma maneira simples de organizá-los
em espiral é multiplicar x e y por um fator que a rotina
atinge cada ponto Poderíamos usar o Azure
AD para que esse fator, poderíamos usar o Azure se
esse vetor
atendesse a essa condição. Mas faremos
algo mais harmonioso, usaremos o ângulo dourado Golden, qual é a
fórmula do ângulo dourado? É phi em três
menos abaixo da raiz cinco. E esse número é
inspirado na proporção áurea. Um dos números mais famosos da história da matemática. Tanto a proporção áurea quanto o ângulo de
Gordon apareceram em lugares inesperados da natureza, além de flores, pétalas e folhas de plantas, onde você os
encontrará. Semeie cabeças, amarre ouro, sementes de
girassol, vendas, galáxias
espirais, furacões, etc Ok, então é hora de
finalizá-lo. Ok, então vamos dar uma olhada no código. Aqui. Definiremos o
número de pontos que você mistura. Definiremos como uma torta em três menos a raiz quadrada de cinco E então seremos:
seremos aquele do vento com
raiva, multiplicaremos o ângulo em 0,500 pontos e, em seguida, o expoente será o seno de t e y será o custo
de T. E então
usaremos
o DataFrame para criar um DataFrame E então faremos o gráfico de
dispersão usando o gráfico GG. E adicionaremos o ponto geomático. Ok, vamos executar
isso, a saída. Agora você pode ver como
criamos uma espiral
usando cada ponto O próximo passo é que removeremos
tudo o que for desnecessário. Além dos dados, aplaud inclui muitos outros
componentes que o fazem Este gráfico contém um amigo de
fundo com uma grade cinza de linhas
horizontais e verticais no fundo. Truques ao longo do eixo, título no eixo x, o extra ao longo do
eixo e dos níveis Então, todas essas coisas
que faremos
executando esse código
definirão o DataFrame Estou contornando esse lado,
o x e o y, para a função
DataFrame e pontos do gráfico de dispersão Então, o gráfico do RDD. E vamos chamar isso de 100 A-frame. E então valores estéticos, x em boo, desculpe, x em d, y em d. Ok? E então
atribuiremos esse ponto. Em seguida, usaremos as fontes da
equipe aqui e dentro das fontes dos elementos da
grade de pontos do painel
funcional do tema . E aqui e dentro do console, os elementos da grade de pontos
do painel
sublinhados em branco, xis dot txt sublinhado em branco
e o elemento título
sublinhado em branco e o elemento título Na verdade, eles não querem que as
vacas preparem um parquinho. O fundo sólido
será o painel. Esse elemento de fundo e sublinhado foram destruídos e
parecem muito grandes Então, vamos virar e
ver a saída. Isso é o que estamos recebendo. Se pudermos, esse branco também. Vamos ver o que está acontecendo. Está bem? Agora, o
fundo está em vermelho. Então, com isso, podemos
criar um plano de fundo. E se eu executar isso, o plano de fundo
seria o público. Está bem? Então ele estava limpo. Então veja agora como essa espiral aponta e
parece um padrão. Está bem? A próxima coisa é um pouco melhor, Maquiagem. A maquiagem tentará decorá-la. Se a cor e a transparência estiverem secando, começarão a
parecer uma planta, mas não podemos fazer muito melhor alterando a transparência da
cor, também chamada de transparência alfa tamanho alfa mais
escuro
da imagem se tornará
mais atraente Então, vamos dar uma olhada no código. Aqui. Um novo gráfico GG, Wong Sun e os dados obtêm entalpia e
entropia x. E então Dionne Point,
da região central dos EUA, e tamanho fornecerá uma determinada cor, verde
escuro e tema,
e o tema, o que temos no bloco
anterior Então, vamos executar isso e
ver a coluna de hoje em dia, se eu faço com que ela suporte cinza. E veja como o fundo e o mar ficam subitamente verdes, mas o fundo
fica cinza O próximo passo é brincar
com a estética. Do que Dalian até agora, todos os pontos do tema
de seus insights,
cor, forma e Às vezes, você deseja tornar o ponto central uma
variável dependente em seu conjunto de dados. Agora vamos tornar o tamanho variável. Também mudaremos
o tema dos pontos.
Embora não possamos falar sobre isso, eles não acham que o investidor esteja eles não acham que o investidor lembrando você do
que é Dan Dalian Então, deixe-me mostrar o núcleo do ponto
geômico do bloco d no tempo com a
função estética que os lados são iguais a, será o t alfa 0,5,
digamos que, para mim, para oito
e para a coluna, estou dando um fundo
preto, enquanto estou dando branco Vamos executar isso. Agora. Isso está chegando assim. Está bem? Então, se eu trocar o
CFE ou apoiar o mar, mas chega o ponto em que não
pode ser assim, ok? Então, o que
você quiser, você pode colocar o cofre aqui e ele será criado
nessa fita, ok? Nessa fita, tudo bem. Agora, juntaremos tudo
o que fizemos até agora e tentaremos criar esse enredo. Então, a primeira linha é a mesma. Então enrole aqui, o
tamanho estético é igual a 4,5. E saboreie a realidade da região 17 e o documento de camisola em cor verde ou azul Ok, vamos ver. Implante o código. Limpo. E veja que isso
está parecendo bom. Este manômetro escuro, fundo
magenta. Próxima coisa. E se modificarmos o ângulo? Então, vamos ver se modificarmos
o ângulo, o que acontecerá? Os padrões de drenagem são muito centrais para o ângulo entre os pontos
que estão na coluna vertebral. Pequenas mudanças no ângulo
podem gerar muita dificuldade para a religião, digamos, 1.704,5 ângulo em que
recebemos dois pontos, estamos pontuando Então, vamos ver agora como está
linda. A partir daqui, chegamos
a essa conclusão. A próxima coisa é completa. Agora. E agora vamos criar as técnicas imaginárias de flores você viu. O token permite que você crie em um número finito de padrões inspirados na natureza
que o único limite é seu padrão
inspirado pela natureza que o único limite
é sua Mas fazer arte também tem sido uma desculpa divertida para aprender a
fazer o enredo GG, certo Aprendemos muitas coisas. E isso é muito interessante. Espero que todos gostem do
projeto. E essa palestra. Todos os textos que
vimos em um longo ano também servem para traçar os dados reais Então, vamos encontrar essa
imagem à esquerda. Um pouco de vermelho, que é ilegível
da flor anterior, é visto algo muito parecido
com as duas primeiras que, vamos ver como esse
padrão está lindo Então, a partir daqui, quando
chegamos ao oeste, começamos com
o vento circular, depois o tornamos pequeno
usando o ângulo dourado. Em seguida, recebemos
a cor de fundo, depois compramos
recentemente a cor, tamanho e a transparência e, em seguida,
o SIP E então isso, e
então finalmente
chegamos a esse e esse lindo padrão de
flores que
desenhamos aqui. Se eu mudar o
estado para fazer isso, para ver o que vai acontecer. Veja, esta é uma base triangular. Ensine uma coluna. Isso prevê que D venha
como algum outro padrão. No final do verão, no banheiro. OK. Eu coloquei um 17. Está vindo assim. OK. Então, eu vou fazer isso também. Então. Essa é a gordura mais
bonita que criamos. Assim, você também pode brincar
com diferentes ângulos alfa, tamanhos
diferentes, combinações de cores
diferentes e
tentar criar seu próprio padrão de
flores. Flor usando
matemática e quente. Espero que você goste
desse projeto divertido. E você também está fazendo
o projeto e enviando sua Flórida para
o juiz da Flórida, na seção
de projetos desta classe. E todos nós podemos ver
119. Projeto 11 Analisando e visualizando os vencedores do Prêmio Nobel usando R: Olá e bem-vindo de volta. Nesta palestra
vamos fazer outra essência de Análise e
Visualização E isso também é
um tipo de projeto. E nisso, o que
vou fazer, vou analisar os dados dos
ganhadores do Prêmio Nobel Então, nossos
ganhadores do Prêmio Nobel todos os anos. Alguém receberá o Prêmio Nobel
em uma categoria específica. Qual categoria está
relacionada à Ciência da Arte, trabalho
social nessas
coisas, certo? Então, tentaremos analisar
em diferentes bitters
e resolveremos Também visualizaremos os dados. Então, analisei algumas coisas que Nika analisei e mostrarei como
você pode fazer isso Então, a maioria dos prêmios Nobel, e então vamos focar
no Prêmio Nobel Esses são os critérios
que discutiremos. Então. Agora, veremos como ele está se
apresentando e como ou quantos prêmios Nobel que o USS
recebi dominam o cenário do Prêmio
Nobel Em seguida, visualizaremos o domínio
dos EUA. Então veremos o mal e
mulheres e homens
receberão o Prêmio Nobel E depois veremos quem é a primeira mulher a
ganhar o Prêmio Nobel Então, todas essas coisas e
muitas outras estão
aí para tentar fazer isso. Pobre, continuamos. Deixe-me explicar o
conjunto de dados. Então, estamos usando esse arquivo CSV de pontos
Nobel, que contém a orelha
na qual o Prêmio Nobel foi concedido As categorias,
diferentes categorias
nas quais o Prêmio Nobel
recebeu o nome de preço, o próprio Prêmio Nobel Então, sexta-feira será o Prêmio
Nobel de química, Prêmio Nobel de literatura
em fisiologia . Todas essas coisas. Ok, então esse é o nome. A categoria será química. A polícia de Rachel Madison
prevê todas essas coisas. Ok, então existem diferentes
categorias nas quais eles dão o Prêmio
Nobel, ok? E então a motivação, qual é a motivação por trás? Dando o Prêmio Nobel a essa
parte específica e o preço eles custam um por um
ou um por dois,
há mais de
uma pessoa recebendo o Prêmio
Nobel da mesma forma Gashes está em algum lugar um a dois. Serão duas pessoas. Lá. Eram duas pessoas
na mesma categoria cada Então, o Prêmio Nobel
será dividido pela metade. Ok? Então essa é a bandeja um por dois. Então, em algum lugar, você
pode ver um por quatro. Ok, então esse é
o preço aí. Então, quantas pessoas estão na mesma categoria,
mesmo preço. Então, Laura arrumou,
todos que receberam o Prêmio Nobel receberão muitos E então o tipo de loteria, será individual
ou organizacional Será que, se fizesse
uma organização ganhando
tudo, será organização. E se for uma porção individual
, será individual. Então, basicamente, existem
dois tipos de pessoas que têm um indivíduo
e uma organização. Em seguida, nome completo da
parte da organização, ao receber o
Prêmio Nobel do que o Bar hoje custa
mais do que o bar até o momento Em seguida, a cidade dessa parte
específica, o país de nascimento
e depois o sexo,
masculino, feminino ou qualquer outra coisa. E depois o nome da organização. Lave o Parson ou venda é o nome da organização do que
é. Você apaga isso. Madison se destaca, bem
arrumada e nomeia e organiza uma cidade
de um país majestoso data em que essa pessoa expirou e aquela
cidade e país Então, todas essas colunas estão
nesse novo arquivo CSV de pontos Vamos analisar. Ok, então vamos começar. Então, deixe-me falar sobre frutas
sobre o Prêmio Nobel. Portanto, os prêmios Nobel, mas têm o prêmio científico mais
conhecido do mundo, exceto pela honra, prestígio e
substancial O destinatário tem menos de 33 a 896 que estabeleceu o preço
das ações. Todos os anos. É dado aos
cientistas e estudiosos nas
categorias química,
literatura, física,
Fisiologia ou Medicina, Economia e Paz Esta é a categoria
na qual o Prêmio Nobel será concedido e
concedido nas últimas décadas O cargo de Prêmio Nobel foi
entregue em 1.901. Então, o Prêmio Nobel foi
iniciado em 1.901. E naquela época o Prêmio era realmente eurocêntrico
e com foco masculino, mas hoje em dia não é tendencioso de
forma alguma Então essa é a história
por trás do Prêmio Nobel. E agora vamos descobrir que a Fundação
do Prêmio Nobel tem um conjunto de dados disponível
para todos os vencedores do prêmio Então esse é o conjunto de dados do Nobel disponível para todos os vencedores do prêmio Então esse é o
Nobel CSP, 1901-2016. Então, primeiro, precisamos carregar
o conjunto de dados. Portanto, o nome do conjunto de dados é novo ou CSP. Então, usaremos o CSP de leitura
sublinhado e leremos isso e, em seguida, veremos que
a cabeça passará Esses são conjuntos de dados para a
nova função de cabeçalho de fontes. E veremos quantos, o quê, como são esses dados. Para isso, vamos até a biblioteca de
versos organizada, então também anotaremos essa biblioteca Quando executamos isso, podemos
obter o conjunto de dados Clips Up. Então, até o fim. Já vimos no arquivo CSV aqui,
o preço da
categoria e
depois a coluna de motivação Então, o preço aqui, Laura arrumada, tipo Laura, nome completo, direito de nascimento, mas data, mas
cidade, quais países Organização sexual. Então, todas essas informações
estão lá. Então, após o carregamento, também podemos acessar essas informações
por meio de nosso. Em seguida, o que fizermos
descobrirá quem acaba de orar. Só de olhar para os dois
primeiros ganhadores
do Prêmio Nobel
reforçados,
como os também chamados, já
vemos que uma
celebridade terá
Conrad Rontgen, já
vemos que uma
celebridade terá Conrad E, na verdade,
vemos que todos morreram. Todos os vencedores
da In Nitrogen caras
que
vieram da Europa, desde que começou na Europa. Então, todo o suor amino, que veio dos EUA, mas isso foi em 1.901 Analisando todos os vencedores, o conjunto de dados de 1.901 a 1966 e os países ricos são os
mais É isso que
vamos encerrar. O país do vencedor, por
ser um país pequeno não
se aplica a todos os preços
estabelecidos por nós. Ok? Portanto, contar o número de prêmios
Nobel entregues em 1901-2016 será Usaremos o
conjunto de dados Nobel e usaremos o operador pipe e contaremos usaremos
a função de contagem Ok? E depois contando
o número de preços, um pelos destinatários masculinos e
femininos Portanto, usaremos o romance e, em seguida, contaremos com base nesses
seis a contagem de sexos de homens e mulheres separadamente
. Em seguida,
contabilizaremos o número
de prêmios de diferentes
nacionalidades e, aqui,
contabilizaremos o país comprado
pelo ajudante E então adicionaremos os feridos
pela ordem decrescente. E veremos o
primeiro termo T. Ok, então vamos executar isso. Veja o país. Estados Unidos para nove pessoas, Reino Unido, 85, França,
Alemanha, como T1, França
para P13, aquela 29 E este país
não especificou 26, Japão Grundy para o Canadá em, na lente geralmente E então podemos ver a proporção entre
homens e mulheres aqui. Então, um elevador 49 mulheres
até agora, até 2.016,8. 39 podem ter ganhado o Prêmio Nobel e
26, o gênero é desconhecido Ok? Em seguida, você pode ver um número total de 911 pessoas que receberam o Prêmio Nobel Na medida em que 36, o homem e 49 ou a mulher, e 2067 ou divulgaram seu Ok. Nós pelo preço, talvez o mais
comum agora alerta. Você faz 1.901 a duas vezes 15 era um homem nascido nos Estados
Unidos da América Mas ao todo, em uma risada, onde o
pão europeu chegou, os EUA começam Então, antes de
começarmos o Prêmio Nobel, todos os vencedores
eram da Europa,
mas lentamente, você diz que os
Estados Unidos assumiram o controle Eles dominaram as paradas do Prêmio
Nobel. Então, vamos ver. Então, aqui vamos calcular
a proporção de vencedores do US One por década. Até agora, isso criará esse adereço sublinhado,
sublinhado conosco E usaremos o conjunto de dados Nobel, até mesmo o operador de tubo
e mutará vencedor nascido
nos EUA é
igual ao E aqui vamos nos orgulhar do
controle de natalidade como Estados
Unidos da América. E eles a usarão dividida
por dez em cem. E usaremos a célula encolhida
no chão. Então, frequentando 200 e usaremos o grupo funcional de piso por década, usaremos para obter
o e, em seguida, resumir Proporção igual à
média dos títulos dos EUA não será. E um dado que é igual a verdadeiro. Então, vamos executar isso. Veja o seu em 19091900, proporção de nós diz que ganhar é 0,07 em 19 e depois aumentou 2,078 1920, 0,70, 741.932,25% de
dados e 40,32, 92,299, 290,14 mais dentistas. E no total, na frente
4321 EGN, você ensina 1030. Agora. E então
usaremos o gráfico GG graficamente a proporção dos
que estavam nos salvando. E para isso, usaremos o diafragma e o
passaremos para o DD Plot e a estética
para revisão estética, x não morrerá por uma década e o eixo y indicará E perdemos a função geom underscore de
nove linhas
para desenhar os Os humanos podiam
apontar para desenhar os pontos. sublinhado da escala por meio de níveis
contínuos é igual a Escalas Coluna, limite
percentual da coluna X1, X1 zero, menor que isso E veja aqui, agora você
pode ver uma partícula. Como estão as coisas. A seguir, qual é o gênero
do Prêmio Nobel típico? A seguir, qual é o sexo do típico ganhador do Prêmio Nobel Para isso, o que faremos é calcular
a proporção de mulheres laureadas
por produto de década Usamos um suporte para decodificar
e sublinhar o vencedor a
partir da variável aqui
e partir da variável aqui
e E usaremos a função de
mutação. Vencedora do sublinhado feminino. Você chama dois sexos de
iguais ao feminino. E o andar de cima será
dividido por dez em dez. E fecharemos o
operador de tubulação e, em seguida, subiremos por década, categorias
e resumiremos Ao passar, a
proporção é igual à média do vencedor principal
e aos dados de dois. E então traçaremos
essa proporção Freeman lauric previu
para isso ultrapassará isso D, D solte o sublinhado. sublinhado não
fará o gráfico fácil pois alguma estética usará X,
X ao quadrado Y. X é quatro. O número de vencedores e cor serão a categoria
com base na categoria. Então, vamos executar isso e ver. Agora você pode ver
aqui no eixo x que
os gatos foram desenhados
e, no eixo y, a
química, a economia ou a
categoria E agora veremos
quantos outros
vencedores ou repetidos até agora,
deixe-me mostrar isso. Aqui, usaremos o
romance sobre Data Frame. E isso acontece e
usaremos a contagem igual ao nome completo e ao filtro Se N for maior que um, número
par de ocorrências
maior que um, então contaremos, contaremos Entenda isso. Há pelo menos
seis pessoas que receberam o Prêmio Nobel
mais de duas ou duas ou duas
ou mais de duas vezes. Então, tudo bem. Hora da consulta de Maddie e Lena pegou pólen
duas vezes. Comitê de direito internacional, comunidade
internacional da Cruz
Vermelha, ou três vezes. Agora, quantos anos você tem quando recebe o Prêmio Nobel e o
levante repete o conteúdo dos Vencedores
em algumas ilustrações,
nome, encontramos novamente Marty Query Madame Curie, que ganhou o Prêmio Nobel de
Física por descobrir a
radiação e a química para isolar meio e o Prêmio Nobel e o
levante repete o conteúdo dos Vencedores
em algumas ilustrações,
nome, encontramos novamente Marty Query
Madame Curie, que ganhou
o Prêmio Nobel de
Física por descobrir a
radiação e a química para isolar meio e polônio. John colocou duas vezes
na geladeira transistores de exportação e supercondutividade.
Frederick Sanger Sanger conseguiu duas vezes
na química. Linus Pauling ficou em
primeiro lugar em química e letreiro por cada trabalho
na promoção dessa roupa, desse homem e
desse E também aprendemos que a
organização também preços subordinados e que você ainda não
entendeu o preço Então, deixe-me te mostrar. Use o lubrificante. Lubrificar. Desculpe, não lubrificar é o pacote de lubrificação aqui E aqui estamos calculando o E dos ganhadores do Prêmio
Nobel Então, romance e depois mutação
é igual a menos era. Mas então
traçaremos a análise desse DataFrame e a estética
usará Export As
e usará Export As
e E com o ponto
geométrico e os geômetros, pequenos até mesmo planejam esta lição
que estamos recebendo que estamos O próximo passo é a diferença
entre as categorias de preço. Então, a trama já viu muito isso. Vemos que pessoas
que costumavam ficar em torno de quatro a cinco dias
sentam-se eretas Hoje em dia a média
é clara para 65, mas há uma grande difusão
nos cinemas
nos mais adequados,
além de alguém muito jovem E você também vê que naquela
época as nomeações do City são muito mais altas hoje em dia do que
no início dos anos 90 hoje em dia, muitas mais altas hoje em
dia do que no início dos anos 90, muitos mais preços são definidos, então há muitos mais vencedores Também vemos
a interrupção em nosso
preço por volta da segunda lavagem, Segunda Guerra Mundial de 1939 a 1943 O romance do Nobel ressalta a
idade e a estética X, Y. E vamos transformar Veja como a categoria é diferente, como as idades afetam a
química, a economia, o direito. Eles tentam que a criança possa
receber fundos, taxas e previsões, remédios, paz e previsões ou menos
do que o vencedor mais jovem Então, tentamos descobrir que
o buraco era o mais antigo e o
mais novo. Então, vamos usar
aqui o escritório
como preço
abdominal categoria por categoria. Então você pode ver a química e isso
é para a economia,
para a literatura, para a
medicina e a física. Então, são menores que os do Angular para qualquer gráfico com muitas
ciclinas em andamento Vemos que a
enfermagem, a química
e a medicina de Boltzmann envelheceram com o tempo A tendência é mais forte
, enquanto prevê que tenha 50 anos de
diabetes E agora a literatura e a
economia, ou mais ainda, a Tabela. E também vemos essa
economia em uma categoria mais nova, mas com base em um projeto dez enfermeiras veteranas
estão ficando mais jovens A categoria de obesos, nós também essa categoria que também não
éramos por volta de 2010, que parecia exercer é quase
jovem Isso levanta a questão
por volta das duas e mesma coisa,
exceto jovens fedorentos,
isso levanta a questão:
Quem são as pessoas mais jovens ou menos do que as pessoas
mais jovens de todos os a mesma coisa,
exceto jovens fedorentos,
isso levanta a questão:
Quem são as pessoas mais jovens ou menos do que as pessoas
mais jovens de todos os tempos com o Prêmio Nobel. Então, para isso, usaremos a nova variável
idade do sublinhado, mas no topo o sublinhado N fornecerá
uma e depois fornecerá E então, para o sublinhado superior
N1, de forma decrescente. Ok, então vamos executar isso. vejo. Na categoria
peça 2014. O Prêmio Nobel foi dado ao Prêmio
Nobel foi dado a você. Então, Malala. Malala tem dois anos J e C tinham apenas
17 anos quando ele foi dado para ver que
tinha apenas sete anos. Supressão de crianças
e jovens pelo direito de todas as
crianças à educação E CSIA, o preço
com eles, um. Veja como Data Partition foi em julho de
1997 e tinha 17 anos. Então C é o mais novo, e aqui está nossa lista1 no
total e sete economias O Prêmio de
Economia do banco de poupança assina um total de sete por ter estabelecido a base
sobre o mecanismo, que, em teoria, e ele disse os outros três grupos
para outras pessoas. E o nome dela era Leonardo
Harvest e ele era o único Prêmio Nobel por E aos 90 anos ele recebeu Nobel
Dahmer e
era E Malala Yousafzai
era do Paquistão. Dessa forma, não gostamos
nem menos do que do Paquistão. Então, dessa forma,
não gostamos nem menos do que o mais jovem ganhador do Prêmio
Nobel Você pode oferecer o ganhador do
Prêmio Nobel. Você pode encontrar mais alguns pontos
e analisar isso. Espero que você tenha entendido como podemos visualizar e depois Mais tarde. Obrigada.
120. Project 12 Encontrando a força da palavra passada usando R: Olá e bem-vindo de volta. Nesta palestra,
faremos outro projeto no qual encontraremos a Força da
Senha usando ímpar Então, como sabemos, linguagem de
programação
bastante popular projeto de linguagem de
programação
bastante popular e isso é estranho. Às vezes, também precisamos medir
a força da senha. Nesse caso, você pode
usar este exercício. Então, vamos ver. Portanto, neste projeto,
abordaremos as funções da publicação especial
863 be reach do
NIST O que chuta o verificador
secundário
responsável por armazenar e
beber corretamente o lote de senhas
conhecido como gordura corporal aqui Ele funciona para garantir que você não escolha
uma senha incorreta. Analisaremos as
senhas dos usuários. O que é corrigido por uma
pequena empresa e use nosso para sinalizar que você está
apenas com uma senha incorreta. Mas ser capaz de
fazer isso já significa que a empresa de sinal fixo lançará
800. Eu consistentemente. Mas se eu adicionar
armazenamento de celular memorizado, forma
sagrada, isso é
dez aos ataques offline Memorize a Christelle a
ser iniciada e obtida usando a
função de derivação de
chave unidirecional da Tabela Isso nunca é salvar sua
senha apenas em textos simples, sempre criptografar as senhas Tendo isso em mente
para a próxima vez pretendemos o Sistema
de Gerenciamento de Senhas. Vamos carregar esses dados. A lista de Senhas e o banco de dados
fixo ou limitado. Tanto o conteúdo quanto o
link de senha real do site real. Essa senha não foi
filtrada de nenhuma forma e
nem nos dados de
exfiltração de dados do CloudWatch Work Europe E isso é só por querer. Ok, então vamos carregar
o arquivo CSV aqui. Vamos usar a biblioteca de versos
organizada aqui. Então deixe-me apenas, ok. Então, primeiro, carregaremos
a biblioteca, a biblioteca
e, em seguida, precisaremos ler o arquivo CSV onde todos os seus dados foram armazenados Estamos usando você
para iniciar o arquivo CSV. Sim. E estamos armazenando
seu valor. Contando quantos você
acabou de se reabilitar a partir de agora usaremos a função Endrew
e passaremos o E então imprimiremos
a primeira pré-impressão. Vamos ver os dados. Portanto, este é o ID do ano,
nome de usuário e senha. Portanto, esse
é o banco de dados de arquivos que contém o
ID do usuário, nome de usuário e senha. Ok? Então há 982 Raj, ok, duas
linhas não editadas ou o Então, agora vamos verificar se a
senha não deve ser. Para resolver. Essa é uma regra. Portanto, se dermos uma olhada
nos primeiros usuários de pré-impressão, já
vemos
uma senha incorreta Essa senha é ruim, essa senha é ruim. Essa senha também está de volta. Quase todas as senhas
nessas funções são ruins, certo? Mas não vamos nos
precipitar. Pode começar a sinalizar a
senha manualmente. Qual é a primeira coisa que
classificamos de acordo com a publicação especial
do NIST,
800 C3b, quando você solicita um
celular pela primeira vez Suzanne, memorize o segredo com pelo menos oito
caracteres Ok, então a senha dos
usuários não deve ser classificada. Então, vamos começar verificando isso. Então, o que
faremos é verificar o tamanho
da senha. Primeira coisa. Então, para isso, o que vou fazer criar um tamanho enorme,
uma variável, e aqui vou
usar o comprimento uma variável, e aqui vou do sublinhado STR Verifique o tamanho da senha aqui. Vou verificar a parte do
comprimento em que você acabou de acessar o útero e conjunto de dados e a senha e verificar qual é o
tamanho da senha Ok. Ok. Então, e isso
Alice disse no, basta emprestar e
então eu criarei outra variável para classificar, para classificar Ele classificou quando
deveria começar, quando
você acabou de alongar esse comprimento. O comprimento que calculamos
a partir do campo Senha. Se for menor que oito, vamos sinalizar isso
como ordenado, ok? E então imprimiremos
a soma na fonte. Quantos existem? Vou resumir e imprimir. Ok, então vamos executar isso. Então veja, há 376 senhas neste
banco de dados, neste conjunto de dados, que precisam classificar menos de oito caracteres
e ver você classificar São mais de oito
caracteres, 3368. Isso também é verdade. Então, são sete
caracteres, seis caracteres. Portanto, essas senhas do WeChat
com menos de oito caracteres são sinalizadas como
uma ferramenta para classificar Ok, agora temos uma maneira
mais rápida de sinalizar
a senha que podemos ter
menos de oito caracteres A próxima verificação são as senhas comuns. As pessoas apoiam muito isso. Vamos usar a lista de
10 milhões de senhas Ok, então vamos verificar com essa lista se a senha
é dessa lista ou não. Ok. de regra,
dois criminosos entre as primeiras 12 publicações
especiais
do dia seguinte, é um SSD de três V a função de
que, quando você demite a venda, compare
os possíveis segredos com a lista de valores conhecidos por
serem comumente usados, esperados ou comprometidos pela
senha inicial dos cadáveres de Então,
esse exemplo de regra,
dois criminosos entre as primeiras 12 publicações
especiais
do dia seguinte,
é um SSD de três V a função de
que, quando você demite a venda,
compare
os possíveis segredos com a lista de valores conhecidos por
serem comumente usados,
esperados ou comprometidos pela
senha inicial dos cadáveres de
violação anteriores. Ok. Então, essa é
a parte deja, a senha comum que as
pessoas usam, a que vazou Então, as palavras
do dicionário se repetem em segundos. Os personagens podem
acessar palavras específicas, como nome do serviço, nome de
usuário, derivado Ok, tudo isso, pense nisso. Para uma senha comum. Vamos ler as
linhas desse arquivo,
que é um arquivo TXT de 10 milhões de pontos
de lista de senhas E então veremos a lista de senhas
comuns. Ok, então só nessa lista. Portanto, essas são as
senhas comuns, como 123456, ou alguém poderia. A senha é
igual à senha I Ok, então todos esses super-homens, todos Jada e Jennifer, robôs
Jolly Então, essas são as senhas comuns que as pessoas usam. Então
, vendemos muito. Eles armazenam senhas que
não devem ser a senha comum. Como verificamos isso? Portanto, precisamos sinalizar todas as
senhas em nosso banco de dados de usuários que estão entre as
melhores, as inteligentes. A senha que você já usou é
a senha comum, ok. Para isso, vou usar, vou criar uma variável chamada senhas comuns em
dólares. Então, criarei um campo chamado senha comum
no banco de dados do usuário. E isso acontecerá se a senha estiver dentro
dessa senha comum, a senha estiver dentro
dessa senha comum. Ok? Se você inserir a senha
dentro da senha comum, ela será sinalizada como
uma senha comum e, em seguida, veremos
quantas senhas são comuns. Então, vamos ver. Então, veja suas 129 senhas em nosso banco de dados ou as senhas comuns
que as pessoas usaram. Veja aqui. Estes são os comuns
Password March Tom Murphy Ok, agora
encontramos uma senha comum. A seguir, veremos como
podemos considerar isso como
uma senha ou não, porque senhas não são senhas
muito comuns, certo? Até agora,
criaremos uma variável pior e leremos linhas dos 10.000 textos em inglês
do Google. Portanto, vale a pena o corpus de vodka premium do Google
que o Google nos deu, ok, esse arquivo, e então veremos se as pessoas estão usando palavras comuns
em suas senhas Ok? Então, usaremos o sublinhado STR para diminuir a
função, para diminuí-la E então verificaremos
se está lá ou não. Em seguida, abriremos a guia de resumo e descobriremos quantas pessoas
estão usando palavras comuns. Senha. Portanto, as senhas
do CR1 37 contêm
palavras comuns. Ok. A próxima coisa é que a senha não
seria repetida no Predicting. Então, como verificar isso? Então, primeiro vamos dividir o pior. Usaremos a divisão de
sublinhado STR
e dividiremos a
senha, ok, e depois escolheremos
o máximo de
caracteres operacionais repetidos plotando cada o máximo de
caracteres operacionais repetidos plotando Então, vou criar o máximo de repetições de
sublinhado. E vou usar a função de aplicação aqui e passarei a senha desta
lista aqui. E então, função, você dividiria senha
sublinhada
e max é igual a RLE, dividiria E então encontraremos o comprimento. E se muitas repetições se repetirem, opa, vou armazenar
muitas repetições Se for maior que, para, maior ou igual a quatro, igual a Mais,
Mais ou igual a quatro. Ok, então vamos
ligá-lo. Então veja aqui. Repetição máxima até o máximo, repita uma, grau máximo 31. Ok, então agora o que vamos fazer, vou juntar tudo isso. E analisamos todas as
preferências básicas por senha incorreta. Agora temos uma senha incorreta. Agora vamos ver, vamos juntar
tudo. Criarei uma
senha incorreta valiosa e verificarei se é para classificar nossa
senha comum ou palavra comum, ou se muitas repetições
são repetições demais adicionei muitas reprises duas vezes. Ok? E se, se alguma
dessas condições for verdadeira, sinalize que a senha
tem uma senha incorreta e, em seguida, veremos quantas senhas
incorretas estamos recebendo. Então, vamos ver, agora estamos vendo essa senha
incorreta e aqui poucas senhas
foram sinalizadas como verdadeiras Senha incorreta, é verdade. Então esse co, isso é o normal, essa é a
palavra comum, Commonwealth Portanto, eles são marcados como um
sinalizador Senha incorreta de dados. Dessa forma, podemos escrever um código para encontrar
a senha incorreta ou a força da
senha usando odd
121. Introdução ao Machine Learning: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos sobre aprendizado
de máquina Agora, vimos como podemos usar nossa programação para
visualização e análise de dados Agora, a partir de agora, aprenderemos sobre aprendizado
de máquina Começaremos com os conceitos básicos
do aprendizado de máquina. Veremos como o
aprendizado de máquina funciona. Quais são os tipos
de aprendizado de máquina, quais são as aplicações
do aprendizado de máquina? Ok, então veremos quais são
os processos de aprendizado de
máquina, como aplicamos algoritmos, como criamos, modelamos,
como avaliamos. Ok, vamos começar com uma introdução
ao aprendizado de máquina, revelando o poder dos dados Vamos começar com a definição de
aprendizado de máquina. Usando um mundo orientado por dados, as
máquinas estão desempenhando um papel
cada vez maior na compreensão da grande quantidade de informações à nossa disposição. Como você sabe,
nesta era digital, estamos recebendo dados, turnos de dados a cada segundo, seja no setor de aviação, seja nas
mídias sociais em todos os lugares, negócios,
no comércio eletrônico, no aprendizado,
na farmácia, na
área médica, em todos os lugares. A cada segundo, estamos
recebendo muitos dados. Esses dados não são os dados
normais que você costumava armazenar nas tabelas Adim, mas são o big data Eles não estão em um formato
muito estático. Eles estão em um formato muito
dinâmico. Serão imagens,
serão imagens. Todas essas coisas, esses dados de dados
dinâmicos são muito difíceis de
uma forma tradicional. O aprendizado de máquina é um subconjunto da inteligência
artificial que
surgiu como uma força transitiva, capacitando os computadores a
aprender e se adaptar a partir dos dados, a realizar tarefas Agora, como temos muitos
dados à nossa disposição, se não conseguirmos obter
informações dos dados, é inútil
receber milhares de comentários
do cliente, do consumidor
ou do nosso usuário final E se você não está
trabalhando nisso, se você não sabe
como trabalhar nisso, então é inútil, certo? Não melhoraremos nossos
processos, nossos produtos e
nossos serviços com o surgimento da ciência
de
dados com inteligência artificial, aprendizado
de máquina e da análise de dados. O que podemos fazer é
aprender com os dados, explorar os dados e obter informações
relativamente boas dos dados. E podemos nos adaptar de
acordo com os dados. Podemos analisar, podemos orientar
decisões a partir dos dados. Nesse caso, antes
costumávamos fazer isso sozinhos, mas devido ao aprendizado de máquina
e à inteligência artificial, agora podemos capacitar os
computadores a
aprender com os dados e adotá-los para realizar tarefas sem programação
acelerada Nem precisamos
escrever o programa. Ele é pré-vendido e
podemos treinar os modelos. E isso fará com que comecemos a
trabalhar para nós, menos entenderemos aprendizado
de máquina com um
pouco mais de detalhes. Em essência, o aprendizado de máquina
trata da criação de
algoritmos que permitem que os computadores
aprendam com os dados e tomem
decisões ou previsões
com base no conhecimento técnico Ao contrário da
programação tradicional, em humanos instruem explicitamente
os computadores sobre o que fazer, aprendizado de
máquina permite que os
sistemas melhorem seu desempenho de
forma autônoma por meio Isso é obtido por meio dos
seguintes componentes principais. Os algoritmos de dados,
o treinamento, a
avaliação e o teste do modelo e, em seguida, a implantação. Essas são as coisas que
fazemos no aprendizado de máquina. Primeiro obtemos os dados, depois
aplicamos algoritmos nesses dados, depois treinamos e depois
avaliamos e testamos o modelo. E então, se o modelo receber
os requisitos e os resultados, implantamos uma
produção adequada sobre o que são dados. Os dados são a força vital
do aprendizado de máquina. Se não houver dados,
não há aprendizado de máquina, não
há IA. Porque o aprendizado de máquina, a ciência de dados de
IA, tudo
depende dos dados. Muitos dados. Os dados lá,
serão mais benéficos, serão aprendizado de
máquina eficiente, inteligência
artificial, aprendizado
profundo. Todas essas coisas
dependem dos dados. Os dados são o sangue do aprendizado
de máquina. Se não estiver lá, o
aprendizado de máquina não estará andando, algoritmo não estará andando. Os algoritmos aprendem padrões e relacionamentos a partir de dados históricos
ou em tempo real, que servem como
campo de treinamento para esses sistemas, algoritmos que
aprendemos e aplicamos. Eles aprendem com o padrão
e o relacionamento do
algoritmo e o relacionamento do os dados que usamos para treinar modelos
de aprendizado de máquina. Para que, quando os novos dados
chegarem, eles prevejam com base nos dados históricos nos quais
treinamos o sistema. A qualidade e a
quantidade dos dados são fatores
críticos para o sucesso do modelo de aprendizado de máquina. Os dados que estamos obtendo
devem ser significativos. Se os dados não forem significativos, não forem aprimorados, forem muito claros,
os modelos de aprendizado de máquina não
serão muito vagos Primeiro, temos que
trabalhar nos dados. Os dados devem ser muito limpos e precisos para que os
modelos de aprendizado de máquina funcionem de forma eficaz. algoritmo, algoritmos de aprendizado de
máquina são mecanismos
matemáticos
que processam dados. Na verdade
, os algoritmos estão por trás da matemática. Eles trabalham nos dados
e processam os dados, identificam os padrões
nos dados
e, com base nesses padrões fazem as previsões
ou decisões Esses algoritmos
podem ser categorizados em vários tipos,
incluindo aprendizado supervisionado, não supervisionado e aprendizado por
reforço,
cada um adequado para tarefas cada um Algoritmos e, assim como
eles aprendem com os dados, aprendem com os dados, eles lêem os dados, são tipos
diferentes que
aprenderemos enquanto observamos os diferentes
tipos de aprendizado. OK. O que é o
treinamento do modelo Durante o treinamento, modelo
de aprendizado de máquina é exposto aos dados e aprende a
reconhecer padrões Todos os dados
terão algum padrão. Se você consultar os sites de
aprendizado, se eles
coletarem os dados, saberão que o usuário está acessando o site. Eles clicam em
algo com base no fato de estarem comprando o
pão que estão comprando, mas estão comprando açúcar, estão comprando o E, o modelo ou
algoritmo de aprendizado de máquina. Quando atingiu os dados
, alcançou os dados,
verá esse padrão. Se uma pessoa compra um pão, ela também está
comprando a manteiga Ao comprar o
pão com manteiga é também quando ele está comprando o chá, comprando
também o açúcar do leite. Esse é o padrão
reconhecido pelo modelo. E então o modelo ajusta
seu parâmetro para minimizar o erro ou desvio do resultado
esperado Avaliação e testes. Avaliação e testes.
Após o treinamento, o modelo é avaliado. Quando o modelo for treinado, ele será avaliado
usando o conjunto de dados separado. Suponha que tenhamos um conjunto de dados, treinaremos nosso modelo
nesse conjunto de dados específico E diremos que
reconheça o padrão, como Brad, quando uma pessoa
compra Brad, ela compra o. Mas temos que prever
o que o usuário pode comprar em seguida. Qual será o comportamento, qual produto podemos costurar para ele. Treinamos em um conjunto de dados e
depois provamos e avaliamos o modelo em outro
conjunto de dados para que
possamos conhecer seu desempenho e capacidade de
generalização ajuste fino e a otimização
geralmente são necessários para
melhorar a precisão. Depois disso,
ajustamos o modelo e otimizamos o modelo
e os algoritmos para melhorar a precisão da implantação
do
modelo de aprendizado de máquina. Quando o modelo é confiável, ele pode ser implantado em aplicativos do mundo
real
para fazer previsões, automatizar decisões e
fornecer recomendações Você teria se deparado com todas essas coisas, como no
Amazon Flip Card Quando você vê quando
compra um produto, o sistema começa
automaticamente a recomendar
novos produtos com
base no seu comportamento anterior ou produto
anterior que
você comprou Ele recomendará que você seja novo
quando assistir à Netflix. Se você assistir a um filme de comédia, na próxima vez, quando
for ao Netflix. Comece a recomendar os
novos filmes de comédia, certo? Ele reconheceu seu
padrão de assistir em
modelos de aprendizado de máquina. Por trás da Netflix, da Amazon, de todas essas coisas, eles começam a
recomendar novos produtos, filmes, todas essas coisas, ok? Quais são as aplicações
do aprendizado de máquina? O aprendizado de máquina
encontrou aplicações em uma ampla variedade de
setores e domínios, revolucionando a maneira como
abordamos Aqui estão alguns saltos notáveis. Usamos o aprendizado de máquina
na área da saúde. Auxílios de aprendizado de máquina , planejamento de
diagnóstico, descoberta de
medicamentos e medicina personalizada
por meio da análise de dados médicos, imagens e sequências genômicas Em finanças, ele capacita algoritmo do sistema de detecção de
fraudes, a negociação algorítmica, pontuação de
crédito, a avaliação de riscos e ajuda
as instituições financeiras a tomar decisões baseadas
em
dados Os sistemas de recomendação
que eu já discuti usam o
aprendizado de máquina para sugerir produtos, experiência de compra
personalizada e otimizar a estratégia de preços Veículos autônomos, o aprendizado
de máquina é parte integrante dos carros
autônomos. Permitindo que eles percebam
suas informações, momentos decisões
e naveguem com segurança por meio de um exemplo. processamento de
linguagem natural,
PNL e LP para carros aplicativos de processamento de
linguagem natural,
PNL e LP para carros incluem tradução de idiomas, análise de
sentimentos, fóruns de
bate-papo e relação de voz, tornando a interação
humano-computador mais perfeita e muito mais usada atualmente
. fabricação, a
manutenção preditiva e controle
de qualidade são aprimorados
por meio do aprendizado de máquina Reduzindo o tempo de inatividade e os defeitos
nos processos de produção. Ciência ambiental e aprendizado
de máquina são usados para modelagem climática, previsão de tendências ambientais e análise de dados ecológicos importância do aprendizado de máquina O
aprendizado de máquina vai
além de suas explicações. Ele tem potencial para acelerar a tomada de decisões,
aumentar a eficiência, descobrir insights, personalizar sua
experiência e inovação aprendizado de máquina
promove a inovação ao abrir novas possibilidades em áreas como robótica, realidade
virtual e realidade
aumentada Podemos descobrir os novos insights dados usando
o aprendizado
de O que concluímos é
que o aprendizado de máquina representa um avanço
tecnológico avançado, ou
seja, remodelando indústrias, promovendo a inovação
e melhorando os processos de
tomada de decisão
em dados, e melhorando os processos de
tomada de decisão continua crescendo
em volume e complexidade aprendizado de máquina desempenhará
um papel cada vez mais central na extração de valor e inteligência
desse mundo rico em dados À medida que nos
aprofundamos nesse campo, exploraremos suas
várias técnicas, algoritmos e aplicativos
com mais detalhes, revelando todo o potencial do aprendizado
de máquina No final desta palestra, veremos mais sobre aprendizado de máquina nas
próximas palestras. Obrigada.
122. O papel da aprendizagem de máquina: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre
o papel do aprendizado de máquina na ciência de dados e na inteligência artificial, transformando dados em insights Já aprendemos
sobre os fundamentos da ciência de dados e do aprendizado de
máquina, mas
entenderemos pouco como
podemos visualizar os dados usando aprendizado de máquina e
inteligência artificial E qual é a importância
dos dados nesses campos. Ciência de dados e inteligência
artificial, dois dos campos mais
transformadores do cenário tecnológico
moderno Nesses domínios, o aprendizado
de máquina desempenha um papel fundamental
na extração de insights
acessíveis, na automação de processos
e na capacitação de dados
que Nesta palestra,
exploraremos a relação
intrincada
entre
aprendizado de máquina, relação
intrincada ciência de dados
e IA, e como
elas
contribuem coletivamente para ciência de dados é o campo
interdisciplinar que combina várias
técnicas e processos para extrair sites
de
conhecimento de dados estruturados e
não estruturados Deixe-me esclarecer um pouco sobre dados estruturados e
não estruturados Dados estruturados são os
dados que são muito estruturados de forma que tenhamos as coisas predefinidas
para armazenar os dados,
como fazemos no banco de dados icicle
ou no banco de dados relacional tradicional Coisas em que
definimos coisas como
haverá nome, haverá um,
haverá endereço. Haverá o
produto que ele comprou. A data, será definida
e em forma de tabela. Está bem? E será um
dado que será definido. Será um texto ou imagem
ou o que quer que seja, certo? Mas quando analisamos essa
coisa, dados não estruturados. Atualmente, dados não estruturados são
muito comuns devido ao surgimento
das mídias sociais, da Internet, do comércio eletrônico e do setor de
aviação Em todos os lugares, temos
muitos dados não estruturados. Os
dados não estruturados não estão definidos. Os dados estão chegando
de várias maneiras. Assim, às vezes
vem em um formulário de bate-papo. No chat, estamos
compartilhando o texto, estamos compartilhando as imagens, estamos compartilhando as imagens. Estamos vendendo os arquivos, compartilhando os vídeos, compartilhando as animações.
Pode ser qualquer coisa. Os dados não estão definidos. Os dados são estruturados,
não estruturados por natureza. Com as coisas tradicionais, é muito difícil extrair as
informações dos dados, armazená-los ou obter insights significativos
da parte de dados. Com o big data a ciência de dados e o aprendizado de máquina de
IA, é muito fácil analisar, armazenar e obter insights desses dados não estruturados que obtemos das mídias sociais, do comércio eletrônico, dos sites e
da nossa empresa Isso é muito fácil hoje em dia extrair conhecimento
e insights
dos dados não estruturados que
fazemos com a ciência de dados Ela abrange uma ampla
gama de atividades,
incluindo coleta de dados, como coletamos os dados, pré-processamento de
dados, como
pré-processamos os dados
antes de trabalhar neles e, em
seguida, como fazemos a
análise dos Essa é a
parte da análise de dados que
veremos e a visualização de dados
pode visualizar os O objetivo principal da
ciência de dados é transformar dados brutos em insights acessíveis e embasar decisões estratégicas
de negócios. Toda empresa que tem
muitos dados históricos,
se não
aprende com dados históricos, como se estivéssemos administrando
uma empresa de roupas, site de comércio eletrônico onde
vendemos roupas, não sabemos o que temos. Os dados de que parte da diretoria, os produtos não estão vendendo, alguns dos produtos
são mais vendidos. Se não obtivermos
essas informações dos dados anteriores, não
poderemos
recomendar o novo produto, novos designs aos clientes. Com a ajuda de dados
históricos, tomamos as decisões
e podemos tornar nossas estratégias estratégicas
robustas e mais acessíveis Ok, o papel crucial do aprendizado de máquina
na ciência de dados. aprendizado de máquina
é o subconjunto da IA que se concentra no
desenvolvimento de algoritmos e modelos que permitem que os computadores
aprendam e façam previsões ou decisões sem serem programados
explicitamente Veja como o aprendizado de máquina
aprimora a ciência, análise e a previsão de
dados Os algoritmos de aprendizado de máquina
podem analisar grandes conjuntos de dados para descobrir tendências de padrões ocultos e relações fundamentais
entre os dados Essa habilidade é fundamental para fazer previsões,
seja
na previsão de vendas, na rotatividade de
clientes
ou até mesmo no diagnóstico de dígitos.
Na área médica, o aprendizado de
máquina automatizado de pré-processamento de dados pode
automatizar as tarefas de pré-processamento de dados, aprendizado de
máquina automatizado de pré-processamento de dados pode
automatizar as tarefas de pré-processamento como valores ausentes,
imputação,
detecção de valores
discrepantes, escalabilidade de recursos, economizando tempo e esforço para cientistas de dados como valores ausentes,
imputação,
detecção de valores
discrepantes, escalabilidade de recursos, economizando . engenharia de recursos
pode auxiliar na seleção e
engenharia de
recursos, ajudando a identificar as variáveis mais
relevantes para modelagem,
classificação e agrupamento produtivos Modelos de aprendizado de máquina, como máquinas
vetoriais de suporte a
dissidentes e algoritmos de
agrupamento, são usados extensivamente na
ciência de dados para tarefas como segmentação de
clientes e classificação de
imagens. Já discutimos o sistema
de
recomendação Já discutimos filmes e o sistema de recomendação Esses sistemas de recomendação podem ser facilmente aprimorados
com o aprendizado de máquina. colaborativos de filtragem e sistemas colaborativos de filtragem e
recomendação baseados em
conteúdo Os sistemas colaborativos de filtragem e
recomendação baseados em
conteúdo são orientados pelo aprendizado de máquina, fornecendo
recomendações de personagens em comércio eletrônico
e conteúdo plataformas de comércio eletrônico
e conteúdo, como Netflix, linguagem
natural, linguagem
natural, processamento de linguagem natural Um subconjunto do aprendizado de máquina
permite análise de sentimentos, classificação de
texto e desenvolvimento de painéis de
bate-papo Aprimoramento de dados gerando insights a partir de dados textuais e visualização de
dados aprendizado de máquina pode
ajudar a gerar visualizações de
dados
interativas e informativas, tornando os insights complexos
mais acessíveis A sinergia da IA e do aprendizado
de máquina. Embora a ciência de dados
se concentre principalmente na extração de
insights dos dados, IA amplia os recursos do aprendizado de
máquina para realizar tarefas e normalmente requer inteligência
humana O aprendizado de máquina é a
força motriz por trás de muitos aplicativos de
IA, permitindo que o aprendizado de máquina imite as funções cognitivas humanas Veja como o aprendizado de máquina preenche a
lacuna entre a ciência de
dados e a automação
baseada em IA Os algoritmos de aprendizado de máquina
automatizam várias estatísticas, várias tarefas, desde reconhecimento de
imagens em veículos
autônomos até tradução de
idiomas
em fóruns de bate-papo Tornando os aplicativos de IA
mais eficientes e acessíveis com a ajuda do aprendizado de
máquina nos termos dos supostos veículos
autônomos, quando podemos treinar o modelo, exemplo, quando ele vê o sinal, podemos alimentar a imagem do sinal, seja ela vermelha,
verde ou amarela. Com base no sinal do sinal, o carro automatizado pode parar
quando vê o sinal vermelho. Ele pode se mover quando está
vendo o sinal verde. Todas essas coisas que
podemos treinar com a ajuda da personalização da IA O aprendizado de máquina permite que os sistemas de
IA forneçam experiência
personalizada,
como conteúdo personalizado, recomendações de
conteúdo, campanhas e
campanhas de marketing
personalizadas e até planos de
tratamento de saúde. Análise preditiva, eu conduzi análises
produtivas com base no aprendizado
de máquina organização de saúde antecipa
o comportamento do cliente, falha do
equipamento, permitindo a tomada de
decisões proativa Podemos fazer a
análise preditiva e adivinhar como nossos
trens estão indo, qual é o
comportamento do cliente e como os clientes
gostarão do novo produto tomada de decisão aprimorada algoritmos de aprendizado de
máquina
auxiliam o sistema de IA a tomar
decisões informadas, analisando vastos conjuntos de dados em tempo real, reduzindo o erro humano, processamento e a
compreensão da linguagem
natural e os modelos de LP Um subconjunto do aprendizado de máquina permite que o sistema de IA
entenda e responda a aplicativos que
impulsionam
a linguagem humana como potes virtuais para gatos Concluindo, podemos dizer
que o aprendizado de máquina é o alicerce que
conecta conjuntos de dados e eu, transformando dados brutos
em insights E permitindo que o sistema de
inteligência artificial realize tarefas antes
consideradas o sonho da inteligência humana. Isso significa que o aprendizado de máquina
será a
parte crucial para inserir a inteligência
humana nas máquinas mais cedo, coisas que eram apenas
para os únicos humanos serem capazes de fazer. Agora é possível que, com o aprendizado de máquina, a ciência de
dados e eu, nossas máquinas possam fazer o trabalho que
os humanos podem fazer com algo muito preciso. À medida que a tecnologia
continua avançando, a relação simbiótica
entre ciência de dados, aprendizado
de máquina e IA
continuará salvando nosso cenário digital e impulsionando inovação em
vários setores De pé, o papel
do aprendizado de máquina é essencial para
qualquer pessoa interessada no mundo dinâmico e em constante
evolução de dados e
inteligência artificial É por isso que a relação entre
ciência de dados, aprendizado de máquina e IA deve ser entendida para obter conhecimento nesse campo. Espero que você tenha entendido qual é a sinergia entre IA e aprendizado, qual é o papel do
aprendizado de máquina e da ciência de dados encontraremos na próxima palestra e discutiremos mais
algumas coisas sobre
aprendizado de máquina. Obrigada.
123. Tipos de aprendizagem de máquina: Olá e bem-vindo de volta. Nesta palestra, vamos
aprender os tipos de aprendizado de máquina,
tipos de aprendizado de máquina Vamos ver isso como uma visão geral muito
abrangente. Vamos começar agora. Temos a compreensão básica do que é aprendizado de máquina, como ele está relacionado
à inteligência artificial e ciência de
dados, em
geral. Certo, vamos revisar um
pouco mais uma vez. aprendizado de máquina, um subconjunto da inteligência
artificial,
transformou a forma como os computadores podem processar informações e tomar decisões O que entendemos, certo? É parte da inteligência
artificial. Se você observar o
panorama geral, ciência
de dados é o panorama geral. Abaixo disso vem a inteligência
artificial e abaixo está
o aprendizado de máquina. Aprendizado profundo, todas essas coisas. Ok, o aprendizado de cena é um subconjunto da
inteligência artificial Isso transformou a capacidade dos
computadores de
prever os resultados como
humanos e mais rápido que humanos. Essa é a transformação que o aprendizado de
máquina trouxe para a mesa. É muito fácil tomar
decisões para empresas
processando seus dados. Uh, algoritmo de aprendizado de máquina fazendo modelos e depois
avaliando o modelo E depois predizendo, e
às vezes eles prevêem 100% de uma informação correta Ok,
algoritmos de aprendizado de máquina permitem que o
sistema aprenda com os
dados. Os dados são a chave. Nas últimas palestras, entendemos como os dados são
a força vital do aprendizado de
máquina, da inteligência
artificial e
do ecossistema geral da ciência de dados Tudo depende dos dados. Tudo começa com
o algoritmo de dados. Os algoritmos de aprendizado de máquina permitem que sistemas, computadores
ou
máquinas aprendam com os
dados e melhorem seu
desempenho ao longo do tempo. Sem programação explícita, você precisa programar sempre. Você só precisa
treinar o modelo. E começará a
aprender com os dados e
melhorará com base
no processo
de aprendizado pelo qual passou. Há vários tipos
de aprendizado de máquina, cada um adequado para
tarefas e aplicativos específicos. Nesta palestra,
exploraremos as principais categorias de aprendizado de máquina e
suas características Ok, vamos começar. Existem basicamente sete
tipos de aprendizado de máquina. O primeiro é o aprendizado
supervisionado,
depois o aprendizado não supervisionado,
depois o aprendizado semisupervisionado, depois o aprendizado
profundo por reforço, depois o aprendizado
autosupervisionado e, em
seguida, o aprendizado por transferência . Então, esses são os sete tipos de aprendizado de
máquina que
vamos aprender. Em primeiro lugar, começaremos com
o aprendizado supervisionado. O aprendizado supervisionado é um
aprendizado que podemos relacionar com o aprendizado da sala azul da turma,
onde um professor
supervisionou nosso aprendizado onde um professor
supervisionou nosso E ele nos ensina
com as imagens, com o vídeo, com o áudio,
com as várias ajudas
educacionais, certo, que ensinam o aprendizado supervisionado aprendizado supervisionado é um
dos tipos mais comuns de aprendizado
de máquina Envolve um modelo de treinamento em um conjunto de dados rotulado em que cada ponto de dados é emparelhado com
o destino de saída correto O modelo aprende
a mapear os dados de entrada para a saída correta,
encontrando padrões e relações As principais características do aprendizado
supervisionado incluem. Antes de vermos as
principais características, deixe-me dizer
o que isso significa? aprendizado supervisionado é o tipo mais comum de aprendizado
de máquina Com isso que fazemos, suponha que queremos treinar nosso sistema para reconhecer
os rostos humanos. Nesse caso, o que
faremos é alimentar os dados para o algoritmo ou
modelo de
aprendizado de máquina com imagens como humanas. Se for uma fase humana, diremos que essa é uma fase humana. Se for outra coisa, vamos colocar que essa é a fase animal, essa é uma fase de desenho animado, ok? Vamos alimentar muitas imagens e cada imagem
será marcada com um nome. Será rotulado, ok, se for um rosto humano, todos os rostos humanos
serão rotulados,
serão rotulados serão rotulados Todos os gatos, cães, animais rostos de
elefantes serão marcados de acordo com
suas especificações Ok, agora, quando alimentamos os dados por meio do modelo de aprendizado de
máquina, ele verá,
ok , esse é rosto
humano, esse é o ritmo humano. Ele reconhecerá o
padrão de um rosto humano e, com base nos padrões que vê nos rostos humanos, aprenderá
que,
se esse rosto aparecer, será um rosto humano. Ele também vê o padrão de outras imagens que não
têm um padrão semelhante ao de
Para os rostos humanos, ele reconhecerá, ok, esse padrão pertence a um gato. Esse padrão pertence
ao elefante. Esse padrão pertence
aos macacos. Assim, ele começará a
aprender após o treinamento, quando alimentarmos uma nova
imagem que não faz parte desse conjunto de dados
sem um rótulo Ele executará os padrões e corresponderá ao
padrão que aprendeu. Qualquer que seja o padrão correspondente,
ele dirá que,
ok, esse é o rosto humano Ou se for um gato,
dirá que é uma cara de gato. Com base nos dados de
treinamento anteriores, reconheça o padrão
de uma nova imagem e ela fornecerá o resultado, seja um rosto
humano ou não. É assim que o
aprendizado supervisionado funciona. Tem características principais, ou
seja, classificação
e regressão. Esses são os dois termos muito
importantes que
devemos lembrar e dos quais
devemos estar cientes. O primeiro é a classificação. Classificação na tarefa de
classificação, o modelo prevê
rótulos ou categorias discretas Por exemplo, classificar
e-mails como spam ou não spam. Quando você olha para o,
você pode ver o e-mail. Sempre que um e-mail chega, e-mail é automaticamente
classificado como spam. Ele colocará isso na pasta
de spam. Como isso funciona? Ele
treinou alguns
modelos de
inteligência artificial ou aprendizado
de máquina para enviar isso por e-mail. Se o e-mail vier
desses domínios de palavras-chave, ele será classificado como spam Se não estiver na
lista de contatos do destinatário
, será marcado como spam. Muitos e-mails foram enviados a partir
desse ID de e-mail específico em massa para pessoas desconhecidas Em seguida, ele será
classificado como spam. É assim que a tarefa
de classificação funciona. Ok,
uma categoria específica será uma categoria específica rotulada como spam,
spam norte ou spam norte Considerando a região, as outras características são tarefas regionais na
região. O modelo prevê valores
contínuos. Por exemplo, prever preços de
casas com base em características como
pé quadrado e localização Com base no metro
quadrado e na localização, ele predirá o preço da casa. Quando alimentamos os dados, treinamos, os dados são alimentados para
essa área específica. Essa é a taxa de
localização premium será alta com base nisso. Sempre que você coloca um
novo local com as novas dimensões da casa,
o metro quadrado e
tudo isso vai prever que, ok, essa casa deve
ter esse preço. Essa é a região de onde vêm
os dados
numéricos contínuos, onde usamos a regressão, onde os
dados de classificação vêm de categorias e, em
seguida, usamos a Esses são os dois.
Considere. O próximo tipo de aprendizado de máquina é o aprendizado
não supervisionado. No aprendizado não supervisionado, ele lidará com os dados não
rotulados aprendizado não supervisionado
lida com dados não rotulados, onde os algoritmos visam
encontrar estruturas de padrões,
agrupamentos, dentro agrupamentos Ele é usado para tarefas como agrupamento e redução de
dimensionalidade Cada característica do aprendizado
não supervisionado
inclui agrupamento, algoritmo de
agrupamento e
o que ele faz agrupa pontos
de dados semelhantes com base nos aprendizado
não supervisionado
inclui agrupamento, algoritmo de
agrupamento e
o que ele faz: agrupa pontos
de dados semelhantes com base nos recursos. Por exemplo, agrupar clientes com
comportamento de compra semelhante para agrupamento de marketing
direcionado significa supor que você tenha um Suponha que você tenha um site de
e-learning em que
a maioria dos clientes está comprando
cursos e marketing, poucos clientes
estão comprando cursos
no domínio da tecnologia. Então, o que o clustering fará é agrupar todos os
clientes que compraram cursos
relacionados
a marketing em um grupo específico Isso
os agrupará e a tecnologia que
criará outro cluster, teremos dois
grupos de clientes. Um está interessado em cursos
de marketing e outro em cursos de
tecnologia interessantes. É assim que, com base nisso, quando o novo cliente
apresenta algum comportamento, ele o classifica e o
agrupa em um
determinado grupo Depois vem a redução da
dimensionalidade. Esses algoritmos reduzem
o número de recursos
nos dados enquanto preservam as informações
essenciais Análise de componentes principais. Pca é uma técnica comum para redução de
dimensionalidade. Suponha que você tenha
tantos recursos em nosso conjunto de dados e isso resultará em pontos de dados
desnecessários Isso reduzirá o número de recursos disponíveis
no conjunto de dados e se
concentrará nas principais palavras-chave e recursos, além de
fazer o aprendizado, ok? Isso é chamado de Análise de
Componentes Principais, que é o principal
recurso do seu conjunto Qual é a principal característica
que está afetando o alvo, afetando o
resultado que
encontraremos na Análise de
Componentes Principais, PCA O próximo é o aprendizado
semisupervisionado. semisupervisionado combina
elementos do
aprendizado supervisionado
e não supervisionado Ele aproveita o conjunto de dados
com uma pequena quantidade de conjunto de dados
rotulado e uma grande
quantidade de dados Essa abordagem é frequentemente
usada quando a obtenção dados
rotulados é cara
e demorada Ok, então vem o aprendizado por
reforço. O aprendizado por reforço
consiste em treinar agentes para tomar sequências de decisões
em um ambiente Para maximizar, em um ambiente, maximizar uma recompensa cumulativa É comumente usado em
aplicativos como jogos, robótica e sistemas
autônomos As principais características
dos reforços e aprendizado por
reforço incluem
agente O agente interage com um ambiente e
aprende recebendo feedback na forma de
recompensas ou políticas de punição Essa política é a
estratégia ou conjunto de regras que o agente segue
para tomar decisões. O objetivo é aprender uma política
opcional que maximize as
recompensas de longo prazo. Aprendizado profundo. O aprendizado profundo é um subconjunto do aprendizado
basal que se concentra em redes
neurais com muitas
camadas de redes neurais profundas Ele ganhou
atenção e popularidade significativas nos últimos anos devido ao seu
desempenho excepcional em tarefas como reconhecimento de imagem e
fala. As principais características do
aprendizado profundo incluem redes neurais, redes neurais
artificiais
com várias camadas de
nós ou neurônios interconectados Rede convolucional profunda, rede
neural CNN's. Esses são os RNNs de
redes neurais recorrentes comumente
usados para tarefas de
reconhecimento de imagem RNNs de
redes neurais recorrentes comumente
usados para tarefas de
reconhecimento Eles são usados para tarefas de dados
sequenciais, como processamento de linguagem natural
e análise de tempo Veremos em detalhes quando virmos aprendizado
profundo, o aprendizado
autosupervisionado aprendizado autosupervisionado é
uma técnica em que um modelo aprende com dados sem rótulos fornecidos por
humanos Em vez disso, ele gera rótulos a
partir dos próprios dados. Aprendizagem supervisionada, ela
reconhecerá um padrão. Ele rotulará os dados
como fase humana ou Caha. Todas essas coisas ele
rotulará por si só, geralmente criando uma tarefa
substituta Ele se mostrou promissor em vários processos de
linguagem natural, processamento de
computador e tarefas computacionais. Depois vem o aprendizado por
transferência. O aprendizado por transferência envolve treinar um modelo em uma tarefa e, em seguida, usar o conhecimento adquirido para melhorar desempenho de uma tarefa relacionada. É uma abordagem prática quando você tem dados limitados
para uma tarefa específica. Agora, o
aprendizado de máquina abrange uma variedade diversificada de
tipos e técnicas, cada um com sua força
e aplicações Compreender os tipos
de dados é essencial para escolher a abordagem correta ao lidar com vários problemas do mundo
real À medida que o aprendizado de máquina
continua avançando seu impacto em setores
como saúde, espera-se que
seu impacto em setores
como saúde,
finanças e sistemas autônomos cresça, tornando-o um campo fascinante
e dinâmico explorar e dominar. Há muitas
oportunidades no
mercado para aprendizado de máquina,
engenheiros, cientistas de dados, engenheiros de
IA e analistas de dados. Todas essas coisas se resumem a essas coisas e
podemos aprender muito mais rápido. Você disse a próxima
palestra.
124. Fluxo de trabalho de aprendizagem de máquina: E bem-vindo de volta.
Nesta palestra, aprenderemos sobre o fluxo de trabalho de aprendizado de
máquina, como lidamos com os dados, como partimos dos dados e como migramos para
os insights de dados Vamos começar. O fluxo de trabalho de
aprendizado de máquina é uma ferramenta poderosa para
visualizar dados. Na verdade, olá
e bem-vindo de volta. Nesta palestra,
aprenderemos sobre o fluxo de trabalho de aprendizado de máquina fluxo de trabalho de aprendizado de máquina consiste em obter
os dados, processar os dados, aplicar os modelos de aprendizado de máquina e obter os
insights dos dados. Isso é o que significa
fluxo de trabalho de aprendizado de máquina quando procurado. Nesta palestra,
aprenderemos detalhadamente sobre o fluxo de trabalho do aprendizado de
máquina Vamos começar, o
aprendizado de máquina é uma ferramenta poderosa. O aprendizado de máquina é uma ferramenta
poderosa que revolucionou a forma como lidamos com dados e fazemos previsões
e decisões. Foi isso
que aprendemos nas palestras
anteriores No entanto, aproveitar
seu potencial requer uma abordagem estruturada conhecida
como fluxo de trabalho de aprendizado de máquina Neste artigo ou
nesta palestra, exploraremos os principais
estágios desse fluxo de trabalho, destacando
as etapas essenciais envolvidas na transformação de dados
brutos em informações
variáveis e valiosas A primeira etapa é a coleta
de dados. coleta de dados
é a base do aprendizado de máquina ou
da ciência de dados porque tudo
depende da jornada dos dados. Começa com a coleta de dados. A etapa envolve
a coleta de dados relevantes de várias fontes, como
bancos de dados, APIs ou sensores. Esses são os pontos de dados
em que coletamos os dados. Os dados afetam significativamente o sucesso do seu projeto de aprendizado
de máquina. Tornar a coleta
de dados uma tarefa crítica e muitas vezes
demorada. Como você sabe,
a maioria dos cientistas
e analistas de dados, engenheiros de aprendizado de
máquina, na
maioria das vezes cerca de 60% do tempo
trabalham nos dados, 40% do tempo trabalham
no código e criam modelos, aplicam algoritmos, avaliam o modelo,
todas essas coisas, ok? Mas 60% das tarefas têm
tudo a ver com trabalhar com dados
e torná-los viáveis Em seguida, vem a coleta
de dados. A próxima etapa é o pré-processamento
de dados. pré-processamento de dados
significa refinar os dados brutos e
torná-los Os dados brutos raramente estão prontos para o
carregamento da máquina porque, se você tiver coletado os
dados das fontes, pode
haver muitos
problemas nos dados Haverá um
problema nos dados, haverá valores ausentes, haverá valores duplicados, haverá valores errados,
haverá valores ausentes Muitas impurezas
estarão presentes nos dados brutos. Nunca estará pronto. Se você trabalhar com esses dados, não obterá o resultado
necessário devido
às informações que
faltam e que estão preenchidas
incorretamente nos O processamento de dados envolve
limpar, transformar e estruturar os dados para torná-los adequados
para análise As principais tarefas dessa fase incluem
lidar com valores ausentes,
remover valores discrepantes e codificar
as variáveis categóricas. As próximas etapas são a análise
exploratória dos dados. Em resumo, chamamos isso de EDA. Esse é um estágio muito crítico porque na EDA
entendemos os dados Antes de mergulhar na modelagem, é essencial
entender seus dados, entendê-los completamente. A compreensão dos
dados é muito importante. Da envolve a visualização de dados, cálculo de
estatísticas descritivas identificação de padrões
e correlações Essa etapa fornece informações que
orientam a seleção de recursos
e a criação de modelos. A próxima etapa vem
e é chamada de engenharia de
recursos. Isso significa que criar os recursos
informativos significa se algumas das
coisas estiverem lá e você puder se basear
nessas informações, poderá criar um novo A engenharia de recursos serve para a engenharia de recursos é o processo de
seleção, criação e transformação de
recursos, ou seja, variáveis de
entrada que o modelo
de aprendizado de máquina usará para previsões Ele está basicamente trabalhando
nos dados de entrada. engenharia de recursos qualificada
pode melhorar significativamente o desempenho do
modelo quanto mais modelo
aprimorado
você obtiver. O próximo tipo é a seleção
do modelo. Escolhendo o algoritmo certo. A seleção do algoritmo
de aprendizado de máquina apropriado depende do tipo de problema. É classificação
ou regressão. A primeira coisa que você precisa fazer
é decidir que tipo de problema
você tem em suas mãos. E então você pode
decidir o algoritmo. Primeiro, você precisa
pensar se é
um problema clássico de replicação ou
um problema de regressão com base nos seus dados e nas
características dos Os algoritmos comuns incluem árvores de
decisão,
máquinas vetoriais de suporte e redes neurais. Você
pode decidir usar todos esses algoritmos com
base nos seus dados e na classificação
do problema. Ok, o próximo vem depois
da seleção do modelo. A próxima etapa é o treinamento de modelos. Aprendendo com os
dados desse espaço. O modelo selecionado é treinado usando a
parte dos dados. Suponha que você tenha
milhares de linhas de dados. O que você faz, dados, o que você pega? 60, 40% dos dados para treinamento e 60% restantes você os
manterá para o teste, a parte dos
dados que coletamos e
treinamos nosso modelo com base nesses dados. Em seguida, os
60 ou 40% dos dados restantes que mantivemos para
o teste desses dados, testaremos o modelo. O modelo aprende a reconhecer padrões de relacionamentos
e amigos presentes no conjunto de dados de treinamento Em seguida, o treinamento envolve
o ajuste do parâmetro do modelo para minimizar erros ou desvios
dos resultados esperados Com base no treinamento que
damos ao modelo selecionado, ajustaremos o parâmetro
para minimizar os erros ou desvios do
resultado esperado , que é muito crítico Em seguida, passamos para a avaliação do
modelo. Veremos qual desempenho ou
resultado estamos obtendo, o que estamos obtendo e, em seguida,
avaliaremos nosso modelo. Após o treinamento, é fundamental
avaliar o
desempenho do modelo. Isso é feito usando um conjunto de dados
separado, ou
seja, a validação
ou o conjunto de dados de teste, para acessar o quão bem o modelo generaliza os dois As métricas de avaliação comuns incluem precisão, razão, recordação e pontuação F one. Essas são as métricas
de avaliação, precisão, o
recall de precisão e a pontuação F. A próxima etapa é ajustar os
hiperparâmetros ou otimizar os parâmetros do
modelo Os modelos de aprendizado de máquina geralmente têm hiperparâmetros que
não são aprendidos durante o treinamento
, mas devem ser definidos manualmente ajuste de hiperparâmetros
envolve
a busca pela melhor combinação de hiperparâmetros para otimizar
o desempenho do modelo Em seguida, vem a etapa final, ou
seja, a implantação do modelo na
produção, na produção ou no mundo real. Depois que o modelo é considerado confiável e preciso,
após o teste, ele pode ser implantado em um ambiente
real para fazer previsões ou
automatizar decisões Essa fase pode envolver integração do modelo em sistemas
ou aplicativos
existentes exemplo, suponha que você tenha um sistema
bancário em que decide qual candidato concederá o empréstimo e
qual rejeitar. E você desenvolveu um modelo
de aprendizado de máquina que pode lhe dar a decisão de se é adequado ou
não adequado para o empréstimo. Seu modelo está oferecendo até 97, 98, 99% de precisão. Durante o teste, você
pode implantar
no ambiente de produção e colocar os
dados do usuário nele. E com base na análise de
dados do usuário pela qual passou o treinamento
durante o treinamento do modelo, ele pode analisar os dados, critérios
financeiros,
todas essas coisas. E pode decidir se
podemos emitir um empréstimo ou não. Essas são as
coisas que podemos fazer
na implantação do modelo. Então, após a
implantação do modelo, o trabalho não é 0, precisamos monitorar e
manter o modelo A manutenção também é
muito importante para o sucesso a
longo prazo, pois
pode gerar falsos
negativos ou falsos positivos. Todas essas coisas que precisamos monitorar de perto
para que nosso modelo de sistema seja nossos algoritmos estão funcionando bem e fornecendo resultados
precisos. Os modelos de aprendizado de máquina exigem monitoramento
e manutenção
contínuos, a distribuição de dados muda com o
tempo . Porque
às vezes, quando trabalhamos
no modelo,
criamos o modelo, o conjunto de dados ou os critérios de suporte no setor
bancário De tempos em tempos, você recebe as
diretrizes do governo. Com base nessas diretrizes, os critérios podem mudar. Então, temos que continuar
monitorando, uh, e temos que continuar
analisando os dados e os resultados. As distribuições de dados
mudam com o tempo. O desempenho do modelo pode diminuir porque os critérios
foram alterados Ele pode fornecer as saídas erradas, então temos que monitorá-lo Atualizações e reciclagem regulares. Quando algo
muda, precisamos
retreinar o modelo nos
novos dados para que ele possa funcionar nos novos critérios
alterados Atualizações e reciclagem regulares
podem ser necessárias para
garantir a precisão contínua do modelo Então, agora entendemos
como o fluxo de trabalho funciona. O fluxo de trabalho de aprendizado de máquina é uma abordagem sistemática para resolver problemas do mundo real aproveitando o poder dos dados Ele transforma dados brutos em insights
acionáveis e sistemas
inteligentes capazes de fazer previsões
e tomar decisões Compreender e
dominar esse fluxo de trabalho é essencial para
cientistas de dados, analistas engenheiros que desejam aproveitar todo
o potencial do Maine para aproveitar
todo o potencial do aprendizado de máquina no mundo
atual orientado por dados À medida que a tecnologia
continua avançando, o
fluxo de trabalho de aprendizado de máquina desempenhará um papel central cada vez maior em vários setores,
impulsionando a inovação e a tomada de decisões informadas. Espero que tenhamos entendido como o
fluxo
de trabalho do aprendizado de máquina funciona, desde
a coleta de dados
até o processamento de dados,
a análise exploratória de dados, a
engenharia de recursos ,
a seleção de modelos, o treinamento de modelos, a avaliação do modelo, o ajuste de
hiperparâmetros, a implantação do modelo, o
monitoramento e a Todas essas etapas são
muito cruciais para a implementação bem-sucedida de um modelo de aprendizado de máquina. Espero que você tenha entendido, nos encontraremos na próxima
palestra. Obrigada
125. Princípio GIGO: Bem vindo de volta. Nesta
palestra, entenderemos o conceito
e o princípio muito importantes que são muito aplicáveis no
aprendizado de máquina e que são muito antigos. O conceito de
lixo no lixo é um princípio
que está sendo usado na indústria e
no software de QI Também é aplicável
no aprendizado de máquina. Isso garantirá que
a qualidade dos dados seja boa e isso se tornará
o poder da qualidade dos dados. Vamos começar. Entrar lixo , sair
lixo No
reino do aprendizado de máquina, um
princípio fundamental é válido, pois todos sabemos que lixo,
lixo fora, é Ou seja, sendo por muitos
anos lixo, lixo fora. Essa frase concisa resume
um conceito profundo. A qualidade da entrada
influencia profundamente a qualidade da saída produzida pelos modelos
de aprendizado
de máquina.
O que isso significa? Isso significa que os dados,
os dados que você insere nos
modelos de aprendizado de máquina resultantes, se você inserir a qualidade
de dados precisos e limpos, obterá o resultado preciso. Se você colocar os dados com
lixo, valores ausentes, informações
erradas, outras coisas, valores ausentes
errados
, você não obterá a boa saída
necessária Os resultados que você obterá, as pausas que obterá
serão muito, muito errados. Porque tudo
depende dos dados que você coloca no sistema
e dos quais resulta. Você entrará em uma era em
que os dados reinam. suprema compreensão e
apreciação do princípio de Gig são essência essencial de Ideia simples e profunda em sua essência. O Gig Principle é
um lembrete de que não importa quão sofisticados sejam os
algoritmos, a potência da infraestrutura de
computação ou a habilidade dos cientistas de
dados, o valor da produção de
aprendizado de máquina está vinculado à qualidade dos
dados inseridos no O que isso significa? Isso significa
que, seja qual for o algoritmo, um algoritmo forte, o
quanto você codifica, como você o torna sofisticado, a
infraestrutura de computação atual é
poderosa e o quanto
são qualificados cientistas de dados, de aprendizado
de máquina e engenheiros de IA. Se os dados não forem bons, tudo isso será usado porque,
se os dados não forem bons, seu cientista de dados qualificado, seu cientista de dados qualificado,
sua infraestrutura e seus algoritmos não funcionarão corretamente. Porque tudo
depende dos dados. A base deve ser forte, base deve ser muito boa, então você pode crescer. Se a semente não for
boa, de boa qualidade. Uma planta não pode crescer
da mesma forma. Os dados são a semente de todas as atividades
de aprendizado de máquina. Com bons dados, você
obterá um bom resultado. Você vai tirar uma boa
ideia disso. Você obterá bons resultados. Você obterá as
previsões a partir disso. Os dados devem ser bons, então o algoritmo
funcionará corretamente, a infraestrutura de conforto
suportará e o cientista de dados poderá obter os melhores resultados
e as previsões com base nas quais você poderá tomar
boas decisões de negócios A qualidade dos dados é
muito importante. Senso de chave. Imagine
um carro autônomo navegando pela rua A cidade no veículo depende de sensores e
câmeras para percebê-la Ao redor, como todos
sabemos,
carros autônomos , motoristas e menos carros
basicamente trabalham nas coisas. Como eu trabalho? Eu trabalho, mas com a câmera, câmera, os olhos da do humano para o carro
autônomo. E os sensores são
os órgãos
sensoriais dos carros autônomos Os sensores, o que ele recebeu, os sinais e a câmera, o que ele vê e o que ele traduz e combina. E isso criará um ambiente para que a
placa motriz celular avance. Se ele ver algum
sinal vermelho, ele deve parar. Se ele vê alguns obstáculos
à frente, ele deve parar. Certo? É isso que o sinal os sensores
e as
câmeras fazem, certo? Se o A estiver com defeito. Suponha que
você esteja colocando os sensores com defeito ou que a
câmera esteja suja ou que a
qualidade da câmera não seja boa Se houver um sinal vermelho
e a qualidade da câmera ou se a câmera estiver suja e não estiver
visual adequada, ela não parará,
colidirá com o sinal e poderá causar um acidente
mortal Portanto, os sensores defeituosos e a câmera,
se estiverem sujos, os dados coletados
por meio dos sensores
e da câmera serão imprecisos
ou incompletos, inconsistentes e, portanto, tomarão decisões erradas Consequentemente, o processo de
tomada de decisão do carro, como detectar pedestres,
reconhecer os sinais de trânsito
, fica comprometido Nesse cenário, mesmo os algoritmos
mais avançados não conseguem resolver a situação. É um exemplo clássico de colocar
o lixo na saída do lixo. Se você colocar lixo,
você vai pegar o lixo. Se você colocar os
sensores certos no lugar, não
colocará as câmeras boas. Se o sistema não estiver recebendo uma boa entrada por meio da
câmera e dos sensores, os algoritmos e os
modelos
de aprendizado de máquina não conseguirão
prever nada de bom. E isso causará um carro
autônomo, causará um acidente. Indústrias certas. Agora, vamos entender como, se os dados inúteis forem liberados
no sistema, o que isso afetará
os setores em
que os aplicativos de IA e
aprendizado de máquina serão usados. No caso dos cuidados de saúde, no diagnóstico médico, a precisão e a integridade dos dados do
paciente são fundamentais A coisa mais importante, histórico
médico
incorreto ou incompleto, pode levar a um diagnóstico e recomendação de
tratamento incorretos No caso financeiro,
as instituições financeiras confiam em dados para tomar decisões de investimento
e arriscar ****** baixa qualidade dos dados pode levar a perdas
financeiras e estratégias
mal informadas No caso do marketing, campanhas
de marketing
dependem de insights
baseados em dados para o
público-alvo forma eficaz, perfis de
clientes imprecisos ou informações desatualizadas podem resultar em campanhas
ineficazes
e recursos investidos Você precisa inserir
os perfis corretos do cliente e os dados no perfil do
cliente. Os
dados do perfil do cliente devem ser
muito, muito recentes para
que possam ser facilmente identificados se uma pessoa
tem interesse em comprar TV e esse interesse
foi capturado há seis meses. E se você está ligando para
aquele cliente, ok, você quer comprar, comprar uma TV TV. Então ele pode dizer que eu estava procurando uma
TV há seis meses, agora eu já comprei uma TV. Sua
campanha de marketing entrará, você ligará e o
cliente entrará. E se você segmentar um cliente que acabou de começar a
pesquisar a TV e obteve os
dados muito recentemente em 23 dias, ele ainda pode estar
procurando a TV certa. E quando você liga para
esse cliente e o
ajuda
a decidir comprar uma TV nova, ele pode acabar
comprando uma TV de você É assim que ocorre
o impacto do lixo
na saída do lixo Os dados devem ser recentes e
não devem estar desatualizados, e devem ser precisos em termos de
recomendações de comércio eletrônico. As plataformas baseadas no comportamento do usuário são tão boas quanto
os dados adequados a elas. Dados de baixa qualidade podem levar a recomendações
inadequadas de produtos e à perda de células. No caso de processamento de
linguagem natural, aplicativos de
PNL, como
fóruns de bate-papo ou análise de sentimentos, a qualidade dos
dados de treinamento
afeta significativamente a capacidade
do modelo entender e responder
à linguagem humana Reduzindo o
papel da qualidade dos dados para mitigar o efeito
do Gig e garantir a integridade dos resultados do
aprendizado de máquina,
a organização deve priorizar a qualidade dos dados
e como eles podem
priorizar seguindo
etapas como
a coleta de dados, um
processo
rigoroso de coleta de dados deve estar em vigor, incluindo procedimentos de validação e limpeza de dados para mitigar o efeito
do Gig e garantir a integridade dos resultados do
aprendizado de máquina,
a organização deve priorizar a qualidade dos dados
e como eles podem
priorizar seguindo
etapas como
a coleta de dados, um
processo
rigoroso de coleta de dados deve estar em vigor, incluindo procedimentos de validação e limpeza de dados. Ao coletar os dados, você não deve coletar
os dados desse jeito. Deve haver um processo
de coleta dos dados. Após a coleta
dos dados, deve
haver uma
validação dos dados e
os procedimentos de limpeza
também devem ser seguidos. Os dados de
coleta de dados de pré-processamento devem ser processados por meio de
várias técnicas , como lidar com valores ausentes
e encontrar valores discrepantes Muito importante em nosso processamento
de dados. Então, a governança de dados, estabelecendo a estrutura de
governança de dados para
manter a qualidade dos dados durante todo ciclo de vida, é
muito importante. A validação de dados é outra etapa
muito importante para mitigar o problema,
que é
validar e verificar regularmente a
precisão e a
consistência dos dados , porque
isso é Como discutimos
sobre a venda perdida de TV, esses dados não foram verificados, já faz 67 meses que o cliente
demonstrou interesse. Isso deve ser muito importante. Temos que validar seus dados, quão recentes são,
quão desatualizados estão, como estão, quão consistentes todas essas
coisas devem ser verificadas Em seguida, os
ciclos de feedback implementam mecanismo para monitorar
e melhorar continuamente a qualidade dos dados, relevância
contínua do trabalho à medida que avançamos
na área de big data
e aprendizado de Como se
já tivéssemos avançado muito mais e agora temos que colocar muita
ênfase no princípio do Go. princípio do Gig
permanece tão relevante quanto a qualidade dos dados
continuará sendo a base para garantir
o sucesso e
a
confiabilidade dos sistemas de TI em um mundo onde os
dados são abundantes, mas nem Adotar o
princípio do Guigo é essencial para aproveitar todo o
potencial do aprendizado de
máquina e, ao mesmo tempo, evitar para aproveitar todo o
potencial do aprendizado de
máquina e, ao mesmo tempo, evitar
erros caros e consequentes. Cuidando do show, você tem que ter muito cuidado E se você cuidar do trabalho, evitará erros caros, constantes e consequentes Em conclusão, o princípio de
Guigo serve como um lembrete da relação
simbiótica
entre a qualidade dos dados e a eficácia Ao priorizar a
qualidade dos dados, as organizações podem, com o valor de seus
investimentos em aprendizado de máquina, tomar decisões informadas e se manter à frente nos dados e no No mundo do aprendizado de
máquina, dados
de qualidade
não são apenas um ativo. É a base sobre a qual os sistemas de
inteligência são construídos. Isso é uma
coisa muito importante de entender. Dados de qualidade
não são apenas um ativo. São necessários dados de qualidade. Os dados de qualidade não são apenas
um conjunto ou outro requisito. É a base
sobre a qual criamos todos esses sistemas de IA, modelos de aprendizado de
máquina , modelos de aprendizado
profundo, sistemas de
recomendação, todas as coisas
nas quais vamos
trabalhar e usaremos Tudo
depende da qualidade dos dados. Os dados são a base e a coisa mais essencial para
o ecossistema da ciência de dados. Espero que você saiba como
podemos mitigar o problema e
como podemos obter os dados de qualidade dos
dados para nossos modelos de aprendizado de máquina e dados para nossos modelos aprendizado de máquina Obrigado
na próxima palestra.
126. Algoritmos de aprendizagem supervisionados: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos
sobre o algoritmo de
aprendizado supervisionado Será o caminho para
as previsões inteligentes
por meio do aprendizado de máquina Fazemos
previsões inteligentes, certo? Vamos começar. Temos a compreensão básica
do aprendizado supervisionado. Mas antes de passar
para os algoritmos, vamos entender qual é o conceito fundamental
de aprendizado supervisionado aprendizado supervisionado é
um conceito fundamental no mundo do aprendizado de
máquina É o rem, em que os computadores aprendem com dados rotulados
para fazer previsões Ou é o ponto
de partida das previsões, certo? Uma coisa muito básica é o aprendizado
supervisionado. Ou seja, forneceremos aos modelos de aprendizado de máquina
os dados rotulados e esses
algoritmos de aprendizado
de máquina de dados por meio do tipo de
rótulo que os dados têm Então, com base nisso, quando
os novos dados chegarem, ele analisará o
padrão aprendido
durante o treinamento e, em seguida,
tomará a decisão. Está bem? E isso sustenta inúmeras aplicações
em nossa vida diária Nesta palestra, examinaremos mais de perto os algoritmos de
aprendizado supervisionado Explorando o que
são e como funcionam e alguns dos exemplos comuns
de aprendizado supervisionado O que é aprendizado supervisionado? aprendizado supervisionado
é o tipo de aprendizado de máquina que
já abordamos na palestra anterior Onde o algoritmo é treinado
em nosso conjunto de dados rotulado. Em outras palavras, os
dados de entrada são emparelhados com a saída ou
destino correto, o algorgate O algoritmo aprende a
mapear os dados de entrada para
a saída correta, aprendendo
efetivamente com os exemplos Esse processo de aprendizado permite que
o algoritmo faça previsões ou decisões quando apresentado a
novos dados invisíveis A mecânica do aprendizado
supervisionado. aprendizado supervisionado
pode ser
dividido em alguns componentes principais O primeiro deles são os dados, pois os dados são a base
de todos esses dados do
ecossistema de ciência de dados, IA e aprendizado de máquina. O conjunto de dados do rótulo serve como um
campo de treinamento para algoritmos. Inclui os dois recursos de entrada, por exemplo,
variáveis de atributos, todas essas coisas. E os valores-alvo correspondentes, por exemplo, rótulos
e categorias. Ok, os dados são o ponto de
partida. Em seguida, vem a seleção do modelo, um algoritmo específico de
aprendizado supervisionado baseado na natureza
do seu problema Algoritmos comuns incluem
decisão três, região linear, regressão
logística, máquinas de vetores de
suporte
e redes neurais Todos esses são os
algoritmos
de aprendizado de máquina que
aplicamos em um modelo. Selecionaremos com base
na natureza do problema que
vamos resolver. Treinamento. Durante
a fase de treinamento, o algoritmo analisa
os dados de entrada, aprende a reconhecer o padrão que está disponível nos
dados, o relacionamento Além disso, analisará
nossos limites de decisão. E quais são os limites
definidos para a
tomada de decisão que leva
à saída correta. Ele ajusta iterativamente
seu parâmetro interno para minimizar os erros de previsão Depois vem o teste
e a avaliação. Após o treinamento, o modelo é avaliado em um conjunto de dados separado que não é usado
durante o treinamento É por isso que dividimos o conjunto de dados inteiro em
duas partes antes de
prosseguirmos o treinamento, ou seja treinamento e conjunto de dados de teste em
conjunto de dados de treinamento,
testamos o modelo no
conjunto de dados de teste Nós o testamos até ****** sua capacidade de generalizar
para novos Várias métricas de desempenho,
como precisão, precisão
e recuperação, são usadas para o modelo de
avaliação após o treinamento O teste e
a avaliação são uma das etapas muito, muito importantes do aprendizado
supervisionado Agora, quais são os tipos
comuns de algoritmos de aprendizado
supervisionado que usamos durante o aprendizado
supervisionado Quando selecionamos aprendizado, quando selecionamos dados, selecionamos o modelo,
selecionamos o algoritmo. Quais são esses
algoritmos que usamos? Há uma grande variedade de algoritmos de aprendizado
supervisionado, cada um adequado para diferentes
tipos de problemas Cada algoritmo funcionará em cada
problema, em cada problema. Precisaremos de uma abordagem específica para resolver um problema
na vida diária. Além disso, você não pode resolver todo o problema com
a mesma abordagem. Da mesma forma,
no aprendizado de máquina, ao usar o aprendizado
supervisionado, não
podemos resolver todo o problema
por meio de um problema de algoritmo cada
problema específico, precisaremos de uma maneira específica de
resolvê-lo, certo? Por falar nisso, existem muitos algoritmos e, com
base em nossos requisitos, podemos escolher o
mais adequado para o nosso problema. E às vezes podemos não ter certeza de qual
algoritmo funcionará. Nesse caso, os cientistas de dados se
aplicariam a três algoritmos. E eles analisarão o
resultado e as previsões. E qualquer pessoa que forneça as previsões
mais corretas, elas usarão esse
algoritmo em teste, é a maneira mais comum de finalizar qual tipo de algoritmo
devemos usar Aqui estão alguns exemplos notáveis,
como a regressão linear, um dos algoritmos de aprendizado
supervisionado mais populares Então, a regressão logística, a árvore de
decisão é muito importante VMs aleatórias de vetores de suporte florestal são redes
neurais muito importantes E os vizinhos K mais próximos. Esses são os algoritmos de aprendizado de máquina
supervisionados muito
populares algoritmos de aprendizado de máquina
supervisionados que usamos na solução de problemas Usando o
aprendizado supervisionado, qual é regulação usada para prever valores
contínuos que também
discutimos anteriormente Certo? Há dois
tipos de valores. Valores contínuos,
significam os valores numéricos e
os valores categóricos, onde temos as categorias
dos
dados claramente definidas regulação linear é usada para prever valores
contínuos Aqui. Agora, estamos bem claros de que sempre que temos valores
contínuos, precisamos prever alguns
preços de uma ação, preço de uma casa de coisas em que os
números estão envolvidos. Podemos usar a regulação
linear. Podemos pensar na
regulação linear como um dos algoritmos de
resolução de problemas para aprendizado
de máquina usando aprendizado
supervisionado Regulação linear
usada para prever valores
contínuos,
como preços de casas, com base em características como localização em pés
quadrados Ele assume uma relação linear entre o recurso de entrada
e o recurso de destino No caso da previsão do
preço da habitação, é uma relação bastante linear. Sempre que você estiver indo
para um local premium, seus preços serão altos. Quando vamos aos locais menos
econômicos, tarifa será alta. Se você estiver optando
por um metro quadrado da área de construção
, o
preço da sua casa
subirá por metro quadrado, menos preço. É uma relação linear entre o recurso de entrada e
o recurso de entrada de destino. Nesse caso, uma previsão
interna é um metro quadrado da
localização da casa, certo? Seja um pneu,
de cidade em cidade. Todos esses são o
recurso de entrada e o recurso de entrada. Nossos preços vão subir e descer. Essa é uma abordagem
que podemos usar, a regulação linear
para valores contínuos. Os problemas logísticos e logísticos
rimarilyedinaryssifbre problemas em que temos uma especificação muito clara de
que existe uma situação de sim ou não em que você pode
dizer sim ou
não ou classificar em termos de spam de e-mail ou não spam são
problemas em que temos
uma especificação muito clara de
que existe uma situação de sim ou não em que você pode
dizer sim ou
não ou classificar em termos de spam de e-mail ou não spam. Há uma
classificação muito específica que
queremos fazer. Ou queremos categorizar esse e-mail vindo de uma pessoa desconhecida como
spam ou não Isso é chamado de
classificação binária, os dois tipos de
classificação que fazemos, spam ou não spam. O binário é muito claro
que precisamos inserir para colocar em uma das
categorias, ok? Nesse caso, é
spam ou não, ok? Em caso de aprovação do empréstimo, empréstimo aprovado ou não aprovado,
aprovado ou rejeitado. No problema do pedido de empréstimo, é binário. A classificação
será empréstimo aprovado, empréstimo rejeitado,
aprovado e rejeitado. Essa será a classificação
binária. regulação logística
modela a probabilidade de uma entrada pertencer
a uma classe específica A aula é spam. Spam, ok,
decisão. A decisão. O algoritmo versátil. Eles são muito
versáteis, usados
tanto para classificação
quanto para regressão Região linear e região
logística que somos. Então, essa região linear, região
linear que podemos usar para a regressão
logística de valores contínuos, podemos usar para os problemas categóricos ou Mas, às vezes, a região linear
e as abordagens logísticas
não são educadas o suficiente
para o problema Precisamos de uma abordagem melhor. Nesse caso, a decisão Rich
entra em cena. Eles são
algoritmos muito versáteis e decentes podem ser usados para tarefas de classificação
e região. Decisão Crie uma estrutura em forma de
árvore para decisões e resultados
com base no recurso de entrada. Com base no recurso de entrada, você obterá a estrutura em
forma de árvore. Com base nisso, você pode
prever a saída. Floresta aleatória, floresta aleatória Método de execução do
Gimble que combina várias
árvores de decisão para melhorar a precisão e reduzir as máquinas
vetoriais, dando
suporte às máquinas vetoriais Os Svms são muito eficazes
para tarefas de classificação. Sbm encontra a
hiperfaixa ideal que melhor separa os pontos de dados pertencentes a classes diferentes Nesse caso,
classificaremos todo o conjunto de dados
em classes diferentes E o SBM encontrará linha
ideal de hiperplano
ideal que
separará os pontos de dados pertencentes a diferentes classes
diferentes rede neural, o aprendizado profundo as redes
neurais alimentam
particularmente as redes neurais
avançadas e as redes neurais
convencionais. As CNNs são ferramentas poderosas para
tarefas como
reconhecimento de imagem e fala . Eles resolverão um problema de reconhecimento de imagem Temos que lidar com essas
redes neurais
em redes neurais profundas. Também temos as duas abordagens. Duas abordagens alimentam a rede
neural avançada e a rede neural
convolucional Isso é N. Em seguida, vêm os K vizinhos
mais próximos usados para classificação
e regressão. Ambos os problemas podem ser resolvidos por meio previsões
não feitas com base
na classe majoritária ou no valor médio do
ponto
de dados K mais próximo no conjunto de treinamento Ele prevê os valores
com base na classe majoritária ou no valor médio
do ponto de dados K mais próximo
no conjunto de treinamento Alguns exemplos do mundo real, aplicações do aprendizado
supervisionado em caso de diagnóstico médico, a
previsão do resultado G com base em dados de
pacientes, como
detecção de câncer, são um dos exemplos
do diagnóstico
médico em
que usamos o aprendizado
supervisionado Com base nos dados do paciente, prevemos que,
seja câncer ou não, processamento de linguagem
natural e a PNL são usados para processamento de linguagem natural Usamos análise de sentimentos, classificação de
texto e tradução
automática Esse também é um exemplo
de aprendizado supervisionado. Reconhecimento de imagem,
identifique objetos, rostos e anomalias em
imagens e vídeos, ou
seja, reconhecimento de imagens Outro exemplo de
aprendizado supervisionado, pontuação de crédito, avaliação da capacidade de
crédito de indivíduos com base nos dados
financeiros e pessoais Esse também é um exemplo de aprendizado supervisionado que está sendo muito usado no setor
financeiro acessando dados
financeiros pessoais e dados pessoais para definir sua crédito com
base na pontuação de crédito Eles decidem se a pessoa
é elegível para empréstimo imobiliário, empréstimo
pessoal ou empréstimo
comercial ou não Em seguida,
os sistemas de recomendação que recomendam filmes de
produtos são contidos com base na preferência do usuário Esse é o aprendizado
supervisionado mais usado atualmente. Em todos os lugares, vemos o sistema
de recomendação em sites de comércio eletrônico, Amazon, ebay, etc Eles recomendam produtos com base
no sistema recomendado e que internamente usem o aprendizado
supervisionado Depois, os filmes,
Netflix, Hot Star, todas essas coisas que eles estão
usando sistemas de recomendação. Depois, o conteúdo baseado na
cerca, como anúncios no Facebook,
Youtube, vídeos do Youtube
com base em suas referências. Essas são as aplicações
do aprendizado supervisionado no mundo real do aprendizado supervisionado Agora, o que podemos citar nesta palestra é que
algoritmos
de aprendizado
supervisionado são horas de
trabalho de aprendizado de máquina,
possibilitando o aprendizado de computação, permitindo que os computadores aprendam com dados
rotulados e façam
previsões com notável precisão Os aplicativos abrangem setores, setores e domínios, tornando-os uma ferramenta essencial
para extrair insights, automatizar tarefas tomar decisões baseadas em dados
em nosso mundo
rico em À medida que o aprendizado de máquina
continua avançando, algoritmos de aprendizado
supervisionado
continuarão sendo a base da inovação e da solução de
problemas
nas áreas de
inteligência artificial e ciência de Espero que você tenha
conhecido os
algoritmos de
aprendizado superamplo de aprendizado de máquina que usamos. E veremos na próxima
palestra se, na próxima.
127. Regressão linear: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos sobre regressão linear, que é a base da modelagem
preditiva Vamos começar. O que
é regressão linear Antes disso,
entenderemos que a regressão linear é a base da análise
estatística
e da modelagem preditiva, desempenhando um
papel fundamental na compreensão da
relação entre as variáveis e na realização relação entre Nesta palestra,
entraremos no mundo da regressão
linear Explorando suas principais
aplicações e como ela capacita os cientistas de
dados a extrair
informações valiosas dos dados região linear é muito importante para o cientista de dados ou até mesmo para os engenheiros de
aprendizado de máquina, porque com a região
linear
que
podemos entender e prever, podemos assinar um modelo
produtivo melhor. Ok, vamos começar de novo
entendendo a região linear. Como se diz, a região linear é método
estático usado para modelar a relação entre uma variável
dependente chamada x, a variável dependente que geralmente
é denotada por y,
e mais uma
variável independente, normalmente denotada
x. X. Y será a variável dependente e
x será a variável um método
estático usado para modelar
a relação entre
uma variável
dependente chamada x,
a variável dependente que geralmente
é denotada por y,
e mais uma
variável independente, normalmente denotada
x. X. Y será a variável dependente e
x será
a variável independente. Ok, arion linear é
o método estatístico para definir a
relação entre a variável dependente x
e a variável independente Y. O que significa
quando mudamos o Como o Y está mudando
esse relacionamento? Tentamos descobrir que essas técnicas de
modelagem visam
encontrar a regulação
linear de melhor ajuste que descreva as variáveis
relacionadas Com a regulação linear, tentamos encontrar a equação linear de melhor
ajuste que pode definir
a relação entre x e y
quando x está mudando como Y está mudando
essa relação. Você tenta definir por essa equação a
equação linear. A equação de regulação é denotada por y. Queremos encontrar o y, como ele está mudando
com base no x.
A equação de regulação linear é beta 0 mais beta sobre e
em x mais erro Ok, vamos ver
o que são o beta 0 e o beta 1 e
quais são os épsilons,
isso na verdade é Agora, essa equação nos dará o valor y quando colocarmos X beta zero e beta
um mais erro. Está bem? Aqui está o independente, Y é o dependente, independente Y é a variável
dependente ou a variável alvo, ok? O valor que queremos
prever com base no X,
ok, é a variável dependente
ou variável alvo que
chamamos de variável, certo? E então beta zero
é a interceptação que representa o valor
de Y quando X é zero. Na próxima aula, no próximo slide, beta um
é a inclinação que indica o quanto y muda
para uma mudança unitária x e épsilon
representa o termo
de Este é o termo de erro
responsável pela variabilidade em y que não é explicada pela regulação
linear com x. Veja aqui, esta é
a região linear, esta é a linha de regação Este é o X que é a variável
independente no X, X, isso está no y. X está
mudando como Y está mudando. Isso é o que queremos
prever aqui, isso é o que
queremos definir aqui. Esta é a variável dependente, esta é a
variável independente X nesta equação, beta zero mais beta um em x. Veja aqui, o beta zero é
a interceptação independente Esta é a interceptação em que
ele está interceptando os y Xs. Isso é o que é o beta zero. Se você considerar esse ponto aqui
, será o beta zero, esse será o beta zero. E a primeira versão beta será a inclinação. Qual é a inclinação?
Para o eixo x? Está bem? Quanto x, y muda
quando x1x está mudando. Quando x está mudando, quanto Y está mudando?
Isso é o que? Beta 1. Está bem? Aqui, este é o ponto real e esta
é a linha de degradação Nossa previsão é essa. Para x ser chamado de um, estamos obtendo y aqui. Mas o ponto real em nosso
conjunto de dados que está aqui, essa distância entre
esse valor previsto e
o valor real é chamada de termo de
erro ou erro, e denotada por esse
épsilon quando adicionamos beta
zero mais beta um em x mais Um termo, nós, obtemos
o ponto de regeneração, ok? Você acertou. Essa é a linha de regulação e essa distância da tela é
chamada de épsilon E os pontos de taxa são os pontos de
dados que temos, esses pontos de dados, tentamos encontrar
a melhor linha de ajuste, que é a
linha de regração para definir as relações entre
x e y, ok? Aplicações da região linear. regressão linear
tem uma ampla gama de aplicações em
vários domínios Como na economia, os economistas
usam a regressão linear para analisar o impacto de variáveis
como taxas de inflação, taxas juros e gastos
do consumidor em indicadores
econômicos, como o PIB financeiro Em finanças,
a regressão linear ajuda a modelar os preços das ações, prever os retornos dos ativos e fatores de risco
dos ativos
que afetam o investimento Os portfólios de investimento
em recursos
médicos e médicos empregam
regressão linear para prever o resultado do paciente com base em fatores como idade, genética Em marketing, os profissionais de marketing
usam a regressão linear para
avaliar a eficácia
das campanhas publicitárias, analisar o comportamento do cliente,
as vendas e as ciências sociais Cientistas sociais aplicam
a regulação
linear para estudar fenômenos
como taxas de criminalidade , resultados
educacionais
e tendência prótica Na engenharia, os engenheiros usam a regulação
linear para modelar propriedades
físicas,
como a relação entre a temperatura
e a resistência do material. Construindo e avaliando o modelo de regulação
linear. A construção de um modelo de
regulação linear envolve as seguintes etapas. Coleta de dados,
a primeira coisa é coleta de
dados reuniu
o conjunto de dados que inclui variável
independente y e mais
uma variável
independente X, variável independente X e y, precisamos que essa seja a coleta de
dados Em seguida, explore os dados,
explore os dados, use estatísticas descritivas e visualizações para obter informações sobre a relação
entre as variáveis Depois vem a flexão do modelo. Use software estatístico. Use software estatístico
ou linguagem de programação como Python ou R para criar um software de regeneração
linear, estimar o valor
de beta zero e
beta um que avaliação do modelo
é a próxima etapa em que acessar o
desempenho do modelo usando matrizes Métricas como coeficiente
de determinação, médio quadrático
R
ou erro quadrático médio raiz, RMSC Essas métricas quantificam o quão
bem o modelo se ajusta aos dados. Interpretação, interprete
o coeficiente beta zero e beta um Para entender a força e a direção
da relação entre
a previsão das variáveis, use o modelo de tendência para fazer previsões para os
novos pontos de dados Quais são os desafios
dessa região linear? Embora a região linear seja uma
ferramenta versátil e poderosa, ela tem limitações. Ele pressupõe que um tempo linear nem sempre seja verdadeiro
em cenários do mundo real Além disso, pode não capturar relacionamentos
complexos ou não relacionados. Em conclusão, a regulação
linear é uma
técnica fundamental no mundo
da modelagem estática e
preditiva Sua simplicidade, interpretabilidade
e ampla variedade de aplicativos o
tornam uma
ferramenta essencial para extrair
informações valiosas dos dados E
tomar decisões informadas em diversos
campos e indústrias. Embora sirva como um
trampolim para
avançar, avance para as técnicas avançadas de
modelagem Dominar a regulação linear é uma habilidade fundamental para qualquer cientista ou analista de
dados Entendemos os fundamentos da regressão
linear e quais são as aplicações
para a região linear, como construímos um modelo de
regressão linear e quais são os desafios que ela enfrenta Na próxima palestra, tentaremos fazer
a região usando
nossa programação, veja dentro da próxima palestra
128. Realizando regressão linear em R: Olá e bem-vindo de volta. Na aula anterior, aprendemos sobre a
regeneração linear Nós entendemos o
conceito em teoria. Agora faremos um exemplo simples de regressão
linear e
veremos como podemos implementar a região linear
usando a programação R. O R fornece uma ampla
variedade de pacotes e funções para análise de
regeneração linear Aqui, estou lhe dando um
guia para realizar a região linear
passo a passo
usando a programação R. O primeiro passo deve
ser a preparação dos dados. Como os dados são a base para
todos os sinais de dados, aprendizado
de máquina, visualizações de
dados, aprendizado
profundo, tudo
relacionado à ciência de dados A primeira etapa é a preparação
dos dados. Os dados são muito importantes. Para isso, vamos usar o arquivo
CSV que conterá
um conjunto de dados muito simples Está bem? O primeiro passo é
preparar sua fita, preparar seus dados, carregar seus dados em R. Então, ela deve estar
muito formatada, deve ter as variáveis dependentes e
independentes Ok, aqui estamos usando dados, CSP que eu carrego Ao usar re file
em R, todos nós carregamos. Essa é uma função que nos
permite ler os dados,
ok, a partir de um arquivo CSV, estou
criando uma variável aqui, data E estou usando o arquivo CSV para ler os dados desse arquivo e estou armazenando o
resultado nos dados Ok, vamos executar isso. Está bem? Eu fornecerei o arquivo
CSV de dados para você. Você pode baixá-lo
da classe e usá-lo, ok? Você precisa colocar os dados CSP no
diretório do projeto para que ele leia corretamente e forneça o caminho completo para esse diretório E vai ler, ok. Caso contrário, ele
dará o caminho errado. Isso lhe causará o erro. Ok, arquivo, não um, apenas todos aqueles
erros que você receberá. O próximo passo é
que veremos o que está dentro desses dados. Usaremos a função
head head e passaremos os dados desse objeto. E então, quando executamos isso, podemos ver que o que
há em nosso conjunto de dados é um conjunto de dados bem simples
que tem x e y. X é a
variável independente e Y é a variável dependente com
base em x. Y está mudando Ok, para cada x, traçaremos y e tentaremos
encontrar uma região linear. linha de regressão mostrará, o que representará essa
relação entre x e y. Ela se ajustará melhor a todos
esses pontos, pontos, ok Com base nisso, se você fornecer algum outro valor x que não
esteja no, ele predirá
o valor y, ok? O próximo passo é a construção de modelos. Para isso, vamos usar
a função LM. Função L para modelo
linear. Está bem? Lm significa modelo linear. função Lm é a que
vamos usar para a regressão linear ou para criar o modelo linear Está bem? É escrita como função
L M LM que usamos para construir um modelo de
regressão linear Neste exemplo, preveremos a
variável dependente y com base
na variável independente x. Ok, para construir um modelo de
regressão linear, criaremos um objeto de
modelo aqui E então usaremos a
função L M e diremos que X, Y depende de x dados que os
dados fornecerão como dados, objeto de
dados
que criamos aqui. Está bem? Os dados são iguais
aos dados e Y depende de x.
Agora vamos executar isso. Isso criará nosso modelo. Agora eu quero ver o
resumo do nosso modelo. Está bem? Para isso, podemos usar a função de resumo e passar esse objeto de modelo
aqui. Vamos executar isso. Este é o resumo
do nosso modelo. Aqui você pode ver
a média residual, mediana e o primeiro quartil Terceiro quartil e valores
máximos, ok? O valor máximo é 24.469 Ok. Então podemos ver o coeficiente erro padrão
estimado e o valor R. Ok? Toda a interceptação, tudo que você pode ver,
essas são as coisas Veremos como você simplesmente vê
as coisas e como podemos determinar as coisas com base nessa letra de
primeiro quartil,
terceiro quartil e valores
máximos Ok, a próxima etapa é a avaliação do
modelo. Agora você pode avaliar o
desempenho do modelo examinando a estática resumida, incluindo valores
do
coeficiente R A próxima etapa são as previsões. Usaremos a função de previsão
para fazer previsões. Com seu modelo, você pode especificar
um novo valor x que não está presente no conjunto de dados
para o qual queremos Preveja o valor de y aqui. Vamos criar um, um
novo objeto aqui, novos dados de sublinhado aqui Vou usar o quadro de dados aqui, x. Vou nos fornecer valores de
102030 x. Estou dando aqui três valores. Estou dando 1.020,30 Para
esses três valores, quero prever para
dez, qual será o y? Por 20, o que será, e por 30. Então eu vou usar as previsões. Ok, vou usar a previsão. Vou armazenar os novos valores
nas previsões. E vou usar a função de predição do
modelo de previsão dois, os valores y com
base no valor x. Para isso, usarei nosso modelo
que criamos aqui. Ok, na função alum,
criamos esse modelo. Vou usar esse modelo para
prever os valores. Vou passar o modelo
para prever a função. E novos dados são iguais
a novos dados de sublinhado. Os novos dados sublinham que
estamos passando pelo vetor X. Está bem? Esse vetor passará
por esses novos dados. Agora, isso nos dará os
novos valores previstos. Ok, agora temos
as previsões. Vamos imprimir as previsões
aqui. Vamos fazer isso. Vamos ver aqui
agora
que podemos ver o valor de
predição 22,8 para 102.035,5 e 48,5 30 Deixe-me
colocar isso no pedaço para que possamos ver o
resultado aqui Veja aqui. Agora estamos obtendo
os três valores para y x. Quando x é dez, estamos obtendo o valor y, 22,78 Quando você
olha os dados aqui, não
há dez, certo? Não 2030. Mas você vê um 38. Para 38, é 56. 30 está correto, certo? Para 20, estamos recebendo 35,65.
Para dez, estamos recebendo 22. Agora vamos visualizar
isso traçando. Usaremos a função de gráfico
e nós o x e y e
daremos o título
como uma região linear e Xlab e Ylab Alta Tente traçar a linha da região
linear usando a Função Able. Para a função Able
traçar a linha de regressão de Alec, usamos o modelo que
criamos e especificaremos a cor como o
regrlineilllottdlt'seeeow'etlegrelinere usamos o modelo que
criamos e especificaremos a cor como o
regrlineilllottdlt'seeeow'etlegrelinere, nossos modelos de regressão linear. Agora, quando você pode prever
qualquer valor de x aqui para 30, esse será o
valor de y para 35. Essa será a interceptação. Quando você coloca uma linha daqui até aqui e onde ela está cruzando, esse será o valor
previsto, 50 para todas essas coisas. Alguns dos valores estão
longe
daqui, dessa linha vermelha até qual será a
distância desse ponto. Isso se chama erro, certo? Epsilon que vimos
em nossa parte teórica, certo? A distância entre o ponto
e a linha de regressão, épsilon ou erro É assim que podemos usar a região linear
para prever o valor. Agora, se você pegar qualquer valor de x e passar por aqui,
encontrará o valor y
nessa regressão, os
valores encontrará o valor y
nessa previstos Ok, agora a região linear é uma ferramenta poderosa
para análise
e previsão de dados , modelagem
preditiva Com o R, você pode facilmente
realizar operações lineares, avaliar a relação entre as variáveis e fazer
previsões com base em seu modelo Nisso, vimos a
introdução das informações básicas à região linear,
mas há muito mais a ser
explorado, incluindo o tratamento diagnóstico do
modelo
Monte Colinearity e técnicas avançadas a
introdução das informações básicas à região linear,
mas há muito mais a ser
explorado, incluindo o tratamento do diagnóstico do
modelo
Monte Colinearity e técnicas avançadas de regressão. A regressão linear é apenas uma faceta do rico panorama da análise
estatística
e do aprendizado
de máquina podemos fazer muito
mais dessas Também veremos mais alguns exemplos de
regressão linear. Espero que você saiba
como podemos criar o modelo de região linear e como podemos prever os valores. Como podemos traçar uma linha de
regressão aqui para prever os valores veja na próxima aula
129. Preveja a altura de uma pessoa usando regressão linear: Olá e bem-vindo de volta. Na aula anterior, vimos como
podemos
criar um modelo de escavação linear,
ok, para prever
valores de Y com base no X. Ok, aqui X era a variável independente e Y era a variável dependente Agora vamos dar um passo adiante, um pequeno passo em direção ao filho. Neste exercício,
o que faremos tentar prever a altura
da pessoa usando graus lineares Usando nossa programação, é claro. Ok, a primeira coisa é
quando você trabalha em um projeto, você obtém o conjunto de dados real Aqui. O que estou fazendo é que não estou
usando os dados do mundo real. Em vez disso, estou gerando
um conjunto de dados sintético. Na maioria das vezes, obtemos
os dados em tempo real. Mas, com
toda a prática, não
podemos trabalhar sempre em um conjunto de dados muito
grande, certo? Nesse caso, o que fazemos é criar nosso próprio conjunto de dados, ok, com os valores aleatórios, e tentamos criar
modelos e trabalhar nele Ok, depois implementaremos a mesma coisa usando
os dados do mundo real. Neste exemplo,
vou usar conjunto de dados
sintéticos com valores de
idade variando 18 a 65 anos. Teremos
os valores de idade para pessoas de 18
anos a 65 anos Está bem? E então,
o que faremos criar valores de
altura correspondentes usando uma relação linear. Ok, primeiro
criaremos valores de idade, 18-65. Para cada valor tentaremos criar um
suporte de altura correspondente de 18 anos, pessoa terá a altura 19 anos, site como esse OK. Criaremos uma altura
correspondente aleatória para a pessoa de uma determinada idade usando uma relação
linear. Em seguida, adicionamos algum ruído aleatório. Todos os dados nunca
serão perfeitos, certo, algum ruído nos dados. Teremos alguma
irregularidade nos dados. Adicionaremos algum ruído aleatório para simular com o conjunto de dados do mundo
real Porque no conjunto de dados
do mundo real, nunca
teremos
os valores corretos, teremos o ruído
no conjunto Devemos ter a
ambigüidade em nosso conjunto de dados. Ok, criaremos
essa ambigüidade usando o ruído aleatório para simular
os dados do mundo real Criamos um quadro de
dados chamado dados das variáveis H e
altura Em seguida, realizaremos a
gração linear usando a função LM, onde prevemos a altura
H Resumimos o modelo de região usando o
modelo resumido. Fizemos tudo isso
no exercício anterior da
mesma forma que faremos aqui, mas em uma
perspectiva diferente, certo? No resumo, usaremos o resumo para resumir
nosso modelo de regeneração. E passaremos esse modelo
que criamos durante a função Lm e
veremos os policiais e as Prevemos a altura
para um novo valor H. Depois de criarmos um modelo, o que faremos é
passar um novo valor de idade, supostamente de 30 anos
ou 35 anos, e tentaremos prever
a altura da idade. Para isso, usaremos
a função de previsão. Finalmente, vamos
imprimir e visualizar a regressão linear, ok Preveja a altura e visualize
essa linha de regressão também Ok, vamos começar
com a primeira coisa que
faremos gerar um conjunto de dados sintético Para isso, estou usando o conjunto 123. O que ele fará, ele configurará
o conjunto para a
reprodutibilidade, ok Cada vez, ele produzirá
os mesmos dados de configuração. Está bem? Aqui, levaremos
do intervalo de 18 a 65. Aqui, então, ele fará um álbum de 18 a 65. Então, para a altura, vou 15150 para torná-la uma linha
básica mínima As pessoas terão 150 ok. Altura, 150 centímetros. Então, teremos
mais 0,5 em H aqui. Usaremos a
função de norma aqui. Daremos o comprimento de H, depois usaremos a média zero
e o desvio padrão cinco Isso gerará a
altura sintética para cada idade. Ok, aqui estamos,
passando o H aqui. Ok, vamos executar isso. Agora criamos o conjunto
de dados sintético. Agora, o que vou fazer é
criar um dataframe. Vou armazenar no quadro de
dados que é igual a h e a altura é igual à altura. Essa altura, ok, é igual
a h é igual a isso. Ok, vamos executar isso também. Agora veremos o conjunto de dados, o que criamos Execute isso, veja aqui agora por 18. A altura aleatória. Nós
geramos isso há 1920 anos. Isso, ok. Agora temos
o conjunto de dados em nossas mãos A próxima coisa que
faremos é criar um
modelo de regação linear para isso Vou usar um modelo de variável
aqui e vou usar a função LM para criar
nosso modelo de ação linear Aqui, darei altura, altura como o valor que
você deseja prever variável dependente e
como variável independente. E dados são iguais a dados. Vamos criar esse modelo
executando esse trecho de código. Agora que isso foi criado,
deixe-me remover isso. OK. Isso eu fiz anteriormente. Ok, agora nosso modelo está pronto. Agora nosso modelo está pronto. Agora, vamos ver o
resumo do nosso modelo. Aqui você pode ver todos
esses valores, coeficientes e o valor do valor da era padrão,
todas essas coisas, ok Nossos valores quadrados. Ok, o que vou fazer agora, temos o modelo
pronto conosco agora. Quero prever a idade
de uma pessoa de 30 anos. Para isso, vou criar
uma nova era variável. E vou usar a função
dataframe do quadro de dados aqui. Vou passar de 30 e
depois da altura prevista. Quero prever a altura
dessa pessoa de 30 anos. Vou usar a função de previsão. Com base em que vou prever. Vou usar o modelo para
prever a altura. Vou passar esse
modelo que
criamos aqui usando a função LM Está bem? E novos dados são
iguais a uma nova era aqui. Vou passar a nova era como 30. Eu passo essa variável
que contém o valor. Ok, vamos executar isso. Agora,
o que vou fazer tentar imprimir a altura
prevista. Temos a altura prevista. Se você ver aqui, a altura
prevista está boa. Deixe-me correr. Essa altura prevista para uma pessoa de 30 anos é 165,29. Dessa forma,
previmos a altura de uma pessoa de 30
anos Se você tiver os dados em tempo real, poderá usar esses dados aqui. Está bem? Certo. E então você pode prever, agora deixe-me colocar algum outro
valor, como eu quero
colocar como dados de pessoas de 49 anos. Agora é 165. Vamos ver qual
será o valor para 49, para pessoa de 49 anos, a altura será
174,84 8.174,47 Então essa é a altura prevista. Dessa forma, podemos
prever a altura. Agora vamos desenhar a linha de
regulação aqui. Eu escrevi um trecho de código em que, se você não
instalou o gráfico 2 do GG, pode escrever esse código O que isso fará se
for necessário o gráfico GG, ele instalará o pacote
e usará a biblioteca, ok? E se já estiver
lá, tudo bem, ele
vai usar isso. OK. Então, aqui vamos usar a função de plotagem G GG.
Vou passar os dados. X será o H e y, x será a altura
e o ponto de partida, método
gomo LM, cor azul para a linha regressora e todos esses cabeçalhos,
sabe, O mínimo que
vimos na seção do gráfico GG. Novo é o quadro de dados igual a 30 e a altura prevista.
Vou usar o modelo. Ok, então nós imprimimos. Ok, vamos executar isso. Vamos ver aqui. Aqui
também estamos obtendo a altura de uma pessoa de
30, 30 anos. E veja aqui que estamos obtendo
a linha de regressão. Também aqui, a regressão
prediz a altura com base na idade. Essa é a idade do eixo X
e essa é a altura Para cada idade, você obterá um
ponto na linha de regressão Essa será a
altura prevista para suporte de 52 anos. Ele virá aqui, essa
será a altura, 52 anos, pessoa 62 anos. Ele virá aqui desse
jeito, ok? Virá aqui assim, ok? Dessa forma, podemos prever
aqui, se você quiser, você pode dar qualquer um e
ele preverá. Espero que você tenha entendido a regressão linear e te
veja na próxima etapa
130. Regressão logística: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre
a região logística Vamos entender qual é
a matemática por trás dessa matemática por trás da classificação
usando a região logística Ok, então vamos começar. regulação logística é um método estatístico
poderoso usado para
tarefas de classificação binária, como detecção de spam Como podemos ver o e-mail, ele usa essa
classificação de e-mail, por
exemplo, quando você recebe o e-mail, ele o classifica
como autêntico ou spam Então, todos os
e-mails de spam irão para as pastas de spam, certo? Então esse é um exemplo de regulação
logística ou classificação
binária Diagnóstico médico,
seja um ou qualquer dígito específico ou
esse tipo de classificação Além disso, podemos fazer com que a classificação
da largura de banda também seja a avaliação de risco ao
conceder o empréstimo ou o cartão de crédito Os bancos e
instituições financeiras avaliam o risco de crédito, ajustam, aprovam
ou
rejeitam, tudo bem, para descobrir se o credor será capaz de reembolsar
o dinheiro Apesar do nome,
não é uma regressão
no sentido tradicional, mas um algoritmo de classificação Embora o nome seja
regressão logística, na verdade, não
é uma regressão
no sentido tradicional, mas é um algoritmo de classificação Nesta palestra,
exploraremos os fundamentos da regressão
logística,
matemática, fundamentos
e aplicações do mundo real, e aplicações do mundo real onde todos podemos usar a regressão
logística, entendendo a classificação binária regressão
logística,
matemática, fundamentos
e aplicações do mundo real,
onde todos podemos usar a regressão
logística, entendendo a classificação binária. Na
classificação binária, lidamos com problemas em que o objetivo é
atribuir observações a uma ou duas classes
ou categorias. Por exemplo, classificar e-mails como spam ou não spam, prever se um
cliente abandonará ou permanecerá na empresa de telecomunicações, determinando
se
o resultado
de um exame médico é positivo A região logística nos ajuda a
resolver esses problemas
modelando a probabilidade de
que uma observação pertença a uma classe específica. Coisas como
spam ou não spam. Exame médico, exame de sangue é uma doença específica,
é positiva ou não, como no caso de covid, foi covid positivo
ou covid Essa classificação binária
e a regressão logística nos ajudam a resolver
esses problemas modelando a probabilidade
de uma observação pertencer a uma classe específica função da região logística é o coração da região
logística E a chave para a regressão
logística está
na função logística,
também conhecida como função sigmóide também conhecida como função sigmóide Essa função sigmóide é muito importante na região logística, que mapeia qualquer entrada
para um valor 0-1
0,1 em 0-1 que ela A
função de região logística é definida como p de y igual a um igual a um por um mais e à potência menos beta
zero mais beta um em x. Você se lembra desse Beta
zero mais beta um em x. Usamos isso na equação
linear, mas aqui a fórmula
tem uma alteração É um, y mais e elevado à potência menos beta zero
mais beta um em x p de y. Qual um é a probabilidade de que a observação pertença a mais um Aqui, isso significa que
isso dará a probabilidade da
observação de que ela pertence à classe em e.
Essa fórmula fornecerá a probabilidade beta zero interceptação que já vimos
na regressão linear beta um em x representa a combinação linear
dos recursos de entrada. curva de inclinação da função logística começa perto de zero e aumenta
gradualmente e se aproxima
sintoticamente Será como essa curva
senoidal, certo? Em seguida, treinando um modelo de
regressão logística. Para treinar o modelo de
recreação logística, usamos um conjunto de dados com Para cada exemplo,
calculamos a probabilidade de pertencer à classe um
usando a função logística Em seguida, definimos uma função de perda, que é uma perda de entropia cruzada Para medir o desempenho do
modelo, o objetivo é encontrar
o valor de beta zero e beta um que
minimize a função de perda Essa otimização
geralmente é realizada usando métodos
numéricos ou algoritmos de
otimização,
como gradiente descendente. Esse é outro termo muito
importante. Veremos aplicações
da região logística. regressão logística
é amplamente usada em vários domínios, como
já discutimos no diagnóstico médico,
prevendo um suporte ao resultado de uma doença,
por exemplo, diabetes Com base nos dados do paciente, como resultados de
exames ou histórico médico, alimentamos os dados
e
eles nos dirão se é um
diabetes patente, diabético ou análise de marketing e de clientes identifica possíveis riscos direcionados à
publicidade e à segmentação de
clientes Todas essas coisas, podemos usar a
regulamentação logística em finanças Já discutimos a
avaliação de risco de crédito, detecção de
fraudes
e inadimplência de empréstimos, processamento de linguagem
natural, PNL, classificação de texto,
por exemplo, uma análise de sentimentos. A detecção de spam
é uma aplicação comum
da PNL usando
análise de imagens de
regiões logísticas detecção de
fraudes
e inadimplência de empréstimos, processamento de linguagem
natural,
PNL, classificação de texto,
por exemplo, uma análise de sentimentos. A detecção de spam
é uma aplicação comum
da PNL usando
análise de imagens de
regiões logísticas em um processamento de imagens. regulação logística pode ser usada para
classificação binária da tarefa Se você fornecer imagens
de apoio de humanos e animais
com base em um determinado Ca, isso definirá se essa imagem pertence
à categoria humana
ou à categoria animal. Assim. interpretar os coeficientes logísticos de
recreação, o beta zero
eficiente e o beta um na relação logística têm beta zero
eficiente e o beta Interpretar os cofficiens
logísticos,
interpretar os coeficientes logísticos de
recreação, o beta zero
eficiente e o beta um na relação logística têm uma interpretação significativa. Por exemplo, em um modelo de avaliação de
risco de crédito, beta 1 pode
representar o impacto da renda na
probabilidade de inadimplência. Um beta positivo indica
que uma renda mais alta reduz
o risco de inadimplência. Qual é a conclusão? O cátion logístico é uma ferramenta
volátil e interpretável para Devemos sempre
lembrar que isso é para o problema de
classificação binária. É uma base
matemática capaz de estimar
probabilidades, tornando-a um
componente essencial da modelagem de previsão em
ciência de dados e aprendizado de máquina Embora seja um algoritmo
fundamental, suas aplicações
são de longo alcance, contribuindo para uma melhor
tomada de decisão em todos os
setores e domínios À medida que continuamos escapando de
nossas soluções baseadas em dados. regressão logística
continua sendo um recurso valioso para enfrentar os desafios de classificação do mundo real. Tudo isso tem a ver com uma teoria, parte da relação logística Na próxima aula, faremos uma análise prática simples usando R e tentaremos implementar
uma regressão logística Vê a próxima palestra.
131. Previsão de rotatividade de clientes usando regressão logística: Olá e bem-vindo. Nesta palestra, escreveremos
nosso programa de
regressão logística E tentaremos prever se um cliente
sairá ou não Então, vamos ver, isso é nosso enquanto o projeto está
prevendo a perda de clientes. Ok, então aqui o que fazemos criar um conjunto de dados de amostra com duas variáveis e
em que John é um resultado binário
que é zero ou um representando se um
cliente saiu ou não Ok, então é isso que
estamos tentando fazer. Está bem? Usamos GLM, GL, GL é um modelo geral Está bem? Usamos o GLM aqui, a função
GLM para ajustar um modelo de ração
logística,
onde, modelo em
função da idade, o argumento familiar
é Para especificar a regressão logística. O argumento definido como
lógica indica a função do link
logístico Ok, exibimos um resumo do modelo de regressão
logística usando função de
resumo e passaremos o modelo logístico para
essa função de resumo para ver os valores dos
coeficientes Fazemos previsões
para novos dados. E usaremos os dados 38,62 e veremos se os
dois são um cliente com
38,62 qual é a probabilidade
usando a função de previsão com o tipo de argumento Ok, isso retorna a probabilidade
prevista de John para esses dois clientes. E depois imprimimos, ok, vamos ver aqui. Também estou criando uma amostra de dados para classificação de cores de
bandas
aqui. Estamos usando set seed
123 e data e eu estou usando data frame e
estou criando esses dois vetores de rotatividade Na idade, estou dando o H aqui, estou dando o valor de John
01 para as faixas etárias. Está bem? A rotatividade é um resultado binário
, como já discutimos E então vamos executar isso. Está bem? Agora, criamos um conjunto
de dados de amostra. Está bem? Agora Lex está criando
um modelo logístico para isso Usaremos a função GLM
e, na função GLM, com base
em que criaremos essa coisa de criação logística
com base no H Aqui, os dados serão os
dados e a família será a ligação binomial
igual à lógica Isso significa que vamos
para a regressão logística. Ok, vamos executar isso agora. Nosso
modelo de regressão logística está pronto. Agora, o que faremos,
passaremos esse modelo logístico para a função de
resumo para ver o resumo desse modelo de
regressão Aqui você pode ver
os valores Copic, erros de
interceptação,
valor líquido e valores R. Ok, aqui você pode ver o parâmetro dessa
pessoa para proibição, considerado um desvio
interno e um desvio residual C. Todas essas coisas,
coisas que você pode ver. A próxima coisa que quero saber é que nosso modelo
logístico está pronto. Quero prever se o cliente
sairá ou não Vou passar os dois H 38,62 e vou ver a
probabilidade dos dados Vou criar novos dados. Vou passar os dois
vetores para H para, vou armazenar os novos dados Em seguida, passarei esses novos dados
para a função de previsão. Vou passar as duas coisas, modelo
logístico que
criamos e os novos
dados que estão aqui, o passe e digitar uma
resposta. Então executamos isso. Agora temos os valores
previstos nesses adereços
previstos, então
tentaremos imprimi-los. Vamos executar isso. Veja que a probabilidade de
produzir o cliente H 38 está chegando a 0,077,
enquanto o cliente de 60 a 22
anos está em torno de 97%.
Aqui, torno de 97% podemos dizer facilmente que
o cliente com H 62 produzirá, pois 100% 97% é quase
98% 97,75%. Aqui, a probabilidade de enviar
o cliente com 62 é quase 98% . Cliente com 38 é
menor H 38 está chegando a 0,077,
enquanto o cliente de 60 a 22
anos está em torno de 97%.
Aqui,
podemos dizer facilmente que
o cliente com H 62
produzirá, pois
100% 97% é quase
98% 97,75%. Aqui, a probabilidade de enviar
o cliente com 62 é quase 98%. Cliente com 38 é
menor. OK. Aqui observamos
que, com os dois dados, a probabilidade é muito menor 38. Se eu mudar para 18 e
suponha que vou mudar para 52. Agora vou executá-lo novamente e
veremos agora que a probabilidade
de 18 é ainda reduzida. Para os 0,004 6% aqui, são 76%. O que
concluímos a partir daqui, a probabilidade de o será
a probabilidade de o
cliente produzir resultados aqui Mesmo com 72 anos, temos quase
99% de probabilidade que um cliente com 72
ganhe 28 É quase zero obter
a probabilidade, mais probabilidade para clientes
menos idosos. Quanto maior a idade, maior
será a probabilidade de o
cliente sair. É assim que podemos usar região
logística para prever se um cliente
sairá ou não Espero que você tenha entendido como
usar a função GLM para Los na região logística, veja na próxima
palestra
132. Algoritmo KNN: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos sobre k vizinhos mais próximos em sorteio. Chamamos isso de algoritmo
simples e eficaz para classificação e
regulação. Ok, nós vimos a
região e depois
vimos a
etiqueta de regulação logística para classificação Agora veremos o non
que pode ser usado
tanto para classificação quanto para região, ambos problemas. Ok, vamos começar. Vizinho mais próximo ou algoritmo
efetivo simples para problemas de classificação
e região. No mundo do
aprendizado de máquina e da ciência de dados, as navas ou
algoritmos mais próximos são
uma das
técnicas mais simples e
extremamente poderosas para resolver problemas classificação e
regressão Tanto quando você tem
problemas que podem ser de classificação
e regressão, podemos usar
ambos.
É um algoritmo
não paramétrico baseado em instâncias que depende da proximidade Tudo gira em torno da proximidade. Vamos ver como isso funciona. Nesta palestra, exploraremos os fundamentos
da
Canon e como ela funciona, suas variações e as aplicações do mundo
real Como o nome sugere, em sua essência está um
algoritmo simples Ele faz previsões com base
na classe majoritária
para classificação E a média da regressão basicamente trata
de duas coisas Para problemas de classificação, as previsões são baseadas na classe majoritária para
os problemas de regressão, ou
seja, a base,
ok, dos k
pontos de dados mais próximos de uma determinada consulta O k no k NN representa o número de vizinhos
mais próximos
considerados ao fazer previsões Neste vizinho
mais próximo, k representa o número de vizinhos
mais próximos considerados ao fazer previsões
para classificação, essas são as etapas A primeira é a representação
de dados. Comece com um conjunto de dados rotulado em
que cada ponto de dados tem um rótulo de classe e, em seguida, uma métrica de
distância Escolha uma
métrica de distância, por exemplo, incluindo distância ou distância padrão do
homem para medir a
semelhança entre os pontos de
dados na previsão A próxima é a previsão. Para classificar um novo ponto de dados, calcule a distância entre o ponto de dados e todos os outros
pontos no conjunto Selecione os K
vizinhos mais próximos com base
na menor distância do voto
majoritário. Determine a classe
de um novo ponto de dados
obtendo o voto majoritário
entre as classes, seus vizinhos mais próximos K Para representação de
dados de regressão Novamente, comece com
o conjunto de dados do rótulo, mas desta vez os rótulos
são valores contínuos, ou
seja, numéricos, ok As métricas de distância usam as mesmas
métricas de distância em simetria, como vimos
na classificação Essa é a distância Ec
ou distância de Manhattan, para medir a semelhança
entre os pontos de dados Ok, então vem a previsão. Para prever um novo valor
de ponto de dados. Calcule a distância
entre esse ponto e todos os outros pontos no conjunto de dados. Selecione os K vizinhos mais próximos com base na menor distância e, em
seguida, o valor médio para completar a média média
dos rótulos dos K vizinhos
mais próximos. Então, todos os vizinhos mais próximos
serão levados e, em seguida, esses serão calculados. Então, isso significa que
esse valor médio, qualquer que seja o
valor médio, se torna a previsão
para o novo ponto de dados. Está bem? Variações de,
Existem três variações de não. A primeira é a Canon ponderada, segunda é a métrica de distância e a terceira é o Fit
Scaling. A Canon ponderada atribui pesos diferentes ao vizinho com base na Os
vizinhos de distância e fechamento podem ter maior
influência na previsão. Em seguida, a segunda
é a métrica de distância. Experimente as várias métricas de
distância para adaptar o algoritmo
para especificar tipos de dados, tipos de dados ou domínios dimensionamento de recursos normaliza
ou padroniza os recursos para garantir que nenhum recurso domine Aplicativos do mundo real
de não-descobertas, aplicativos em uma
ampla variedade de domínios, como sistemas de recomendação
como Netflix ou Facebook, ou até mesmo os cartões Amazon
e Flip. Todos esses sites de comércio eletrônico, as plataformas Ott no sistema de
recomendação, produtos recomendados e
filmes são contidos com base no comportamento
ou nas preferências usuais Lá também podemos usar o reconhecimento de
imagem e fala. Em seguida, o diagnóstico médico. Detecção de anomalias,
detectando anomalias no tráfego
da
rede de transações financeiras tráfego
da
rede de transações financeiras ou nos processos industriais. Os problemas de processamento de linguagem natural da
PNL também podem ser resolvidos Este cânone classifica documentos de
texto, análise
de sentimentos e tradução de
idiomas Então, outro exemplo real é o monitoramento
ambiental, previsão da qualidade do ar, a
previsão do tempo e o monitoramento da
poluição Todos esses problemas,
podemos usar o canhão. Ok, os desafios. Embora a Canon seja um algoritmo de
estilo, ela tem algumas limitações. Pode ser computacionalmente
caro, especialmente com o
grande conjunto de dados, pois requer o cálculo da
distância de todos os pontos de
dados Isso será muito caro de
computar, certo? Porque para cada
ponto de dados, precisamos calcular o curso da dimensionalidade. Como o
recurso de número de dimensões incentiva, a eficácia do non pode diminuir devido ao curso
da dimensionalidade Escolher k, selecionar o valor
apropriado para K é crucial e pode impactar
o desempenho do modelo. Ok, lidar com
dados desequilibrados pode ter problemas com o conjunto de dados desequilibrado, em
que uma classe supera
significativamente Está bem? Todos esses são os
desafios para quem não é da Canon. É uma adição valiosa à caixa de ferramentas de aprendizado de
máquina devido à sua simplicidade
e versatilidade. Mas tem algumas limitações que já entendemos. É particularmente
útil ao lidar com um conjunto de dados de
tamanho pequeno a moderado conjunto de dados pequeno e médio pode ser muito;
se você tiver um conjunto
de dados pequeno, moderadamente médio
ou não tão grande
, nenhum pode ser realmente
útil para tarefas de recreação
e classificação útil para tarefas de recreação Ao entender o
princípio por trás on e seus diversos dados, cientistas e profissionais de
aprendizado de máquina podem aproveitar seu poder para fazer previsões precisas
e classificar dados forma eficaz em Tudo isso não tem nada a ver com teoria. tentaremos fazer as coisas práticas
usando nossa programação. Veja o interior da próxima palestra.
133. Implementando kNN: E bem-vindo de volta.
Na palestra anterior, vimos sobre algoritmo Nesta palestra, vamos
implementar o não uso do algoritmo K de
nosso
vizinho mais próximo de programação para classificação Está bem? As etapas, eu vou te dizer quais são as etapas que você seguirá neste exemplo. Primeiro, carregamos o pacote de
classes que fornece a função in para
classificação. Usamos o popular
conjunto de dados irlandês que
já usamos em nossas
palestras nesta No início, você deve estar ciente do conjunto de dados
Iris, que está disponível em R e
contém medidas de flores de íris junto com
seus Dividimos o conjunto de dados em conjuntos de
treinamento e teste, com 70% dos dados usados
para treinar o conjunto Vamos nos dividir em conjuntos de
treinamento e teste, quais 70% dos dados serão
usados para o treinamento e 30% dos dados serão para
fins de teste. Normalmente, no mundo real, usamos 80% dos dados para
treinamento e 20% para testes, mas 70 30% também é bom. Dependendo
dos requisitos do seu projeto ou dos seus dados, você pode decidir se
deseja receber 60% para treinamento, 70% para treinamento e 80%
para treinamento. Para que você possa decidir com base em suas necessidades e
nas necessidades do negócio. Aqui definimos o número
de vizinhos, ou seja, k, que determina
quantos vizinhos mais próximos devem
ser considerados ao
fazer previsões Decidir o número de
vizinhos do Uber é muito
importante, enquanto fazer o nonce determina
quantos vizinhos mais próximos devem
ser considerados, pois isso
afetará as previsões Certo? Em seguida, realizamos
a classificação nove
usando a função nove, na qual especificamos
os dados de treinamento, testes ,
dados, níveis de classe e o
valor de K. Neste exemplo, tomaremos k cinco, vizinho
mais próximo considerado
será o cinco Depois disso, avaliamos a precisão do
modelo comparando as espécies previstas com espécies
reais
no conjunto de testes. Em seguida, criamos uma métrica de
confusão para avaliar ainda mais o
desempenho do modelo. OK. Ao executar esse código, você obterá a precisão do classificador canino
e
da matriz de confusão que mostra o quão bem
o modelo classificou
as diferentes espécies de flor de
íris no conjunto Agora vamos começar aqui. A primeira coisa é que, se a
classe não estiver instalada, ela será instalada
e depois será. Está bem? Vamos executar isso
e obter a carga de dados. A função de dados
usará dados e passaremos o
nome do conjunto de dados, que é íris Vamos executar isso também. Em seguida, dividiremos
o conjunto de dados em conjuntos de
treinamento e teste A primeira coisa que
precisamos fazer é definir o conjunto 123. Ok, essa é uma etapa bastante
essencial. Em seguida, criamos índices de
sublinhado de uma amostra de variável ou objeto Aqui vamos pegar a amostra
para inscrever a íris. E o tamanho será de
0,7. Isso significa que 70%
do conjunto de dados Iris para dados do trem de
treinamento será
a íris dos índices de amostra Esses índices
entrarão na íris e 70% dos dados se tornarão os dados de Os dados de treinamento
serão a íris de menos os índices da amostra Está bem? É por isso que aqui estamos
usando o sinal de menos Está bem? O restante será de 30%. Vamos considerar isso como
o número de vizinhos, ou
seja, k aqui estou
definindo igual a cinco. Ok, vamos executar isso também. Agora vamos realizar a classificação
nove. Aqui, criarei uma espécie de sublinhado
prevista por
variável ou objeto espécie de sublinhado
prevista por Aqui eu vou usar a função
nove aqui. Treinar é treinar
dados de sublinhado de um a quatro. Teste para testar dados de sublinhado, uma a quatro classes serão as espécies de
dados de sublinhado do trem, ok Com base nas espécies que
vamos classificar. Está bem? Então, igual a dois k, isso se tornará cinco. Está bem? Agora vamos executar isso. E agora vamos
avaliar a precisão do modelo
usando alguma função. A espécie prevista é igual às espécies em dólares dos dados de
teste
divididas pelos dados de teste N up. Ok, vamos ver, então vamos
imprimir com precisão em 200. Ok, veja aqui, agora estamos
obtendo que a precisão deste modelo é 97,78.
Isso é muito bom Agora vamos imprimir a matriz de
confusão usando uma
função de tabela realmente igual aos dados de teste da espécie P. Ok, vamos criar a
matriz de confusão aqui, veja aqui. Agora, quase a
matriz de confusão que você pode ver aqui para Setosa 14 foi
categorizada corretamente Apenas um classificou erroneamente. Caso contrário, tudo será
classificado corretamente. É assim que podemos
implementar o não.
134. Árvore de decisão e florestas aleatórias: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos
sobre árvores de decisão
e floresta aleatória Esses dois são melhores amigos, trabalham juntos e são incríveis para o aprendizado
de máquina. Seus aplicativos são
usados e são muito úteis e úteis se você estiver
trabalhando em um aprendizado de máquina,
especialmente no aprendizado supervisionado Ok, vamos começar a aprender sobre esses dois poderosos
do aprendizado de máquina. Primeiro, entenderemos o que é disenteria e floresta aleatória no ringue do aprendizado de máquina A disenteria e a floresta aleatória
são duas ferramentas formidáveis que
revoltaram Esses algoritmos são amplamente usados para classificação
e regressão. Tarefa: entendemos
o que é tarefa certa? Classificação significa
onde precisamos nos
classificar em dois
ou mais segmentos, como credibilidade verdadeira ou falsa,
inscrição, aceitação
ou É uma ameaça de spam,
certo? Tarefa de regressão Fazemos isso para coisas contínuas, numéricas, certo? Esses algoritmos
são amplamente usados para tarefas de
classificação e
regressão, tornando-os dispensáveis
para várias aplicações Neste artigo,
exploraremos, nesta palestra, os princípios de
funcionamento e as aplicações
reais
da floresta dissidente Exploraremos qual é o conceito por trás dos
graus e da floresta aleatória. Quais são os
princípios de funcionamento por trás das
árvores de decisão e da floresta aleatória? E quais são as aplicações
reais árvores
de decisão
e da floresta aleatória? Então, vamos começar com
as árvores de decisão. A árvore de decisão é uma
estrutura semelhante a uma árvore , como você
pode ver aqui, ok? O nó pai,
depois o nó filho e depois o nó filho, ok? Vai crescer assim, certo? Uma árvore de decisão é uma
estrutura semelhante a uma árvore usada
para apoiar a decisão. Ok. Aqui, um exemplo simples. Se você vai
comprar alguma coisa, se tiver uma confusão, você quer comprar, comprar, comprar. Agora, a decisão é duas coisas, por e-mail ou não, spam, spam desse tipo, ok? Ele divide um processo
complexo de
tomada de decisão em uma
sequência de simulação. Cada nó na árvore representa uma decisão ou uma amostra
de um atributo, cada ramificação representa
um resultado, cada ramificação é
um resultado. Está bem? Aqui estão os
resultados, certo? O teste de decisão sobre o atributo, cada ramificação representa
um resultado e cada nó da folha representa um nível de classe ou
uma decisão, ok? Esses são os nós. Essas
são as folhas, ok? Como os edifícios e árvores de Desiree são construídos usando uma abordagem
recursiva de cima para baixo chamada particionamento
recursivo, como você pode ver aqui, é uma abordagem de cima para baixo, certo? É uma recursiva que
continuaria se repetindo, certo? As árvores de decisão são construídas, são construídas de cima
para baixo. Uma abordagem recursiva
chamada particionamento recursivo Estamos particionando recursivamente
cada nó para os nós. algoritmo correto
seleciona o melhor atributo em cada etapa para dividir
os dados em subconjuntos Em cada etapa, o algoritmo de decisão três selecionará o melhor atributo em cada etapa. Para dividir os dados, ele dividirá os dados
com base no atributo em dados homogêneos quanto possível em relação
à variável alvo Mantendo a
variável de destino em mente, ela dividirá os
dados em um subconjunto Isso também garantirá que o subconjunto seja homogêneo, ok Isso ajudará a alcançar
a variável alvo. Seleção de atributos. Vários critérios,
como gini, impureza, entropia e ganho de informação, são usados para determinar o
melhor atributo para O objetivo é minimizar a impureza ou maximizar o ganho de
informações O terceiro é a poda. A árvore de decisão pode se tornar excessivamente complexa e se transformar em um
ajuste excessivo A poda envolve a remoção de
galhos que não contribuem significativamente
para melhorar a precisão, resultando em um galho mais simples ou
mais generalizável Podar é uma coisa simples se você
continuar cultivando uma árvore, ela pode crescer em qualquer direção Mas se você quiser manter uma
árvore em um cofre muito bom, precisamos cortar os galhos extras da
mesma forma nas árvores de decisão. Além disso, se continuarmos crescendo,
ele se tornará excessivamente complexo
e propenso a se ajustar demais Então é aí que
vem a poda. Podar significa
remover os galhos que não contribuem
significativamente Algumas filiais podem não ser úteis. Posteriormente, podaremos
esses ramos, o que levará a aplicações
de
modelos mais simples e
generalizáveis
do aplicações
de
modelos mais simples e
generalizáveis o que levará a aplicações
de
modelos mais simples e
generalizáveis
do dissidente de disenteria. Em muitos domínios, você pode
encontrar aplicações de diferentes cientistas em muitos
domínios, como medicina,
diagnóstico da doença com base nos sintomas do paciente
e
no histórico médico na seção financeira, pontuação de cartões de
crédito, detecção de
fraudes e
investimentos, como exemplo de dissidência diagnóstico da doença com base nos sintomas do paciente
e
no histórico médico na seção financeira, pontuação de cartões de
crédito, detecção de
fraudes e
investimentos, investimentos Em todos esses domínios, podemos
usar o marketing de disenteria, a segmentação de
clientes, a
segmentação e a
previsão de rotatividade que podem ser feitas usando disenteria. previsão fabricação, o controle de
qualidade e otimização do processo de
produção podem ser feitos por meio de séries, sinais
ambientais, classificação de
espécies e monitoramento ambiental podem ser feitos com a
ajuda da disenteria Essas são as aplicações da Árvore de Decisão que agora cobre
a floresta aleatória. A floresta aleatória é como um gimble. Embora
as árvores de decisão sejam poderosas, elas podem ser sensíveis a
pequenas mudanças nos dados. floresta aleatória aborda essa
limitação combinando várias árvores de decisão para criar um modelo de
conjunto robusto e preciso Veja aqui, esta é
uma árvore de decisão, mas uma combinação florestal aleatória
de muitas árvores de decisão. Certo? O que ela faz, a árvore de decisão é que isso
é algo muito pequeno. Ele
mudará drasticamente seus resultados, processará os nós e tudo Tudo vai
mudar. Se você fizer alguma alteração no conjunto de dados,
tudo mudará Para superar essa limitação, floresta
aleatória aborda essa
limitação combinando várias
árvores de decisão para criar um modelo
confuso robusto e preciso Isso criará árvores de
decisão semelhantes e criará uma floresta
aleatória robusta. Haverá muitas árvores, e é por isso que é
chamada de floresta aleatória porque muitos grupos de árvores a
transformarão em floresta, certo? Como funciona a floresta aleatória? Amostragem Bootstrap. A floresta aleatória começa com a criação de várias amostras de
bootstrap, amostras
aleatórias para substituição
dos dados de treinamento Ele começará a criar as amostras de bootstrap a partir
do conjunto de dados de treinamento Seleção aleatória de recursos
para cada árvore na floresta. Um subconjunto aleatório de
recursos é considerado em cada nó ao decidir
a melhor árvore construção de várias árvores de
decisão é construída forma independente com sua
própria amostra de bootstrap e seleção aleatória de recursos Depois, a votação e a média. Para tarefas de classificação, floresta
aleatória usa a votação
majoritária entre as árvores para
a regrationaskyuseveragingeere Ele usa a votação para a média
de regreationag Quais são as vantagens
da floresta aleatória? Isso reduzirá o sobreajuste, que é a limitação da
sentinela As florestas aleatórias
são menos propensas ao sobreajuste em comparação com
as doenças individuais generalizações aprimoradas
e a robustez As generalizações aprimoradas
e a robustez
dos dados são importantes. Florestas aleatórias fornecem informações sobre a importância das características,
auxiliando na seleção de características Aplicações da floresta aleatória. As florestas aleatórias são
amplamente usadas em muitos domínios, como análise de
imagens, finanças, ecologia,
marketing e saúde Na análise, o reconhecimento de objetos, classificação de
imagens e a extração de recursos
podem ser feitos em finanças. Novamente, ao prever os preços
das ações, possível
detectar fraudes de risco de
crédito. Ecologia, gostamos de modelagem de
distribuição de espécies e avaliações de
biodiversidade podem ser feitas em marketing, sistema de previsão e
recomendação de
clientes na área de saúde, prevendo o resultado
do paciente
e o diagnóstico G pode ser Ok, qual é a conclusão? Essas duas sentinelas dinâmicas e a floresta aleatória são dinâmicas no mundo do aprendizado
de máquina Enquanto o Gentry fornece interabilitysitrandomest precisão
e robustez
aprimoradas à
interabilitysitrandomest, entender o
algoritmo das árvores e
sua aplicação equipa cientistas de
dados e sua aplicação equipa cientistas de
dados profissionais de aprendizado de
máquina
com ferramentas poderosas precisão
e robustez
aprimoradas à
interabilitysitrandomest,
entender o
algoritmo das árvores e
sua aplicação equipa cientistas de
dados e profissionais de aprendizado de
máquina
com ferramentas poderosas para resolver problemas do mundo real em diversos domínios. À medida que a tomada de decisão baseada em dados continua salvando o mundo
do poder, a versatilidade e a eficácia
das árvores de decisão e floresta
aleatória garantem
sua relevância duradoura no campo do aprendizado de
máquina Esses dois são algoritmos de aprendizado
de máquina
decente e floresta aleatória
muito importantes algoritmos de aprendizado
de máquina
decente e floresta aleatória Espero que tenhamos abordado a base
desses dois, veja a palestra.
135. Apoie o algoritmo de máquinas vetoriais: Olá e bem-vindo de volta. Nesta palestra,
aprenderemos
sobre a máquina de vetores de suporte Ok, deixe-me bem,
ignore essa. Está bem? Vamos aprender sobre o algoritmo de
máquina vetorial de suporte. Máquina vetorial de suporte, ou SPM. In, como o chamamos,
é um dos
algoritmos de aprendizado
supervisionado mais populares ,
usado para problemas de classificação
e regressão No entanto,
ele é usado principalmente para problemas de
classificação
em aprendizado de máquina, ele pode ser usado tanto para
regressão quanto para classificação, mas principalmente o usamos apenas para
classificação, ok? Portanto, na maioria das vezes que você
usará para
problemas de classificação, SPM pode ser usado para
classificação Na maioria das vezes, 99%
do tempo usarão um ou 2% dos 5%. Os casos estarão lá onde você
poderá usá-lo ainda mais, estarão lá onde você
poderá usá-lo ainda mais. Problemas de regressão também, mas isso é muito raro
no mundo real, ok? O objetivo do
algoritmo SBM é criar o melhor
limite de decisão de linha que possa segregar espaço
dimensional em
classes para que possamos facilmente colocar o novo ponto de dados na categoria
correta no futuro Esse limite de melhor decisão
é chamado de hiperfaixa. É como criar uma
hiper le, criar uma linha. Suponha que você esteja plotando
os pontos de dados no espaço x e y u e esteja desenhando, vimos na regressão
linear Estávamos desenhando uma linha que dividia os pontos
de dados da mesma forma SBM Além disso, ele tentará
encontrar uma linha que possa dividir o conjunto de dados. Esse é o objetivo do SPM. O limite de dicção é
chamado de hiperlinha. Spm escolhe os pontos de dados
ou vetores
extremos que ajudam na
criação da hiperlinha Casos extremos são
chamados de vetores de suporte. Sbm. O algoritmo Support Vector
Machine escolhe os pontos de dados extremos ou vetores que ajudam a
criar a hipoglicemia Esses casos extremos são
chamados de vetor de suporte. Ele encontrará primeiro
os pontos
ou vetores extremos e esses vetores
são chamados de vetores de suporte Para criar o algoritmo de
hiperlinha, use o termo máquina vetorial de suporte Ok, encontrar os vetores de
suporte, é por isso
que esse algoritmo é conhecido como máquina de
vetores de suporte Considere o
diagrama abaixo, no qual
existem duas
categorias diferentes que são classificadas usando
limite de descida ou exagero Agora temos o X um e o X dois. E aqui você pode ver lá, esta é a linha de margem máxima. Essa linha é a linha de
margem máxima e esse é o hiperlink
positivo da hiperlinha de margem máxima Esses são os vetores de suporte. Esses são os vetores de suporte. Esses pontos que
encontramos. Esses são os vetores de suporte. Está bem? Deste lado,
isso é negativo. Hypolositiveypolineximumrgin
será a hiperfaixa, margem máxima, hiperlinear, veja aqui. Agora, essa hiperfaixa está dividindo esses dois pontos de ajuste,
certo? Preciso. Esses pontos são conhecidos
como vetores de suporte. Ok, primeiro encontramos
o vetor de suporte e com os vetores de suporte,
tentaremos encontrar o hiperlink Bm pode ser entendido
com o exemplo que usamos no classificador
canino Suponha que vejamos um gato estranho que também tenha algumas
características de cachorro. Suponha que tenhamos a foto de um gato com algumas
características císticas do cachorro Além disso, se
quisermos um modelo que possa identificar com precisão
se é um cachorro-gato, esse modelo pode ser criado
usando um algoritmo. Primeiro, treinaremos nosso modelo com muitas imagens
de
cães e gatos para que ele possa aprender sobre diferentes características
de cães e gatos. E então nós o testamos com
essa criatura estranha, que tem semelhança
com gato e cachorro, mas na verdade é um gato Como o vetor de suporte cria um limite distinto
entre esses dois dados, gato e cachorro escolhem
casos extremos, vetores de suporte Ele verá o caso extremo de gato e cachorro com base em vetores
de suporte Ele o classificará como um gato. Considere o diagrama abaixo. Veja os dados do rótulo anterior. Esses são os dados mais rápidos como este é um cachorro
e este é um gato. Aqui estamos criando um modelo
e treinando
que essa criatura é um cachorro
e essa criatura é um gato. Ele está lendo todos
os recursos
dessas duas imagens e nosso modelo
está sendo treinado agora. Nosso
modelo de previsão predirá que é um gato. Como isso vai funcionar. Suponha que estejamos dando
uma imagem
muito parecida com a do
gato e do cachorro. Tem algumas características do cão. Além disso, ele verá as
características extremas de um gato. Ele classificará as
características de um gato. Ele classificará, encontrará a hiperfaixa com base nas características, nas características
extremas Ele decidirá se
é um gato ou um cachorro. No extremo,
combinará com o gato. Ele categorizará isso como se não combinasse com as características extremas do
gato Em seguida, ele categorizará
isso como cachorro com o PM, mesmo com esse gato estranho, que é muito
parecido com o cachorro B. Com a ajuda dos vetores de
suporte e da correta de que
é um gato, não um Vamos entender, por exemplo, máquinas de vetores de
suporte, como aplicações de máquinas de vetores de
suporte, SBM podem ser usadas para classificação de
imagens Como vimos agora, SBM têm sido usados para classificação de
imagens Tarefas como
reconhecimento de manuscrito e detecção de
objetos, como análise de sentimentos, detecção de
spam e categorização de
documentos biografia, a poética e os PMs são empregados para reconhecimento de
dobras
proteicas, classificação de genes
e diagnóstico G. No setor financeiro, os PMs são
usados para codificação de crédito, previsão do mercado de
ações e detecção no segmento de
saúde Eles têm sido usados
no diagnóstico e prognóstico de DG
com base em dados médicos, o processamento de linguagem
natural
e o LP SPM desempenham um papel no reconhecimento de entidades
nomeadas
e na categorização Vamos entender quais
são os tipos de SPM. O Spm pode ser de dois tipos. A primeira é a regressão
linear. O SPM não linear pode ser
categorizado em dois tipos, SPM
linear, eu disse regressão,
é SBM, SPM linear e SPM não linear . O SBM linear é usado para dados
linearmente separáveis. que significa que se um conjunto de dados pode ser classificado em duas classes usando uma única linha reta
, esses dados são denominados linearmente. O classificador classificador de
dados separável usado
aqui é chamado de classificador
SPM dados separável usado
aqui é chamado de classificador aqui é chamado Se os dados forem uma luta de classes
linearmente, podemos
classificá-los com uma hiperfaixa
linearmente separável,
uma linha reta, e então ela é
chamada de dados hiperfaixa
linearmente separável,
uma linha reta, e então ela é chamada E o classificador usado
aqui será chamado linear SBM. SVM linear não linear é usado para dados
separados não linearmente, o
que significa que, se o
conjunto de dados não puder ser classificado usando
uma linha reta
, esses dados serão
denominados dados O classificador usado neste caso
é conhecido como SPM não linear. Veremos como esses dois diferem. Ok, hiperfaixa e vetores de
suporte. No algoritmo SPM,
sabemos o que é uma hiperlinha na qual
desenhamos uma hiperfaixa Pode haver várias linhas
ou limites de decisão para segregar classes no espaço
n dimensional, mas precisamos descobrir o
melhor limite de decisão que
ajude a classificar Esse melhor limite é conhecido
como a hiperfaixa do SPM. As dimensões do hiperplano dependem das características
presentes no conjunto de dados O que significa que se houver duas características, conforme
mostrado na imagem
, a hiperlinha
será uma linha reta Se houver três características
, a hiperlinha será o plano
bidimensional Está bem? Sempre criamos uma
hiperlinha com uma margem máxima, que significa que a distância
máxima entre os pontos de dados Está bem? Ok. Vetor de suporte. Os pontos de dados são dados vetoriais, os mais próximos da hiperlinha, que afetam a posição
da hiperlinha, que estão muito
próximos da hiperlinha,
afetarão a posição
hialina da hipolinha de os mais próximos da hiperlinha,
que afetam a posição
da hiperlinha,
que estão muito
próximos da hiperlinha,
afetarão a posição
hialina da hipolinha de
forma muito eficaz. Esses pontos de dados são vetores chamados de vetores
de suporte, uma
vez que esses vetores suportam Ok, como funciona o SPM? Primeiro, veremos o SVM linear. O funcionamento do algoritmo SPM pode ser entendido
usando um exemplo Suponha que tenhamos um
conjunto de dados com duas tachas, verde e azul Aqui pegamos essas duas cores marrom
e marrom mais claro. Está bem? O conjunto de dados
tem duas características, X um e t. Deseja
classificar o par x o milho
em verde ou azul Suponha que isso seja verde
e azul, ok? As cores, eu escrevi
um pouco erradas aqui, cinza e cinza mais claro, ok? Ok, suponha que isso seja
azul e verde, ok? Agora, em dois espaços D, usando
apenas uma linha reta, podemos facilmente separar
essas duas classes, certo? Podemos traçar uma linha aqui. Podemos desenhar uma linha como essa. E esses dois verdes e
azuis, podemos separar, mas pode haver várias linhas que podem separar cada
classe. Considere-os. Podemos desenhar essa imagem, vermelha, essa também são as duas. Eu posso desenhar uma linha como essa. Também posso desenhar outra linha aqui que
pode classificar isso Também posso desenhar outra linha
aqui que classifique, pode
haver várias linhas que podem separar essas classes Portanto, o algoritmo Pm
ajuda a encontrar a melhor linha, ou se esse melhor limite
é chamado de hiperlinha Agora podemos ter várias linhas, como se o objetivo fosse
encontrar a melhor melhor linha para fazer. Está bem? Essa região é chamada de vetores de suporte
hiperled Esses são os pontos azuis
e verdes são os vetores de suporte Está bem? A distância entre os vetores e a margem
hiperlinelada,
veja aqui o suporte, essa distância é chamada essa distância é Está bem? Isso é chamado de
distância entre o vetor de suporte e a pista
hipo e é chamado de margem Para maximizar essa margem, hypolimrginlledptimhyplaneeowf,
tente colocar uma linha aqui, hypolimrginlledptimhyplaneeowf,
tente colocar uma linha aqui, a margem será menor. Se você colocar uma linha aqui, a margem será menor aqui. Se considerarmos essa linha, a margem
daqui e daqui
, será máxima. De cada ponto,
a margem
dos vetores de suporte até o
plano será a máxima Essa é a
hiperlinha ideal para encontrar,
certo, a distância desses pontos entre os vetores e a margem
da hiperlinha E o objetivo do SPM é
maximizar essa margem. A hiperlinha com margem
máxima é chamada hiperlinha
ótima ótima Essa é a hipótese ideal
que estamos encontrando. Agora vem o SPM não linear. Se os dados estiverem organizados
linearmente
, podemos separá-los
usando uma linha reta Para dados não lineares, não
podemos desenhar uma
única linha reta. Considere o mesmo, os pontos
azuis também estão aqui. Também aqui também,
e mais verde aqui. Agora, não podemos desenhar uma linha
reta que classifique os pontos
azuis e verdes em
uma região separada, certo? Alguns pontos estarão em
cada uma das regiões. A classificação em linha reta não
é possível aqui, certo? Nesse caso, para separar
esses pontos de dados, precisamos adicionar
mais uma dimensão. Para dados lineares, usamos
duas dimensões, x e y. Para os dados não lineares, adicionaremos uma terceira dimensão, será calculada
usando esta fórmula, igual a x ao quadrado mais q. Adicionaremos outra
dimensão aqui, porque nas duas dimensões, não é possível
classificar, separar, desenhar uma linha com pontos
verdes e azuis separados Para os dados não lineares,
adicionaremos uma terceira dimensão, que
será calculada
usando esta fórmula,
igual a x ao quadrado mais q.
Adicionaremos outra
dimensão aqui,
porque nas duas dimensões,
não é possível
classificar, separar,
desenhar uma linha com pontos
verdes e azuis separados,
adicione outra dimensão que será a dimensão do jato. E esses pontos de jato serão
considerados por essa fórmula. Chamada de jato para x ao quadrado
mais y ao quadrado. Está bem? Então, para cada x e y, haverá um ponto de jato, que será calculado
pelo x ao quadrado mais y ao quadrado. Está bem? Ao adicionar a
terceira dimensão, o espaço amostral ficará
como esta imagem aqui. Agora x y e azul azeviche
aqui e verde estão agora. Podemos ver aqui, podemos ver que existem
duas regiões no momento. O Sbm dividirá o conjunto
de dados em classes. No conjunto
em classes da seguinte maneira. Essa será a melhor
hiperfaixa que podemos desenhar, e isso separará
os pontos de dados, blip lane deste lado
da hiperfaixa, já que estamos no espaço,
portanto, parece um plano paralelo
ao eixo x Se o convertermos em
espaço com Gal em um
, ele ficará assim. Está bem? Se considerarmos que
este está no espaço, se ligarmos para um, então ficará
assim, ok? Portanto, obtemos uma
circunferência de raio um. No caso de dados não lineares, dessa forma podemos encontrar a melhor hiperfaixa em uma coisa
circular, certo? Circunferência de uma
circunferência de raio um. Veja dentro do círculo verde e fora do
circuito azul dessa forma, essa hiperlinha circular
que podemos obter com esses dados Ok, espero que
tenhamos entendido como o SPM funciona. Veja o interior da próxima palestra.
136. Como entender a análise de regressão: Olá e bem-vindo de volta. Então, eu sou filho e estou de volta com a nova
atualização desta classe. Então, nesta série de palestras que
vou enviar agora, abordaremos a
análise de regressão em detalhes Então, em primeiro lugar,
começaremos do básico e essa série de palestras
acontecerá nas próximas semanas, e você poderá ver atualizações muito regulares
nesta aula sobre compartilhamento de habilidades Então, vamos começar. Então, a primeira coisa é uma
visão geral da análise de regressão. Então, o que é análise de regressão. A análise de regressão é
uma técnica estática usada para entender
a relação entre uma variável dependente e mais
uma ou mais Portanto, é simplesmente uma análise
da relação entre o dependente e uma ou mais variáveis
independentes. Portanto, você pode entender de tal
forma que contrair um ataque cardíaco
para um paciente
depende de várias
variáveis. Aqui, ataque
cardíaco é uma variável
dependente. Isso depende uma ou mais
variáveis independentes, como sua idade, seu estilo de vida,
seu hábito de avaliação
e qualquer outra coisa, como
diabetes ou histórico
de
problemas genéticos de ataque cardíaco
em sua família Existem várias variáveis
independentes que
afetarão as chances de um paciente contrair um
ataque cardíaco. Aqui, ataque cardíaco,
ataque cardíaco são variáveis dependentes e todos os outros sintomas de saúde seu estilo de vida ou
as doenças existentes são variáveis independentes Portanto, a análise de regressão é uma técnica
estatística usada para entender a
relação entre essas variáveis, dependentes
e independentes Espero ter deixado isso bem claro. Agora, você tem a
compreensão de como fazemos isso. Por isso, é amplamente empregado em vários campos,
como economia, finanças, ciências sociais
e saúde. Então, cuidados de saúde, por exemplo,
eu já te dei. Em economia, também
em finanças, você pode ver se está investindo
em algumas ações e tudo mais, então seus lucros e perdas
serão as variáveis dependentes, os sentimentos do mercado
e todas as outras coisas Como as notícias e tudo o que afeta
os preços das ações
serão uma ou mais variáveis
independentes Assistência médica para modelar e prever resultados com
base na variável de entrada. Neste artigo,
abordaremos os fundamentos da análise e tipos de regressão,
saltos e Agora vamos entender
de uma forma matemática. O que é análise de regressão? Portanto, em sua essência, análise de
regressão visa
estimar a relação
entre variáveis dependentes, geralmente denotadas por y, e uma ou
mais variáveis independentes,
denotadas x um, x OK. A relação é normalmente representada por
uma equação da forma. É uma equação linear, onde y é igual a Beta
zero mais Beta um em x um mais Beta dois em x t
mais Beta três em x três, e assim por diante até Beta n
em x mais épsilon OK. Beta zero é interceptador, onde x um, x e y
interceptarão e Beta um, Beta dois e B são os coeficientes
que representam os esforços das variáveis independentes, como as variáveis independentes
afetarão Esse é um termo de erro, representando a
diferença entre o objeto e os valores previstos. Então, o que estamos observando
e o que estamos prevendo. Qual é o valor previsto
e qual é o valor do objeto? A diferença será que, é que chamamos o termo de erro. termo de erro é o que
previmos e qual foi o resultado
exato. Então, suponha que
estamos
prevendo que temos um lucro de seis 50, mas observamos que
obtivemos um lucro de Então, seis 50 -501 50
será o termo de erro, no simples, se eu explicar Está bem? Então, tipo de análise de
regressão, regressão linear
simples
que todos sabemos que envolve uma única
variável independente e uma relação linear com
a variável dependente Então, se você observar,
será muito simples, faça gráfico de x, y e haverá uma linha
passando por isso, certo? E então vem a regressão
linear múltipla que lida com várias
variáveis independentes e uma relação linear com
a variável dependente Em seguida, vem a
regressão polinomial que ajusta uma curva aos dados introduzindo termos
polinomiais
da polinomiais E a última é a regressão logística
muito popular usada para problemas de classificação
binária em que a variável dependente
é Veremos como podemos conseguir tudo isso e como podemos
entender e como
podemos usar para decodificar
toda a regressão múltipla e simples ponmial logística Agora, adaptações da análise de regressão. Para que a análise de regressão
forneça resultados precisos, certos saltos devem ser feitos. O primeiro é a linearidade. Linearidade. A relação
simples entre as variáveis dependentes e independentes
deve ser linear. Portanto, a primeira isenção é
que a relação entre as
variáveis dependentes e independentes deve ser linear Então, o segundo As
é independência. As observações devem ser
independentes umas das outras. O próximo é Homo Sdsticity, a variância do
termo de erro deve ser constante em todos os níveis das Depois vem a normalidade. O termo de erro deve seguir
uma distribuição normal. Portanto, o termo de erro
que vimos aqui E deve seguir a distribuição
normal. Depois vem a multicolinearidade. As
variáveis independentes não devem ser altamente correlacionadas
entre si Então, o que farei
na próxima palestra, explicarei um pouco o que é normalidade
, multicolinearidade e homocd
para que você possa entender de uma para que você possa Por enquanto, você só
precisa acompanhar a palestra. Portanto, sem multicolinearidade,
as variáveis independentes não
estariam altamente Aplicações da análise de
regressão. Então, como eu disse, economia para custear a demanda e analisar a elasticidade do
preço.
Então, em finanças,
podemos usá-la para prever os preços das ações
e avaliar os e avaliar Nas ciências sociais,
podemos usá-lo para estudar o impacto
das intervenções, analisando os dados da pesquisa. Pesquise dados para a previdência
social, esse governo administra
todas as coisas podemos fazer com a análise de
regressão E então, na área da saúde, podemos prever os resultados dos
pacientes avaliando o fator de risco para um determinado dG, como
discutimos sobre o coração Escavações, quaisquer escavações que você possa
prever com base nos dados. Então, agora chega a conclusão
desta palestra análise de
regressão é uma técnica estatística
poderosa para modelar
relacionamentos entre variáveis e
fazer previsões Ao compreender
seus fundamentos,
suposições e tipos,
analistas como analistas de negócios
, cientistas de dados
e recursos podem
utilizar efetivamente a
análise de regressão para obter insights dos dados e tomar decisões informadas Assim, depois de entender
o conceito de análise de
regressão, você pode usá-lo em qualquer domínio
para obter informações
dos dados e tomar decisões Então, essa é uma ferramenta muito poderosa
que vamos aprender. Então, na próxima aula, aprenderemos mais algumas coisas sobre a análise de regressão. Então, S na próxima palestra.
137. Como entender o modelo de regressão linear: Olá e bem-vindo de volta. Então, nesta palestra,
vamos
aprender sobre o modelo de
regressão linear Portanto, a regressão linear é uma
das técnicas fundamentais, usada em estatística
e aprendizado de máquina E isso é usado para modelar
a relação entre a variável dependente e uma ou mais variáveis
independentes. Aprendemos isso na
aula anterior enquanto entendíamos a
análise de regressão. Portanto, a regressão linear é um dos modelos de
análise de regressão Nisso, vamos nos aprofundar na mecânica
da regressão
linear É a isenção e a
forma de interpretar os parâmetros
do modelo e a consideração
prática Vamos começar. Entendendo
a regressão linear. regressão linear visa
ajustar uma relação linear entre a variável independente
x e a variável dependente, y. A relação é tipicamente representada pela equação, y é igual a beta zero
mais um em x mais e, onde y é variável dependente,
x é variável independente Beta zero é o intermediário esse é o valor de
y quando x é zero E Beta 1 é o coeficiente de
inclinação, onde a mudança em y
para uma mudança unitária em x,
então, é o eratom
que já conhecemos representando a
discrepância entre o valor
objetivo e os valores previstos.
Agora está claro. Se eu puder desenhar, tudo bem. Não há ferramenta de desenho aqui. Deixe-me verificar se consigo desenhar aqui. Ok. Deixe-me abrir um alfinete aqui. Então, se eu puder te dizer, esse é o eixo x, e esse será o eixo y. Isso é, isso é y, e a regressão linear é encontrar uma
linha de regressão como essa, onde x é igual
a y é igual a. Esta linha será y
é igual a, Deixe-me. Vamos colocar B zero mais B um, x mais. Então você pode entender assim, y é igual a Beta
zero mais p1x Aqui, onde
entenderemos aqui, Beta zero é o termo de
interceptação em que y, o valor de y quando
x é igual a zero Então, quando você vai aqui, x é zero, e quando você intercepta
daqui desta forma Aqui x é zero e y,
daqui até aqui, o site B zero ou B t
zero. Tudo o que você puder. Esse será o b zero e o beta um será a mudança em y para uma unidade
de mudança na inclinação x. Então, se você ver aqui, conforme você se move daqui para aqui, e depois daqui, então essa
será a inclinação
será essa inclinação será a inclinação B. Se o erro for tom,
será o termo do erro. exemplo, suponha que prevejamos
algum valor aqui e objetemos algo aqui, então a diferença
será o valor. Essa é a linha de regressão. Então, deixe-me dizer que essa linha é a linha de
regressão Essa linha é a linha de regressão. Ok. Esta é a equação em
linha reta, y é igual a x mais c, com
isso você também pode entender. Espero que isso esteja claro. O próximo salto para regressão de
mídia para regressão
linear para fornecer um tal confiável,
vários aumentos devem ser mantidos. A primeira é a linearidade, a
independência, a normalidade
sádica, não a colinearidade Linearidade,
já entendemos onde entre x e y deveria
ser linear assim Pois quando traçamos x e y, devemos obter uma linha reta. Então isso é linearidade. Independência, as observações
devem ser independentes
umas das outras e homo sadicidade é a variância do termo de
erro que deve ser constante em todos os
níveis de Os termos de erro devem seguir
uma distribuição normal
e, sem uma conearidade
múltipla perfeita ,
as variáveis independentes não devem estar perfeitamente correlacionadas
entre si,
ok. Então, interpretando Intercepte o Beta zero aqui, o intercepto
beta zero, beta zero, representa y
quando x é igual a zero, o significativo somente
se estiver dentro do
intervalo dos dados inclinação Beta um, a inclinação
que observamos aqui, Beta um, indica a mudança em y para uma unidade de mudança em x. Então, podemos ver enquanto nos movemos,
se pudermos ver esse x, então esse será o. Deixe-me mudar a cor. Para este x, para este
x, este será o y. Isso é o
que está dizendo,
ou mudança em y, ou mudança em y, para uma mudança unitária em x, uma inclinação positiva sugere que
a inclinação positiva rec negativa
indica a
relevância negativa eficiente da
determinação r ao quadrado
medida para a proporção de uma variância na variável
dependente que é previsível a partir da uma variância na variável
dependente Isso é o
que está dizendo,
ou mudança em y,
para uma mudança unitária em x,
uma inclinação positiva sugere que
a inclinação positiva rec negativa
indica a
relevância negativa eficiente da
determinação r ao quadrado
medida para a proporção de
uma variância na variável
dependente que é previsível a partir da variável independente. valor de R quadrado mais alto indica melhor
ajuste para o modelo Consideração prática: a avaliação
do
modelo acessa a qualidade do ajuste usando matrizes
como média quadrada MSC,
raiz média quadrada RMS e valor quadrado R. Valores discrepantes e influentes
apontam e identificam e tratam os valores discrepantes que podem influenciar
desproporcionalmente o resultado desproporcionalmente Verifique a colinaridade de
colinaridade múltipla entre as variáveis
independentes
e considere abordar variáveis
independentes
e se é Pregent. Validação cruzada, valide
o desempenho do modelo usando técnicas como a validação
cruzada K fold para garantir a legibilidade
geral Ok. o modelo de regressão linear fornece uma estrutura simples e
poderosa para entender e modelar
a relação entre as variáveis, aderindo
às suas suposições,
interpretando os
parâmetros do modelo de forma eficaz e considerando considerações
práticas.
Analistas e recursos podem aproveitar a
regressão linear para obter
insights dos dados e fazer Agora, conclusão,
o modelo de regressão linear
fornece uma estrutura simples e
poderosa para
entender e modelar
a relação entre
as variáveis, aderindo
às suas suposições,
interpretando os
parâmetros do modelo de forma eficaz
e considerando considerações
práticas.
Analistas e recursos podem
aproveitar a
regressão linear para obter
insights dos dados e fazer decisões informadas
em vários campos. Então é isso que devemos
saber sobre regressão linear. Faremos a prática também com o núcleo em nossa programação, mas esse seria o último. Por enquanto,
entenderemos os fundamentos de
vários modelos de análise de regressão como regressão linear
, e também veremos a
regressão múltipla Veja a próxima palestra.
138. Como entender a cedasticidade doméstica: Olá e bem-vindo de volta. Então, nesta palestra, vamos aprender
sobre mo Cresticdy Portanto, a estatística homo, também conhecida como homo genidade
da variância, é um salto de
regressão linear que se refere
à condição em que a variância do erro ou
dos resíduos é constante
em todos
os níveis das erro ou
dos resíduos é constante
em todos
os conhecida como homo genidade
da variância, é
um salto de
regressão linear que se refere
à condição em que a variância do erro ou
dos resíduos é constante
em todos
os níveis das variáveis independentes. Em termos mais simples, isso significa
que a distribuição dos resíduos deve permanecer a mesma independentemente do valor
das variáveis independentes Então, o que é homosticidade É a homogeneidade
da variância, e é um Amson que usamos
na regressão linear,
e se refere à
condição em que os erros, os resíduos
que armazenamos, permanecerão constantes
em todos os níveis das permanecerão constantes ?
É a homogeneidade
da variância,
e é um Amson que usamos
na regressão linear,
e se refere à
condição em que os erros, os resíduos
que armazenamos,
permanecerão constantes
em todos os níveis das variáveis independentes. Portanto, seja qual for o valor que você escolher para as variáveis
independentes, a variância dos erros ou dos resíduos
será constante Espero que você tenha
sabido disso, certo? Então, qual é a importância
da homodatidade? homo sexticidade é um salto importante
na regressão linear porque a violação
desse salto pode levar à estimativa tendenciosa dos parâmetros. A homo sexticidade
é um salto importante
na regressão linear
porque a violação
desse salto pode levar à estimativa tendenciosa dos parâmetros. Então, se simplesmente ignorarmos esse
homodato, o que acontecerá? Obteremos a estimativa, mas essa será
baseada em subparâmetros,
e ela o levará até
o teste de erros padrão incorretos
e de hipóteses enganosas.
Quando heterod, o projeto da homo sadicidade está presente,
o modelo pode dar erros padrão incorretos teste de erros padrão incorretos
e de hipóteses enganosas.
Quando heterod, o projeto da homo sadicidade está presente,
o muita ênfase
a certas observações com mas essa será
baseada em subparâmetros,
e ela o levará até
o teste de erros padrão incorretos
e de hipóteses enganosas.
Quando heterod, o projeto da homo sadicidade está presente,
o modelo pode dar
muita ênfase
a
certas observações
com grandes resíduos e levar a insuficientes e
estimativas não confiáveis Então, quando, se ignorarmos essa homodatidade, nos movermos
em direção à heterodatidade,
que se opõe
à homocácia,
quando essa herodostia se apresentará que se opõe
à homocácia,
quando essa herodostia se apresentará quando essa herodostia essa homodatidade, nos movermos
em direção à heterodatidade,
que se opõe
à homocácia,
quando essa herodostia se apresentará em nosso modelo, o que teremos? O que faremos é colocar mais ênfase na observação
com os grandes resíduos,
o que fará com que as estimativas eficientes não
sejam confiáveis Estimativas, e isso
tornará nosso modelo muito inconsistente e
pouco útil Então, como identificar a homossexualidade,
existem duas coisas A primeira é uma trama residual e a segunda é um
teste pagão rápido Então, entenderemos
o que é gráfico residual. Uma forma comum de diagnosticar a
homossexualidade é
traçar os resíduos em relação ao traçar Portanto, seja qual for o
valor previsto que obteremos representamos graficamente os resíduos relação aos valores previstos ou às variáveis independentes
em um gráfico de resíduos Se a distribuição dos resíduos
parecer aproximadamente restrita
em toda a faixa, os valores previstos ou as variáveis
independentes, a homocdstcity No entanto, se a dispersão
dos resíduos aumentar ou diminuir conforme os valores previstos,
a mudança de
heterogeneidade pode ser
evitada mudança de
heterogeneidade A segunda técnica
é estimular o gosto pagão. Esse é o
sabor estatístico usado para
provar formalmente a homodaidade na A hipótese nula
do teste brace pagan é que variância dos Embora a
hipótese alternativa seja que a variância dos resíduos não
é uma heterostez constante Um resultado significativo indica
evidências de hereditariedade. OK. O que vai acontecer? Quais serão as consequências da violação da homossexualidade Haverá uma estimativa
tendenciosa. As estimativas do coeficiente podem
ser tendenciosas se a dispersão
dos resíduos variar
sistematicamente com valores
das variáveis independentes Erros padrão
incorretos, podemos
concluir que os
erros padrão podem estar
subestimados ou
superestimados, levando ao intervalo de confiança e
ao teste de hipóteses incorretos. Em estimativas eficientes,
a eficiência das estimativas
dos parâmetros
pode ser comprometida reduzindo o poder da análise de
regressão detectar
a verdadeira relação
entre as Abordando a homossadasticidade, se a homossexualidade
for violada, várias abordagens se a homossexualidade
for violada, várias abordagens podem ser consideradas. A transformação de
variáveis, transformando as variáveis dependentes ou
independentes, pode ajudar a estabilizar a variância dos resíduos,
com base
na lista quadrada Usando regressão
quadrada de inclinação ponderada que as observações são ponderadas com base em
sua variância e podem Erros padrão robustos técnicas de erros
padrão
podem ser empregadas para ajustar os erros padrão de
sedativos para heróis sem
presumir os específicos Forma da estrutura de variância. Portanto, a homossticidade é uma isenção
crucial na regressão
linear que garante a validade e a confiabilidade do Detectar e lidar com
violações da homossexualidade é essencial para produzir precisos e confiáveis Então, isso é o que
é a homodácia e a importância de
entender como identificar, existem duas maneiras
e então
vimos as consequências de
violar a E então vimos como lidar
com a homo sadasticidade Existem três formas de
transformação de variáveis, quadrados
ponderados e erros padrão
robustos Está bem? Então, na próxima palestra, veremos o que é normalidade Então ela está
na próxima palestra.
139. Como entender a normalidade: Olá e bem-vindo de volta. Então, nesta palestra,
vamos
entender o que é normalidade normalidade é um aumento
da regressão linear
que se refere à condição em que os
resíduos ou erros
do distribuídos Então, quando os erros ou os resíduos são
normalmente distribuídos, isso é chamado de normalidade Em outras palavras, isso implica que a distribuição
dos resíduos segue uma curva em forma de sino
ou em forma de sino centrada em torno Com a maioria dos resíduos
agrupados perto da média e menos
resíduos O que isso realmente significa? Isso significa que quando os
erros em nosso modelo ou os resíduos em nosso modelo de
regressão
são normalmente distribuídos .
O que isso significa? Normalmente distribuído
significa que a distribuição dos resíduos segue a curva do sino, onde
o It está Está centrado. Todas as
setas estão centradas em torno do zero com maioria dos resíduos
agrupados Então, na maioria das vezes, se você
olhar para a campainha, se você olhar para a
campainha, como ela fica? Parece assim, certo? OK. Deixe-me usar uma caneta. Se você olhar para um sino
, será assim, certo? Então, ele será centrado
em torno desse zero, suponha. E a maioria dos valores está voltada para esse
valor médio, valor médio. Ok, então é isso que significa. Deve ser como sinos, onde está a
maioria dos valores. Em toda a média dos valores. Curva bem formada, centrada no braço zero, com a maioria
dos vegetais agrupados perto da média e menos
resíduos Então, agora, a importância da normalidade. normalidade é uma regressão de
salto importante porque muitos métodos estatísticos de sabor
e estimativa usados na análise de regressão A normalidade é uma regressão de
salto importante porque
muitos métodos estatísticos de sabor
e estimativa
usados na análise de regressão dependem do salto de normalidade. Quando os resíduos são
normalmente distribuídos, isso indica que os erros são
aleatórios e independentes
e que o cocentro
de regressão isso indica que os erros são
aleatórios e independentes
e que o cocentro
de regressão é estimado de forma eficiente. Como identificar a normalidade
usando o gráfico de resíduos Um método comum para avaliar
a isenção de normalidade é examinar um histograma
ou um gráfico QQ, gráfico Um método comum para avaliar
a isenção de normalidade é
examinar um histograma
ou um gráfico QQ, gráfico quantílico dos resíduos. Em um gráfico Q Q, se os pontos caírem aproximadamente
ao longo da linha diagonal, isso sugere que os resíduos
estão normalmente distribuídos Como alternativa, um
histograma do resíduo se
assemelharia a um cartão de duas etapas como
este. OK. O próximo método
é o sabor sapiro k. Esse é o sabor
estatístico usado para testar formalmente a
normalidade dos resíduos. A hipótese nula do sabor
do leite de sapiro é o teste de
que os resíduos Um resultado significativo indica evidências contra a
normalidade. OK. As consequências de
violar a normalidade ao fazer a análise de
regressão são as mesmas
que
vimos na homosseticidade, estimativa tendenciosa, ao fazer a análise de
regressão são as mesmas
que
vimos na homosseticidade, estimativa tendenciosa,
inferência incorreta. Qual é a estimativa tendenciosa? As estimativas de copicientes podem ser tendenciosas se os resíduos não forem Inferência incorreta significa que o intervalo de
confiança e o teste de hipóteses com
base nas distribuições t
podem ser inválidos se os resíduos não forem Predições imprecisas
ocorrerão se violarmos a normalidade; os intervalos de
predição podem
não ser confiáveis se a isenção de normalidade for Então, como lidar com a normalidade
se a normalidade for violada, várias abordagens podem ser A primeira é a transformação
de dados transformando os dados Ao transformar as variáveis dependentes e independentes que podem ajudar a tornar os resíduos mais
normalmente distribuídos, transformação
comum inclui raiz
logarítmica ou quadrada ou ajudar a tornar os resíduos mais
normalmente distribuídos, a transformação
comum inclui raiz
logarítmica ou quadrada ou a transformação boxcox. Regressão
robusta, técnicas de regressão robustas,
como erros padrão robustos ou estimativa, podem ser usadas
para estimar o
coeficiente de regressão em pregênios E então o terceiro
é o boostraping. Boost strapping é uma técnica de
reamostragem que pode fornecer inferência
robusta na análise de regressão Portanto, o que podemos concluir que a
normalidade é uma isenção da regressão linear que
garante que a validade, eficiência e a confiabilidade
do modelo de regressão estimadas Embora as violações
da normalidade
nem sempre levem a problemas
significativos, é essencialmente essencial avaliar e abordar os desvios da normalidade para produzir resultados de regressão precisos OK. Então, espero que você também saiba
o que é normalidade. Na próxima palestra,
não
entenderemos nenhuma multicolinearidade perfeita. Portanto, fique por dentro da próxima palestra.
140. Como não há multicolinearidade perfeita: R e bem-vindo de volta.
Nesta palestra, aprenderemos sobre a ausência de uma
multicolinearidade perfeita. Portanto, nenhuma multicolinearidade perfeita é uma exceção que tomamos na regressão
linear que
afirma que
não deve haver uma relação linear exata é uma exceção que tomamos na regressão
linear que
afirma que
não deve haver uma relação linear exata entre as variáveis independentes. Ok. Variáveis independentes
são aquelas que também
são conhecidas como preditoras As variáveis independentes
são os preditores e o valor que predizemos é
chamado de variáveis dependentes Em outras palavras, isso implica que uma
variável independente não deve ser combinação linear
perfeita de outras. Portanto, uma
variável independente não deve ser uma
combinação linear perfeita das outras. Portanto, não deve haver nenhuma
combinação de linearidade. Importância de nenhuma
multicolinaridade perfeita Sim, a
multicolinaridade ocorre quando
duas ou mais
variáveis independentes em
um modelo de regressão estão altamente correlacionadas entre si multicolinaridade ocorre quando duas ou mais
variáveis independentes em um modelo de regressão . Portanto, duas ou mais variáveis
independentes não
devem ser correlacionadas, altamente correlacionadas entre
si Embora a multicolinearidade em si
não seja necessariamente um problema não multicolinearidade perfeita
pode levar a problemas na estimativa do coeficiente de regressão
e A multicolinearidade perfeita
pode levar
a problemas na estimativa do coeficiente de
regressão
e prejudicar a interpretação do modelo. Identificação da matriz de
correlação múltipla perfeita. Um método comum para
detectar a multicolinearidade é examinar a matriz
de
correlação de variáveis examinar a matriz
de
correlação de variáveis independentes. coeficiente de correlação
próximo a mais um ou menos um indica
uma forte relação entre O segundo método é o fator de
inflação de variância VF, VF é uma medida de até que ponto
a variância do coeficiente
de regressão estimado aumenta
devido VF é uma medida de até que ponto
a variância do coeficiente
de
regressão estimado aumenta
devido à multicolinearidade. Um alto F F significa fator de
inflação de variância, valor normalmente
obtido indica
um nível problemático
de O que acontece se violarmos a colinearidade multicolar
perfeita Isso levará a estimativas de
coeficientes não confiáveis. Quando existe a
colinearidade multicoli perfeita, o modelo de regressão
não pode estimar o coeficiente
exclusivo Como resultado, as estimativas do
coeficiente se tornam instáveis e Soluções infinitas. Com a
multicolinearidade perfeita, há infinitas combinações de estimativas de
coeficientes que se ajustam perfeitamente estimativas de
coeficientes Portanto, o
modelo de regressão não pode
determinar exclusivamente os problemas de interpretação do
coeficiente A colinaridade múltipla perfeita complica a interpretação do coeficiente individual,
das
estimativas, pois se torna
impossível isolar o efeito das variáveis independentes das outras Como abordar a seleção perfeita de
variáveis de colinearidade
múltipla, remover uma ou mais altamente correlacionadas do modelo,
priorizar
variáveis que são mais
teoricamente relevantes ou têm uma associação mais teoricamente relevantes ou remover uma ou mais variáveis
altamente correlacionadas do modelo,
priorizar
variáveis
que são mais
teoricamente relevantes ou têm uma associação mais forte com a variável dependente. A transformação de dados transforma
uma ou mais variáveis para reduzir a colinaridade múltipla. Por exemplo, criar termos de
interação
ou termos polinomiais
pode ajudar a capturar relacionamentos
complexos
sem introduzir relacionamentos
complexos
sem introduzir
uma colinaridade perfeita.
Regressão de Ridge regressão Ridge é uma
técnica de regularização que pode lidar com colinaridade
múltipla adicionando um termo de penalidade Esse termo de penalidade ajuda a estabilizar as estimativas do
coeficiente
e mitiga o efeito da Essas são as três técnicas muito
eficazes que
podemos usar para lidar com a multicolinearidade
perfeita. A primeira é
a seleção a Podemos remover ou adicionar mais e remover uma ou mais
variáveis altamente correlacionadas do modelo Em seguida, na transformação dos dados, podemos transformar uma ou
mais variáveis para reduzir a frieza
múltipla e a regressão da
crista é uma técnica de regulação para lidar com a multicolidade adicionando Ok. Portanto, garantir que não haja uma frescura múltipla perfeita
é essencial para produzir resultados confiáveis e
interpretáveis na análise de regressão linear Detectar e abordar
a colaridade múltipla no início processo de modelagem
pode ajudar
a melhorar a precisão e
a estabilidade
das estimativas de regressão Então, agora entendemos
a homossadicidade, a
normalidade e a multicolinaridade perfeita. Então, agora com esse entendimento, vamos
avançar em nossa
análise de regressão, compreensão Ok, então veja
o interior da próxima palestra.
141. Conceitos e formulação de regressão linear simples: E bem-vindo de volta.
Nesta palestra, entenderemos sobre regressão linear
simples,
conceitos e Portanto, a regressão linear simples, como discutimos
anteriormente, também é uma
técnica estatística básica usada para modelar a relação
entre duas variáveis, uma variável dependente, e também a
variável dependente também é conhecida como variável de
resposta e
uma variável
independente chamada variável
preditora Portanto, a variável
prevista predirá uma variável
dependente Aqui,
aprofundaremos o conceito de
formulação da regressão
linear simples, explodindo
os princípios fundamentais e as aplicações
práticas da regressão linear
simples Conceito de
regressão linear simples , primeiro,
entendemos Em seu código, a
regressão linear simples visa capturar
a relação linear entre uma única variável independente
x e uma variável dependente y. A relação funciona por meio de
uma equação em linha reta y igual a x mais
c mais B t zero B zero é zero, já
vimos na aula anterior,
é
o ponto de interceptação ou o
intercepto x e y é
a variável independente,
y é
a variável dependente
e B um, Beta um é um coeficiente de inclinação Já
discutimos isso aqui. Isso é Beta zero,
isso é B um, isso, e isso é x. Ok. Agora, o termo de interceptação representa
o valor de y quando x é zero que já vimos e o coeficiente de inclinação eta um indica a mudança
em y
associada à mudança de uma unidade em x.
Então, quando você olha aqui,
esse eta um, estará mudando Então, quando você olha aqui, esse eta um, estará Agora, formulação da regressão linear
simples. Estimativa estimando a
inclinação correspondente à zona beta. A coincidência de inclinação Beta um é estimada usando o método dos
mínimos quadrados, que minimiza a soma da diferença
quadrada
entre os valores objetivos
e previstos de y.
A fórmula para estimar Beta um é
Beta um é igual a Sigma de x
i menos x
a y menos y.
Isso é previsto menos objeto os valores objetivos
e previstos de y. A fórmula para estimar Beta um é
Beta um é igual Sigma de x
i menos x
a menos
previsto, dividido por Sigma desligado, e aqui está estimada usando o método dos
mínimos quadrados,
que minimiza a soma da diferença
quadrada
entre os valores objetivos
e previstos de y.
A fórmula para estimar Beta um é
Beta um é igual a Sigma de x
i menos x
a y menos y.
Isso é previsto menos objeto menos
previsto, dividido por Sigma desligado, e aqui está I variando
de igual a um dois e xi menos
x. Quadrado inteiro. Onde está o número
de observações, x e y são os
valores individuais de x e y e x e y, esses são a média amostral
da média x e y são a média de x e y.
Estimando o Beta zero Uma vez estimado o coeficiente de inclinação
Beta 1, o termo de interceptação
beta zero pode ser calculado usando a
fórmula beta zero, bar é igual a y bar
menos beta 1 bar,
onde x bar x bar beta um
é coeficiente de inclinação e x bar y bar são as médias
amostrais de
x e y.
Então esta é a fórmula
de formulação da regressão linear simples. Então esta é a fórmula
de formulação da regressão linear simples o termo de interceptação
beta zero pode ser
calculado usando a
fórmula beta zero,
bar é igual a y bar
menos beta 1 bar,
onde x bar x bar beta um
é coeficiente de inclinação e x bar y bar são as médias
amostrais de
x e y.
Então esta é a fórmula
de formulação da regressão linear simples. Aplicação de regressão
linear simples, que já
conhecemos em economia, para modelar a
relação entre receitas e
despesas em finanças, prever preços de ações com
base em
dados históricos, em saúde,
e Ling, a relação
entre a idade do paciente e despesas
médicas
e em educação , considerando como prever
o desempenho do aluno que já
conhecemos em economia, para
modelar a
relação entre
receitas e
despesas em finanças,
prever preços de ações com
base em
dados históricos, em saúde,
e Ling, a relação
entre a idade do paciente e despesas
médicas
e
em educação, considerando como prever
o desempenho do aluno com base
no estudo s. Portanto, a regressão linear
simples é uma ferramenta
estatística poderosa para modelar e compreender as relações entre
as duas variáveis, estimulando
a inclinação e
o coeficiente inclinação e
o Os analistas podem quantificar
a força e direção do relacionamento e fazer previsões com
base nos dados observados Compreender o conceito
e a formulação da regressão linear
simples
é essencial para conduzir análises precisas e
significativas Em vários domínios. Então, este é um passo à frente, nós fomos e
entendemos como a
formulação de regressão linear simples E também entendemos
o conceito. Então, veremos mais sobre essa regressão linear simples
na próxima aula
142. A teoria do método Least Squares explicada: E bem-vindo de volta.
Então, nesta palestra, entenderemos o que é
o método dos mínimos quadrados Portanto, o método dos mínimos quadrados é uma abordagem comum usada
na regressão linear Para estimar o coeficiente
da equação de regeneração. objetivo é encontrar a linha que melhor se ajusta aos
dados do objeto, minimizando a soma das
diferenças quadradas entre o objeto e
os valores previstos da variável
dependente Veja como funciona o método do
quadrado da lista. A primeira coisa é definir
a equação de regressão. A equação de regressão para um modelo de regressão linear simples é normalmente representada como y igual a Beta zero mais Beta um e dois x
mais ou épsilon, onde y Também a chamamos de
variável de resposta, x é variável independente, chamamos de variável preditora Beta zero é o termo de interceptação, Beta um é suficiente
e Epsilon é o termo de erro, e Epsilon é o termo de erro Beta um é suficiente
e Epsilon é o termo de erro, representado por uma variação inexplicável. A segunda etapa é calcular o valor previsto usando a equação de regressão
dada, calcular o valor previsto, ou
seja, para cada observação
no conjunto de dados Em seguida, o valor previsto y
para observação é dado y y y bar mais Beta zero mais Beta um
em xi, onde Beta zero e Beta um são
coeficientes estimados pelo método
dos mínimos quadrados Agora, a terceira etapa
será calcular o resíduo. O resíduo de para
cada observação é a diferença entre
o valor
do objeto de y e o valor previsto, y que dois pontos i é
igual a dois, yi hat Para minimizar a soma
dos resíduos quadrados. O objetivo do método list squa é minimizar a soma
dos resíduos quadrados Matematicamente, isso pode ser
expresso como essa equação. Sigma dois n, Sigma F é igual a um a
n i quadrado é igual a Sigma F y menos yi aquele quadrado
onde eu variarei de um a
n. Ao minimizar essa soma,
obtemos a linha de melhor
ajuste que
passa pelos pontos de
dados, pois
reduz a discrepância geral
entre os valores observados e
previstos de y. Estime discrepância geral o coeficiente, página da quinta etapa Sigma F é igual a um a
n i quadrado é igual a
Sigma F y menos yi aquele quadrado
onde eu variarei de um a
n. Ao minimizar essa soma,
obtemos a linha de melhor
ajuste que
passa pelos pontos de
dados, pois
reduz a discrepância geral
entre os valores observados e
previstos de y. Estime o coeficiente, página da quinta etapa. Para encontrar o valor de Beta
zero e Beta um que minimiza a soma do quadrado da técnica de cálculo
residual, especialmente
derivadas parciais As fórmulas para estimar o coeficiente são dadas como: x bar, onde x bar
e ar são médias amostrais
de x e y, respectivamente Depois de encontrar o
valor a partir daqui, próxima etapa interprete
o coeficiente Uma vez estimados os coeficientes
Beta zero bar e Beta 1 bar, eles podem ser
interpretados barra beta zero é o termo de interceptação que representa o y de
representar o valor de y, onde x é zero e a barra
beta 1 é o
coeficiente de inclinação que indica
a mudança em y associada a uma mudança
unitária em x. Ao aplicar esse método de
lista quadrada, obtemos estimativas
do coeficiente que define a
linha de melhor ajuste para os dados fornecidos,
permitindo quantificar o A barra beta zero é o termo de interceptação
que representa o y de
representar o valor
de y, onde x é zero e a barra
beta 1 é o
coeficiente de inclinação que indica
a mudança em y
associada a uma mudança
unitária em x.
Ao aplicar esse método de
lista quadrada,
obtemos estimativas
do coeficiente que
define a
linha de melhor ajuste para os dados fornecidos,
permitindo quantificar o
relação entre as variáveis independentes e
dependentes em um modelo de
regressão linear simples É assim que funciona o método do
quadrado quadrado, e essa é a teoria
por trás do método dos quadrados da lista
143. Exemplo de método menos quadrados em regressão linear: Olá, e bem-vindo de volta.
Na palestra anterior, vimos a teoria por trás do método
da lista quadrada Nesta palestra,
executaremos este
programa simples que
escrevi para explicar o método da lista quadrada na regressão
linear Aqui, o que estou fazendo, estou
gerando dados sintéticos. Para isso, estou usando
set dot set 123. Isso definirá o conjunto
para reprodutibilidade. Aqui, estou considerando X
como um valor de 1 a 200. Essa é uma variável independente, então x é uma variável independente. variável dependente
será o y, e sabemos que a
recreação, desculpe, a
fórmula da linha simples é y é igual a x mais c. Então, aqui estão os dois de x, estou
pegando dois e dois x,
dois x mais algum ruído aleatório que estou tomando aqui usando a fórmula,
usando a função norma, 100 e, quero dizer, estou tomando
zero e a
adivação padrão, estou tomando dez Então, isso nos dará a variável dependente
com algum ruído aleatório. Agora, o que vou fazer ajustar o modelo de
regressão linear usando a lista quadrada por terço Aqui, criarei o modelo de regressão
linear usando funções LM,
criarei o modelo e usarei a
função m, e aqui, y será a variável
dependente e x será a variável
independente Estou criando o modelo de
regressão linear aqui. Agora, vou imprimir o modelo de regressão
linear. Deixe-me correr até aqui. Veja aqui agora nós podemos ver aqui. Resíduos mínimos. mediana do primeiro quartil é esse o terceiro quartil, o
máximo e o coeficiente
que podemos ver Padrão residual 9,1 em
90 graus de liberdade, múltiplo R quadrado 0,0 978 R quadrado 0,0
9763 ajustado. Agora, vou traçar os dados,
ajustar e encontrar a linha ajustada. Para traçar, usarei a função de plotagem x e manterei o título como título para o gráfico é regressão linear de
mínimos quadrados
e x x direi x e y, x p y, com a linha ab, tentarei encontrar a linha de regressão
ajustada Vou usar o modelo aqui. Esse modelo de regressão linear, e eu vou usar para a linha, eu vou usar a cor vermelha Agora deixe-me executar isso. Veja agora aqui, deixe-me fazer isso. Veja agora aqui, para cada x, estamos obtendo y e C estou
obtendo uma regressão linear Esta é a linha de regressão, a linha vermelha, estou chegando aqui Essa é a linha de
regressão linear usando o método dos mínimos quadrados Com isso, estamos obtendo
essa linha de regressão aqui. Aqui, usamos o método dos mínimos quadrados para
encontrar a linha de regressão Veja o interior da próxima palestra.
144. Conclusão e trabalho de projeto: Ei pessoal, então aprendemos
a arte da programação e estamos prontos para continuar com nosso conhecimento de programação. E agora podemos implementar esse conhecimento de programação artística em ciência de dados e aprendizado
de máquina. Ok, então, a partir de agora, você está pronto para implementar algoritmos de ciência de dados
e aprendizado de máquina
usando nossa programação. Portanto, nossa programação é clara. Agora você carregou. Agora, sua próxima etapa
é implementar algoritmos de ciência de
dados e
aprendizado de máquina em nossa programação
e tentar explorar. Então, esse é o próximo passo. E agora você pode ir mais longe e começar a analisar os dados usando R e implementar
algoritmos de ML, como regressão linear
usando programação R. Então, essas são as
coisas que você pode explorar mais depois de
concluir esta aula. Então, a próxima coisa é qual é o seu projeto
para essa aula? Agora você pode criar
seus próprios dados, como eu criei dados de
funcionários em arquivo CSV. Você também pode criar
seus próprios dados em um arquivo CSV para esta
classe, trabalho de projeto. E tente ler esse arquivo
CSV por meio da arte. Em seguida, tente realizar algumas análises de
dados sobre esses dados, sobre os dados do arquivo CSV usando arte, como
fizemos em nossa classe. E tente criar algumas
tabelas e gráficos com base nos dados, como a reabilitação
feita para os dados de nossos funcionários. Da mesma forma, você pode
pensar em um problema, pensar em um dado e realizar
todas essas coisas. E depois de terminar com isso, disse, seu relatório final de
análise. exemplo, quais são as coisas que
você
encontrará nos dados? E tente criar um relatório e tentar criar gráficos e tabelas. E tente colocar isso
na seção
de projetos desta aula para que
todos possamos passar por isso. Aprenda com seu experimento, aprenda com seu projeto e falhe em
feedback construtivo uns com os outros. Então, quando você salva seu
projeto, todos os outros estudantes. E até eu posso passar por isso e até eu posso dizer
esse feedback e outras pessoas também analisam e dizem o feedback umas
com as outras. E com isso,
podemos aprender e crescer. Então comece a configurar e
publicar seu projeto. É isso para esta aula. E espero que você tenha gostado
desta aula e tenha aprendido nossa programação para seus
futuros projetos de ciência de dados e aprendizado de máquina. Tchau, tchau, cuide-se.