Bootcamp de programação R para ciência de dados e aprendizado de máquina | Sunil Kumar Gupta | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Bootcamp de programação R para ciência de dados e aprendizado de máquina

teacher avatar Sunil Kumar Gupta

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Introdução

      1:15

    • 2.

      Instalação de R

      7:15

    • 3.

      Como instalar e explorar o RStudio

      11:34

    • 4.

      Por que aprender a R

      5:15

    • 5.

      Primeiro programa de R e operadores em R

      11:06

    • 6.

      Tipos de dados em R

      8:33

    • 7.

      Como criar vetores em R

      5:49

    • 8.

      Sequência em R

      14:59

    • 9.

      Função de replicação

      5:09

    • 10.

      Como acessar elementos vetoriais

      8:04

    • 11.

      Manipulação vetorial em R

      5:39

    • 12.

      Reciclagem de elementos vetoriais

      5:22

    • 13.

      Como classificar elementos vetoriais

      5:35

    • 14.

      Tomada de decisões em R

      9:55

    • 15.

      Controle de loop usando a repetição e o loop

      6:18

    • 16.

      Para loop e próxima declaração

      5:10

    • 17.

      Funções em R

      13:01

    • 18.

      Matrizes em R

      13:04

    • 19.

      Fatores em R

      7:53

    • 20.

      Quadros de dados em R

      16:14

    • 21.

      Como combinar quadros de dados

      9:03

    • 22.

      Como analisar dados em R a partir de arquivo CSV

      18:44

    • 23.

      Como criar um gráfico de pizza em R

      8:30

    • 24.

      Como analisar dados de funcionários

      13:30

    • 25.

      Como ler arquivo do excel em R

      7:05

    • 26.

      Como ler um arquivo xml em R

      13:45

    • 27.

      Como ler arquivo JSON em R

      9:30

    • 28.

      Como criar o enredo de barras

      14:06

    • 29.

      Gráfico de barras empilhadas em R

      5:33

    • 30.

      Boxplot em R

      9:04

    • 31.

      Boxlot usando o conjunto de dados mtcars

      10:37

    • 32.

      Boxplot com notch

      7:04

    • 33.

      Histograma e distribuição do Histograma

      11:12

    • 34.

      Como desenhar histograma usando a função hist

      12:53

    • 35.

      Como usar quebras xlim ylim no histograma

      14:19

    • 36.

      Gráfico de linhas básico para séries temporais com ggplot2

      19:56

    • 37.

      Scatter Plot e plotar matrizes em R

      16:24

    • 38.

      Como encontrar a média em R

      19:00

    • 39.

      Como encontrar a mediana e o modo em R

      18:33

    • 40.

      O que é a regressão linear

      16:51

    • 41.

      Previsão usando o modelo de regressão linear

      15:11

    • 42.

      Como ler CSV como criar um modelo LR e Prever

      11:11

    • 43.

      Regressão múltipla

      10:18

    • 44.

      Como prever a quilometragem do carro usando a regressão múltipla em R

      9:36

    • 45.

      Regressão logística

      14:18

    • 46.

      Distribuição normal

      5:58

    • 47.

      Distribuição normal usando a função dnorm e pnorm

      8:08

    • 48.

      Distribuição normal usando a função qnorm e rnorm

      4:54

    • 49.

      Recursão em R

      7:24

    • 50.

      Como encontrar o fator de um número usando a recorrência em R

      5:42

    • 51.

      Dados de amostra de uma população

      9:41

    • 52.

      Programa para verificar os números primos

      14:52

    • 53.

      Programa para verificar EVEN ou ODD

      5:09

    • 54.

      Programa para verificar o Negativo Positivo ou ZERO

      3:32

    • 55.

      Programa para verificar o ano bissexto ou NÃO

      6:20

    • 56.

      Programa de tabela de multiplicação

      3:07

    • 57.

      O que são valores ausentes e tipos de valores ausentes

      12:40

    • 58.

      Como colocar NAs de valores ausentes no conjunto de dados

      7:18

    • 59.

      Como colocar valores ausentes usando o método PMM

      16:40

    • 60.

      Analisando conjuntos de dados usando funções R

      13:25

    • 61.

      Como usar o pacote dplyr

      18:43

    • 62.

      Introdução aos painéis interativos brilhantes em R

      7:01

    • 63.

      ShinyApp como criar um painel interativo com o Shiny

      15:02

    • 64.

      Alguns exemplos de aplicativos brilhantes em R

      15:08

    • 65.

      Aplicativo File Shiny 2 no RStudio

      4:16

    • 66.

      Como gerar relatórios para download no Shiny

      6:54

    • 67.

      Análise da covardia

      13:31

    • 68.

      Handson com a biblioteca do dplyr

      17:46

    • 69.

      Regressão linear simples usando o conjunto de dados da Airquality

      7:59

    • 70.

      Como lidar com valores ausentes

      5:44

    • 71.

      Teste os valores ausentes

      7:50

    • 72.

      Recodificar os valores ausentes

      4:39

    • 73.

      Árvore de decisão

      10:13

    • 74.

      Entropia e ganho de informações

      6:29

    • 75.

      Como avaliar a enttropia na árvore de decisão

      9:36

    • 76.

      Como obter informações para a árvore de decisões

      12:18

    • 77.

      Mãos na árvore de decisões em R

      11:57

    • 78.

      Vantagens e desvantagens da árvore de decisão

      10:01

    • 79.

      Introdução ao Projeto 1

      4:14

    • 80.

      Projeto 1 - Como prever preços de ações

      13:52

    • 81.

      Projeto 2 Análise de dados do Uber usando R

      30:04

    • 82.

      Project 3 Segmentação de clientes usando R

      11:35

    • 83.

      Project 3 Parte 2 Segmentação de clientes usando R

      12:02

    • 84.

      Project 4 - Introdução - Recomendação de filmes

      20:02

    • 85.

      Project 4 -Parte 1- Sistema de recomendação de filmes usando R

      12:53

    • 86.

      Project 4- Parte 2- Sistema de recomendadores de filmes

      19:11

    • 87.

      Projeto 5 Introdução Detecção de fraude de cartão de crédito

      16:20

    • 88.

      Importância da detecção de fraude online

      10:12

    • 89.

      Como lidar com o Dataset desequilibrado

      16:22

    • 90.

      Detecção de fraude sem modelo

      15:25

    • 91.

      Como criar amostragem de conjuntos de dados de treinamento e teste

      9:01

    • 92.

      Métodos de amostragem aleatórios sobre e sob amostragem

      9:33

    • 93.

      Como usar as ROS e a RUS juntos para o balanceamento de dados

      6:26

    • 94.

      Vantagens e desvantagens do SMOTE

      4:13

    • 95.

      Como aplicar a técnica SMOTE no conjunto de dados de treinamento

      9:00

    • 96.

      Como prever casos de transações de cartão de crédito com o modelo

      6:22

    • 97.

      Introdução ao ggplot2

      22:24

    • 98.

      Enredo de Scatter e enredo jittered

      11:41

    • 99.

      Plotagem de barras e Hostogram

      11:39

    • 100.

      Gráfico de tortas com ggplot2

      5:56

    • 101.

      Planos de linha usando o ggplot2

      17:21

    • 102.

      Visualização de dados com o ggplot2

      24:21

    • 103.

      Adicionar estética de cores às tramas

      11:44

    • 104.

      Estética do enredo de ajuste fino

      8:10

    • 105.

      Como modificar temas, rótulos, valores e eixos usando o tema Função

      8:17

    • 106.

      Projeto 6

      9:01

    • 107.

      Como lidar com dados de data e hora no ggplot2

      13:21

    • 108.

      Funções POSIXct e POSIXlt com exemplo

      9:00

    • 109.

      Project 7 Transformação e resumos de dados

      9:22

    • 110.

      Project 7 Parte 2 Filtragem de dados e escalas de cores

      15:00

    • 111.

      Como criar plots interativos com plotly e ggplotly

      13:56

    • 112.

      Introdução ao Plotly e características principais

      6:52

    • 113.

      Como trabalhar com o Plotly

      23:04

    • 114.

      Como criar gráficos 3D em R

      10:09

    • 115.

      Como criar gráficos interativos com Highcharts

      8:25

    • 116.

      Project 8 Como visualizar dados do Airbnb em Nova York

      9:35

    • 117.

      Projeto 9 COVID 19 Análise e visualização de dados

      16:40

    • 118.

      Projeto 10 Como desenhar flores usando a matemática em R

      24:06

    • 119.

      Project 11 Analisando e visualizando os vencedores do Prêmio Nobel usando R

      22:22

    • 120.

      Como encontrar a força de password usando R

      11:17

    • 121.

      Introdução ao aprendizado de máquina

      14:27

    • 122.

      O papel do aprendizado de máquina

      11:33

    • 123.

      Tipos de aprendizado de máquina

      14:37

    • 124.

      Fluxo de trabalho de aprendizado de máquina

      11:54

    • 125.

      Princípio GIGO

      14:08

    • 126.

      Algoritmos de aprendizado supervisionados

      16:53

    • 127.

      Regressão linear

      10:15

    • 128.

      Como realizar a regressão linear em R

      11:03

    • 129.

      Prever a altura de uma pessoa usando a regressão linear

      10:34

    • 130.

      Regressão logística

      8:30

    • 131.

      Previsão de rotatividade do cliente usando a regressão logística

      7:11

    • 132.

      Algoritmo KNN

      7:51

    • 133.

      Como implementar o kNN

      5:52

    • 134.

      Árvore de decisão e florestas aleatórias

      11:56

    • 135.

      Algoritmo de máquinas vetoriais de suporte

      17:21

    • 136.

      Como entender a análise de regressão

      10:06

    • 137.

      Como entender o modelo de regressão linear

      9:48

    • 138.

      Como entender a cedasticidade doméstica

      7:40

    • 139.

      Como entender a normalidade

      6:11

    • 140.

      Como não há multicolinearidade perfeita

      6:12

    • 141.

      Conceitos e formulação de regressão linear simples

      4:59

    • 142.

      A teoria do método Least Squares explicada

      4:19

    • 143.

      Exemplo de método menos quadrados em regressão linear

      3:42

    • 144.

      Conclusão e trabalho de projeto

      2:54

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

272

Estudantes

--

Projetos

Sobre este curso

O "Bootcamp de programação R para ciência de dados e aprendizado de máquina" é um curso intensivo projetado para equipar os alunos com o conhecimento e as habilidades essenciais necessárias para analisar dados e criar modelos de aprendizado de máquina usando a linguagem de programação R.

Durante o curso, os estudantes vão aprender como usar o R para manipulação de dados, visualização e análise estatística. Eles também vão aprender como aplicar vários algoritmos de aprendizado de máquina, como regressão linear e árvores de decisão para resolver problemas do mundo real.

O curso abordará os seguintes tópicos:

  1. Introdução à linguagem de programação R
  2. Manipulação de dados com R
  3. Visualização de dados com R
  4. Análise estatística com R
  5. Regressão linear
  6. Árvores de decisão 
  7. Criar e avaliar modelos de aprendizado de máquina com R
  8. Aplicações do R em ciência de dados e aprendizado de máquina
  9. Projeto - como prever preços de ações usando R

Os alunos terão a oportunidade de trabalhar em exercícios e projetos práticos para aplicar seus conhecimentos em cenários do mundo real. No final do curso, eles terão uma base sólida em programação R e técnicas de aprendizado de máquina, o que lhes permitirá criar modelos preditivos e extrair insights de dados.

Conheça seu professor

I have 12+ years of experience working in IT industry working for companies like HCL and Infosys.

He has done his Machine Learning and Artificial Intelligence course from IIM- Kozhikode.

He has done B.Tech(CSE) from SRM University, Chennai.

I have worked and trained students on various technologies including Data Science, AI, ML, Python, Java, Software Development etc.

Visualizar o perfil completo

Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Apresentação: Olá e bem-vindo ao treinamento de programação da classe R para ciência de dados e aprendizado de máquina. Nesta aula, ensinarei a você a adicionar programação, que é a segunda linguagem de programação mais popular usada no campo de aprendizado de máquina e ciência de dados. O primeiro compartimento, Python. Então, se você quer aprender programação R e quer se destacar em sua carreira em ciência de dados e aprendizado de máquina , essa é a aula certa para você. Eu sou Sunil, seu professor para esta aula. Tenho anos de experiência trabalhando em empresas de desenvolvimento de software e analistas de tecnologia últimos 12 anos e, nos últimos seis anos, venho ensinando pessoas sobre tópicos de ciência de dados e aprendizado de máquina. Então, vou te ensinar programação desde o básico até o tópico mais avançado. E veremos como podemos usar nossa programação sem leis para analisar os dados, visualizar os dados e como podemos usar a programação R para criar nossos modelos de ciência de dados e aprendizado de máquina para serem usados no campo de aprendizado de máquina e ciência de dados. Então, se você está interessado em aprender e programar para ciência de dados e aprendizado de máquina , essa é a aula certa para você. Então, se você estiver interessado em se matricular nesta aula, vemos na próxima palestra. Obrigada. 2. R Instalação: Olá e bem-vindo. Então, nesta palestra, vamos ver o processo de instalação de arte. E no final desta palestra, poderemos executar nossos programas dentro do nosso console. Então, vamos começar a instalar o R em nossa máquina. Precisamos acessar o site. Os ductos da glândula Crane são projetos de hífen. Observação sombria. Cnn dot são projetos de hífen ou voltados para você, que é o site oficial de nossa programação. E você pode ver o abrangente R Archive. Quando você vem aqui, você pode ver um ritmo diferente se chegarmos em um horário diferente depois de alguns meses. Mas, mais ou menos, você verá a Comprehensive R Archive Network aqui. E aqui você verá o download e a instalação do R. E aqui você verá as diferentes opções do sistema operacional para baixar o R4. Então, aqui estamos na máquina Windows. Então, eu vou usar esse download R para Windows. Se você estiver usando Linux ou se estiver usando o macOS, poderá acessar os sistemas operacionais correspondentes. Portanto, precisamos clicar no download R para o respectivo sistema operacional dos meus filhos. Estou clicando nas janelas. Aqui. Você pode selecionar instalar R pela primeira vez. Ok? E aqui vamos com o download R para ponto ou ponto para Windows. Clique nisso ou não. Ou o arquivo EXE com hífen quatro pontos 0, n2, hífen, ponto verde, começará a ser baixado. É o arquivo de 83,6 MB. E minha internet está um pouco lenta hoje, desde a manhã. Então, está demorando um pouco. Se você estiver em uma Internet de alta velocidade, pode levar alguns minutos e o arquivo DOT EXE será baixado. Basta esperar que ele seja baixado. E quando estiver pronto, começaremos o estilo e o processo. Agora, o arquivo dot EXE foi baixado. Precisamos clicar duas vezes nisso. E chegará o prompt para instalar a arte. Só precisamos clicar em Sim para permitir que o administrador acesse o processo de instalação. E uma vez que você fizer isso, o prompt de escuta da histona virá assim. E aqui precisamos selecionar o idioma para que você possa selecionar o seu idioma e clicar em. Ok. Agora precisamos conhecer a condição de Thompson, como Contrato de Licença Pública Geral GNU. Então você tem que lê-lo e depois precisamos clicar no botão Avançar. Agora você pode selecionar o diretório. Estou mantendo-o no arquivo C por diretório padrão. E precisamos clicar em Avançar. A coisa já existe porque já estava lá. Então, basta clicar para instalar de qualquer forma. Clique nele e você pode deixá-lo como está e clicar em Avançar. Clique em Avançar. Aqui você pode, se quiser, selecioná-lo para não criar a pasta do Menu Iniciar, ok? Se você quiser, eu quero ser criado. Então, vou clicar em Avançar. E aqui você tem que selecionar, basta selecionar os dados. próximas gotas são atalhos para que você possa iniciar a arte com facilidade. Sempre que você quiser escrever um programa, basta clicar nesse instinto extra da trama e ele pode começar. Clique em Avançar. E agora o estranho está sendo instalado em nosso sistema. Isso pode levar alguns minutos. Dificilmente. Levará de dois a 3 minutos no máximo. C aqui. Agora, a parte de trás, estamos dentro de casa para um ponto ou ponto a conjunto de rígidos. E está dizendo que está acabado. Então, basta clicar no acabamento e o R está instalado em sua máquina. Para verificar se o ímpar está instalado ou não, você precisa clicar no botão Iniciar do Windows e rolar para baixo para verificar se os artistas não são. Veja aqui. Aí está a pasta de arte. E ao clicar nele, clique na pasta de arte, você verá que as duas opções são I1, I3, T6 e adicione esse T4. Portanto, se você estiver usando sistemas operacionais Windows 7 ou Windows 10 ou superior, você pode usar a versão de quatro bits. Caso contrário, você pode ir com o 386. Ok, então eu tenho menos de 64 bits, então vou clicar nela e r será perdido. Então este é o R Do Re, e este é o console R. E aqui podemos começar a escrever o programa cardíaco. Suponha que eu ame quatro mais cinco e isso me dê nove. Se você escrever o programa simples Hello World para arte. Então, precisamos escrever em formato impresso. E então, na citação simples hello world, e ele imprimirá Hello world. Então, até agora. Este é o programa Hello World simples em R. Então é assim que nossos programas podem ser executados no console. Mas, neste curso, não vamos usar a interface gráfica do nosso console. Em vez disso, vamos usar o RStudio, que é um IDE para R. E essa é opção mais preferível e melhor para prosseguir com a programação R. Então, na próxima aula, começaremos a baixar e instalar o RStudio. Você me verá na próxima palestra. 3. Instalar e explorar o RStudio: Na palestra anterior, baixamos e instalamos em nossa máquina. E vimos como trabalhar com o console de arte, certo? Sim. Mas não vamos continuar com isso. Então, vamos baixar o RStudio para este curso. E ao longo deste curso, usaremos o RStudio. O Rstudio é um IDE de ambiente de desenvolvimento integrado para programação R. E com isso, podemos fazer as coisas com facilidade e gerenciar as coisas de forma organizada e o AD, eles ajudam muito na programação. Assim, podemos revestir com facilidade e ver os resultados com ele. Então, na próxima semana, vamos com o RStudio. Então, primeiro de tudo, precisamos baixar o RStudio. Então, para baixar o RStudio, precisamos acessar o artstudio.com. Este é o site oficial do RStudio. E quando chegarmos ao site do RStudio, você verá várias opções, como produtos, soluções, clientes, recursos e muitas coisas. E na parte superior você pode ver que o download não vai clicar nela. Antes disso, veremos quais são os produtos de nível no RStudio. Então, há nosso estúdio, o principal IDE para R. Então servidor RStudio é o sinal deles que já está lá. E os pacotes RStudio também estão lá. Então, vamos usar o RStudio, o ID, e depois usaremos pacotes R para vários usos quando exportarmos esse aprendizado de máquina de ciência de dados, todas essas coisas então usarão pacotes R. Ok, então vamos usar os pacotes RStudio e R. Então, por favor, clique em RStudio. Portanto, o RStudio é um ambiente de desenvolvimento integrado para arte. Ele inclui um editor de destaque de sintaxe do console que suporta execução direta de código, bem como ferramentas para plotagem, histórico, depuração e gerenciamento de objetos. Ok, então todas essas coisas que podemos fazer com o RStudio, vamos usar a versão mais recente do RStudio one dot three. E há duas versões do RStudio no nível RStudio, que são o RStudio Desktop e o servidor RStudio. Portanto, não vamos usar o servidor RStudio. Vamos usar o RStudio em nossos deques, então clicaremos nele. E quando você vê outro armazenamento extra, novamente, você verá as duas opções, motivo de código aberto, que é basicamente gratuito, e RStudio Desktop pro, que é para uso comercial e para esse artista ler extra pro, precisamos pagar $995 por corpo. Não vamos usar esse comercial. Vamos usar para este curso, a versão de código aberto gratuita do RStudio, que é uma GPL versão três, licenciamento gratuito. Então, vou clicar nisso. Baixe, RStudio extra. Clique sobre isso. E quando você clicar nele, você chegará à fase difícil de fazer o download. E aqui podemos escolher esta versão gratuita e clicar em Baixar. E quando você clica em Baixar, você será direcionado ao seu respectivo sistema operacional. Nós terminamos. Então, aqui vou baixar o RStudio para Windows. Se você estiver em outro sistema operacional, você pode clicar nele. Como Coben para macOS, Fedora, BBN, qualquer sistema operacional que você tenha, basta selecionar esse arquivo e clicar em Download. Então, vou baixar o RStudio para Windows e clicar nele. E artistas, o arquivo EXE do artist studio dot será baixado. O download começará aqui. Então, vou esperar por isso. Portanto, esse arquivo RStudio dot EXE foi baixado, então eu só preciso clicar duas vezes nele. Então, o assistente de redução de configuração dos artistas foi iniciado. Então, por que só precisa clicar em Avançar? Você só precisará clicar em Avançar e pronto. Não há necessidade de fazer nada extra. Assim, clique em Avançar, Avançar. E isso será feito em alguns minutos. Então, a configuração do estúdio do artista foi concluída. Basta clicar em Concluir e o RStudio parou completamente em suas máquinas ou apenas agora o aplicativo de tarefas de interrupção está lá, basta clicar em conduzir. Um estúdio de artistas será lançado. Então, os celulares estão carregados. Rstudio, Bem, parece este ano você verá a opção de escrever seu roteiro. E esse é o console onde podemos ver os resultados desses scripts. E então, neste canto superior direito você pode ver o ambiente, a história. Seja qual for o comando e descartado, estamos executando o fluxo dorsal. Você pode ver então essa conexão e, em seguida, o tutorial. Então, se você quiser aprender sobre um pacote específico ou algo assim, você pode ir aqui e aprender sobre isso. E aqui você pode ver os arquivos no diretório de trabalho. Os arquivos serão mostrados aqui. Depois, os gráficos, quando usamos gráficos e todos os gráficos, e se executarmos algo em paisagem para traçar algo como algo gráfico, todos esses gráficos e tudo estarão aqui em breve. Os pacotes que usamos em nosso script. Esses pacotes serão nosso nível aqui. Então, todos os pacotes que estão instalados aqui. E você pode simplesmente selecionar, e se quiser remover esse pacote, você pode removê-lo daqui. Se você quiser saber mais sobre o pacote, clique neste link e saiba mais sobre o pacote. Então, aqui você pode ver o nome do pacote e , em seguida, a descrição da classificação do pacote e o texto do pacote e, em seguida, explorar e excluir o mob. A opção de pacote está lá. Se você quiser instalar um novo pacote, basta clicar em Instalar e nome do novo pacote especificar o nome do novo pacote e ele será baixado. Ok, e aqui está uma operação de ajuda e você quer aprender sobre R e RStudio, ou você quer acessar os manuais são grandes para fazer manuais, você pode ir aqui e obter ajuda sobre qualquer assunto, ok, então, vimos essas coisas vimos conexões e tutoriais e tudo estará aqui. E a partir daqui, os três pontos. Você pode ver que, ao clicar nele, você pode selecionar o diretório de trabalho que deseja definir para o seu RStudio. Então, suponha que selecione nosso 2020 como um diretório de trabalho. Então, vou apenas selecionar isso. E então precisamos clicar nessa opção adicional e opção Definir como diretório de trabalho é que você só precisa clicar nela. Então, sênior, WD disse que WE é o comando para definir nosso diretório de trabalho. Então, beneficiário impresso em C ou D com a arte do cólon. Essa árvore foi configurada para o diretório de trabalho. Então, se você não quiser fazer a partir daqui, você pode usar esse comando para definir o diretório de trabalho, ok? E então aqui você pode criar uma nova pasta, excluir, renomear todas essas opções em nosso nível aqui e aqui podemos simplesmente escrever nosso script até mais cinco. E nesta execução, você pode selecionar esta linha e clicar em Executar e esse script ou esta instrução estará em execução e você verá o resultado aqui, phi plus pipe, então simplesmente você pode, se quiser imprimir algo, olá, RStudio e quiser clicar em Executar, você verá que há LTL hello, RStudio. Ok? E no histórico você verá todos os comandos que estão sendo calculados. Ok? Então, essas são as coisas e esse arquivo que você pode salvar. Se você quiser salvar esse arquivo, clique em Salvar e ele será salvo em seu diretório de trabalho atual. Então você pode dar uma risada em qualquer nome. Nosso arquivo será salvo. Ok, da mesma forma, se quisermos criar um novo arquivo, basta clicar aqui e você verá o grupo do artista. Você criará nosso arquivo de script ou caderno ou arquivo R markdown. Vamos ver o que é o arquivo R markdown. Aprenderemos sobre esse método ágil. Ok? E então, se você clicar, você pode criar um novo projeto ou um novo diretório, ou você pode ir para o diretório existente. E aqui você pode ver o controle de versão. Ok? Então, essas são as várias opções de nível. Se você clicar no arquivo novamente, você verá o New File R Script. Mcdonald's, essas coisas que você pode ver aqui. E parcelas de ouro que vimos aqui. mesma coisa. As ferramentas de criação e depuração de perfis não são. Então, exploraremos todas as opções de quando e onde for necessário. E vamos explorar todas essas coisas por enquanto. Esta é a parte de escrever o roteiro, e aqui veremos isso como juiz, e aqui podemos ver diretório de trabalho obscuro e os enredos e tudo mais. Se usarmos, você pode ver que seus pacotes podem ser instalados e são enormes a partir daqui. E aqui você pode ver a história e tudo mais. Ok, então isso é tudo sobre o RStudio. E agora estamos prontos para começar com a programação R com este RStudio Ib. Então, da próxima palestra em diante, aprenderemos nossa programação. Então Steven datilografou a próxima palestra. 4. Por que aprender R: Olá e bem-vindo. Nesta palestra, aprenderemos por que estamos aprendendo a linguagem de programação R? Então, para responder a essa pergunta, temos que passar por duas coisas. A primeira coisa é: o que é r e por que devemos aprender se suas regiões estão por trás do aprendizado de nossa programação? Então, vamos começar com o que é r? Portanto, r é a linguagem mais popular no mundo da ciência de dados. A análise de dados é estática. Por isso, é muito usado na análise de dados estruturados e não estruturados por natureza. Atualmente, estamos recebendo uma grande quantidade de dados chamados de big data, que geralmente não são estruturados. E se você quiser analisar esses big data, você pode facilmente fazer com a programação R ou ímpar. Estranho. Estranho. Odd é uma linguagem de programação, software e aquecimento para análises estatísticas e gráficos. A apresentação e o relato do que foi criado por Eros yamaka e Robert Jackson man e pela Universidade de Auckland, Nova Zelândia. E atualmente eles estão bloqueados pela nossa equipe principal de desenvolvimento. Então R é inventado por yamaka e Robert Gentleman. E é por isso que seu nome é estranho porque no inverno o nome começa com nossos Roth e Robert e eles o nomearam com base em seu nome. E isso é chamado de nossa programação a partir deles. Regiões para aprender R. R é um software de código aberto e de código aberto disponível gratuitamente , que você pode conectar e usar. E se quisermos contribuir com a arte, você também pode fazer. E é a licença pública geral GNU. Portanto, não há necessidade de pagar nada gratuitamente. E esse é o melhor motivo para usar nossa programação. Compatível com várias plataformas. Então, se você executa nosso programa no Windows, Linux ou macOS, não importa. Ele funcionará perfeitamente e fornecerá o mesmo resultado em qualquer uma dessas plataformas. Esses artistas altamente flexíveis e em evolução são flexíveis por natureza? E está evoluindo muito. E atualmente são mais de 2 milhões muito mais de 2 milhões de usuários estão usando nossos setores e domínios de programação. Amplamente utilizou nossa programação. Por exemplo, você nomeia o setor e encontrará o uso de nossa programação no domínio financeiro que eles usam para detectar transações fraudulentas no domínio das telecomunicações. Eles são usados na programação artística. Também. Até agora, o perfil dos assinantes. No domínio da biologia, você encontrará a biologia computacional para realizar a ferramenta de análise do genoma. Muitos, muitos domínios. Eles estão usando R. E é uma grande comunidade, como eu disse, 2 milhões de usuários e usam a comunidade de desenvolvedores. E estranho é ter mais de 10.000. Os últimos pacotes e carências de funções embutidas atendem a diversas necessidades. Então, se você deseja realizar uma operação de soma simples ou quer encontrar a média de algumas funções, há alguns números. Ou você quer fazer mais algumas representações gráficas de seus dados. Você pode fazer isso facilmente com os pacotes de auditoria e as funções integradas. E nossos pacotes são ótimos para manipulação de dados, visualização de dados, aprendizado de máquina , ciência de dados e modelagem estatística, imputação e muitos outros pacotes rotulados para serem usados. R é ótimo para visualização. E pacotes R, como GG plot to Gibbs, criam visualizações para que você possa visualizar dados facilmente com nossa programação. E muitas grandes empresas, como o Facebook e o Google, estão usando a arte para suas diversas necessidades. parte ímpar é igual à linguagem é que análise estatística e a ciência de dados são amplamente utilizadas em ciência de dados, aprendizado de máquina, análise de dados, mineração de dados, todas essas coisas. Então Deus é a linguagem preferida para todas essas coisas. E se quisermos aprender, se você quiser entrar nessa ciência de dados e aprendizado de máquina, acho que você começa com a programação. Porque se você conhece o básico sobre programação, pode aprender facilmente o conceito de ciência de dados e aprendizado de máquina e implementar facilmente esses conceitos, esses algoritmos com programação estranha. 5. Primeiro Programa de R e operadores em R: Olá e bem vindo de volta. Então, nesta palestra, escreveremos nosso primeiro arquivo de script R, ou primeiro nosso programa, e veremos alguma sintaxe de nossa programação. Ok, então primeiro, precisamos criar nosso arquivo. Então eu criei na aula anterior os primeiros dados, vou apenas fechá-los. E só precisamos clicar aqui. E selecionaremos nosso roteiro. Ou você pode, alternativamente, usar control shift e criar nosso arquivo de script. E aqui, o que vou fazer, vou tentar salvar isso clicando aqui. Você pode colocar controladores e dar esse nome primeiro. Quebrou. Ok. Ponto. Ponto, ponto é o porquê das eleições e quais programas. Ok, adicione um script. Então, vou clicar em Salvar. Então, agora nosso primeiro arquivo de script de programas de arte está pronto. Agora, o que vou fazer é começar com algumas variáveis. Suponha X, X 0s e uma guerra valiosa. E eu quero atribuir o valor sete ou oito. Então, aqui podemos atribuir um valor usando um hífen menor que o sinal, ou seja, x. E quando usamos menos de oito, isso significa que esse objeto x em nossa programação, tudo é um objeto. Então, podemos chamar x como n variável, ou podemos chamá-lo como um objeto. Como um objeto ou variável. Então x é um objeto, e estamos atribuindo a ele um valor oito. Como podemos verificar isso? Não tem valor oito agora? Então, ao clicar em Executar aqui, você verá e verá aqui na guia Ambiente global do ambiente aqui, você pode ver x valores x. Então, o objeto x está recebendo um loop while. Isso. Podemos simplesmente usar o comando de impressão. E podemos colocar x dentro. E então, quando executarmos isso, obteremos o valor oito. Ok, estamos chegando lá. Agora, o que vou fazer simplesmente escrever um programa para somar dois números. Então, usarei x igual a oito e atribuirei y igual a nove. E então, veja aqui o que eu fiz. Eu atribuí a x, a y e depois usei outra variável ou objeto ainda. E eu atribuí x mais y igual a jet. E o que eu fiz foi imprimir detalhes para que obtenhamos o x mais y no zero. Então, jato, vamos carregar X mais Y, X mais Y mais 917. Então, estamos obtendo o valor I, apenas 17. Da mesma forma, o que farei também podemos usar uma string. Na varanda, eu perco minha primavera. E eu atribuirei algum valor de string a ele. Suponha que eu saia da minha casa. Qualquer coisa, ok? Essa é a string que estou atribuindo ao valor da minha string. Então, agora o objeto MyString receberá o que é minha casa, certo? Então, o que vou fazer é tentar imprimir meu valor de string e tentar executar isso. Por que estão recebendo somadores? Porque eu não executei esta linha e não estamos executando esta instrução de impressão. Então, precisamos executar linha por linha, ok? E se quisermos executar de uma só vez, basta clicar na fonte. Então clique na fonte e tudo será igual a 17 para esta impressão e, em seguida, minha página inicial para esse valor de string. Ok? Então, é assim que você quer. Mais uma vez. Suponha que eu esteja usando x. igual a 910. Imprima x aqui. E eu executo isso, vou pegar oito. Então, como essa declaração eu tenho e você criou anteriormente, estou recebendo X4 oito. O novo valor, x igual a nove, x igual a dez, não é executado. Então, para executar isso, o que eu preciso fazer é executar esta linha. E se eu executar essa declaração, novamente, obterei o valor n, certo. Se eu executar toda essa fonte, o que obterei primeiro, obterei x mais y 17 porque aqui, até aqui, o valor de x é oito. Mas quando prosseguimos no programa, valor X é reatribuído para dez. E é por isso que estamos obtendo o valor X como dez aqui. Ok? Então, o valor myString é uma variável de string, U e X, Y, j, os outros números, ok? E suponha que algo, se você quiser apoiá-lo, eu não quero usar x igual a dez. Eu posso comentar isso usando o Hess. Ok, então agora essa declaração não será executada. Então, agora, se eu executar todo esse programa, todo o script, o que eu obterei, eu obterei x igual a oito. Ok? Eu não vou pegar sol, o CEO. Agora estou obtendo o valor de x é o valor de x em 818910. Se eu remover esse comentário, novamente, receberei dez. O valor de C x está caindo. Então, se você quiser escrever alguma coisa, você pode usar Hess, essa afirmação será comentada. Da mesma forma, podemos realizar todos os operadores matemáticos nas variáveis. Então, suponha que eu queira usar quatro em cinco. Vou pegar 25, 20. Se eu quiser, tipo, use 25/5 e obtemos cinco. Então, todas essas coisas que podemos fazer, podemos executar todos os operadores matemáticos aqui. Suponha que eu queira usar 25/2, vou receber 12,5. Então, todas essas coisas que podemos fazer aqui, também podemos usar nossas coisas exponenciais. Suponha que eu queira usar três exponenciais na regra do expoente. Teremos nove, certo? Então, execute isso e veja aqui que teremos nove. Da mesma forma, se eu usar 25 exponencial 25, quanto obtemos? Vamos ver. Ok. Então esse é o grande valor. Eu não deveria ter usado. 25 exponenciais dois obterão 625, eu acho. Sim, é x 25. Então, todos esses operadores matemáticos podemos usar aqui. Se você quiser usar seis exponenciais um, você ainda terá seis, certo? Se fizermos dois, obteremos 36. Então, todos esses operadores e cálculos matemáticos podemos usar em R como de costume, ok? Da mesma forma, também podemos realizar subtração. 78 menos três mais seis obterá 22. Então, vimos como Edison a multiplicação por subtração, exponencial, e temos um operador especial que é módulo. Além disso. Suponha que eu use 45 e modelo, vamos usar duas vezes. Então, 45 modeladores. Suponha que eu use cinco. Então, 45 módulos phi darão zero, certo? Sim. E se eu usar 45 módulo quatro, obterei um, z. Então, se eu usar 25, três sem bordas, obterei 41. Ok? Portanto, o módulo manterá o restante. Então, 3/20, 5/3 nos darão 13 em 824 e, em seguida, receberemos aquele como lembrete. Ok, então quando realizarmos a divisão, o restante será dado como um módulo. Então, esses são os operadores que vimos no sentido da multiplicação exponencial de Jackson e, em seguida, do módulo. 6. Tipos de dados em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre os tipos de dados na programação R. Então, ao contrário de outras linguagens de programação como Java ou C, ou C plus plus, onde declaramos uma variável, declaramos a variável sem tipo de dados, certo? Suponha que, se quisermos usar uma variável de número inteiro, vamos declarar isso int x. Certo? Agora, diga por que nosso personagem, o x, certo? Corda. Por que amarrar a , amarrar assim, certo? Mas em nossa programação, não declaramos variáveis com tipo de dados, certo? Suponha que eu tenha apagado meu provavelmente, como aqui, atribuí x ou dez, certo? Eu atribuí dez ao x. Então, a esse objeto é atribuído um valor obtido. Então, o tipo de dados desse objeto se tornará tipo de dados, tipo de dados desse número dez, certo? Então, essa variável ou essa, suponha que seja dez como um número inteiro. Portanto, esse tipo de dados de objeto se tornará número. Se eu atribuir x igual a alguma string, isso se tornará a variável da cadeia de caracteres. Portanto, não decidimos de antemão o que atribuímos à variável ou objeto; esse objeto se tornará um tipo de objeto. Então, é quatro ou menos como luz do nosso espelho dinâmico brilhante. Portanto, não colocamos o tipo de dados de antemão. Será decidido que tipo de valor será atribuído a esse objeto. E esse objeto se tornará esse tipo de objeto valioso, certo? Então, deixe-me criar outro arquivo onde veremos os tipos de dados aumentados. Então, deixe-me limpar essa borda. Bem, então existem basicamente seis tipos de nossos objetos. E eles são tipo, Oh, reto, inferior. Reto. Em seguida, listas. E então temos Alice. E então temos matrizes. E então temos fatores. Fatores e depois estudo. Ok? E então temos dataframes. Ok? Então, esses são os outros seis tipos de objetos que temos em nossa programação. Então, deixe-me explicar isso. Tipos de dados um por um ou tipos de objeto um por um. Ok? Então, a primeira coisa, veremos o vetor, ou seja, objeto vetorial com o objeto mais simples em nossa programação. E a morte, suponho que tenha seis tipos de dados. Então, vamos ver, suponha que eu use x igual a verdadeiro. E se eu imprimir x, o que quisermos, poderei escrever e apoiar isso. Se eu quiser saber que tipo de dados é esse x, o que posso fazer, posso usar impressão e depois usar vidro dentro da classe de idade de impressão X. Ok? E se eu executar isso, obtenho que a classe de x é lógica, então esse é o tipo de dados lógico de saída. Ok? Da mesma forma, temos suporte numérico. Se eu atribuir x igual a 90, e deixe-me copiar isso para y. E vou colocar mais de y aqui. E se eu analisar toda a fonte, a classe de “Por que swing nomadic”, certo? Então, agora não estamos atribuindo otorréia, não declarando o tipo de dados de y. Qualquer valor que estejamos atribuindo com base nisso. As variáveis são: o tipo de dados está sendo decidido. Ok? Então ele teve que se reabilitar de acordo com a lógica. Então, é lógico. E aqui nós demos nômade, então é noético. A próxima coisa é a Índia, certo? Suponha que 90,9. Então, qual será o C? Não é uma taxa nômade. Agora, a próxima coisa é um número inteiro muito fino. Então, suponha D, e eu atribuirei alguns valores, é claro 34. Ok? E então eu vou usar o gloss de impressão Plaza de. Quando eu uso a classe de impressão, você decide qual porta traseira? Veja, estou ficando nômade. Desculpe, estou recebendo o interior. Não, classifique esse número inteiro d é tipo de dados inteiro, certo? Da mesma forma, temos complexo, suponha e declaramos um número complexo, três a mais cinco, alto. Certo? E quando coloco o cluster V, que gostamos, vejo que a classe de I é complexa, então esse V, cada número complexo dois mais phi. Da mesma forma, suponha que o seno C seja um programa ReLU. Se eu levantar o copo, veja o que seria aqui ser personagem, certo? Então, deixe-me ver toda a fonte C. Agora estou entendendo a personagem Glass Up Sissi. A próxima coisa é que , com todo suporte, usarei azul e atribuirei a ele um novo caractere para desenhar e usar Java. E se eu imprimir a classe do problema B, seria, vamos ver. É o cru. Ok? A próxima coisa é que os objetos estranhos são chamados de vetores, ok? Então, esses são os tipos de vetores como vidro, e w é uma haste próxima. C é a classe de caracteres de v é o número complexo mais ou p é inteiro, classe de y é numérica e o close-up x é lógico. Então, esses são os tipos de dados ou tipos de objetos, você pode dizer em nossa programação. Então, deixe-me salvar esse arquivo também. Tipos de dados. Na próxima palestra, veremos como podemos criar nosso vetor, ok? 7. Criar vetores em R: Olá e bem vindo de volta. Então, na palestra anterior, vimos os diferentes tipos de dados na programação R. Nesta palestra, aprenderemos sobre vetores. Como podemos criar um vetor com o elemento da maioria das pessoas, mais de um elemento ou Controle N. Vou criar um novo arquivo de script R. E nisso, vamos escrever nossas etapas para criar um vetor com vários elementos, mais de um elemento. Ok? Então, o que eu vou fazer é tentar criar e reescrever o hóquei. Então, apoio. Quero criar um vetor chamado g. E quero atribuí-lo a vários valores. Então, em nossa programação, quando queremos criar um vetor com vários elementos, temos que usar uma função chamada função C, certo? Portanto, essa função C nos permitirá criar e reagir com vários elementos. Ok? Então, quando você vê e fecha o colchete e, em seguida, dentro dele, podemos escrever nosso suporte de elementos. Quero criar o nome de um país. Suponha Alport, Austrália, Grã-Bretanha. Ok. África do Sul. Suporte elementos digitais. Estou criando dentro desse vetor. Ok, então podemos usar a função para criar um vetor com vários elementos. Certo? Agora, eu apenas uso print e coloco Ci. Então, isso imprimirá os valores dentro do diretor. Então, deixe-me fazer isso. Deixe-me salvar esse arquivo. E vou salvar esse arquivo como Reitor Dot. Ok? E todos esses arquivos estarão em nosso nível dentro do diretório de trabalho atual que compactamos. E eu vou atestar esses arquivos. Então você já pode baixar e seguir em frente. Ok, então deixe-me executar esse arquivo fonte. Agora estamos, deixe-me limpar esse console, executá-lo e executá-lo novamente. Então, veja aqui agora que estamos obtendo o valor do vetor t como Austrália, Grã-Bretanha, América do Sul e Rússia, certo? Então isso diz, um vetor com vários elementos dentro dele. Nós podemos, já vimos como classificar. Vimos como podemos criar nosso vetor com um único elemento, como a Índia. E isso nos dará o valor do cérebro. Isso nos dará na auditoria. Dessa forma, podemos criar um vetor e objeto com um único elemento e podemos usar a função c para criar um vetor com vários elementos. E suponha que, se você deseja imprimir vidro de G, qual será a saída? Você consegue adivinhar? Vamos ver. Caractere C, os caracteres nulos. Portanto, está nos dando o caractere S do vetor t do cluster. Suponha que se eu mudar isso para 0, desculpe, deixe-me primeiro imprimir essa classe de t. Então, o cluster, por favor, caractere aqui. Agora, o que vou fazer é mudar 200, um valor numérico, ok? E eu vou tentar correr, tentei executar isso. E então eu vou tentar escrever esta última afirmação C. E agora estamos pegando o copo. B tem um nômade. Da mesma forma, se eu mudar aqui 120367900. E se eu executar esse arquivo fonte, o que obtemos, obteremos o 12367900. E a classe de G agora é alterada para numérica. Então, quaisquer dados que você usará com base nesse tipo de dados do vetor serão decididos de forma não antecipada, como na programação C ou Java, ok? Então essa é a diferença entre C e Java n, certo? Então, o que quer que você use com base nisso, será decidido. 8. Sequência em R: Nesta palestra, aprenderemos sobre sequência. Vamos aprender sobre a função de sequência em r. Então, o que fazemos com a função de sequência que veremos? Mas antes disso, deixe-me dizer mais uma coisa importante que esqueci de incluir na palestra anterior, que é o apoio. Estou criando um vetor e usando a função C. E se, como aqui, eu criei uma função usando apenas valores numéricos. Portanto, a classe disso será numericamente porque todos os elementos são numéricos. E se eu der um caractere e depois fornecer um número, depois passar por uma lógica e depois fornecer um número inteiro. E se eu executar isso, e se eu primeiro deixar eu levar essa recta, veja, você sabe, olá, 67 através de tudo até uma cotação. Por quê? Porque se criarmos uma função vetorial z e se um dos elementos for caractere, todos os outros elementos com um número inteiro numérico ou lógico, ele será convertido em uma string. Então, se eu, deixe-me copiar isso, e se eu colocar um copo de água, ele se tornará personagem. Portanto, todos os outros elementos serão convertidos no personagem. Se qualquer elemento for caractere, todos os outros elementos numéricos, divinos, lógicos ou inteiros, todos os outros elementos serão convertidos no caractere e a classe desse vetor será caractere. Então lembre-se disso, se tudo for numérico, será numérico. Se todas as classes inteiras forem inteiras, mas se forem misturadas de números inteiros e caracteres, o número inteiro será convertido no caractere. Se alguém, qualquer elemento for um personagem, tudo será convertido no personagem. Ok, então isso é para esclarecer. O próximo passo é criar um novo arquivo de script. Não sei por que isso não está aumentando. Ok. Isso é algum tipo de erro. Eu não sei por quê. Então, agora vamos aprender sobre a sequência. Então, em R, podemos criar uma sequência de números, como se eu quisesse criar de um a dez. Quero imprimir os números de um a dez. Eu posso fazer isso em duas etapas. De duas maneiras. Eu posso fazer isso em duas etapas, mas de duas maneiras eu posso fazer isso. Posso usar um operador de dois pontos ou posso usar a função de sequência. Então, a primeira coisa que vou fazer tentar criar uma sequência de números. Vou atribuí-lo a algum valor. Suponha que eu queira obter a sequência. Suponha que eu diga, veja, estou criando um pronto, veremos que teremos valor. Quero atribuir a ele um valor um a sete ou um para obter, ou de um a cem. Então, como eu posso fazer isso? Um cólon, 100. Se eu fizer uma cor em 100 e eu, se eu executá-la, o que ela fará, ela criará uma sequência de 1 a 100. Deixe-me ver. Veja aqui. 1200 números foram geradores, então ele criará uma sequência de números, de 1 a 100. Então, deixe-me colocar o console à direita. Então, agora será fácil entender e escrever o código aqui e a saída estará aqui. E deixe-me, tudo bem. Agora, o que precisamos fazer para criar qualquer sequência, precisamos fornecer o primeiro número de onde queremos começar. E então temos que dar o número final. Suponha que se eu obtiver dez e ela falhar nessa ferramenta, ela criará uma sequência de 1 a 10. Então, se quisermos criar uma sequência, você pode usar esse operador de dois pontos e criar uma sequência de números. Suponha que eu queira criar números de 1 a 20 ou de dois a 20. Como podemos fazer isso? Se eu executar isso, o que veremos, obteremos 2468 até 20. Então, cada elemento. Uma sequência de números como um será multiplicada por 22 será multiplicada por dois. Assim. Nós vamos conseguir, certo. Da mesma forma, posso criar a sequência dos pontos. Eu queria criar uma sequência de 2,5 a quatro. Eu posso fazer isso. Se eu imprimir f c Aqui, obtenho 2,53, 0,5 porque o próximo será para vale. Portanto, ele imprimirá a sequência a partir de 2,52. E se eu usar aqui 40, vai dar o ecto 0,53, 0,5 até 39 pontos para ele, certo? Da mesma forma, suponha que eu queira criar uma sequência de dois pontos, 20 menos um. E se eu imprimir D, você consegue adivinhar qual será a resposta? Vamos ver. Agora estamos recebendo de um a 19. Por que está chegando de um a 19, porque ninguém ficará menos desse 1,20. Então, ele realmente gerará o número De um é a 19, a menos 11 e menos 119. Então, as placas nos darão o mesmo resultado aqui. Ok? A próxima coisa é que também podemos fazer isso de uma maneira diferente. Eu posso usar, desculpe. Eu posso usar uma variável a, posso atribuir um valor oito. E então o que eu posso fazer, eu posso, eu quero gerar números de 1 a 8. Então eu posso, se eu executar essa ferramenta, o que eu obtenho, vou entrar na sequência de números de 1 a 8, certo? Dessa forma, também podemos atribuir um valor à variável ou objeto e, em seguida, podemos colocar um é nele em vez de socar, podemos colocar um é em a. E isso também nos dará o mesmo dígito. Fui gerado de um a oito números. Eu também posso colocar um menos a e ver qual será o resultado de zero a sete, porque será gerada uma sequência menos 172027. Se eu colocar um menos um no colchete. E se eu tentar executar isso, agora eu tenho de um a sete porque isso será executado primeiro, ok? Então, será 7,1, será um porque não estamos subtraindo esse daqui. Porque se estiver entre colchetes para dentro e para dentro, o colchete receberá as pré-impressões mais altas. Portanto, isso será executado primeiro. Um é para sete, significa. Isso gerará números de 1 a 7. Além disso, podemos usar sequência para criar uma sequência de números para apoiar que fornecerá SEQ finito e eu darei uma vírgula, uma vírgula cinco. Qual resultado eu obterei? Vou obter a sequência de números de 1 a 5, certo? Da mesma forma, se eu der uma sequência de nove e qual sequência-alvo digital de números de 1 a 9. Aqui, eu estou dando de um a cinco, significa 1-5. E se eu não estiver dando o quarto dígito, o que será necessário, ele gerará de 1 a 9 por padrão, ok? Essa, essa é a natureza padrão da sequência. Ok? próximo passo é que também podemos usar essa função de uma maneira diferente. Posso usar de aquoso para supor 8,2 a 32. E se eu executá-lo, o que ele fará, ele gerará números a partir de 32, 32, ok? Da mesma forma, também podemos usar sequência, pois posso manter o número da frente. Então eu posso dar os dois números, suponha oito. E então eu posso dar o que esses dois vão dar aqui. Será. Isso é conhecido como etapa. Então, deixe-me escrever isso aqui. Sequência alocada para coma, suporte, vírgula de cascalho, passo para. Esse argumento é um passo. Então, deixe-me fazer isso primeiro e depois vou explicar. Veja aqui o que estamos recebendo. Estamos recebendo. 24681012. O que está fazendo, em vez de criar uma sequência de 234 até 12, o que está fazendo, está criando, está nos dando a adição de dois a quatro. Há uma lacuna para a direita, porque atribuímos o valor da etapa como dois. Então, dois mais 244 mais 266 mais 28, então faremos a diferença entre essas duas sequências. Então esse é o argumento da etapa do usuário, esse é o passo de saída quando esse é o argumento da etapa, certo? Também podemos ver outro exemplo. Suponha que eu queira criar uma sequência de dez, 10-25. E eu quero aumentar a sequência com vinho, sete chamas. Então, deixe-me fazer isso. Saudi Cl, o que estamos recebendo, obtendo, a sequência de números está começando a partir de dez porque você deu dez e ela vai até 25. E o que está fazendo, está adicionando 0,75 em cada valor ou dez, começará, depois adicionará 0,75, depois 10,75, o que fará, adicionará mais 0,75, 0,5, 12,25. Portanto, esse byte, sete, cinco minutos , aumentará o valor em 0,75. Suponha que se eu fizer isso por três, o que ele fará, adicionará 101-316-1920, 2,25. Se eu aumentar isso em valor para cinco, o que ele fará, será 1015, 2025 assim. Ok? Dessa forma, podemos gerar a sequência. Há outra coisa que se chama comprimento. Então, suponha que eu queira criar números de 25 a 50 e manter o comprimento igual a seis. O que ele fará aqui é nos dar a partir do 25, depois 630, depois 35,40, 45 e depois 50. Portanto, ele gerará uma sequência de seis números entre 25. E se eu conseguir, suponho, então o que ele fará, gerará os números 25, 27. Então, o que ele fará, 25-50, gerará dez números com a igualdade, como 205-20-7303 pontos, algo assim. Ok? Se eu der 100, ele gerará centenas de sequências, certo? Se eu der para um, o que ele fará, ele gerará apenas um número 25-50. Se eu der dois, isso gerará dois números. 25.50. Se eu ficar com três, será dividi-lo por três, veja 2.537,5 e 50, ok? Assim. Então, ele tentará gerar três sequências, 25-50. 9. Função de repetição: Nesta palestra, aprenderemos sobre a função de replicação. Então, o que a função de replicação fará. Então, usaremos esse termo de representação de aplicativo replicar e quando quisermos replicar algo. Então, deixe-me mostrar um exemplo. Então, suponha que eu queira criar uma sequência em que eu queira repetir 58 vezes. Vou usar essa função e darei cinco que quero repetir. E aqui vou dar três vezes 28. Então, o que essa função de replicação fará, ela se repetirá cinco vezes. Então, o que você vê aqui, 5558 vezes. Ok? Portanto, essa função de replicação replicará o mesmo número. Replicar significa repetir, ele se repetirá oito vezes. Da mesma forma, também podemos usar personagens. Apoio que nos dará. E então vou especificar tempos iguais a três ou dois. Ele imprimirá três ds, ds, ds, ds. Ele criará uma sequência de BSD SDS três vezes. Ok? Então lembre-se disso, o que quer que estejamos dando aqui, será esgotado várias vezes, ok? Da mesma forma que podemos usar even, podemos passar o objeto para a outra função do aplicativo. Suponha que eu quisesse, eu criei para suportar a função de replicação de arte. Eu quero criar uma variável R. Bem, eu quero gerar a sequência 3-6. Então, quanto mais três a três a seis, faremos de forma estranha. Se eu imprimir, será criado o suporte 34568. Eu uso a função de replicação aqui. E o que eu vou fazer passar que essa arte pode ser replicada. E aqui você tem vezes duas vezes. O que ele fará isso repetirá essa sequência, 3-6 duas vezes. Ok? Então, se executarmos isso, o que ele dará, ele receberá 3456 e, novamente, 32562 vezes. Se eu fizer três, essa sequência será repetida três vezes. Então 3456, novamente 3456 e novamente 3456. Então, quantas vezes ela será repetida, toda a sequência será repetida muitas vezes, certo? Da mesma forma que temos, desculpe, temos outra discussão aqui. Nessa função de aplicativo. Ou seja, suponha que eu use nosso mesmo objeto e queira aplicar cada um a ele. Se eu me inscrever todos os anos, eu me inscrevi vezes iguais a três. Agora estou aplicando cada um igual a dois. Então, o que ele vai fazer, vamos ver. Suponha que eu execute isso. O que está fazendo. É o, cada elemento 3-6 será repetido duas vezes, e então passará para o próximo número de meses, significa três, duas vezes 33, depois colocará 44, depois 55, depois 663-344-5566. Assim, cada elemento será repetido e , em seguida, prosseguirá para o próximo elemento. E mais cedo, cada elemento será repetido. Aqui? Cada elemento será repetido e depois passará para o próximo elemento. E aqui toda a sequência foi repetida. 3456, depois 3456 novamente. E ainda assim 3344 apoiou nosso retrato. Três, o que ele fará, será, cada elemento será o protetor, tempo 333444, depois 555666. Portanto, essa é a diferença entre os tempos e cada um na função de replicação. Na função de replicação, há dois argumentos vezes e cada vez repetirá toda a sequência muitas vezes. E cada vontade, cada elemento será repetido por isso muitas vezes. E então a sequência será criada como 333444, assim. 10. Acessando elementos de vetor: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre como acessar elementos vetoriais. Vimos como podemos criar vetores em R. Agora, o que vou fazer, vou criar um vetor Henry para tentar acessar o elemento dos vetores. Veremos como podemos acessar os elementos vetoriais em R. Então, para isso, preciso criar um arquivo e dar um nome a ele. Ric Dot R. Ok? Agora, o que vou fazer criar um retângulo com um nome, mês. E para o vetor do mês, que Alice é alta e baixa. Meses. Janeiro, fevereiro, março, abril desse jeito. Ok? A função c, e vou tentar armazenar os valores em janeiro. O que estou fazendo aqui, estou criando um vetor e instalando esse vetor no mês do objeto, ok? E então quantos armazenam os valores? Janeiro, fevereiro, até dezembro. Ok. Agora, criamos e retratamos como acessaremos os elementos do vetor. Então, para isso, o que vou fazer, deixe-me limpar o console aqui para que possamos ver o resultado aqui. Então, se eu executar isso e correr de janeiro a dezembro, ok? E agora se eu quiser acessar o app play? Agosto ou setembro desse jeito, ok, para isso, o que precisamos fazer, eu posso criar, posso criar outra ferramenta mensal de suporte vetorial. E por isso, o que vou fazer é um grande mês. E era o colchete maiúsculo e você acabou de ver a função. E dentro da função C, manterei o índice para o suporte em 1º de janeiro de 2344. Vírgula sete. Vírgula nove. Ok. Então, hum, eu quero acessar o mês por 7,9 e uma ferramenta de impressão fray para o mês. Então, se eu executar esses dois, o que obtemos agora é abril, julho e setembro, porque o índice é quatro, depois 567 para julho e para setembro é nove. Dessa forma, podemos chamar nosso acesso de elementos de uma função vetorial. Um vetor. Então, o objeto vetorial que podemos acessar como o X seria se você quisesse acessar um elemento específico. Você pode fazer isso. Se eu mudar para três, coloque uma camada e duas vezes. E se eu fizer essas duas declarações, o que veremos, sim, teremos março e depois normal e as inverteremos na segunda-feira, maio. Assim, podemos acessar os elementos vetoriais. Também podemos x ser os elementos vetoriais usando indexação lógica usando indexação lógica. Como fazer isso. Então, suponha que eu crie outro objeto, mês três e suporte qual mês eu quero acessar a cada mês. E o colchete maiúsculo e dentro da função C, o que eu farei, primeiro darei suportes verdadeiros e depois darei falsos. E então eu vou ser falso. Então eu vou me tornar realidade. Então, suponha que eu esteja passando esses quatro valores, verdadeiro, falso, falso, verdadeiro. E se eu imprimir o terceiro mês, o que acontecerá? Deixe-me fazer isso e ver o resultado. O que estamos recebendo, estamos recebendo janeiro. O primeiro mês é verdadeiro para o prato de janeiro. Então, está imprimindo aqui. Em seguida, o próximo False, False. Então, fevereiro e março serão falsos, significa que não serão, não estamos acessando fevereiro e março, certo? Portanto, esses dois valores também não existirão. É fevereiro, março não está impresso aqui. Então, para a quarta , para essa verdade. Então, estamos chegando a quatro. E então o resto do elemento que não fornecemos. Portanto, está chegando em maio, agosto e setembro. Está se repetindo. Então, suponha o que está fazendo. É mais uma vez, fazendo a mesma luta sobre isso. Janet Britain, prefeita, vai em setembro e dezembro. Então, está repetindo a coisa. Ok. A próxima coisa é o que podemos fazer. Podemos usar indexação negativa. Então, suponha que eu crie outro objeto, mês para e o que eu farei, atribuiremos o mês para o mês do álcool e, pelo menos, veremos a função. E aqui está um projétil com menos duas vírgulas menos cinco. Então, o que isso fará e apoiará a impressão no quarto mês. E se eu executar esses dois, o que acontecerá? Estou recebendo janeiro a março e talvez não Fevereiro e maio não são impressos porque menos dois significa a segunda indexação menos duas que a cada fevereiro, fevereiro, não é não queremos acessar menos dois e -5 minutos no segundo mês e no mês que não queremos acessar, exceto que todo o resto será impresso. Ok. Portanto, fevereiro e maio não serão impressos. Veja aqui, fevereiro e talvez não imprima. Aceite que todos os outros sejam impressos. Se eu colocar -12 , dezembro também não será impresso. Então, agora a norma de alguém não existe. Então, se você quiser acessar elementos e se quisermos deixar alguns elementos, você pode usar dopamina para esse índice e ele não será impresso. 11. Manipulação de vetor em R: Olá e bem vindo de volta. Então, nesta palestra, vamos aprender sobre manipulação vetorial. Então, veremos como podemos formar uma lesão dentro dos elementos vetoriais. Como podemos adicionar dois vetores, como podemos subtrair dois vetores, como podemos realizar a divisão dentro de dois atores. E veremos como podemos fazer a multiplicação dos vetores. Então, vamos começar. Então, criarei um arquivo de script R e darei um nome a ele. Muitas manipulações tolas. Ok. Então, deixe-me limpar o console aqui para que possamos ver corretamente. Ok, então, primeiro, o que eu vou fazer é executar automaticamente, geralmente não está dentro de dois com dois vetores. Então, primeiro, o que faremos, criaremos dois vetores, criaremos apoiaremos nosso vetor F1. E eu vou criar um vetor, o vetor F1. E o que vou fazer atribuir alguns valores. Suponha que ainda não tenham, 95 ou algo assim. Ok, então vou criar um vetor, F1, copiar e colar. E vou criar outro vetor, F2. E chegaremos a algum lugar com cargas como as dos tipos D e 20. Ok? Isso vai dar, ok. Então agora temos dois vetores, F1 e F2. Eu quero realizar a adição. Ok? O que eu vou fazer é criar outro vetor, outro objeto a. E o que eu vou fazer, vou atribuir F1, o F1 mais F2. Então, o que estou fazendo aqui adicionar esses dois vetores, F1 e F2, e atribuí-los ao objeto a. Ok, então agora o que vou fazer, vou imprimir a. Então deixe-me executar esse n. Então você está pronto digitalmente. Veja, você sabe, o que estou recebendo? Estou obtendo o resultado 24, 24, y mais 212. O primeiro elemento desses dois vetores será adicionado, 12 mais 214. Então 78 mais oito é 690 mais 31, 25 mais 25, 30. Então, dessa forma, podemos realizar uma região. Suponha que eu queira tocar algumas faixas e o que vou fazer é simplesmente copiar isso. Eu realmente doei com os inquilinos naquele dia. Sim. E eu vou trazer lágrimas e o que eu vou fazer, eu vou fazer F1 menos F2. Então F1 menos F2. Se eu fizer o que é bagageira? Veja, estou recebendo 107060 e -20 y novamente, 12 menos 21078 -70, 90 -30, 65 -25, 20. Dessa forma, podemos realizar a subtração da mesma maneira. Se y for sua multiplicação, criarei mais de m e o que são F1 e F2 baixos. E vou imprimir, se eu executar isso, o que obteremos será 12 quando dois a 24, 78 em 862490 em 3027005205125. Da mesma forma, podemos realizar a divisão. Então, suponha que eu crie um vetor d e o que farei F1 dividido por dois. E vou imprimir o acordo. E se eu executar isso, o que eu vou deixar você doente em dois a 678/9, 0,759, 0,7, 5,90, 233 5/25 é 0,2. Ok? Dessa forma, podemos realizar uma subtração, multiplicação e divisão decentes . Então, deixe-me escrever aqui, esta é uma aplicação múltipla. E então esta é a região. Dessa forma, podemos realizar adição, subtração, multiplicação e divisão no reto. E isso é chamado de manipulação vetorial. 12. Reciclagem de elementos vetoriais: Olá e bem vindo de volta. Então, nesta palestra, vou lhe dizer algo que eu não aprendi totalmente, você não lhe ensinou na palestra anterior. E essa é uma pergunta muito original que você pode ter feito se for uma aula física ou offline. E você deve ter respondido, essa pergunta também pode ter vindo à sua mente. Então, suponha que eu tenha dois vetores, F1 e F2. E F1 está tendo quatro elementos, e F2 está tendo apenas dois elementos. E se eu somar esses dois vetores? Suponha que eu execute as condições iniciais para F1 mais F2. Então, aqui quatro elementos e aqui dois elementos, uma lista. Então, como isso vai funcionar. Então, em R, se tentarmos executar F1 mais F2, se tentarmos adicionar dois vetores desiguais, então o segundo vetor, que é de menor comprimento, significa que o tipo de vetor será, elementos serão reciclados para torná-lo o comprimento escuro do primeiro vetor. Então, nesse caso, o que acontecerá? Vector ficará assim. Internamente. O que? F2 será como duas vírgulas oito. Vírgula dois, vírgula oito. Ok? Então, se dois se tornarem algo assim, ok? Você também será repetido até obter o número de elementos na F1. Portanto, há quatro elementos, então ele se repetirá para ele, para ele. Então, isso se tornará algo assim. E então ele executará a operação automática. Deixe-me analisar esse solo manual com o qual lidei para que você tenha uma ideia melhor. Deixe-me esclarecer isso e executar isso. Veja aqui. Agora o resultado é 14, 86, 90 a 13. Como mais quatro, desculpe, dois mais dois. Desculpe, 12 mais 214. E então 78 mais 886 e depois 90 mais dois. Porque os dois, isso se repetirá. Então, 90 mais 292,5 mais 813. Então isso vai ficar assim. Se eu adicionar mais um elemento aqui, suponha 80. E se eu executar isso, o que acontecerá? Vamos ver. Veja aqui que estamos recebendo um erro aqui. O comprimento maior do objeto não é um múltiplo do comprimento inicial do objeto. Significa que agora você ainda precisa. Este elemento é um quarto até ter dois elementos. Dois elementos. E F1 é se divertir é ter variáveis phi, certo? Estamos nos endividando. O segundo, o primeiro elemento disso é ter dois elementos e isso é ter cinco. Então, cinco não é um múltiplo de dois, certo? É por isso que estamos chegando a porque dois, se você dividir cinco por dois, obterá o restante um. Nesse caso, essa reputação não funcionará. Mas se eu adicionar mais um elemento, suponha sete. E se eu tentar executar isso, isso funcionará desta vez. Agora estamos recebendo o gráfico porque agora o número de elementos é seis aqui. E o segundo é 22268/2, certo? Seis é múltiplo até o primeiro L. Elementos mais longos, vetores mais longos teriam a marca. A mesma quantidade de números. O número de elementos seria de vários aplicativos Certos elementos gostam de seis, certo? Então seis é o multipolar para essa função, essa multiplicação, divisão ou adição que você pode realizar. Mas se for cinco, então dois não serão o phi não será o múltiplo de dois, e gerará um erro como esse. Ok? Então, espero que você tenha entendido. Da mesma forma, se você quiser realizar a multiplicação, isso também pode ser feito. Aqui, estamos obtendo a divisão de multiplicação, tudo será feito. Portanto, a reciclagem dos elementos só acontecerá se macios os elementos no vetor mais longo for o múltiplo dos elementos no vetor classificado. Então, vetores mais longos, o número de elementos seria o múltiplo desses elementos, ok? Numere os elementos do tipo. Ok. Espero que esteja claro para você. 13. Classificando elementos vetoriais: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre quem está classificando vetores. Então, vamos ver como podemos classificar vetores. Ok? Então, o que vamos aprender é fazer a classificação reta. Ok? Então, para isso, temos uma função chamada sort. Então, vamos usar a função de classificação. Então, primeiro, deixe-me criar uma destruição do vetor 0. E para isso, darei um número aleatório, 349-082-7543, alguns números aleatórios. Ok? E suponha que eu queira classificar esses elementos vetoriais. Então, o que eu posso fazer é simplesmente criar outros objetos que estão destruídos. E o que eu vou fazer chamar as barras da função de classificação isso que é vetor nulo para a função de classificação. E o que essa função de classificação fará. Isso iniciará esse vetor. E então o que eu vou fazer é simplesmente começar a imprimir. Então, aqui estou imprimindo o vetor ordenado e este é o recto adicional. E estou passando esse vetor para a função de classificação e, em seguida, imprimindo o valor do vetor classificado. Vamos executar isso e ver se definitivamente está limpando esse terminal e executando-o novamente. Veja, você sabe, estamos obtendo um vetor ordenado. Então 349, 273-043-6408. Portanto, ele é classificado em ordem crescente. Portanto, por padrão, ele será classificado em ordem crescente. Portanto, os elementos mais baixos se moverão primeiro e depois continuarão aumentando. Ok? Dessa forma, podemos classificar e vetorizar em R. E se eu quiser classificar essa casca? Eu quero em uma ordem decrescente. Então, para isso, o que posso fazer, posso usar a mesma função de classificação. E aqui o que vou fazer é continuar diminuindo, diminuindo. É a coisa lógica. E sim, vou dar a verdade. Então, diminuindo, vou manter a desvantagem porque, por padrão, ela é falsa. E vai fazer isso. Aumentando a ordem, certo? Ordem ascendente. Por padrão, ele será classificado em ordem crescente. Então, o que eu vou fazer é criar uma verdade cultural que classificará o vetor em ordem decrescente. Então, vamos fazer isso e ver agora essa classificação para a limpeza ou 98 primeiro, depois 463-06-3420, 79,4. Dessa forma, podemos classificar em ordem decrescente. A próxima coisa é que vamos ver a classificação do personagem, do personagem, do reto do personagem. Então, também podemos supor que eu tenha um retângulo, um, que tem alguns valores como para algumas coisas aleatórias. E o país vermelho e azul. Qualquer coisa em forma de personagem. Ok, então esse é o vetor de caracteres. É ter valores no caráter. E suponha que eu queira classificar isso e armazenar o valor do vetor classificado no veterinário para funcionar. Vou chamar a função de classificação e passarei essa reta para a função de classificação. E se eu executar essas duas linhas, qual algoritmo? Do que você gosta? Deixe-me trazer para esta ferramenta de impressão. Então, se eu seguir essa linha, o que nós gostamos e você fica azul, depois país do que quatro, depois afogado, dendrito. Por que é assim porque B, depois C, depois F, depois r. Ok, então será em ordem alfabética. E se eu quiser classificar? Mas ele era mais difícil. Eu posso te dar uma ligação cada para desenhar e agora ver o que mereço. Quando começamos a lavar, temos f, depois C e depois B. Então D deve resolver o algodão da pobreza, será assim que poderemos classificar os vetores, tanto o caractere quanto o número, ok? 14. Tomada de decisão em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre a tomada de decisões em nossas outras linguagens de programação. Temos a declaração if, temos if else e temos a instrução switch. Com isso, podemos realizar a tomada de decisões. Se uma declaração significa que algo é verdadeiro , a seguinte declaração será executada. E sentida significa que, se algo for verdadeiro e se você estiver impondo uma condição e essa condição não for cumprida, a declaração else será executada. Switch verá como a variável será testada quanto à igualdade. Aqui está a lista de valores, então veremos se há alguma diferença. E então veremos o interruptor. Então, deixe-me criar nosso arquivo de script aqui. E eu vou dar um nome a isso. Tomada de decisão, arte negra. Algas marinhas. Deixe-me limpar o console para que possamos ver que é o gel. Então, primeiro o que veremos, veremos se desculpe, preciso digitar aqui primeiro. Vamos ver se a declaração é. Ok. Então, primeiro a realidade, se for uma afirmação. E se for, se for água da chuva, é consistente, consistente. Agora, expressão booleana e seguinte declaração. Portanto, se a expressão booleana for verdadeira, a instrução a seguir será executada. Apoie o que vou fazer aqui. Criarei um objeto a e atribuirei um valor 67. Você pode escrever qualquer coisa, ok? E o que eu vou fazer escrever se a declaração, se for menor que 70, então o que eu vou fazer, vou tentar imprimir for menor que 17. Ok? Suponha que isso seja o que eu quero fazer. Então, se eu executar isso, o que vou receber? Veja, o resultado que estou obtendo é menor que 70. Suponha que eu altere esse valor para 75, 75. E se eu tentar executar isso, o que acontecerá? Não obterei nenhuma saída porque E é 75. E se eu entrar nessa declaração if, será costurar que menos de 70 é maior que 70. Portanto, não entrará nessa declaração. Não atenderá à condição do cão e esta declaração não será impressa, certo? Então isso é chamado de declaração IF, certo? Da mesma forma, posso escrever como um número inteiro de pontos. Então a outra parte é inteira, e então eu passarei E. E uma luz é. Então, deixe-me executar isso porque é um número aqui. E o que estou testando ainda, se for um número inteiro, preciso imprimir é um número inteiro, certo? Se eu colocar, faça disso um número inteiro, tendendo igual a 75 L. E se eu executar isso, veja, agora a é um número inteiro. Será pintura. Dessa forma. Se essa condição for cumprida, ela imprimirá essa declaração subsequente. Ok? Da mesma forma, podemos colocar uma outra declaração aqui. Se cada número inteiro, ele imprimirá isso. Eu posso imprimir outra coisa. O lago é nômade. Ok, então se eu correr, isso é um número inteiro. Se eu mudar isso para numérico, e se eu executar isso novamente, o que obteremos é numérico. Deixe-me tentar. Se eu toquei ainda é numérico. E se eu executar isso, o que aconteceu? Ok, eu preciso colocar isso. E se eu executar isso, string é um número inteiro. Preciso mudar a declaração aqui, New Relic e aqui o número inteiro, certo? Agora. Como a é nômade, essa condição está se tornando realidade. Portanto, a impressão é nômade, taxa é numérica, é nômade. E essa afirmação não é, não vai para a outra parte. Então, dessa forma, podemos colocar um por enquanto, veremos a instrução switch. A declaração do switch. Então, vamos supor que a instrução switch suponha que eu tenha um vetor D e use switch. E depois insights sobre o que vou fazer. Vou apoiar quatro vírgulas um. E eu vou dar 2345. E então eu vou fechar o interruptor. Então, se eu colocar em d, que valor obteremos. Vamos ver. Quando você conseguir quatro, porque estou ignorando o que a instrução switch serve. Ele irá para o quarto valor e imprimirá esse valor. Então, um ano para é 1234, então ele imprimirá quatro. Suponha que eu esteja escrevendo aqui outra coisa. Olá. Então esse olá será impresso. Ok? Deixe-me mostrar esta impressão, olá. E suponha que se eu fizer um ou dois, ele será impresso, ele irá para o correspondente, por favor. Ok. Até agora, dois, ele irá para o 12. Ele os imprimirá. Para três, vai para o olá para quatro, vai para o olá. Cinco, ele imprimirá 55. Então, o que ela fará é que uma declaração switch permite que um valor seja testado quanto à igualdade em relação à lista de valores. Então, essa é a lista de valores. E para eles, a indexação é 1.234,5. Seja qual for o índice que você fornecer, esse valor do índice será impresso. Suponha que eu tenha dado três. Portanto, o valor do índice três será impresso. 3 min, 1233. Você vai comprar um presente para? Então, olá, será impresso. C. Então, dessa forma, podemos usar a declaração switch no coração. 15. Controle de loop usando repetição e loop: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre a declaração de loop em nosso, o que é um loop? Um loop é uma função. Você pode dizer um loop. Com um loop, podemos executar uma instrução ou grupo de instruções várias vezes. Então, quando colocamos um loop, quando colocamos uma instrução dentro do loop, ela será executada várias vezes até que a condição seja satisfeita, certo? Até que seja satisfatória, a condição continuará repetindo a mesma declaração repetidamente. Portanto, uma instrução de loop nos permite executar uma instrução ou grupo por grupo de instruções várias vezes. E existem três tipos acima. Há três tipos de declaração de loop em R. O primeiro é reputação, o segundo é um loop while. E então temos o muito popular loop único. Então, o que vou fazer começar com um loop de repetição primeiro. Então, vamos ver o que é um loop de repetição em R. Então, suponha que temos um recto que faz com as ferrovias apoiem a Índia, Burton, ok? Assim. Então, eu vou dizer um pouco mais tarde. Portanto, temos um vetor que tem valores na Índia, EUA e Grã-Bretanha. E suponha que eu esteja seguindo outra rota, suponha que eu tenha dado a ela uma contagem de nomes. E eu estou dando um apoio igual a Kant igual a quatro. E então o que vou fazer é que os pés sujos funcionam aqui. E eu quero imprimir o vetor de um determinado número de tempo. Ok? Então, o que eu vou fazer é imprimir o relatório que eu dei. Se você contar aqui, se a contagem for menor que dez, o que eu quero fazer é imprimir rec. Ok? Então eles dirão “Qual letra”. Então, se eu executar isso, o que acontecerá? Vamos ver. Te vejo. Continuará imprimindo isso porque a contagem é para e qual condição eu dei. Eu sei que se a contagem for menor que dez, então esse Ford sempre será menor que dez, certo? Então, o que eu vou fazer é usar aqui contar, contar mais um. Então, cada vestido e eu aumentaremos o valor da contagem para um. Agora, deixe-me parar com isso. E deixe-me executar esse código novamente. Agora veja o que acontece. Ele imprime 123456 vezes y é o extremo. É a primeira vez que virá. A contagem é igual a quatro. Portanto, ele será impresso sempre que você for novamente. Então, a contagem se tornará cinco. Então, novamente, ele imprimirá quatro. Em seguida, 54678 até nove. Em seguida, na extranet, a contagem se tornará dez. Não imprimirá, imprimirá 45. Ele imprimirá 445.678,9. Assim, como a corrente líquida se tornará dez, ela sairá desse circuito. Então esse é o loop usual. Ok? Dessa forma, podemos usar o loop de repetição, ok? Da mesma forma, tentaremos usar o loop while. Então, o que eu vou fazer é ser muito selvagem. E, novamente, a contagem de Waterloo é menor do que eu suponho. Embora a contagem seja menor que oito, o que eu farei imprimir condados seniores e o que estou dando a você uma contagem menor que oito, depois imprimirá uma sequência e aumentará a contagem enquanto repete bem em um. Então, se fizermos isso, teremos Índia-EUA. quatro vezes, certo? Porque imprimirá 44, imprimirá o perfil. Imprimirá para seis , imprimirá 47. E assim que a contagem se tornará oito. Sairá desse ciclo inteiro. Ok? Dessa forma, podemos usar o loop while. 16. Para loop e próxima declaração: Nesta palestra, aprenderemos sobre o loop for em R. Então, suponha que eu esteja criando um vetor d retal, que conterá algo como dois a 20, ok? As placas, se eu trouxer , me darão os números 2-20. Ok? Agora o que eu vou fazer, vou escrever aqui, eu farei. Vou usar uma variável i em D. Então, para cada valor de I no vetor d, o que eu quero fazer, eu quero imprimir, certo? E então eu quero fazer I mais um. Eu igual a I mais um. Deixe-me, tudo bem. Eu direi com uma carta. Então, deixe-me fazer isso e ver o que estamos recebendo. O que estou recebendo, estou recebendo 234 até 20. Então, o que está fazendo, é verificar se esse I, no, para i, será 11 não está lá, então vai aumentá-lo em um. Então, ele virá e verificará aqui também, se em D dois, depois será novamente, I igual a três, depois imprimirá três. Assim. Ele imprimirá 20 e depois sairá do loop. Dessa forma, podemos usar o for-loop, certo? Da mesma forma que eu posso fazer. Se eu colocar aqui uma coisa simples. Vou remover isso. E sim, o que mais fazer? Eu posso colocar muitas condições aqui dentro. Se eu ligar também para Suporte 15, então eu vou, o que eu vou fazer, vou imprimir, eu escrevo. Se eu for igual a 15, vou imprimir. Eu mudei aqui, vou colocar em seguida. E então eu vou imprimir. Imprima, certo. Então, até mais, o que vai acontecer? Deixe-me explicar por que estamos chegando lá. Fizemos isso de novo. O que, o que está acontecendo aqui? Eu quero cada valor e eu, ele está imprimindo isso, mas está verificando o valor. Se eu chamar dois aviões, eu ligo. O que fazer a seguir. Então aqui você vê 2345678 até 13, 14, está imprimindo corretamente e então pensa, ok, eu igual a 15. Próximo, Avançar significa que ele pulará essa titulação. Portanto, 15 não serão impressos aqui porque no próximo mês ele pulará esse traçador. Então, ligo para uma pré-impressão significa que esse endereço e nós escaparemos e a pegada não será impressa. E então ele vai para a cisteína e depois 161-718-1920, reimpresso. Então, no próximo mês , não vou me vestir. Então, se eu usar aqui, suponha 17, então a 17ª titulação será ignorada. impressões 16, 17 não serão impressas e 18, ok. Então, se você quiser pular um nitrogênio, você pode usar a próxima. Espero que você tenha tido a ideia de como usar a seguir. Nos vemos na próxima palestra. 17. Funções em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos funções em R. Em R, existem dois tipos de funções. Portanto, uma são funções integradas, funções integradas e a outra são funções definidas pelo usuário. Definido. Ok? Portanto, há dois tipos de funções, funções integradas e funções definidas pelo usuário. Então, primeiro, deixe-me dizer o que é uma função. Função é, na verdade, como se quiséssemos executar algum grupo de instruções e realizar alguns cálculos, queremos fazer alguma coisa. Então, é basicamente como se uma função fosse uma palavra-chave. E em V funcional, basicamente para um grupo divertido de declarações, ok? Nosso grupo de funções de cálculos de agrupamento. Faremos algum cálculo ou faremos algo que seja uma função. Ok? Então, deixe-me explicar a estrutura básica de uma função. Então, suponha que nossa função aceite, suponha que essa seja uma palavra-chave de função em R. E o que ela exige, ela precisa de argumentos, certo? Portanto, ele precisa de argumentos, então pode aceitar qualquer número de aumentos aumentados, um, vírgula dois. Então isso será uma função, ok? E nessa função podemos fazer qualquer coisa com esses argumentos, certo? Suponha que esses argumentos possam ter alguns valores, para que eu possa apoiar, posso usar alguns deles para aumentar, que eu possa realizar o aumento um mais dois. E eu posso imprimir alguns desses 12 meses três. Então, essa é uma função em que, o que estou fazendo, executando algumas delas para aumentar, aumentar e aumentar, e estou encontrando algumas delas para aumentar a ferramenta One plus Segment. Portanto, essa é uma função e eu posso chamá-la passando o argumento. Então, suponha que eu dê algum nome a essa função, alguma função, e atribua isso, toda essa função. E eu lhe darei um nome, alguma função. Ok? Agora, o que eu posso fazer? Eu posso chamar essa função, certo? Dominando os dois argumentos, argumento um, argumento dois. Então eu posso me divertir. E aqui eu posso executar três vírgulas seis. Eu posso passar. Se eu executar isso, deixe-me fazer o primeiro com um pouco de diversão. E então eu executo isso, vejo, Ok, sim, Hawks One, é. Então, deixe-me executá-lo novamente. E se eu chamar a função de passagem, ok, isso também é errado na Arábia Saudita para esse erro. E se eu chamar essa função passando esses dois argumentos, 3.6, obterei o resultado como nove, porque três mais seis a nove. Portanto, esta é uma função definida pelo usuário, à direita, já vimos a função embutida. Então, quais são as funções embutidas que vimos? Vimos uma sequência como a sequência um, vírgula oito. E isso nos dará a sequência de números de 1 a 8. Portanto, essa função de sequência é uma função embutida que temos em nossa, então essa é uma função embutida que a executa. Não precisamos escrever um programa para imprimir os números de 1 a 8. Isso será feito automaticamente porque nessa sequência a função foi escrita por trás, como na coda, ela foi definida que, quando usamos sequência, fornecerá dois argumentos. Uma é ajudar, ela gerará os números de 1 a 8. Então isso já foi definido e é por isso que elas são conhecidas como funções integradas enormes, desculpe, certo? Portanto, essas são funções integradas da mesma forma que vimos em algum verão. Um é 28. E isso nos dará a soma dos números de um a ele. Isso nos dará as estatísticas dos resultados da mesma maneira. Nós temos a função principal. Então eu estou digitando, sim, quero dizer, suponha que eu chegue ao número 23, vírgula 90, 87. E se eu não me vi e leremos 23 também pode significar duas vírgulas nove. E o dentista gratuito, eu receberei 5,5. Portanto, podemos usar doc mean some sequence de todas essas funções integradas. Então, vimos que esses anúncios são uma função definida pelo usuário, definida pelo usuário. E essa sequência e um pouco de água. Funções integradas. Ok? Agora, o que vou fazer, podemos ver como podemos chamar essa função de soma. Ok? Então, deixe-me copiar essa soma. Portanto, podemos chamar essa função fornecendo os argumentos aqui. E também podemos chamar isso de x, uma a quatro vírgula de dois a nove. Agora eu também estou obtendo 13 dessa forma, podemos, esta é a posição y e isso é variar o argumento, nome, argumento, o argumento um igual a. Para um argumento igual a nove, como este, podemos fornecer. Então essa é outra forma de chamar a função, ok? Agora, o que vou fazer escrever nossa função para descobrir que as cidades quadradas não têm nenhuma série de números. Então, o que eu vou fazer aqui, eu vou te matar. Função silenciosa. E o que eu vou passar para isso e passar um número por mão. O que eu vou fazer é criar uma sequência de números, então vou usar o loop for aqui. E o que eu farei por eu em um a dez, ok, então qualquer que seja esse número, será desse número até dez. Quero criar uma sequência numérica de números. E então o que eu quero fazer, eu quero atribuir, eu saio. Quero elevar ao quadrado o valor I e atribuí-lo a b. E depois quero elevar ao valor b, ok? Então, esta é a função raiz quadrada da função que estou definindo aqui. E agora, o que vou fazer, chamarei essa função quadrada passando um suporte numérico para o que ela fará. Primeiro, ele criará números de 4 a 10 e, em seguida, exigirá 45678 até dez e imprimirá os números. Ok, então deixe-me fazer isso. Veja aqui que estamos recebendo cisteína. O primeiro número será 44 quadrado 16, depois imprimirá cisteína. Então, o próximo número será cinco. Ele imprimirá 2055 ao quadrado 25 e, em seguida, 630-67-4097 ao quadrado. 409849 é quadráticamente 1,10 centena quadrada. Dessa forma, podemos criar uma função simples que encontrará essa série silenciosa de números. Então, o número Syriza é de quatro a dez e estamos chegando aqui de quatro a dez quadrados. Cada número será elevado ao quadrado e obteremos a próxima coisa que vou fazer. Eu vou encontrar a soma do número par. Então, vou escrever um programa para encontrar alguns números pares entre dois números. Ok? Então, o que eu vou fazer, suponha de um a dez. Primeiro eu quero encontrar um para um número par, 1-10, soma de números pares, ok? Não é uma soma quadrada dos números pares. Ok? Então, o que eu vou fazer escrever uma função soma de uma função par. E o que eu vou fazer, vou escrever aqui, primeiro, vou gerar o número par. E como gerar um número par. E você vê um número par de alginato de um a dez. Então, o que vou fazer multiplicar o número por dois. Então, será a soma dos números de 1 a 10. E então o que eu vou fazer imprimir e imprimir o que eu faço a soma desses números pares, então, e fomentar o número par, essa sequência de números para somar, função de soma e depois ela torce. Então, antes disso, deixe-me trazer para o número fornecido. Ok? E então eu saio e chamarei a função par. Ok? Então, deixe-me fazer isso. Ok, esta é a letra minúscula c. C. Você obtém pela primeira vez 246810, soma dos números pares de 1 a 10. Então, muitas vezes, esses são os números pares de 1 a 20, ok? Porque estou multiplicando por dois. Se eu fizer cinco, será o mais cedo que escrevemos. Não seria isso, ok. 246810. Ok. Dessa forma, podemos apresentar a soma dos números pares, a soma dos números. E então, quando você terminar com essa função, algumas de número par. Então, ele resumirá tudo e nos dará o resultado. Ok? Então, quando você soma esses números chegará a 110. Então, dessa forma, estamos obtendo alguns dos números pares de 2-2001 a 20. Ok? Então, dessa forma, podemos fazer isso. A próxima coisa é que vou fazer a função de chamada sem documento. Isso é muito simples, chamando a função sem argumentos. Então, o que vou fazer aqui simplesmente criar uma palavra-chave function, hello, h function aqui. E dentro da palavra-chave da função, o que eu vejo aqui também nos chamamos de algumas funções pares, algumas de até mesmo sem passar nenhum argumento. Ok? A mesma coisa que vamos fazer aqui também. O que vou fazer aqui é simplesmente usar uma impressão digital e dizer olá. Como você está? Então? Oh, locação. Diga olá. Eu acabei de ligar. Ok. Então, antes disso, eu tenho que executar isso. Então, deixe-me fazer isso e ver, sim, vamos receber olá e como você está dessa forma podemos chamar uma função sem aumento. 18. Matrizes em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre métricas em nossa análise matricial, conceito muito importante e que precisamos entendê-lo. Porque quando vamos além dessa aula, quando você tenta implementar o conceito de arte para analisar os dados, você tenta usar a você tenta usar manipulação de dados R4, a visualização de dados ou até mesmo a mineração de dados, análise de dados e em projetos de ciência de dados em aprendizado de máquina. Portanto, as matrizes estarão muito cheias e vamos usá-las em muitos lugares. Em nossa matriz. É um objeto ou um objeto. Na arte, tudo é um objeto. E dessa forma, as matrizes também são nossos objetos, certo? Portanto, as matrizes são os objetos de arte nos quais os elementos do mesmo tipo atômico se organizam. Então, em matriz, matriz, vamos adicionar o mesmo tipo de elementos, os mesmos tipos atômicos de elementos em um layout retangular bidimensional. O mesmo acontecerá com matrizes retangulares de pedra diamantada. Matrix é uma função. Então, como vamos criar a matriz? Vamos usar a função matricial que está embutida em R. Crie métricas e arte. A sintaxe seria matriz. E então nós fornecemos os dados, determinamos os elementos da matriz que vamos fornecer aqui. E então vamos fornecer o número de linhas e rho é o número de linhas na matriz e, em seguida, n colunas, número de colunas na matriz. E então vamos dizer por linha, queremos adicionar os elementos por linha, por coluna que vamos definir por esse argumento. E então vamos dar aos diamantes um filho chamado Means. Vamos manter o nome das dimensões. Ok? Portanto, os dados são vetores de entrada, que se tornam os elementos de dados matriz que você pode desenhar é o número de linhas a serem criadas e o número coletivo de colunas a serem criadas por rho é uma pista lógica. Se verdadeiro, os elementos do vetor de entrada são organizados por linha. Então, se você quiser criar uma matriz atribuindo os elementos por linha, temos que dar por rho igual a true. Caso contrário, será, por padrão , em forma de coluna, ok? Valores colunares, como se recebêssemos os elementos de um a dez, serão 12 ou três. Em termos de coluna, se você der verdade , será chamado de hóquei viral. E o nome dim é o nome atribuído às linhas e colunas. Ok? Portanto, esse é o fundamental que devemos conhecer. E agora o que vou fazer, vou desviar a matriz. Ok? Então, para isso, eu já criei nosso arquivo onde escrevi alguns programas, existem poucas funções para criar métricas para que não percamos nosso tempo escrevendo o código e de novo e de novo. E, ao escrever, leva muito tempo. Então, eu já criei essas duas matrizes pontilhadas em nossos arquivos. Explique o que vou fazer em cada etapa. Ok? Então, primeiro, vamos criar uma matriz que os elementos são organizados sequencialmente por coluna, por padrão. Ok? Então, suponha que eu esteja criando uma matriz e dando a ela o nome M1. Então, um será um objeto no NADH que conterá essa matriz. Então, vou usar a função matricial. E aqui o que estou passando, esses são os dados que estou passando. 12 a 35 significa que ele criará números 12-351213, 14 até 35. Então, isso será feito com dados e , em seguida, o que vou dar a seguir, Andrew, número de linhas seis. Então, estou apenas passando os dados e fornecendo o número de linhas da linha. Eu quero criar uma matriz que tenha o número de Rogers seis. É isso. Não estou dando nenhum valor de coluna nem nada. Estou apenas passando a unidade de dados para 35 números e o número de Rogers seis. Não estou dando esse argumento por linha ou coluna. Não vou passar por aqui. Então, estou apenas criando uma matriz que está tendo, que será criada com as seis linhas e será recarregada com os dados até 35. Então, deixe-me criá-lo. Se eu executar isso. Veja, M1 é um é para seis, então um é para 412 a 36 dados serão fornecidos. E se eu imprimir essa matriz M1 C aqui, agora temos seis linhas, 123456 linhas totalizam seis estradas. E nessas seis linhas estão os dados 12, 13, 14. Veja aqui primeiro que a coluna um reabastecerá a coluna do ano 112, 131-415-1617. Em seguida, ele irá para a coluna até 24 a 29 e depois 30 a 35. Dessa forma, os dados estão sendo preenchidos por coluna, certo? Para lavar a coluna um, coluna dois e depois coluna três. Ok? Porque eu não dei nada, sim, eu não especifiquei por rho igual a algo aqui. Ok? A próxima coisa é que, se eu usar por rho igual a false, o que ele fará, ele fará a mesma coisa. Então, se eu executar isso também, novamente, obterei a mesma saída, mesma matriz será impressa novamente. Mas se eu fornecer aqui o mesmo código por rho igual a true, agora a matriz será criada preenchendo as linhas primeiro. Então, liberado 12131415, a primeira linha falhará. Então 16, 17, 18, segunda linha, depois 2021, 22, 24ª linha, assim. Ok, tão rápido, as regras serão repreenchidas. E depois a segunda linha, depois a terceira linha como esta. E aqui estava a primeira linha, depois a segunda linha, primeira coluna, a segunda coluna, terceira coluna, como aquela que estava preenchendo aqui. Primeira linha, segunda linha, terceira linha em linha ou em coluna ou linha. Então, se você quiser preencher os dados por linha, você tem que dar por rho igual a verdadeiro. Ok? Entendido. O próximo passo é fornecer os nomes das colunas e linhas. Suponha que eu queira dar o nome da coluna aqui e também queira dar esse nome à linha. Como eu posso fazer isso. Eu posso usar a função C e posso dar nome às linhas da coluna. Então, suponha que eu queira então seis linhas. Quero dar nome a cada linha linha linha um, linha duas linha, linha seis. Então, usarei a função c e criarei um objeto com nomes de linha, e criarei outros nomes de colunas de objetos em vez de manter a coluna um, coluna dois, coluna três, coluna quatro, qualquer nome que você queira dar, você pode lhe dar. Então, ao criar a matriz, ao criar a matriz, o que farei é primeiro transmitir a matriz de dados dentro da matriz funcional da floresta, pássaro dos dados. E então eu vou dar o número de linhas, seis. Então eu vou explicar isso por linha, você pode dar verdadeiro ou falso o que quiser, ok? E aqui, o próximo argumento será considerado nome da dimensão. E aqui o que vou fazer, vou criar uma lista. E dentro da lista, o que vou fazer passar os nomes das linhas e as colunas das linhas como dois argumentos. Então, isso criará as dimensões da matriz. nomes das linhas e das colunas serão obtidos aqui e passados para a lista deles. E isso criará a linha e a coluna nomeadas para a matriz. Então, deixe-me executar essas duas linhas. Ok, desculpe, eu preciso executar tudo isso. Veja aqui. Agora estamos obtendo uma matriz com o nome da coluna, coluna um, coluna dois, coluna três, coluna quatro. E nomes de linhas como linha um, linha dois, linha três, linha quatro, linha cinco, linhas seis. Dessa forma, primeiro precisamos criar uma lista de colunas com o nome da coluna e os nomes das linhas da coluna e o nome das colunas. E precisamos fornecer esses argumentos para obscurecer nomes, ok, por meio de nossa lista, ok? E então será criada uma linha e os nomes das colunas serão fornecidos nessa matriz. O próximo passo é acessar os elementos da matriz. Então, suponha que eu queira acessar o elemento do M5, essa matriz, primeira coluna e terceira linha. Então, como posso fazer isso? A terceira linha, três vírgulas um, m phi, e depois o colchete e três vírgulas um. Isso significa que eu quero buscar a terceira coluna, terceira linha e primeira coluna. O primeiro argumento é para a linha e o segundo é qual coluna? Terceira linha, o primeiro elemento será impresso. A terceira linha significa esta e a coluna um mês, bastante. Então, se eu executar isso, eu entendo, eu deveria ter 20 anos, 32. Vou ver aqui que estamos recebendo 20. Então m5 é a matriz. E eu quero terminar a terceira coluna, terceira linha, primeira coluna, terceira linha, primeira coluna. Da mesma forma, quero primeiro folhear o valor da quinta linha e da segunda coluna. Esta é a inversão do antecedente da segunda coluna, então a 29ª seria impressa aqui. Sim, estamos recebendo 29. Da mesma forma, suponha que eu queira a primeira fila seis. Ok? Então eu posso dar m phi e rho seis e o valor da coluna. Vou deixar isso. Então, se você der assim, o que vai receber? Você obterá o valor c da linha seis aqui, 323-033-4305. Então, esta é a linha seis. Você vai conseguir isso. Ok? Da mesma forma, se eu quiser acessar a segunda coluna, posso dar, posso deixar a linha e posso dar o valor da coluna de um litro. E se eu publicar isso, vou pegar a coluna para ver você. 13, 17. Esta é a coluna 213-17-2120, 5,20, 9,33, 29, 30. Dessa forma, podemos destacar o valor da coluna. A próxima coisa é adição e subtração de matrizes. Podemos fazer multiplicação, adição, subtração e divisão com matriz de pato. Então, suponha que eu tenha a matriz M1, deixe-me imprimir isso. Veja que esta é a M1 e eu tenho outra matriz que é M2. Então, ambas são a mesma matriz, mas quais são as métricas diferentes, mas os valores são os mesmos. Ok? Então, suporte, eu quero adicionar m1 e m2, então eu posso simplesmente fazer m1 mais m2. E vou atribuir esse valor a algum objeto. Então, se eu executar isso e imprimir o valor da soma c aqui, obterei a garantia 36, como se estivessem armazenados 2012 +12, 241-313-2614 mais 14, 20º assim. Ok, da mesma forma, podemos fazer m1 menos m2 e obteremos 000 porque as duas métricas são iguais, certo? M1 em m2. Podemos fazer a multiplicação, desculpe por isso. 12 em 12, 24, 30 e divirta-se quando vira assim. Ok? E da mesma forma, podemos realizar a multiplicação matricial onde o, cada elemento será dividido por cada elemento, ok? Bem, por volta de 121, desse jeito. Ok? Dessa forma, podemos usar a matriz e fazer com que não seja subtração e podemos acessar os elementos da matriz. 19. Fatores em R: Olá e bem-vindo. Nesta palestra, aprenderemos sobre Dustin R. Então, o que influencia? Os fatores são os objetos de dados, como aprendemos até agora que tudo é um objeto. Portanto, os fatores também são objetos de dados em R que são usados para categorizar os dados. Então, basicamente, os fatores são usados para categorizar os dados e depois armazená-los, categorizar os dados em níveis. Então, primeiro, ele categorizará os dados e, em seguida, criará os dados rotulados como Spot, Dodge e categorize. E então ele armazenará esses rótulos, ok? Ele armazenará esses dados nesses níveis, certo? E os fatores são usados para representar os dados categóricos. E eles podem armazenar sequências de caracteres e números inteiros. E eles fizeram um vetor inteiro com um nível. Suponha que o vetor inteiro tenha um nível, algo assim. Ok? Então, basicamente, suponha que tenhamos dados, suponha um homem ou uma mulher. Então, podemos armazenar isso. É melhor armazenar isso como 0,1, certo? Então, o que ele fará é supor que temos dados em que homens e mulheres, alguma população de dados em que temos nossos dados para homens e mulheres, ambos. Quais fatores farão isso criará uma categoria de dados com homens e mulheres e armazenará esses dados na categoria de homens e mulheres. E então você pode facilmente descobrir quantos homens existem e quantas mulheres existem, algo assim. Ok. Deixe-me abrir o arquivo em que criei quatro vetores. Então, eu já criei um fator de arquivo em R ponto R. E aqui também vou como criar um fator em R. O primeiro passo para criar um fator em R é criar um vetor. Então, aqui o que estou fazendo, estou criando um vetor para a profissão facial. E aqui dentro do vetor da profissão, haverá o Dr. Engenheiro Carpenter, Dr. mecânico, piloto, DR. carpinteiro no Quênia, assim. Ok. Então, existem algumas profissões que eu criei aqui. Então esse é o vetor do professor onde eu mantive o professor das pessoas. Ok? Então, se eu executar essas duas linhas, o que ela fará é criar um vetor para a França e para a direita. E terá o Dr. Engenheiro Carpenter, Dr. então veja o adotante é repetido à direita. Dr., muitos médicos estão lá, certo? Então, suponha que esse seja um vetor que eu criei. Se eu quiser verificar se esse vetor é nosso fator ou não, posso usar uma função aqui chamada de cada fator. Então, qualquer coisa, se quisermos verificar se é um fator ou não, você pode usar cada função de fator e passar esse vetor ou objeto para a função de cada fator e isso lhe dará que é um fator ou não. Ok, então vamos fazer isso. Veja aqui que está nos mostrando falsos. Isso significa que esse vetor não é um fator. Isso é um vetor, não um fator. Então, como converter esse professor e vetor em um fator? Isso é o que vamos fazer. O próximo passo. O próximo passo é aplicar a função de fator. Então, apoio. Agora eu quero converter esse proficiente em um fator. Então, estou criando outro, criando outro objeto cujo sublinhado é fatorado. Professora. Ok, agora vou usar a função fatorial e passarei esse vetor de profissão para a função fatorial para que esse vetor de profissão seja convertido em fator. Ok? Agora, se eu executar isso, e se eu executar isso, qual alocação, veja aqui. Agora, nesta etapa, criaremos o fator a partir desse vetor do professor. Então agora esse fator, fator nasal do professor, então eu posso verificar aqui é fator. Aqui está nos mostrando o que aconteceu. E quando estou imprimindo esse fator profissional, que é um fator, o que estou obtendo estou obtendo, estou obtendo o mesmo resultado. Dr. carpinteiro de interiores, dr. Assim, os mesmos dados. Mas aqui estou recebendo outra saída que é rótulos. E as etiquetas são carpintaria, professora, Dr. então todas essas coisas não serão etiquetas, certo? Os outros níveis são carpinteiro, Dr., motorista no júnior, mecânico, piloto e professor. Se eu usar a função de tabela e passar esse fator, a função de tabela, o que ela fará, ela nos dará a mesma coisa, rótulos, ok? E se eu usar o resumo, o que nós gostamos. Se você usar alguém, obterá quantos carpinteiros existem nesses dados? Então, para carpinteiro, três médicos, um motorista, para engenheiro, para mecânico, para piloto e para professores. Ok? Dessa forma, podemos criar e vetorizar o fator. Factor verá que criou um fator, Dr. carpinteiro, e está nos dando os dados de que existem dois médicos. Há dois carpinteiros, três médicos, um motorista assim. Portanto, ele categorizará os dados. Agora, o fator, qual fator fez? Ele categorizou esses dados, esses dados na categoria de profissão, como carpinteiro, Dr. e está nos dando números como esses muitos carpinteiros ou seus principais médicos quando os engenheiros estão presentes em nossos dados. Portanto, o fator será útil ao analisar os dados que são dados categóricos, certo? Então, veremos como podemos fazer análises categóricas usando fatores em R. Então, por enquanto, basta entender como criar um fator em R a partir do vetor, ok? Assim, podemos aplicar a função fatorial ao vetor e esse vetor será convertido no fator. E a condição é que esses vetores do professor tenham alguns dados categóricos. Ok? E então podemos verificar cada função de fator. Com a função, cada fator, podemos verificar se um vetor é um fator ou não, ok? E podemos usar a tabela para ver os níveis do fator e podemos usar a função de resumo para verificar quais são os números, como quantos são Dr. Quantos engenheiros existem? Então, alguém acima do fator será visto usando a função de resumo, ok? 20. Quadros de dados em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre DataFrames em nossa programação e como podemos usar DataFrames. Esse é o tópico desta palestra. Então, deixe-me primeiro dizer o que é DataFrame. Dataframe é uma tabela ou uma estrutura bidimensional semelhante a uma matriz na qual cada coluna contém valores de uma variável e cada linha contém um conjunto de valores de cada coluna. Você entende o que eu disse. Dataframe é uma estrutura semelhante a uma tabela ou matriz bidimensional, você pode dizer, na qual cada coluna contém valores de uma variável. Cada coluna conterá valores de valores de uma variável e cada linha conterá o conjunto de valores de cada coluna. Ok? E é um caso especial de lista em que cada componente de cada componente terá o mesmo comprimento e cada componente formará a coluna e o conteúdo dos componentes na estrada. Entendido. Cada componente forma a coluna. Cada componente formará a coluna e o conteúdo do componente formará as estradas. Você entenderá que, quando fizermos o trabalho prático, você entenderá melhor. Portanto, um DataFrame em R terá os seguintes recursos. A primeira coisa é que os nomes das linhas devem ser exclusivos. Portanto, o nome da linha deve ser sempre exclusivo. Então, nomes de linhas, então seria único. Você não pode ter os mesmos nomes de linha em um DataFrame, ok? Portanto, cada nome de linha deve ser exclusivo e, em seguida, o nome da coluna não deve estar vazio. Portanto, nome da coluna, não fique vazio. Deveria estar vazio. Então, todos os nomes das colunas teriam entradas, ok? E os dados armazenados em um DataFrame podem estar fora do fator numérico em tipos de caracteres. Portanto, qualquer um desses tipos de dados pode ser armazenado em DataFrame, fator numérico ou tipo de caractere. E cada coluna, então ela contém o mesmo número de itens de dados. Portanto, cada coluna contém o mesmo número de itens de dados. Portanto, DataFrame como uma tabela ou uma estrutura bidimensional semelhante a uma matriz em R, na qual cada coluna contém o valor de uma variável e cada linha contém o conjunto de valores de cada coluna. Ok? Então, vamos começar com a prática. Ok, então o que eu fiz, eu já escrevi o programa e o nome do arquivo é DataFrame dot r. O que estou fazendo aqui, estou criando um DataFrame. Portanto, o DataFrame pode ser criado da seguinte forma: como criamos um DataFrame. Nós usamos. Data.frame. A função Data.frame será usada para criar um quadro de dados. E esse aluno é um objeto ao qual atribuirei esse DataFrame. Ok? Então data.frame. E então, o que estou fazendo aqui, primeiro, estou criando um número de série. Ok? Então, número de série, estou criando 1-5. E então oito, eu estou dando, eu estou usando a função c para criar a idade, ok? Estou criando um vetor aqui, veja 201-15-1030, 5.45. Então, A's terá essas entradas. Então eu estou criando um nome. O nome terá muitas entradas. Ok. Então, cinco entradas, shaggy, Ronnie é John e Tom de hoje, e então eu vou encerrar isso. Ok? Dessa forma, podemos criar um DataFrame. Então, deixe-me executar esta linha primeiro para obter um DataFrame. Veja aqui. Então deixe-me imprimir isso. CEO estudantil. Agora, o aluno é um DataFrame, certo? E o que está contendo, está contendo uma linha ou coluna com o número de série, idade e nome, porque fornecemos o número de série, depois oito e depois o nome. E cada coluna. O número de série e o nome conterão os valores. Qual número de série conterá o valor de um a cinco, então 12345 números de série e , em seguida, idades 201-15-1030, 5,40. E o nome terá esses valores, ok? Portanto, cada coluna terá os valores de nome, nome e variável. Isso é o que aprendemos na parte teórica. Dessa forma, podemos criar nosso aluno do DataFrame, que terá o número de série da coluna, um nome e os valores da linha. Do número de série 1-5, com 21 anos. E esses cinco são, nós demos um nome, temos um especificado na variável de nome. Então, esses valores variáveis se tornarão a entrada nessa tabela, certo? Portanto, é uma estrutura semelhante a uma mesa. Ok? Então, isso é conhecido como DataFrame em R. E podemos ver a estrutura do nosso DataFrame usando a função STR. Podemos usar STR e depois passar o DataFrame. Isso nos dará a estrutura do DataFrame. O DataFrame tinha estrutura e diremos dataframe. E tem cinco linhas de três valiosas. Veja aqui 12345. Então, cinco objetos, ou cinco linhas e três variáveis. Três variáveis são seriais, número é um nome. Essas são as três variáveis. Os nomes das colunas são conhecidos como variáveis. Então, três variáveis e cinco linhas, cinco objetos de três variáveis. E essas variáveis são número de série, é e nome. Portanto, o número de série é inteiro, é numérico e marinhas de caráter, tipo e sênior, cada variável ou cada coluna terá o mesmo número de itens, como o número de série é de um a cinco. Idade também é ter cinco entradas e nome também tem cinco entradas, certo? Então, todos devem ter o mesmo número de entradas, certo? Ok. Suponha que se eu der seis anos, o que acontecerá? Deixe-me executar esse DataFrame de edição. Porque o número de série tem de um a 6,8 tem apenas cinco entradas, e o nome também tem cinco entradas, certo? Então, aqui, qual erro estamos recebendo erro no dataframe e se o uso de argumentos implica um número diferente de linhas seis e 6,5. Portanto, uma variável tem seis linhas, seis itens e todas as outras têm 51 folhas. É por isso que está nos mostrando o erro. Portanto, deve ser 55 para cada um. Ok, então aqui você pode colocar cinco e, quando o executarmos, não receberemos nenhum erro. E será executado com sucesso. Com o STR. Podemos obter a estrutura do DataFrame. A seguir, aprenderemos que componentes do DataFrame podem ser acessados como uma lista ou como uma matriz. Então, primeiro veremos como acessar a lista da Leica. Portanto, podemos usar, se você quiser acessar listas semelhantes, podemos usar qualquer uma dessas três. Podemos usar nosso operador dólar ou podemos usar o colchete duplo, ou podemos usar o colchete simples, ok? Para acessar os dados do DataFrame. Ok, então suponha que eu queira acessar o nome do DataFrame é estudante, um dos nomes. Então, se eu puder fazer isso com esse aluno e, em seguida, dentro da coluna, posso passar o nome da variável ou o nome da coluna. Ok? E se eu executar isso, obterei todos os nomes do DataFrame. Da mesma forma, posso fazer a mesma coisa com esse símbolo do dólar, certo? Estudante de operadores de dólar, que é o nome do DataFrame, depois dólar e, em seguida, o nome da coluna ou o nome de uma variável. Então, aqui, se eu executar isso, obterei o mesmo resultado: nome em dólares de estudante sênior. Ele lhe dará o nome de todos os alunos. Ok? E da mesma forma, podemos fazer isso também, é alugar. E no colchete. Novamente, dentro do colchete, podemos passar o nome. Essas três coisas lhe darão o mesmo resultado. Ok? Agora, podemos fazer como se tivéssemos dado o nome. O nome é a terceira coluna logo dentro deste DataFrame. Assim, podemos passar o número da coluna também, aluno três, para que você tenha a terceira coluna. O nome. nome é a terceira, terceira coluna neste DataFrame. Veja, se eu conseguir, isso nos dará a idade. Ca, isso nos dará os Is. Dessa forma, podemos passar o número da coluna e buscar os dados do DataFrame. Agora, o próximo passo é modificar os elementos do DataFrame. Podemos modificar o DataFrame também como C você dará a esse aluno, que é um nome de DataFrame. E aqui vamos manter o 11 significa a primeira linha, e então eu darei H. E eu quero modificar que a primeira linha é 291. Ok? Então, deixe-me fazer isso e deixar eu imprimir o aluno. Veja aqui. Agora, a primeira linha é, foi modificada para 91. Antes era 21, agora é 91. Então, dessa forma, podemos. Modifique os elementos do quadro DataFrame. Podemos adicionar linhas ao componente Roche ao DataFrame. Suponha que eu queira adicionar outra linha. Suponha que aqui estejam cinco linhas, certo? Eu quero adicionar mais uma linha ao DataFrame Halloween, eu posso fazer, eu posso usar a função rbind. Nossa função é usada para adicionar uma linha ao DataFrame. Dentro do rbind, preciso passar o nome do DataFrame e depois usar uma lista. E dentro da lista eu tenho que passar o número de série seis, depois a idade de um e vinte anos, e então os nomes seriam “há uma variedade”, então nada deve ficar vazio. Tudo o que temos para dar, há três colunas, então temos que dar três colunas aqui. O número de série é n, nome. E se eu executar isso, mais uma linha, linha, linha será adicionada. remédio da apreensão seis, um e vinte foi adicionado ao DataFrame do aluno. Da mesma forma, também podemos adicionar um componente coluna ao componente de coluna no DataFrame. E como podemos fazer isso, podemos fazer isso com o C1. C1 significa que Columbine são vitaminas que se ligam. Ok, então a função cbind, costumávamos adicionar uma coluna ao DataFrame. Então, dentro da mesma coisa, precisamos passar o nome do DataFrame. E então temos que supor uma coluna que eu queira adicionar como país. Então, eu tenho que dar o nome da coluna country e depois usar a função c e passar o número de países do país. Então, aqui eu preciso passar pelos seis países que estão neles, certo? 12345, tudo bem? E se eu executar isso, porque o sexto valor, não nos comprometemos. Portanto, não está chegando o ano. Ou em um DataFrame é ter apenas cinco linhas, é adicionar a Phi, ok? Dessa forma, podemos adicionar outra coluna, ao contrário do nosso DataFrame. A próxima coisa é que podemos atribuir o país de uma maneira semelhante a uma lista, como listas como tarefas, podemos usar o país do dólar estudantil. Isso significa que, no DataFrame, vamos adicionar outra coluna. Ou seja, esse será um nome de país. E vamos adicionar entradas como esses países, ok? Seis na Índia, neutros e EUA, Japão e China. Ok? E se eu fizer essas duas declarações, perceberei que o país foi adicionado aqui e os nomes dos países estão aqui. Dessa forma, podemos adicionar uma coluna em uma lista, como tarefa. Ok? A próxima coisa é que podemos excluir um componente do DataFrame. Assim, podemos excluir uma coluna inteira usando essa coisa. Ok, estudante, esse é o nome do DataFrame, dólar aqui, nome da coluna , nome, e eu posso atribuir nulo. Então, se eu atribuir null, a coluna inteira será excluída. Então, deixe-me ver isso e ver você. Agora. O número de série é e os países em que sua coluna de nome foi excluída porque tornamos a coluna de nome nula. Ok, então, dessa forma, podemos excluir a coluna inteira. Da mesma forma, podemos excluir uma linha inteira. Então, para excluir a linha inteira, o que podemos fazer, podemos usar student e menos dois, e então podemos excluir a linha inteira. Então, deixe-me fazer isso. Aqui. A linha dois foi excluída. Duas são duas pegadas da Nova Zelândia que foram excluídas. Portanto, se você quiser excluir uma linha específica, você pode fornecer aqui menos dois meios para que a segunda linha seja excluída do DataFrame do aluno. Dessa forma, podemos excluir uma linha inteira de um DataFrame. Então, é assim que podemos criar um DataFrame usando data.frame. E podemos fornecer o número de colunas ou o número de variáveis. E então temos que fornecer o número de valores para essas variáveis que deve ser chamado de número de itens aqui cinco. Portanto, todos os A's e nomes seriam 55, só então ele criaria um DataFrame. Então, podemos obter a estrutura de um DataFrame usando a função STR. Em seguida, podemos fasear a coluna específica usando o nome da coluna usando esse colchete ou o símbolo do dólar. E podemos comprar o número da coluna. Podemos modificar o DataFrame assim, elementos do DataFrame como esse e todas essas coisas, cbind, Irvine, todas essas coisas que vimos, certo? Então, espero que você tenha entendido melhor os DataFrames em R. E espero fazer você entender o que é DataFrame e como podemos lidar com os DataFrames. Nos vemos na próxima palestra. 21. Combinando quadros de dados: Olá e bem vindo de volta. Nesta palestra, aprenderemos como podemos combinar vetores em DataFrames. Isso significa que supomos que temos três ou quatro vetores. E eu quero criar um DataFrame a partir desses vetores. Então, como podemos fazer isso? E, em segundo lugar, o que tentaremos fazer é também combinar os DataFrames. Ok, então vamos começar. Então, primeiro, para combinar os vetores, precisamos criar o vetor. Então, aqui o que estou fazendo, estou criando para vetores, nomes, cidade, código postal e salário. Então, esses quatro serão os quatro vetores que estou criando e são quatro objetos que estou criando. E eu vou, o que eu vou fazer, vou combinar esses quatro para criar um DataFrame. Então, esses quatro vetores criarão um DataFrame para mim. Ok, então o primeiro reitor são os nomes. E no vetor de nomes o que estou dando no vetor de nomes que estou dando, estou usando a função C e estou dando os nomes da lactamase de Parsons, Rockies, Henry e macaco. E então o segundo vetor é o vetor da cidade. E dentro disso, estou dando esse particular suas respectivas cidades chamadas de Bangalore, Londres, Nova York e Mumbai. Ok, e então eu estou dando o código de presente para essas cidades no terceiro vetor. E então o quarto vetor é o salário, no qual estou instalando seu respectivo salário. Então, isso terá o salário da derme, o salário raquete e, recentemente, a mantissa. Salário de Mantissa. Podemos criar com isso esses quatro vetores, que aprendemos no capítulo de vetores na aula de vetores. Então, deixe-me fazer isso. Então isso criará esses quatro vetores, ok? Agora eu quero combinar esses quatro vetores e criar um DataFrame. Eu quero criar um DataFrame usando esses quatro vetores. Então, eu quero combinar esses quatro vetores e criar um DataFrame. Então, para isso, o que estou fazendo, estou dando um nome de DataFrame aqui, detalhes implícitos. Portanto, os detalhes do ponto EMP serão o nome do DataFrame. O que vou fazer é usar a função cbind para combinar esses vetores. Ok? Então, como esse nome será o código profundo da cidade, essa será a equipe de colunas. Então, naturalmente, estou usando C bind aqui para combinar os nomes das colunas, cidade e código postal. E, infelizmente, essas são as quatro, essas serão as quatro colunas no DataFrame. Então, estou usando c wine e estou fornecendo o nome das colunas, como nomes, vetor, vetor da cidade, código postal e salário. Ok? Então, deixe-me fazer isso. Ok. Agora deixe-me imprimir os detalhes do funcionário. Ok. Então, deixe-me ver os detalhes dos empregadores. Veja aqui. Agora, o detalhe do funcionário é DataFrame. E podemos ver as colunas nome, cidade, CEP e salário. E as entradas são manequins, carga bancária, código postal e salário, Rockies City, Londres, você tem isso e o salário. Então Henry. Veja aqui, a partir desses quatro vetores para os quais criamos, começando com esses quatro vetores, criamos um DataFrames, certo? Suponha que se eu colocar os nomes e usar esse nome, o que eu obterei é um líder com o mesmo nome, cidade e beco das correntes. Então, eu combinei os vetores em um quadro de dados. Então, agora temos uma estrutura semelhante a uma tabela aqui que é um DataFrame. Então, agora temos um DataFrame. Da mesma forma, o que vou fazer? Vou ler, você pode usar a função C-A-T cat para imprimir algo. Ok, então aqui estou apenas imprimindo o arquivo DataFrame a partir de quatro vetores. E isso, então virá assim. Ok, então o primeiro DataFrame de quatro vetores é isso implicar detalhes, detalhes de pontos EMP. Ok? Então, se você quiser imprimir um título, você pode usar a função de bate-papo, ok? E depois imprima os detalhes do funcionário que eu já imprimi aqui. E você também pode imprimi-lo aqui. E então o que estou fazendo agora, próxima tarefa é combinar dois DataFrames em um. Portanto, temos um DataFrame que implica detalhes que criamos a partir dos quatro vetores. Agora o que vou fazer. Crie outro vetor, desculpe, vou criar outro DataFrame, detalhes de funcionários e detalhes de pontos EMP também, com a função Hale-Bopp DataFrame. E aqui, manualmente. Dentro do DataFrame, darei o nome vetor c t vetor, código postal, salário. Ok? Então, dessa forma, também podemos criar, na primeira etapa, o que fizemos. Criamos o nome cidade, código postal vetor salarial separadamente e, em seguida, pausamos a função cbind para criar um DataFrame. E o que estamos fazendo agora, estamos passando diretamente esses vetores. Estamos criando os vetores dentro da função DataFrame. Não estamos envelhecendo C Y, e aqui estamos usando data.frame, função DataFrame para criar um DataFrame. E dentro da função DataFrame que estamos passando, estamos criando nomes. Vetor, vetor de densidade, depois vetor de código postal e entradas que também estamos fornecendo aqui apenas, ok? Salário e um forte fator de vantagem falsos. Ok? E então, se executarmos isso, criaremos um DataFrame. Esses também são detalhes dos funcionários. Ok? E se eu executar essa ferramenta, o que acontecerá, obteremos o segundo DataFrame que é empregado. Ele tende a nomear código estratégico e tem 3,2 RAM em minúsculas e push pop. E o código postal da cidade e respectivos salários impressos aqui. Agora temos os dois DataFrames, detalhes dos funcionários e detalhes implícitos do que eu queria fazer. Quero combinar as linhas de ambos os DataFrames e criar outro DataFrame que contenha todos os detalhes implícitos de um e empregado no DataFrame. Então, estou criando outro objeto, todos os detalhes do ponto do funcionário. Ok, esse será o DataFrame que combinará as linhas do DataFrame do funcionário, DataFrame e dos detalhes implícitos do DataFrame. Então, para isso, o que eu vou usar é comprar fora de banda porque queremos combinar as estradas aqui, três filas e aqui quatro fileiras com essas quatro fileiras. E essas três linhas, eu quero combinar e criar outro DataFrame. É por isso que estou usando out-of-band para combinar as linhas. E então, dentro do Audubon, fornecerei o primeiro DataFrame e depois o segundo DataFrame. E então podemos usar a função de bate-papo para imprimir as manchetes que combinam detalhes implícitos. E então eu posso imprimir. Ok, então deixe-me fazer isso. vejo. Agora temos todos os detalhes implícitos do DataFrame, que conterá todas as sete linhas, as quatro do primeiro DataFrame e o último terço é do segundo DataFrame. Dessa forma, podemos combinar dois DataFrames. Ok? Então, quais são as coisas que aprendemos? Primeiro, aprendemos como criar um DataFrame a partir de vetores. E então vimos como podemos combinar os dois DataFrames em um quadro de dados. Ok, dessa forma, podemos combinar os DataFrames e também criar um DataFrame a partir dos vetores. Nos vemos na próxima palestra. 22. Analisando dados em R do arquivo CSV: Olá e bem vindo de volta. Então, nesta palestra, vamos aprender um conceito muito importante, que é a análise de dados em R. Então, o que vamos fazer nesta palestra, primeiro, vamos tentar ler um arquivo CSV, arquivos CSV separados por vírgula. E é como um assento real que você pode imaginar. E conterá a soma dos detalhes implícitos. E então o que faremos é tentar ler esse arquivo CSV com nossa programação. E depois de lermos os dados, tentaremos analisar os dados que estão dentro do arquivo CSV de detalhes do funcionário. E tentaremos obter alguns insights a partir desses dados. Ok, então deixe-me mostrar primeiro o arquivo CSV. Então esse é o arquivo CSV que eu criei. E veremos aqui que este é o arquivo CSV com pontos de detalhes do funcionário e é um arquivo separado por vírgula. Então, a primeira identificação do funcionário, nome do funcionário, salário, dados de ingresso e departamento. Essas são as quatro colunas. Estas serão a coluna da tabela ou a sede do Excel, você pode ver. E então essa será a primeira linha. Os valores separados por vírgula. será o ID do funcionário e, em seguida, a lista será o nome do funcionário. O salário será de 3.000. Eles escolheram se juntar a isso. E então o departamento será CSE ou algo assim. Ok. Então, esses são alguns dados que mantive dentro desse arquivo CSV. E agora, o que vou fazer tentar buscar esses dados, essas colunas e valores de linha por meio de nossa programação. E então tentaremos analisar os dados. Então, o primeiro tipo é ler um arquivo CSV por meio do nosso, ok, então deixe-me ver o código. A primeira coisa que precisamos fazer definir nosso diretório de trabalho. Portanto, para definir o diretório de trabalho, você precisa acessar os arquivos aqui, nesta seção, e ver se você clicar nesses três pontos aqui, você poderá navegar pelos arquivos em seu computador. E aqui o que vou fazer, vou para o Art 2020 porque este é meu diretório de trabalho e quero definir esse local como nosso diretório de trabalho. Vou selecionar isso. E agora estamos dentro desse diretório art 2020. Agora eu quero fazer com que essa alíquota tenha um diretório de trabalho, para que eu possa fazer isso. Eu posso ir a isso com mais frequência. E ano de aptidões, Definir como diretório de trabalho, então vou clicar em Definir como diretório de trabalho. Ok, então, dessa forma, podemos tornar este nosso diretório de 2020 como nosso diretório de trabalho. Como alternativa, você pode simplesmente usar o conjunto de comandos WD. Set WD é uma função que definirá o diretório de trabalho. Wd significa diretório de trabalho e segmentos configurando o diretório de trabalho. Portanto, definindo o conjunto de trabalho, WD é a função interna na qual você pode fornecer o caminho para seu diretório. E esse caminho será seu diretório de trabalho quando você executar isso. Ok? Então, agora definimos o diretório de trabalho. O que eu fiz foi manter o arquivo CSV de detalhes do funcionário aqui para que seja fácil para nós que o lemos. Não precisamos passar o caminho completo aqui, pois temos o interior, estamos dentro do diretório de trabalho e o arquivo CSV til dot do nosso funcionário também está no mesmo diretório, ok? E se não estiver lá, então temos que fornecer o caminho completo aqui e a parte completa para esse arquivo. Ok? Portanto, o primeiro passo é ler o arquivo CSV por completo. Então, o que vou fazer primeiro criar uma variável que você pode dizer ou objetar em nossos dados de emprego, dados de pontos EMP. Esta é uma invariável em que eu quero armazenar tudo o que vou ler desse arquivo CSV. Para ler o que precisamos em um arquivo CSV, precisamos de uma função chamada read.csv. Portanto, o read.csv será usado para ler o arquivo CSV. E dentro dessa função, read.csv, precisamos fornecer o nome do arquivo dot CSV para que nosso nome de arquivo seja detalhes do funcionário dot CSV. É isso. Quando executamos essa função, ela lê os dados desse CSV de pontos do funcionário e os armazena dentro desses dados do funcionário. Então, deixe-me fazer isso primeiro. Veja aqui. Agora, quando você vê aqui, está nos mostrando dados de pontos EMP dos funcionários, oito objetos de cinco variáveis. Isso significa que há oito linhas e cinco colunas no arquivo CSV. ID do funcionário, um a oito significa nome. Este é o nome implícito, aumento da taxa salarial. E tem, você pode ver os detalhes aqui. Agora lemos o arquivo CSV e armazenamos os dados dentro desses dados de pontos EMP. Agora posso imprimir esses dados de pontos EMP e ver quais detalhes eles contêm. Basta executá-lo e ver você. Deixe-me fazer isso de novo. Agora estamos recebendo a estrutura da mesa que eu gosto, certo? ID do funcionário, nome do funcionário, salário, data de ingresso e departamento. Esses são os nomes das colunas e esses são os valores, certo? Linhas. Para as colunas correspondentes, certo? Há oito linhas e cinco colunas. Cinco variáveis significam cinco colunas. Então, você pode relacionar que tipo de dado isso é na arte? Isso é chamado de DataFrame. O Dataframe terá uma estrutura semelhante a uma tabela, certo? Portanto, tudo o que lermos do arquivo CSV, ele será armazenado como um quadro de dados em R. E podemos verificar se isso é um DataFrame ou não usando cada dado. Cada função dot data.frame, à direita, é a função dot data.frame. E podemos passar esse objeto de dados do funcionário. Então, deixe-me fazer isso. Veja aqui que está dando o resultado como verdadeiro. Isso significa que os dados de pontos EMP desse funcionário são nosso DataFrame. Seja o que for que lermos sobre isso, o read.csv obterá um quadro de dados. Então, agora temos um DataFrame aqui. A próxima coisa é que agora temos nossa estrutura semelhante a uma tabela DataFrame aqui. Agora posso encontrar o número de colunas usando uma função chamada. Então eu posso usar um carvão e então eu posso passar o nome do DataFrame aqui. E isso nos dará o número de colunas no DataFrame. Portanto, esse arquivo CSV tem cinco colunas. Da mesma forma, podemos usar e rho, e rho é o número de linhas. Quando executarmos isso, obteremos o número de linhas, oito linhas neste DataFrame. Veja aqui a facilidade com que lemos o arquivo CSV e criamos uma tabela ou um DataFrame em R. E agora estamos encontrando com n dois pontos e linha o número de colunas e o número de linhas neste DataFrame. Agora, vamos obter algumas informações interessantes com R. Então, agora eu quero encontrar o salário máximo. Qual é o salário máximo de um funcionário? Assim, posso usar a função max e passar os dados do funcionário. Salário em dólares. Isso significa que eu quero passar a coluna de salário, essa coluna de salário para a função máxima, a coluna de salário, os dados de pontos EMP. Salário em dólar significa esta coluna que estou buscando e a estou passando para a função máxima. Portanto, essa função máxima funcionará internamente e encontrará o máximo desses salários. Então, isso nos dará, nos dará o resultado 95.200. Deixe-me imprimir esse salário máximo. Veja aqui que estamos recebendo o salário máximo de um funcionário é 95.200. Ok? Dessa forma, podemos encontrar o salário máximo. Também podemos encontrar o salário médio usando a função média. Portanto, dentro da função principal, o que faremos fornecerá essa coluna salarial. E isso nos dará o salário médio dos funcionários. Seu salário médio da praça. Cada salário dele coloca 53.009, 24. E se usarmos soma de todos os salários dos funcionários e dividirmos por oito, porque há oito funcionários receberão a mesma taxa que o CEO. Dessa forma, podemos encontrar o salário médio dos funcionários. Da mesma forma, podemos encontrar o máximo. Podemos encontrar o detalhe do funcionário com salário máximo, descobrimos que 95.200 é o salário máximo. Uma implica obter. Agora podemos encontrar esse funcionário com esse detalhe. Portanto, podemos usar a função de subconjunto e transmitir dados implícitos. E então podemos colocar outro argumento aqui, salário igual ao salário máximo. Então, o que vamos fazer é encontrar aquele funcionário que tem o salário máximo. Portanto, isso nos dará os detalhes do funcionário que está recebendo o salário máximo do implícito. Deixe-me fazer isso. Veja aqui que esse funcionário diz que está recebendo o salário máximo e esses são os detalhes dele. Dessa forma, podemos dizer que o ponto pode ser detalhe salarial mais ensolarado do funcionário que está recebendo o salário máximo. Dessa forma, podemos encontrar o funcionário que está recebendo o salário máximo, o salário mais alto. Da mesma forma. Também podemos executar isso. Faça com que todos os funcionários trabalhem em finanças, trabalhem no departamento financeiro e recebam salários de mais de 85.000. Veja aqui, este é o departamento, então esse é o departamento financeiro. Há dois funcionários e ambos estão vendendo mais de 85.000. Então, qual condição estamos dando? Estamos chamando a função de subconjunto e fornecendo os dados do funcionário. E então estamos dando uma condição departamento igual a finanças e salários estaria acima de 85.000. Portanto, isso nos dará a todos os funcionários detalhados cujo departamento é financeiro e salários, mais de 85.000. Deixe-me imprimir isso. Deixe-me executar isso. Aqui. Estamos ficando implícitos. Deixe-me executá-lo novamente. Então, aqui estamos obtendo o ID de funcionário 3.8 para funcionar. Esses são os dois funcionários que pertencem ao departamento financeiro e seu salário é superior a 85.000. Então, esses dois funcionários contratam departamento, finanças, departamento financeiro e seus salários são mais de 85.000. A próxima coisa é que eu quero encontrar os implicantes de quem se juntou em ou depois de 2000. Então, temos uma data para nos juntarmos aqui também, certo? Então, eu quero encontrar todos os funcionários que ingressaram depois de 2000. Honor, depois de 2000. Assim, posso fornecer os dados do funcionário e fornecer a data de Ashdod. E dentro disso eu darei a data de adesão. Então, estou fornecendo dados sobre afogamento para esta função de data. E isso deve ser maior do que adicionar data ao login. Primeiro de janeiro de 2000. Ok. Portanto, todos os funcionários cujos dados sobre Joanne são maiores do que este tutorial, Primeira Geração de Tarjan obterão os detalhes desses funcionários aqui. Então, deixe-me fazer isso. Espere novamente, veja aqui. Então, agora estamos recebendo as implicações de Priyanka Mahesh. Então, eles nos encontram quando esses cinco implicam que ingressaram em 2000 e depois disso ou não depois de 2000, eles ingressaram na empresa e estamos recebendo os detalhes dos funcionários. Quem se juntou a nós geralmente são da década de 2000. Dessa forma, podemos analisar o arquivo CSV e os dados que temos dentro do arquivo CSV no Excel. Portanto, essa é uma análise muito legal que podemos realizar com funções simples. Certo? Agora, o que eu quero fazer que lemos um arquivo CSV, certo? Lemos o arquivo CSV e realizamos todas essas análises. Agora, o que eu quero fazer é escrever um arquivo CSV. Quero obter alguns dados. Quero gerar alguns dados e quero que esses dados sejam publicados em um arquivo CSV. Como eu posso fazer isso? Eu posso fazer isso com isso. Write.csv. Read.csv está lendo o arquivo CSV. E write.csv significa ler ou escrever um arquivo CSV. Queremos escrever um arquivo CSV. Quaisquer que sejam os dados, esses dados que encontrei indicam quem ingressou depois de 2000, certo? Então, eu quero escrever essa tabela ou esses dados em um arquivo CSV. Então, vou passar esse objeto unido depois 2000 para este write.csv. E aqui vou dar o nome do arquivo CSV. Então, recebo o nome do arquivo CSV como ponto de funcionário entrelaçado após ponto de origem do dente csv. Portanto, todos esses dados serão gravados nesse arquivo CSV. Um novo arquivo CSP será criado. Ok, então deixe-me ver se esse arquivo já está, veja aqui, esse arquivo já está lá. Então, o que eu vou fazer é deletar isso. Ok? E então eu vou voltar e depois executar isso. Ok, então deixe-me fazer isso. E deixe-me ir até a pasta aqui. Veja aqui agora que temos um novo arquivo criado. Deixe-me mostrar os dados. Aqui. Temos 12345 linhas. Me disse que, por meio de Eddie, os dados de até n são 2000, 2018, 2.914.2018. Todas essas implicações se juntaram após 2000. Portanto, dados semelhantes estão aqui. E agora que os dados foram inseridos dentro desse novo arquivo CSP, junção de pontos e vemos como é fácil obter o resultado aqui e gravá-lo em um arquivo CSV que criamos há pouco, podemos gravar os resultados em um arquivo CSV que criamos há pouco tempo vemos como é fácil obter o resultado aqui e gravá-lo em um arquivo CSV que criamos há pouco, podemos gravar os resultados em um arquivo a junção de pontos e vemos como é fácil obter o resultado aqui e gravá-lo em um arquivo CSV que criamos há pouco, podemos gravar os resultados em um arquivo CSV que criamos há pouco tempo, também podemos gravar os resultados em um arquivo CSV. E agora eu posso ler, usar o read dot csv para ler esse arquivo CSV novamente e imprimir. Então, deixe-me fazer isso. Aqui. Também estamos obtendo o mesmo resultado aqui. Dessa forma, podemos nos escrever via arquivo CSV e ler um arquivo CSV. E podemos realizar todas essas análises, como encontrar o salário máximo, encontrar o funcionário que está tendo, quem está recebendo o maior salário. Podemos encontrar os funcionários ingressando após uma data específica. Podemos encontrar o salário médio dos funcionários. Podemos encontrar a média do salário. Podemos encontrar muitas outras coisas, o que for necessário para sua empresa. Se você quiser. Chegue a uma conclusão específica ampliando os dados, você pode fazer com as funções ímpares e analisar seus dados. Então, espero que você conheça a força da nossa programação e como destacar os dados na programação R e ler, ler e escrever, ler e escrever um arquivo CSV. Nos vemos na próxima palestra. 23. Criar gráfico de pie em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre gráficos circulares. Então, deixe-me primeiro anotar esses consoles e objetos e fechar esse arquivo. E eu criei um arquivo chamado byte char Tatar. Então, eu escrevi o programa, escrevi as funções para criar um gráfico circular usando dados. Então, supomos que temos alguns dados e queremos representar graficamente esses dados em um gráfico circular. E queremos analisar os dados para que possamos fazer com que, com muita facilidade, um anúncio também seja popular por esse recurso, porque podemos visualizar os dados usando vários gráficos. Então, um dos violões é gráfico circular e isso vamos aprender nesta palestra. Então, primeiro, primeiro, precisamos criar os dados para o gráfico. Então, estou criando um vetor n e dando valores como 307-82-3309, algo assim. Você pode dar o que quiser. E então estou criando rótulos a, B, C, D para esse valor. Portanto, o valor será 30, 78, c, 23 e D 39, assim. Ok? Agora posso obter o nome do arquivo de dados para o bate-papo Qualquer gráfico que eu esteja criando, posso dar a ele um nome como abc dot PNG ou um gráfico circular com pontos PNG. Então, suponha que eu lhe dê um nome com Jarred dot PNG. Qualquer coisa que você possa dar. Ok. Então, estou dando um nome a ele. Eu posso usar a função PMT e posso dar um arquivo igual ao nome do arquivo. Então, eu quero criar um arquivo de imagem PNG de pontos de gráfico circular. O que quer que seja capturado que for criado, será armazenado em um formato de imagem de arquivo PNG. Ok, então isso também pode ser feito com essa linha. Então, opcionalmente, se você quiser um arquivo PNG em um arquivo de imagem, poderá criar com isso. Caso contrário, você pode vir aqui diretamente e usar a função pie e transmitir os dados. E então isso vai para os dados e então você pode passar os rótulos. Esses são os níveis. Então, quando um gráfico circular será criado com esses dados, e esses dados serão rotulados com a, B, C, D. Ok, então dev.off significa que esse arquivo será gravado no, no sistema. Ok? Então, deixe-me executar esse código aqui. Então, deixe-me correr. Ok. Então, CEO, agora temos, mas não estamos vendo esse gráfico aqui. Eu não sei por quê. Então, deixe-me executar essa parte novamente. Veja aqui. Agora temos um gráfico circular com os rótulos a, B, C, D. Então E está atrasado. V é o mais parecido com 78. Isso mesmo, a maior área para b e depois d e C. Dessa forma, com esses dados simples, criamos essa representação gráfica. E deixe-me falar com o bolsista de arte e CEO, deve haver um arquivo criado. Veja aqui o gráfico circular. Esse arquivo PNG foi criado com essa representação gráfica. Então veja aqui, esse arquivo de imagem também criado e veja aqui o a, B, C, D. Esses são os rótulos e esse é o valor dos dados é 78, é algo que fornecemos. Um valor é 30 e C10 é 23, 29 assim. Ok, então veja, acreditamos que criamos uma representação gráfica de nossos dados e podemos apresentá-los assim. Ok, então deixe-me voltar ao núcleo. Então esse é o comando, essa é a função PNG para criar um arquivo PNG a partir do nosso gráfico. Ok, então este é o nosso gráfico e este é o nosso arquivo PNG para esse gráfico. Ok? Então, se você quiser enviar através do gráfico, você pode criar um arquivo PNG e enviá-lo por e-mail. Ok? Dessa forma, podemos criar um gráfico circular. Ok, a próxima coisa é agora eu quero criar outro gráfico circular. E para isso eu estou criando coisas semelhantes e seu salário. Então, estou criando um vetor salarial e atribuindo esses salários impulsivamente a ele e ele sustenta apenas nosso salário e os nomes dos funcionários, cada doente, exceto um encontro e todas essas coisas. Ok? Então, esses são os dois vetores que estou criando: o salário e os nomes. Então, obviamente, essa elite se perguntará isso, mas foram 800 assim. Ok? E o mesmo acontece com B e D. Estou tentando criar um arquivo PNG, ponto de salário PNG para o gráfico que vou desenhar e por salário e nomes que estou passando e passando o salário como um dado e nome , como rótulos. Então, o próximo gráfico circular que vamos criar, ele será criado com base no salário e os nomes serão rótulos como aqui, ABCD fez nesses níveis, estará lá e será salvo. Mas BUN e essas coisas. Ok, então deixe-me criar esse acordo aqui. Deixe-me fazer isso. Ok? Isso de novo. Veja aqui. Agora temos um gráfico circular com nomes como, obviamente, o parque j tan. E qual é o uso de dados gráficos na plotagem. Porque com isso, podemos ver que, ok, titin é Aaron, menos salário de música é ter menos salário, mas um N far oak está tendo um salário bastante bom. O dinheiro e Ellen é Erin em cada salário. Então, com esses gráficos, podemos analisar facilmente os dados sem analisá-los mais profundamente. Podemos ver isso e chegar à conclusão de que a música está recebendo menos salário depois disso, Satanás está recebendo pouco mais do que todos os doentes. E então o dinheiro e Ellen, e então a bobina, o tecido e o tecido estão tendo a maioria, a maioria dos elementos celulares de nosso Lucas, com fotocópias recebendo o maior salário, rs1.000 propriedades. Portanto, podemos fazer essa análise vendo o gráfico circular e ver aqui, deve haver um arquivo salarial criado aqui, veja aqui. Então você pode enviar isso por e-mail e colocar assim. Ok. Então esse é o enorme gráfico circular. E com essa função simples de tubulação, podemos criar um gráfico circular e temos que escrever os dados e fornecer os rótulos. Esse nome é um rótulo de que somos bons. Obrigada. Ok. Veremos o resto das coisas, como analisar os detalhes do arquivo CSV, na próxima aula. Então, te vejo na próxima. 24. Analisando dados de funcionários: Olá e bem vindo de volta. Então, nesta palestra, analisaremos o arquivo CSV de pontos de detalhes dos funcionários que vimos nas palestras anteriores. E vamos obter os dados desse arquivo CSV. Leia os dados do arquivo CSV e criaremos um gráfico circular. E veremos quais são as coisas que podemos fazer com o gráfico circular. Quais são as coisas gráficas que podemos analisar com o gráfico circular? Como podemos esclarecer os detalhes dos funcionários. Do gráfico circular. Para ler um arquivo CSV, usamos o read.csv e passamos o arquivo CSV aqui. E vou armazenar isso nos dados de pontos do EMP. Isso nós já vimos. Então eu executo isso e colocamos os dados no objeto de dados de pontos EMP. Agora, essa será uma taxa de DataFrame. Lembra, certo? Então, se eu imprimir esses dados de funcionários, dados pontos EMP, eles também obterão um quadro de dados. Eles vão gostar da estrutura aqui. Esses dados que estamos obtendo desse arquivo CSV. Agora, eu quero desenhar, quero obter um gráfico circular como este, pois isso implica, ok? Então, para fazer isso, posso usar a função pipe e criar um gráfico circular. Então, eu quero criar um gráfico circular com base no salário. Então, o que vou fazer usar dados de pontos EMP, salada de dólares, todos esses elementos. Coloque a coluna de salário neste DataFrame. E isso criará um gráfico circular e rotulará o que eu darei, darei o rótulo como nome do funcionário. Portanto, dados de pontos EMP, dólar, nome sublinhado do E&P, nome do funcionário. Então, ele criará um gráfico circular como este, e esse será o salário do funcionário e os níveis que implicarão o nome. Então, deixe-me fazer isso e ver aqui que estamos obtendo um gráfico circular onde esses blocos representarão o tema salário e os níveis de implicações. Então, com esse gráfico circular, podemos ver isso claramente. Veja isso. Então D está secando o salário deste mês. Randolph estava recebendo esse salário obrigatório, certo? Taxa máxima de salários tão altos. E vemos aqui, salários tão altos no máximo 95.200. E meu cabelo está secando quanto menos salário, certo? Então, se virmos o salário, 7.800, tudo bem. Dessa forma, podemos obter um gráfico circular com base no salário, no nome do funcionário e nos rótulos. Ok, a próxima coisa é que eu quero traçar o gráfico, título e a paleta de cores do arco-íris, então eu quero torná-la mais colorida. Então, aqui o que vou fazer, vou usar a função pipe. Passe o salário e, em seguida, indique o nome. Então, esses são os dados, então esse é o rótulo e a média, média igual ao salário do funcionário. Este será o título deste gráfico. Ok? Portanto, esse será o título deste gráfico. E então o que eu vou usar, vou usar chamada igual à cor do arco-íris é chamada de arco-íris. E para isso, o que vou dar aos funcionários: tamanho dos dados de pontos, ok? Em seguida, toque nos dados do funcionário. Ok, então deixe-me fazer isso. Agora. Estamos obtendo um gráfico muito colorido ou um gráfico circular em que o título é o salário do funcionário e os nomes são os rótulos e o salário. Esses blocos estão representando o. Implica salário. Ok? Dessa forma, podemos criar um gráfico circular colorido, que parece muito melhor do que o anterior, para que você também possa usá-lo. A próxima coisa é que eu quero criar os rótulos. Então, o que vou fazer, veja, sim, estamos dando os níveis de empregá-los que já existem neste DataFrame, certo? Agora eu quero criar meus próprios níveis. Então, o que estou fazendo aqui, vou criar uma porcentagem do salário, outros rótulos, ok? Então, o que estou fazendo aqui criar um objeto de cinco por cento e estou usando a função redonda. E o que estou fazendo aqui, cem em salários de funcionários divididos por alguns desses salários de todos os funcionários. Ok. Então, basicamente, o que estou fazendo encontrar a porcentagem do salário de nascimentos e mortes de cada funcionário com base no salário total. O salário total somará todos os salários. E então vamos tentar descobrir o quanto Susanna está ganhando. Qual é o salário da Susanna em porcentagem? O salário total. Ok. Então, estamos obtendo esse valor percentual do tubo. E então o que eu vou fazer traçar o salário do dentista em um gráfico circular. Então, para isso, vou usar a função pipe. E aqui os dados serão o mesmo salário dos funcionários, esta coluna, coluna salarial. E então os rótulos serão a porcentagem do tubo. Então, o rótulo, em vez do nome, agora estou fornecendo cinco por cento, ok? Então, será 1%, 2% assim. Ok? E então o título principal, eu estou dando, analisando esse salário por chat, ok? E então a Collette, eu estou mantendo o mesmo esquema, arco-íris. E aqui estou fornecendo as lentes e os dados, os dados dos funcionários, o salário, o salário e fornecendo como um comprimento. Ok. Então, deixe-me, e outra coisa que estou dando, estou dando os ligantes, ligantes ou algo assim será impresso aqui para especificar o que isso significa, R, qual cor será OXO, o que implica. Então, ele será postado no canto superior direito. E aqui estou fornecendo dados de funcionários. Dollar, nome do funcionário significa o nome do funcionário. E então eu estou dando que o cex significa que será o valor do comprimento ou da largura dessa coisa. Uma vez que eu desenhe isso, você será entendido. Então deixe-me, você entenderá que um gráfico estelar está chegando C aqui. Ok? Então, deixe-me fazer isso também. E agora deixe-me ver. Sim, agora inventamos o nome. Estamos recebendo números percentuais como a soma dos salários totais de todos os funcionários. Essa pessoa, a verde que é tão profunda, que está recebendo 22,1% do salário total. E então corra nossos olhos para obter 19 pontas. Então, essa legião, isso é chamado de lesões. Essa, essa é a lealdade. E com base nos blocos de cor verde, esses são os pães pertencentes ao príon. Então, com esse gráfico, você pode entender que os salários de Priyanka renderam 0,6% do salário total, certo? Da mesma forma que isso pertence ao Michael, a célula de Michael é 25,6. E o salário mais baixo dessa pessoa que é riba que você está vendo é ter menos salário, 0,2 por cento. Dessa forma, podemos criar nossos próprios rótulos e colocar as lendas para cada nível. E isso é mais específico, como quanto 1% está recebendo em porcentagem, porcentagem de salário. A próxima coisa é que podemos desenhar o gráfico circular 3D. E para isso, precisamos baixar essa matriz de plotagem da biblioteca. Ok? Então, se não estivermos, se não estiver lá para o seu RStudio, você pode acessar o arquivo. Você pode acessar os pacotes e clicar nos pacotes de instalação. Aqui você pode fornecer seu nome, nome da biblioteca iniciada, que deseja baixar e clicar na instalação. Uma festa não está lá. Você pode clicar em Instalar e essa biblioteca será instalada em sua máquina, RStudio dentro do Data Studio, e você poderá usá-la. Então, precisamos dessa biblioteca, truques de trama para criar um gráfico circular 3D. E dentro dessa biblioteca temos a função Pie 3D. E com isso podemos passar os dados, ou seja, o salário do funcionário. As etiquetas fornecerão o nome do funcionário. E então explorado o ponto principal é o salário da placenta em 3D. Ok, deixe-me fazer isso para ver, e agora estamos obtendo um gráfico circular 3D. Aqui mesmo. Estamos recebendo um gráfico circular 3D como este é o resumo do Sudão. Isso certamente é o anticorpo de carne Michael atravessando C, muito menos salário por menos coisas ou uma massa como essa. Então, essa é a representação 3D dos salários dos funcionários. E, como podemos ver aqui, isso parecerá muito melhor do que o gráfico circular 2D. Dessa forma, podemos criar um gráfico circular e analisar os dados na arte. Ok? Portanto, você também pode tentar com seus próprios dados. Você tenta criar seus próprios vetores e depois tenta desenhar o gráfico circular. Você pode analisar os dados de um arquivo CSV, criar seu próprio arquivo CSV e fazer todas essas coisas. Então, eu quero que vocês criem seu próprio projeto assim, e esses gráficos e esses gráficos circulares na seção de projetos desta classe. E veremos que podemos fornecer nossos feedbacks e tudo mais. Então, será compartilhado entre nós, todos os estudantes e comigo também. Então, você tenta criar ou criar seus próprios dados dessa forma, e tentar visualizar seu banco de dados criando gráfico circular ou um gráfico circular 3D é como encontrar a média, encontrar o salário médio, todas essas coisas. Ok. Então, ingressei nos projetos de forma excelente. 25. Leitura de arquivo de Excel em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos como podemos ler um arquivo do Excel por meio da arte. É muito simples e precisamos instalar um pacote e depois carregar esse pacote. E então precisamos ler o arquivo do Excel por meio de um código simples de uma linha e, em seguida, podemos imprimir os dados. Então, vamos ver como podemos fazer isso. Então, o que eu fiz foi criar o mesmo detalhe empregado, arquivo Excel, os mesmos detalhes que mantive neste arquivo Excel que tínhamos em nosso arquivo CSV. Portanto, são os mesmos dados, mas eu criei um arquivo Excel por meio desse arquivo CSV. E o que eu fiz para isso, os aplicativos simplesmente abrem esse arquivo CSV. O que vou fazer é não ter o Microsoft Excel aqui. Então, o que vou fazer é ir até o arquivo CSV e aqui temos os detalhes dos funcionários, certo? Vou abrir isso aqui no Google Seat. E veremos que ele será criado em x. E se eu ver sim, agora temos a placa de identificação da coluna, ID do funcionário, nome do funcionário, salário, data de ingresso e departamento, e todos os detalhes no formato Excel. Agora, o que vou fazer é baixar esse arquivo no formato de ética do Excel. Então clique no formato do Microsoft Excel e faça o download. Então, agora ele foi baixado e eu o guardei. Eu mantive esse arquivo aqui em nosso diretório de trabalho. Então, a próxima coisa é que agora temos os detalhes desse funcionário, pontilhando o Excel como x, y, zero. Isso significa que o arquivo Microsoft Excel está aqui em nosso diretório de trabalho, ou seja, nosso 2020. Então, o que eu preciso fazer primeira coisa que precisamos fazer é instalar este pacote. E o nome do pacote é XLSX. Portanto, para instalar um pacote em R, podemos usar essa sintaxe install.packages e fornecer o nome do pacote que queremos instalar. Quando você executa esse comando, ele instalará o colchete de ética do Excel. Como alternativa, também podemos acessar esta guia do pacote aqui. E precisamos clicar no botão Instalar. E aqui precisamos fornecer X como X, ok? E você pode clicar aqui Instalar e ele será instalado. Portanto, podemos fazer de qualquer maneira, e os empacotadores XLSX serão instalados. Esse pacote é necessário porque precisamos ler esse arquivo do Excel por meio de nossa programação. E precisamos das bibliotecas que estão embutidas no pacote excel. Então, basta clicar em Executar e isso será feito. Ok. Então, o que eu vou fazer é simplesmente cancelá-lo porque eu já instalei este pacote. Basta clicar nele e ele será instalado, ok? E você pode ir aqui e fazer isso também. demorará quase um minuto Seu tempo demorará quase um minuto e este pacote será instalado. A próxima coisa é uma ópera de que precisamos mover essa coisa porque ela ainda não está em nosso arquivo de script. Depois de instalar a biblioteca ou o back-end, você precisa excluir essa linha. Ainda não vai para a luta de bebidas alcoólicas Other Script. Então, a próxima coisa é que queremos ler nossos arquivos de ética do Excel. E há uma função nessa biblioteca. Então, precisamos carregar a biblioteca, precisamos carregar o pacote, então usaremos a biblioteca e, em seguida manteremos o nome da biblioteca XLSX. E então o que eu preciso, eu preciso usar a função v dot XLSX. Isso significa que queremos ler um arquivo do Excel, um arquivo do Microsoft Excel. E aqui, primeiro argumento, precisamos dar dinheiro para dar o nome do arquivo. Então, na imagem final, os detalhes do funcionário, pontilham XLSX. Ok? E então precisamos dar o índice do assento, índice igual a um. Ok? E isso, o que quer que estejamos lendo aqui através deste Excel de ponto vermelho, estamos armazenando à vista ou objeto dentro de um objeto. Dados de sublinhamento de funcionários, dados de sublinhamento de E&P. Então, isso terá todos os dados que estamos lendo desse arquivo do Excel. E então nós simplesmente imprimiremos isso. Então, deixe-me executar este arquivo e ver se estamos obtendo o resultado aqui, ID do funcionário, nome do funcionário, salário, eles acabam ingressando em um departamento. Então, esse caminho é bem simples. Podemos ler o, podemos fazer com que os mais antigos acessem, podemos ler isso, certo? Então, muito simples. Carregue a biblioteca. Primeiro instale o pacote e, em seguida, carregue a biblioteca. Em seguida, temos que ler o arquivo do Excel simplesmente fornecendo o nome do arquivo do Excel. E temos que armazenar esses dados em um objeto em um objeto. E então simplesmente imprimimos esse objeto para ver o que esse objeto está armazenando. Basicamente, ele armazena todos os detalhes da planilha do Excel. Ok, espero que você saiba como podemos ler um arquivo do Excel. Assim, podemos ler um arquivo do Excel usando função read dot XLSX. E precisamos fornecer o nome do arquivo do Excel. E então simplesmente obteremos todos os dados dentro do arquivo do Excel. Portanto, o pacote é XLSX que precisamos instalar. E precisamos carregar a biblioteca XLSX antes de usarmos a função XLSX. Portanto, é assim que podemos ler um arquivo do Excel, o arquivo do Microsoft Excel, por meio de nossa programação. Você está dentro da próxima palestra. 26. Leitura de arquivo xml em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos como podemos ler um arquivo XML por meio de nossa programação. Então, escreveremos um código e através do qual leremos o arquivo XML. Então, primeiro, deixe-me dizer qual peça. Arquivo Xml. Portanto, um arquivo XML é um XML. Xml significa XML Extensible Markup Language e insere nós a chamamos de XML Extensive Markup Language. E é semelhante a reescrever HTML, linguagem de marcação de hipertexto, você sabe, para escrever páginas da web e tudo da mesma forma, XML Extensible Markup Language. É um arquivo de dados. E nesse arquivo, mantemos os dados como um banco de dados, como também armazenamos dados na planilha do Excel. Também armazenamos dados em um arquivo de texto e também no banco de dados. Da mesma forma, armazenamos dados em arquivos XML, ou seja, Extensible Markup Language. É formatado como um documento HTML, como em um documento HTML, usamos as marcações e tudo para armazenar o documento da mesma forma. Xml também, usamos a marcação para manter os dados dentro do arquivo. Mas aqui usamos tags personalizadas. Em HTML, tudo é predefinido. Mas em XML, podemos criar nossas próprias tags, como HTML. Temos que usar o antigo imposto de idioma predefinido que é específico para o HTML, mas em XML podemos escrever nosso próprio imposto, o que quisermos. Podemos criar uma tag para isso. E é por isso que você seleciona idioma personalizado baseado em tags ou uma extensão de arquivo naquele fim de semana. Vou arquivar uma linguagem de marcação que podemos usar aqui tags personalizadas para definir objetos e os dados dentro de cada objeto. Assim, podemos definir o objeto personalizado e colocar os dados de acordo com isso, quaisquer dados que quisermos portar para as tags, podemos fazer. Os arquivos Xml podem ser considerados como um banco de dados baseado em texto, como o MySQL. Usamos a juventude para manter os dados em formato de tabela e bruto e decidimos que tipo de coluna queremos inserir da mesma forma. É um banco de dados baseado em texto. Então, agora o que vou fazer é não criar um arquivo XML do zero. E eu quero usar os mesmos nossos detalhes, os mesmos detalhes que tínhamos em nosso arquivo CSV, detalhes do funcionário ponto CSV e, em seguida, limpamos o arquivo Excel com pontos de detalhes do funcionário. Então, eu quero ter o mesmo tipo de dados, os mesmos dados em XML ágil. Então, para isso, podemos criar manualmente um arquivo XML. Caso contrário, também podemos usar este site de ferramentas de conversão dot IO, onde podemos simplesmente navegar pelo arquivo Excel e convertê-lo em um arquivo XML. Então, deixe-me te mostrar. Então, quando você acessa este site, ferramentas de conversão dot edu slash convert slash Excel em XML. Então, nesta fase, quando você vem aqui e nós, quando você navega e simplesmente coloca o arquivo Excel de detalhes do seu funcionário aqui. Agora estou usando esse arquivo XLSX de detalhes do funcionário para criar um arquivo XML com base nos dados desse arquivo. Então, você só precisa selecionar o arquivo. E então temos que clicar no botão Executar convergência para este arquivo do Excel seja convertido em um arquivo XML. E isso levará alguns segundos e seu arquivo XML ficará pronto automaticamente. Então, o que eu fiz, eu já baixei esse arquivo XML aqui, arquivo xml pontos de detalhes do funcionário. E vamos tentar ler esse arquivo XML. É ter os mesmos detalhes dos funcionários, certo? Então, tudo bem, então o que eu fiz, eu o modifiquei e guardei apenas para registros aqui. E se você ver o arquivo que acabei de criar dentro de downloads e esse arquivo XML, você verá dados. Oito funcionários identificaram isso. Está tudo bem? Então, assim, podemos fazer isso. Então, deixe-me copiar e colar essas duas horas. Sim. Ok. Então, a Lake Rehab instalou o pacote XL XX para leitura do arquivo Excel. Da mesma forma para ler o arquivo XML, precisamos instalar o pacote XML. E para isso, precisamos usar install.packages e fornecer o nome do pacote XML. Como alternativa, podemos acessar o pacote de instalação e aqui podemos fornecer o nome do pacote XML. E precisamos clicar em Instalar e ele será instalado. Portanto, não vou reinstalá-lo porque já o instalei. E se você ainda não o instalou, basta executar esta linha ou você pode vir aqui e fornecer o XML aqui, e você pode clicar em Instalar, e levará alguns segundos para instalar o pacote, ou quase um minuto para instalar o pacote. Depois que o pacote estiver instalado, precisamos remover essa linha porque o pacote já está instalado. A próxima coisa é que precisamos carregar o pacote ou biblioteca XML. Então, precisamos usar o comando ou precisamos usar a biblioteca de scripts. E precisamos fornecer o nome do pacote. Então, precisamos carregar o pacote, ok, então biblioteca. E precisamos fornecer o nome do pacote XML. Portanto, todas as funções necessárias para ler o arquivo XML serão gravadas dentro dessa biblioteca XML. E que todas as funções embutidas serão nosso nível para nós. A próxima coisa é que precisamos e também os métodos da biblioteca. Isso é necessário para esse pacote XML. Ok, e a próxima coisa que precisamos fazer, precisamos usar a função XML parse. Arquivos XML são uma função necessária para ler ler um arquivo XML. Então, usaremos o XML parse e precisamos fornecer o nome do arquivo XML. Portanto, arquivo igual ao nome do arquivo. Então, nossa imagem final, detalhes do funcionário dot xml. E precisamos, o que quer que ele obtenha desse arquivo XML, precisamos armazená-lo dentro desse objeto de detalhes do funcionário. Porque em R precisamos armazenar tudo dentro de um objeto, como variáveis, você pode dizer. Então, simplesmente detalhes, variáveis ou objetos manterão o que somos. Obtemos desse arquivo, arquivo XML por meio dessa função de análise XML. Portanto, agora todos os detalhes desse arquivo xml de pontos de detalhes implícitos serão armazenados nesse objeto. Agora precisamos imprimir esse objeto. Então, deixe-me correr até aqui. Ok, deixe-me ver aqui. Ele está imprimindo o arquivo XML como um acordeão. Bly implica ID1 e Glassdoor data salarial de ingresso no departamento. Ok, então veja aqui essas são as tags definidas pelo usuário que criamos para nosso arquivo XML. Ok, vejo todos os detalhes que estamos obtendo para que possamos ler o arquivo XML desta forma. Xml analisa a função para ler o arquivo XML em C. Ou podemos usar a função XML food node, o nó raiz do arquivo XML. Portanto, estamos solicitando o nó raiz e passando os detalhes do funcionário, o objeto de detalhes de sublinhado do E&P para o nó raiz e, em seguida, imprimiremos esse nó raiz. Então, deixe-me executar essas duas linhas. Se eu colocar o nó raiz um, ele me dará a rede de detalhes do primeiro nó implícita em ID1. Se eu colocar um dos dois, ele me dará o nome. A primeira fila para ver você empregar o nome Priyanka Rostow do primeiro nó. Se eu adicionar dois ao que vou receber, obterei o nome do segundo que implica que é a identificação do funcionário. O nome do funcionário é. Assim, podemos acessar cada nó. Eu posso colocar três de um. Suponha que três em cada três recebam o salário do jogo com alcatrão, certo. E da mesma forma que podemos descobrir quantos nós existem, quantos Norths existem em nosso arquivo XML para isso, podemos usar o tamanho do XML e fornecer o objeto do nó raiz que obtivemos da raiz do XML. Então, quando executarmos isso, concluiremos o número do norte. Então, deixe-me imprimir isso. Número quatro porque esse arquivo do Excel que eu guardei apenas para o empregador é. Então, está nos mostrando que existem quatro Nortes. Temos quatro nós quando implícitos, um em brilhante para empregar D3 e ID de funcionário. Então, ele está nos dando o que está ao norte no arquivo XML. Agora, o principal é que, quando obtemos esses dados, podemos ler dados XML através R. Precisamos convertê-los para o DataFrame porque é muito fácil ler ou manipular dados quando estão no formato DataFrame, certo? Então, em Are, há uma função chamada XML to DataFrame. Isso significa que tudo o que temos neste arquivo xml de pontos de detalhes do funcionário, podemos convertê-lo diretamente em DataFrame de trabalho usando a função XML para DataFrame e todos os detalhes. Nós o armazenaremos no DataFrame de sublinhado do funcionário e, em seguida, poderemos imprimi-lo e veremos que ele virá como o DataFrame. Então, deixe-me fazer isso e ver agora todos os detalhes estão em tabular ou em formato DataFrame em nosso departamento e planejamento de dados salariais de funcionários seniores, nome do funcionário e dados salariais. Então, com isso, com essa única linha de código, podemos converter um arquivo XML em DataFrame na programação R. E isso é muito útil quando fazemos nossa análise exploratória de dados aprendizado de máquina e ciência de dados. Assim, podemos converter facilmente arquivo XML em um DataFrame e, em seguida, podemos prosseguir com a análise dos dados ou a maneira como queremos criar gráficos , toda a plotagem e tudo mais. Então, todos esses tipos de análise que podemos fazer neste DataFrame. Portanto, é muito fácil fazer todas essas coisas em nossa programação. Espero que você tenha entendido como podemos ler um arquivo XML. Como descobrimos que, como, quantos nós existem com esse tamanho de XML? E então, como podemos converter um arquivo XML nosso DataFrame em R usando XML para DataFrame, certo? Então é isso para esta palestra. Nos vemos na próxima. 27. Leitura de arquivo JSON em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos como ler arquivos JSON em nossa programação. Então, o que faremos, aprenderemos o que é arquivo JSON e criaremos um arquivo JSON. E, finalmente, tentaremos ler esse arquivo JSON por meio de nossa programação. Então, vamos começar. Então, primeiro devemos saber o que é um sulfito. Portanto, Jason significa JavaScript Object Notation e é um formato de arquivo padrão de código aberto. Portanto, é um formato de arquivo padrão aberto e um formato de intercâmbio de dados. Então, basicamente, o formato de arquivo de Páscoa também e o formato de intercâmbio de dados também. Isso significa que podemos armazenar os dados e usá-los para a troca de dados. Além disso, você é apenas um texto legível por humanos. Nesse caso, escrevemos texto legível por humanos para armazenar e transmitir objetos de dados que consistem em pares de valores de atributos. Isso significa que será como se fôssemos primeiros pares de valores-chave, todas essas coisas do site. Se você conhece o MongoDB ou qualquer banco de dados sem sequências, deve saber que há um banco de dados de documentos onde mantemos armazenamos dados na forma de pares de valores-chave. Portanto, haverá uma chave e, para essa chave, haverá um valor correspondente da mesma forma, apenas nos pares de valores do atributo. Isso significa que haverá um atributo e esse atributo, haverá um atributo, pares de valores e tipos de dados adicionados. Basicamente, também quaisquer outros valores, e basicamente editei esse tipo. Então, espero que você saiba o que é Jason em teoria, me diga como podemos criar um arquivo JSON. Então, até breve. O arquivo é muito simples. Precisamos colocar dados dentro desses colchetes. E dentro dos colchetes, o que faremos é usar esse par de valores-chave para armazenar dados. Então, suponha que o que eu faça é armazenar os mesmos dados desses funcionários apenas. Vimos como armazenamos isso em um arquivo CSV como aqui. E então vimos como podemos armazená-lo em um arquivo do Excel. E então vimos como podemos armazenar isso em um arquivo XML. E agora veremos como podemos armazenar os mesmos detalhes do funcionário em um arquivo JSON. Então, como eu disse, você viu o melhor truque de formato de arquivo. Aqui, ID de funcionário. Todos os IDs de funcionários, vou armazenar em uma matriz de um a oito. Então, todas as identificações de funcionários de uma a outra, como se tivéssemos oito carteiras de funcionário. Então nós temos, nós restauramos todos aqueles que estavam lá dentro. E atribuímos que o nome do atributo é ID do funcionário, e os valores são de um a oito, certo? E esse cólon é o lado esquerdo do cólon. Esses colonos que separam a chave e o valor são atributo e valor. Portanto, o lado esquerdo das colônias, ID do funcionário e o lado direito são o valor correspondente. Da mesma forma que temos o nome sublinhado do funcionário, que é um atributo e todos os nomes dos funcionários, essa Priyanka corresponderá a isso, implicando qualquer um ou, para os dois últimos, se eu gosto do React ainda existem as partes um a quatro, para minha pressa, para o que você está vendo assim. Ok, então estamos armazenando a matriz salarial, depois armazenando o treinamento de dados nela e depois o departamento nela. Dessa forma, no departamento, podemos colocar dados no arquivo JSON e eu salvei esse ponto JSON de detalhes de funcionários do Azure. Agora sabemos como armazenamos dados no arquivo JSON. Então, a próxima coisa é que vamos tentar ler isso, obter dados de arquivos por meio de nossa programação. Então, vamos fazer isso. Então vou abrir, já escrevi o código. Então, vou abrir o arquivo JSON de leitura que escrevi. E para isso, precisamos instalar o pacote. Nossos convidados sobre isso, sobre esse back-end que o Ministro instalou. Ou você pode instalá-lo executando essa linha de código. E você pode acessar o pacote de instalação. E você pode colocar aqui ou este. E você pode clicar em Instalar e ele será instalado. Portanto, você também pode usar esse script de comando. Então precisamos usar a biblioteca ou o axônio. E então precisamos fornecer o nome do arquivo JSON. E o nome do arquivo JSON são os detalhes do funcionário em relação à Sun. E aqui vamos usar uma função desta biblioteca que é Jason, que é de Jason. Isso significa que vamos ler os objetos a partir de nossos detalhes, dos detalhes do funcionário, ponto js neste arquivo JSON, arquivo igual ao nome final que você precisa fornecer. E isso da função JSON lerá os dados desse arquivo JSON e tudo o que ele lê realmente armazenado neste objeto, os detalhes do sublinhado E&P. Então, vamos simplesmente imprimi-lo. Então, deixe-me te mostrar aqui. Deixe-me fazer isso e ver aqui está lendo os dados, como ID do funcionário, nomes de um a oito funcionários. Esses são os funcionários com o nome do salário e, em seguida, vem a data de ingresso e depois os departamentos. Então veja aqui como vivemos com uma linha de código de apenas uma função simples. E estamos apenas fornecendo o nome do arquivo e ele está lendo todos os dados do arquivo JSON. A próxima coisa é agora com este fim de semana. Imprima os dados. Então, podemos ver aqui que ele está imprimindo os dados do arquivo JSON. Agora, como sabemos em nosso, é muito fácil e é muito recomendável obter os dados no formato DataFrame. Portanto, podemos simplesmente agora os dados do arquivo JSON estão neste objeto nos detalhes de sublinhado do E&P Podemos convertê-los no DataFrame usando um quadro de pontos de dados escuro ágil. Então, quando usamos essa função as.data.frame e passamos esse objeto apenas obtendo documentos de arquivo mais antigos ou os dados. Esse objeto está obtendo todos os detalhes desse arquivo JSON. E quando passarmos esse objeto de varejo do funcionário para o as.data.frame, ele converterá esses dados. Agora, o formato é assim. Ele pegará esses dados e os converterá em um DataFrame em R. E estamos restaurando esses detalhes de nosso DataFrame no quadro de sublinhado de dados de sublinhado do E&P. E quando imprimirmos isso obterá os dados em formato DataFrame. Então, deixe-me fazer isso. Veja aqui que agora estamos obtendo dados em nosso formato DataFrame em R. Portanto, é muito simples que possamos ler esse arquivo JSON com a função from JSON. E então simplesmente passamos esse objeto, que está obtendo todos os detalhes dos detalhes do funcionário ou do sol, e o convertemos no DataFrame usando essa função simples as.data.frame e passando esse objeto. O que esse objeto JSON, ou um objeto Python que carrega os dados do arquivo JSON, é carrega os dados do arquivo JSON, um DataFrame em R. E simplesmente podemos imprimir essa mão CEO, como é lindo se transformar em um DataFrame. Dessa forma, podemos ler nosso arquivo JSON e converter os dados desse arquivo JSON em um DataFrame na programação R. E para isso, podemos usar esse DataFrame para analisar os dados e fazer processamento adicional, criar gráficos e tudo o que você quiser fazer , você pode fazer com esse DataFrame. Então é assim que podemos ler o arquivo JSON usando nossa programação. Nos vemos na próxima palestra. 28. Criando gráfico de barras: Olá e bem vindo de volta. Então, nesta aula, aprenderemos sobre outro gráfico ou gráfico de visualização que podemos criar usando R. E isso é gráfico de barras ou gráfico de barras, como você pode ver, gráfico de barras. gráfico de barras, um gráfico de barras ou um gráfico de barras é um dos tipos mais comuns de visualização gráfica que você deve ter visto em seu escritório ou em seus projetos e tudo mais. Sempre que tentamos visualizar uma previsão de algo, usamos o gráfico de barras. E quando você vê esse gráfico, ele é um gráfico de barras. E você perceberá que deve tê-lo usado muitas e muitas vezes, certo? Também poderíamos obter o mesmo tipo de gráfico de barras em nosso Microsoft Excel. E quando tentamos visualizar algo, mesmo quando desenhamos algo em papel e caneta. Para visualizar algo, provavelmente desenhamos um gráfico de barras. Portanto, o barplot é um dos tipos mais comuns de visualização gráfica. E é em relação à relação entre uma variável numérica e categórica. Então, o que isso significa? Isso significa que o CEO, o a, B, C, D, esse eixo x será como algo muito categórico. Agora, o que são semanas ou dias em uma semana? Como domingo, segunda, terça, nosso mês de janeiro, fevereiro, março, abril, maio, junho, assim. E esse eixo y será a representação numérica desses meses, como a receita de uma organização ou o salário dos funcionários. Então, nesse eixo x, ABC, serão os funcionários, e esse será seu respectivo salário. Então esse excesso lerá a parte numérica e essa será a parte categórica, certo? Portanto, cada entidade da variável de categoria é representada como uma barra. Então esse é o bar. E é por isso que é chamado de gráfico de barras, porque o valor numérico está sendo mostrado como uma barra. Então isso é ótimo, é conhecido como gráfico de barras e o tamanho da bateria apresenta o valor numérico. Portanto, esse tamanho é representado como se estivesse em algum lugar ao virar. Isso é algo em torno de 13, isso é algo em torno de sete, e isso é algo sozinho, nove, e isso é uma decisão. Portanto, o valor E é 15, o valor b é sete, valor c é nove, o valor é oito. E esse valor e é 13. Então, assim. Esse tamanho do corpo representará esse valor numérico. Se ABC ou funcionário, esses são seus respectivos salários, certo? Dessa forma, podemos usar o gráfico de barras e em R podemos desenhar o gráfico de barras simplesmente usando a função de gráfico de barras. Então, função de gráfico de barras. E dentro da função, forneceremos apenas alguns, mas amadores e nossos dados. E ele criará o gráfico de barras, esse gráfico de barras de função para criar gráficos de barras. Podem ser barras verticais e horizontais. E a sintaxe é barplot e usará o argumento th. Essas bordas serão o vetor, o vetor de dados. O vetor que conterá todos os dados. E esse xlab é o eixo X, Y é o eixo y, assim, , B, B, C, D será o eixo x, xlab e y serão o eixo y, esse principal. E então o nome boi será o, vai ver o que é isso? Ou seja, esse será o mesmo nome desse tipo. 123, tipo, deixe-me dizer isso. Esses zero a 14, como o salário do funcionário, serão os dados. E esses nomes que são serão o nome dos implícitos. Ok? Então, essa borda e esse nome ambos os vetores tenham fazem com que ambos os vetores tenham o mesmo número de dados, certo? O mesmo número de operadores de número de dados seria o mesmo na borda chamada start. Ok, OK. Veremos esse HE, o vetor ou matriz que contém o valor numérico do gráfico de barras. Como eu disse, xlab é o nível do eixo x. Por que o amor está no nível do eixo y? E principalmente o título do ônibus. Então, aqui com isso, daremos o título do gráfico de barras, como o salário do funcionário. E então chamado start argumenta um vetor de nomes que aparecem em cada parte, como eu disse, para essa barra, essa barra b como aquela. Ok? E a chamada é usada para manter as cores nas barras como aqui recebemos cores diferentes. Então, se você quiser criar um gráfico colorido, usamos a chamada. Argumento, Ok, Henry, passe isso. Ok. Então, aqui está um exemplo simples. O que estou fazendo aqui. Estou criando um novo vetor e ele conterá isso, esses muitos números. Ok? Então esse vetor conterá esses muitos números, ok? E eu quero criar um gráfico para isso. Então, o que vou fazer simplesmente criar esse vetor Q e passar essa função de plotagem de duas barras do vetor Q. E isso criará o gráfico de barras para nós. E este, arquivo PNG igual a b, não um PNG igual ao nome do arquivo. Você pode criar um arquivo de imagem no gráfico ou no gráfico de barras e salvá-lo em seu sistema. E para isso, usamos a função PNG. E dentro disso, usaremos o arquivo Col2 e qualquer nome do arquivo você queira dar e que você possa dar aqui. Portanto, com base nesses dados, ou carta será criada e os dados do gráfico serão salvos neste arquivo de imagem. E então usaremos a função de gráfico de barras para desenhar o gráfico por barras para nós. E então dev.off significa que salvaremos o arquivo e ele será gravado em nossa máquina local. Então, vamos ao RStudio e executar esse código. Então, aqui estou criando um vetor para entrada de dados. Portanto, com base nesses dados, o gráfico de barras será criado. Agora estou criando um arquivo para escrever o gráfico de barras nele. Estou dando um arquivo PNG igual a e aqui você pode dar qualquer nome. Você pode dar abc, abcd, não PNG, qualquer nome que você quiser, você pode, ok? Então eu vou dar um gráfico de barras a, b, c , d, ok? E então vamos usar o gráfico de barras para criar um gráfico de barras, e então vamos salvá-lo, certo, dev.off, salve o arquivo. Agora vou analisar tudo e ver se, por algum motivo estranho, o terreno não está sendo vendido aqui. Mas, como você vê aqui, agora, nosso gráfico de barras foi criado. O arquivo foi criado aqui. vejo. Então, tudo bem, 12345678 entradas, certo? E aqui temos 12345678. O mais longo é 9.001,99 mil. Dessa forma, podemos fornecer um gráfico de barras duplas. Então, esse é um gráfico de barras simples que criamos com base nesses dados, certo? A próxima coisa que podemos fazer ir um pouco mais longe e tentar criar algo mais interessante. Eu vou ter, então o que fiz aqui foi criar dados como B, um vetor ou um dado que contém os bebês nascidos em cada mês, como B conterá o vetor V conterá os bebês nascidos em meses como janeiro de 5.600, fevereiro a março, 7.800 bebês nascidos assim até o verão. Ok. Portanto, esses são os dados de 12 meses para os bebês nascidos em um determinado mês. E então, esse é o valor numérico. E, e o que estou fazendo, estou criando outro vetor M, que conterá o nome do mês, certo, para cada valor, o vetor correspondente do nome do mês estou criando, que é janeiro, fevereiro, dezembro, ele conterá, ok, então isso está claro. Estou criando o valor numérico aqui e o nome cada barra que estou criando aqui para janeiro, fatorial 600 desse tipo. Ok? Então eu estou criando um arquivo, baby born dot PNG. E estou passando esse objetivo final para a função PNG de pontos. Ok, coletando o gráfico do duto, o nome do arquivo de imagem. E então, o que estou fazendo simplesmente traçar o gráfico de barras com base nesses dados. Ok? Então, o que eu estou fazendo é forçar a usar o valor V. Então, estou inserindo os dados como, com base nesses dados, quero criar um gráfico de barras, ok? E então names.org significa que, para nomear cada barra, estou passando esse vetor m. O vetor M está se espalhando em janeiro e fevereiro. Portanto, o eixo x será janeiro, fevereiro e o eixo y será o número de bebês nascidos em um determinado mês. Então xlab, vou lhes dar um mês. E no meu laboratório, vou dar fiança a bebês nesse mês. Então, a cor que estou dando é verde. E principal significa atingir o gráfico. Estou dando um gráfico de títulos para bebês. E depois para cada barra. Estou dando um mínimo, ok, e depois estou salvando o arquivo. Então, deixe-me fazer isso. Ok, então eu fiz isso corretamente. Vamos ver isso, o sênior, agora temos outro arquivo. O bebê nasce ponto PNG. Agora. Temos isso em janeiro, fevereiro, março, abril, maio, junho e julho. Foi assim. E aqui temos os dados de talvez títulos do lago de janeiro, algo em torno de 5.000 bebês nascidos em fevereiro em algum lugar para diluir, algo assim. Ok. Portanto, a maioria dos bebês nascem em novembro e depois em julho. Ou seja, ao ver esse gráfico de barras, podemos conhecer essa norma. Qual é o mês em que nasce o maior número de bebês e depois disso? julho. Então julho e número, primeiro número e depois segundo é julho. Veja aqui o dia 7 de julho de 304. Agora, amigo 9.800. Comecei em 9 de julho e chego a 9.800. Então, dessa forma, podemos me dar o apoio. Eu quero mudar essa cor para vermelho. E se eu executar isso, veja como nosso gráfico é convertido para leitura, certo? Você pode ver que há uma pequena borda com cor amarela. Deixe-me mudá-lo para verde para que possamos ver se pode ser cedo ou limpá-lo e executá-lo novamente. Esse arquivo, veja, agora está ficando limpo. O Barnard é verde. Dessa forma, podemos criar um gráfico de barras ou um gráfico de barras usando ímpar. Então, espero que esteja claro para o número e para o nome, name.org. Estou passando esse vetor m, esse vetor m e B e destacando outro vetor de entrada principal. E então xlab, mês. E por que bebês de laboratório nascidos e coloridos de vermelho podem ficar sem carga. Batendo no mapa do bebê e a mamadeira é verde. Em seguida, dev.off salvará o arquivo em nossa máquina local. Então, espero que esteja claro como podemos criar um gráfico de barras simples e como podemos criar esse tipo de gráfico de barras. Então, vimos como se tivéssemos criado isso. E então temos o de James para ler, escrever, e também criamos esse gráfico de barras simples. Dessa forma, podemos criar um gráfico de barras, certo? Nos vemos na próxima palestra. 29. Gráfico de barras empilhado em R: Olá e bem vindo de volta. Então, nesta palestra que vamos desenhar, vamos visualizar um gráfico de barras muito interessante que nos dará uma riqueza real muito boa. O que está acontecendo em uma organização como a trimestral, que eles cobram por região? Como podemos traçar usando o gráfico de barras. Isso é o que vamos ver. Então, para fazer isso, o que eu fiz, trimestralmente, a criança, o que cada mês na verdade, o que eu fiz, eu criei uma matriz, ok? Então, eu tenho toda essa receita que não mantive dentro da matriz. Então, criei uma matriz com a receita por quatro meses. um, trimestre, dois, trimestre três trimestre quarto, trimestre, um trimestre, dois, trimestre, três, quarto quarto. Então, esses nichos são o que cada trimestre e quatro trimestres existem, certo? Então, para cada trimestre, essas são as receitas. Ok? Então eu criei uma matriz, e o que vou fazer passar essa matriz como um dado de entrada para o nosso gráfico de barras. Então, estou passando o M aqui e depois a receita total principal. E então chamado de início a trimestre, estou passando de trimestre. Trimestre. Trimestre é um vetor que contém o valor Q1, Q2, Q3, Q4. Ok? Então, essas barras L também, names.org, e então xlab será quarter, o nome e as pernas brancas. A vida selvagem será a receita. E depois colorido. Vou passar. Outro vetor. Cores para as quais eu quero desenhar. A parte inferior ficará colorida. Depois de desenhado, vou explicar quatro cores. Eu criei um vetor e ele é de valor contínuo, azul, rosa, amarelo e verde. E depois o trimestre. E então, o que eu fiz, eu criei as regiões, regiões como leste, oeste, sul, norte. Ok? Então eu também tenho tudo bem, e a matriz, que tipo criou quatro linhas e quatro colunas. E estou fazendo um arranjo desenvolvido por rock e descobrindo o que estou fazendo pela legião. Estou adicionando a legenda também no canto superior esquerdo. E o que eu sou muito tolerante, estou dando à região deles são cores preenchidas. região vê esta região ao sul, leste, oeste, sul, norte. Ok. E estou sentindo com as cores, cada cor também. Sim. Ok. Então, deixe-me fazer isso primeiro. Então veja aqui, essa é a matriz e veja qual é a receita trimestral. Então, esse tipo de gráfico de barras ou gráfico que estamos recebendo aqui para o primeiro trimestre. Este é o trimestre TO, este é o resultado ou driver novo quadrado três isso e quarto quatro, essa coisa aqui, esse azul, rosa, amarelo e verde para essas cores, eu criei um teorema da lenda e dizendo que azul é para a região sul, amarelado para cada região. E verde é para a região oeste e não para a região rosa. E o sul é azul, esse amarelo é assim? Ok, então, vendo este gráfico ou o gráfico de barras, podemos encontrar facilmente os resultados trimestrais digitais para cada região. Sul. Essa é a receita do primeiro trimestre da mesma forma para o Norte, essa é a receita para o leste. Essa é a receita do segundo trimestre, trimestre, três, trimestre, quatro, assim. Portanto, é muito fácil encontrar e visualizar coisas usando o gráfico de barras, certo? E como nós, primeiro, criamos nosso vetor de cores, depois um quarto vetor, e depois vetores de região e depois reagentes que usei na legenda. E as métricas foram atualizadas quatro por quatro. Ok. E aqui estou criando um arquivo PNG de pontos de receita trimestral. E aqui estou passando o trimestre, este trimestre como um nome e depois Novo, e estou preenchendo as cores ignorando o vetor de cores. Dessa forma, podemos obtê-lo Placa quais camadas e usando nosso gráfico de barras. Ok? Assim, você também pode brincar com seus dados e tentar criar um gráfico de barras bonito, bonito e colorido. Stevens citou a próxima palestra. 30. Boxplot em R: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre o enredo de caixas. O gráfico de caixa é um método para representar graficamente grupos de dados numéricos por meio de seus blocos silenciosos. Eu vou te dizer quais são esses quartis? Então, é basicamente um filho gráfico de dados numéricos. Agrupe dados numéricos como fazemos em um gráfico de barras e tudo da mesma forma. O Boxplot também está lá. Mas nisso, representamos um grupo de dados em uma caixa. Então, será tropical, mas será uma caixa enquanto você gosta do gráfico de barras. Temos barras de dados e agrupamos uma versão beta. Aqui. Teremos o laboratório, a caixa dos dados do Grubhub e os boxplots medem o quão bem distribuídos nos dados, no conjunto de dados. Então, será como um grande quatro. O problema é como os dados serão distribuídos nesse conjunto de dados, certo? Então, veremos quando desenharmos o boxplot. Deixa eu te dizer mais uma coisa. Os boxplots medem o quão bem distribuídos os dados no conjunto de dividem os dados em três quartis. Então, quais são esses quartis? Como você pode ver nesta foto, existem três quartis. Um é quartil um e quartil dois, e esse é quartil três. E essa é a faixa interquartil. Este gráfico representa os quartis mínimo, máximo, primeiro quartil e terceiro quartis. Então essa parte C, essa é a caixa de dados do SAP, ok? E esses ventos são discrepantes neste ponto, e esse ponto é que eles são de classe, esse é o mínimo discrepante. E isso é o máximo de brilho, certo? E entre essa caixa e a linha azul, aqui está a mediana. Essa é a mediana de todo o conjunto de dados. Portanto, esse é o valor mediano e mediano de todo o conjunto de dados. E esses são o valor mínimo e o valor máximo da classe antiga . E essa linha azul é a mediana. E esse é o máximo de dados que está próximo da mediana. Então, esses são outros dados úteis, na verdade. Então isso é mínimo, isso é máximo. E esse é o intervalo de ano para ano, esses dados interquartis, e este é conhecido como Q1. Quartil Q1, primeiro quartil, e isso é conhecido como terceiro quartil. O primeiro quartil, o terceiro quartil e o primeiro quartil, eu beneficiário, percentil e terceiro quartil, ou 75º quartil. E em R, usamos a função boxplot para desenhar ou desenhar nosso gráfico de caixa. E, dessa forma, forneça aumentos semelhantes, como dados X, não com nomes e Maine. Então eu vou te dizer o que são essas coisas? Então X é um vetor ou fórmula. Então, aqui x é um vetor de fórmulas. Então, veremos que basicamente mantemos Bu, coisas para liberar que são fórmulas relacionais na qual o gráfico da caixa será desenhado. E então os dados, obviamente os dados a partir dos quais vamos desenhar essa relação, edX, escrevem a fórmula x. Então, essa é a fórmula ou relação na qual vamos desenhar os dados e desenhar o gráfico. E esses são os dados, dados reais dos quais obteremos essa fórmula ou um vetor. E o entalhe é um valor lógico. Definido como verdadeiro para desenhar, nada verá o que não é daqui a pouco. Primeiro, deixe-me dizer o significado disso. Aprimoramentos. O que é. Os valores lógicos definem S2 para desenhar a largura da caixa proporcional ao tamanho da amostra. Então, água com, se for configurada através dessa caixa, o tamanho será proporcional a todo o conjunto de dados, tamanho de todo o conjunto de dados, ok? Portanto, se não for verdade, não será proporcional a todo o conjunto de dados. Ok? O próximo é o nome. Os nomes são o grupo de etiquetas que serão impressas sob cada boxplot. Então, este é um boxplot. E para isso, se você quiser dar algum nome, você pode dar isso por meio do argumento dos nomes. E Maine obviamente é o nome do Graph. Ok, então o título do gráfico que podemos dar com a média. Agora vem o que não é. Os entalhes nas laterais do gráfico de caixas podem ser interpretados como uma empresa e depois um intervalo em torno do valor médio. E a altura da mediana idiota dos nazistas mais ou -1,7 em IQR dividida pela raiz quadrada de n, onde IQR é a faixa interquartil. Vimos o que é intervalo interquartil. Portanto, esse é o intervalo interquartil entre o 25º e o 75º percentil. Essa é a faixa interquartil. Então, basicamente, esse é o valor n, ok? Onde IQR é a faixa interquartil definida pelo 25º e 75º percentil. E Yan é o número dos pontos de dados no conjunto de dados. número total de pontos de dados no conjunto de dados é N. E você pode ver aqui este é o gráfico da caixa e esta é a saída máxima e discrepante. Esse é o valor mínimo, e esse é o valor médio, certo? E esse é o 25º percentil ou Q1, e esse é o 75º percentil, que é Q3. E esse valor, essa coisa, o nono e o não, isso é conhecido como “ não”. Esse valor daqui para cá é conhecido como entalhe. Notch é o intervalo de confiança de 795 da mediana. Ok? Então, da mediana, essa é a mediana e isso, e esse valor será conhecido como entalhe. Ok? Então, quando você coloca não igual a verdadeiro, você pode ver essa curva nessa coisa. Se você colocar um entalhe diferente de dois, verá uma linha reta aqui. Isso não, não estará lá. Ok? Então, dessa forma, ver aqui neste entalhe é falso. Então você verá como esse boxplot, e se você colocar “não igual a verdadeiro”, você obterá esse entalhe. Bem, isso significa que a maioria dos dados aqui estará, estará próxima da mediana e será um intervalo muito confiante dos dados, como o valor mediano é esse e esse mais e menos deles médio, como aqui. Os pontos de dados concentrados estarão próximos da mediana e representarão esses dados verdadeiros, certo? Então, agora temos a compreensão básica do que é boxplot, o que é um título silencioso, o que é outliers? E qual é o quartil mínimo e o que são quartis máximos? O que é intervalo interquartil? E o que é Q1? 25º percentil, e Q3 é o 75º quartil, ok? E esse é o valor médio. Então, veremos na próxima palestra como podemos desenhar um boxplot com base nos dados que temos em nossa Estelle Blake. Vamos usar mt cars, Vamos usar mt cars, que é um conjunto de dados real que está disponível dentro da embalagem do carro ou o ADA dentro da placa de arte para se reinicializar. E usaremos esse conjunto de dados de carros vazio para desenhar o gráfico da caixa com base no MPT e no número de cilindros. Então, nos vemos na próxima palestra. 31. Boxlot usando conjunto de dados de mtcars: Olá e bem vindo de volta. Nesta palestra, vamos desenhar um gráfico de caixas, ok? E vamos usar conjunto de dados de carros vazio que já está disponível em nossa distribuição. Portanto, sabemos que precisamos baixar esse conjunto de dados. Ele já está embutido em nosso ambiente ou em nossa distribuição. Então, podemos usar isso diretamente e tentar apresentar os dados dos carros vazios em um boxplot. Ok, então vamos ver como podemos fazer isso. Então, primeiro, deixe-me mostrar o que há naquela caixa. O que é isso nos carros vazios. Então, primeiro, deixe-me pagar para acessar o. No entanto, criarei uma entrada de dados e carros vazios que já uma entrada de dados e carros vazios que já estão disponíveis no interior. Estranho e um malvado. E o que eu vou fazer tentar executar isso e ver o que está lá. Deixe-me imprimi-lo. Aqui. O carro vazio, nosso conjunto de dados e doenças, como um laptop, proteções que Martha exporta o traço 1017 ordenado para Dr. Riley e a equipe de pesquisa de desktop devem cidades e todos esses cartões, detalhes estão lá, como milhas por galão. O que é a mielina? Cada carro, milhas por galão. E então o número de cilindros, os motores do motor terão o número de cilindros, como se tivesse 2468, número de cilindros no motor. E depois deslocamento, HP. Qual é o ponto de acesso e o peso de arrasto dos carros? Todos esses parâmetros são fornecidos aqui nesses dados que são carros vazios. Então, o que vou usar, não vou usar o conjunto de dados inteiro. Vou usar C, D e E. Eu recebo uma milhas Lee por galão e número de cilindros. Ok. Então, para isso, o que eu vou fazer. Ok, então vamos usar esses 2 mi por galão n de cilindro. Ok? E o que eu vou fazer imprimir e depois vou imprimir uma cabeça enorme. E então eu passo essas entradas de dados para que possamos ver o que vem. Deixe-me percorrer essas duas linhas e ver. Agora estamos colocando os carros e sua quilometragem, milhas por galão e número de cilindros nisso. Eles estão na cadeia. Então, esses dois detalhes que estou obtendo com isso, ok, agora vou usar essa entrada de dados, que transportará as milhas por galão e cilindro numérico. E vou tentar desenhar nosso gráfico de caixas. Ok, então a primeira coisa que vou fazer criar um arquivo PNG para armazenar o gráfico em um arquivo e fazer com que um arquivo enorme igual a Allen desse algum nome, como carros vazios, box plot dot PNG. Ok. Então, vou dar o nome do arquivo como caixa de carros vazia plot dot PNG. E agora o que vou fazer, vou tentar desenhar o boxplot e fazer dieta e perder o boxplot. E aqui o que vou fazer, darei duas milhas MPG por galão com o número de cilindros. Ok. Então, eu vou desenhar, vou criar um gráfico de caixa entre esses mpg e o número de cilindros. Ok? E então o que eu vou dar, vou dar dados de acordo com essa entrada de dados, nossos carros vazios. Então, vou manter os dados iguais aos carros vazios. Certo? Então. O que precisamos para manter o Next, precisamos obter o xlab. O que isso será feito? O que queremos escrever? Escreverá o número de cilindros do X Lab. E por que o laboratório será branco? O laboratório será de mpg milhas por galão. Ok. Então, a próxima coisa, o que manteremos, manteremos o principal igual aos meus pequenos dados. Dados. Mais difícil dará cartas mielinizadas. Ok. Em seguida, salvaremos o arquivo. Ok, dev.off. Ok. Então, o que estamos fazendo aqui é criar um gráfico de caixa, mpg e número épsilon n para o carro, e estamos usando o conjunto de dados carros vazios e o eixo x serão numerados cilindro e o eixo y será milhas por galão. E o nome do gráfico será carros, dados de quilometragem. Ok? E deixe-me fazer isso. Ok. Ok. Então este é o nosso gráfico, o gráfico de caixa que desenhamos. Ele virá aqui. Agora, o título é o nome do gráfico e os dados de quilometragem do carro. E esse é o número de esbeltos 468, e isso é milhas por galão. E o gráfico da caixa de dados. Ok? Então, dessa forma, podemos desenhar, podemos fazer gráficos de caixas. Se você quiser entender mais uma vez, eu vou te dizer. O que fizemos é simples. Nós temos, estamos usando dados de carros vazios, que já estão disponíveis em nossa distribuição, então não precisamos criá-los ou baixá-los. Ele já está embutido no ambiente. Então, estamos usando isso, eles pegam ou dois carros vazios significa que vamos usar esse conjunto de dados de carros vazios, que contém todas essas informações sobre os carros, carros diferentes. E então, o que eu estou fazendo, eu estou usando um boxplot e eu estou desenhando o gráfico entre esse número de cilindros e quilometragem por galão para cada carro. Ok? E estou usando dados e pré-composições. E para x, x é, eu estou usando o número épsilon lá e o eixo y mpg, ok? E, em seguida, o nome do gráfico que estou fornecendo aos meus dados ao vivo e, em seguida, estou escrevendo esse arquivo devido a algumas dificuldades em minhas auditorias. Não consigo ver as tramas aqui. E é por isso que eu fiz. Eu o escrevi no arquivo carro vazio, boxplot dot PNG. E podemos ver o arquivo aqui. Então esse é o boxplot e essa é a mediana. Essa é a mediana, certo? E essa é a saída mínima. E isso é o máximo ou o mínimo. E é Adam. Nenhum valor médio para o número de vendedores. Então, motor de quatro cilindros. Minhas lentes aqui e a quilometragem média são algo de aproximadamente 26, 27 milhas por galão ou número de cilindros seis. Está chegando em torno de 20, 20 milhas por galão e número de cilindros, se for oito, a mielina em torno 15 galões por 15 milhas por galão, certo? Dessa forma, podemos desenhar um boxplot a partir dos carros vazios. Nos vemos na próxima palestra. 32. Boxplot com entalhe: Olá e bem vindo de volta. Então, na palestra anterior, vimos como podemos desenhar nosso gráfico de caixas usando um conjunto de dados de carros vazios. E com base nesse número, aumente o cilindro e a quilometragem por galão. Portanto, com base nesses dois parâmetros não existem duas características deste conjunto de dados. Desenhamos o boxplot e vimos a aparência do boxplot. Então, carros, dados de quilometragem aqui, mpg e cilindro numérico 46 8 milhas por galão. Sim, 15 de 2025. E essa linha preta é a mediana de cada grupo. Ok? Então, carros de quatro cilindros, carros seis cilindros e carros de um cilindro. Agora, podemos realmente desenhar o mesmo gráfico de caixas sem. Então, vimos o que não é. Agora. Veremos como não. Se colocarmos um entalhe chamado verdadeiro, como esse boxplot mudará e o NADH será usado para desenhar, como se ele mostrasse como a mediana de cada grupo está relacionada entre si, certo? Como as medianas são diferentes, os grupos se igualam. Ok, então vamos fazer isso. E também veremos, também tentaremos colocar algumas cores nesse diagrama gráfico para que fique bem, ok? E também tentaremos nomear esse eixo x. Ok, então vamos fazer isso. Então, primeiro, o que vou fazer é mudar esse nome para largura do boxplot. Não. Ok. E então, o que vou fazer simplesmente dizer que não é igual a, desculpe, não é igual a verdadeiro. E agora, deixe-me fazer isso. Agora deixe-me ir aqui. Veja aqui, nós temos, então nosso gráfico era assim. Agora, quando coloco não igual a verdadeiro, nosso gráfico mudou para este. E veja, você sabe, essa é a mediana de cada gráfico, certo? Cada um dos conjuntos de dados em cada grupo, como quatro cilindros, seis cilindros. E a forma como essas medianas estão relacionadas é diferente uma da outra, como elas coincidem umas com as outras. Mas veja a mediana. Como essas coisas estão chegando, os nazistas vindo para cada um desses grupos. Agora, deixe-me colocar um pouco de cor nas dívidas. Então, o que eu vou fazer é enorme. E então eu coloco reitor e ouço qual algoritmo você fornece. Vermelho, verde, amarelo. Agora estou dando três cores. Vermelho, verde, amarelo, amarelo. E deixe-me fazer isso. Deixe-me colocar um nome de Maria Callas de hóquei. Então, isso terá gráficos e imagens diferentes e diferentes. Agora podemos ter cores diferentes para diferentes grupos ou caixas. E antes era assim, sem cor e sem cores de largura de entalhe, entalhe, largura de entalhe. Ok. Agora, deixe-me dar alguns nomes aqui. Ok. Então, aqui, as quilometragens. Alta tarifa para carros de quatro cilindros, quilometragem é alta para seis cilindros, médios e, para o cilindro, essa lei dará os nomes alta, média e baixa. Então, quando vermos agora o boxplot, entendemos, entenderemos que esse é o carro de alta média esse é o médio e esse é o combustível de baixa quilometragem. Ok? Então, isso é legal. Os nomes que os hotéis dão são altos, médios e baixos. Ok. Deixe-me fazer isso. Então, vejo você e agora, em vez de 46,8, temos alto, médio e baixo. Então, dessa forma, podemos, certo? E se você quiser ser mais específico, pode colocar uma porcelana tão alta, algo assim para que fique mais claro. Excelente, médio, baixo, assim. Ok. Ok. Então, desta forma, você também pode colocá-lo. Então, espero que você tenha entendido como colocar boxplots. Então você também tenta ver você na próxima palestra. 33. Histograma e distribuição de Histograma: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre histogramas. Então, veremos qual é o nosso histograma. E também veremos os tipos de histogramas e como podemos usar como podemos colocar o histograma com base em nossos dados em nossa temporada tática. Ok, então aqui veremos a parte teórica e aprenderemos o que é histograma. Então, deixe-me te contar. Um histograma não é uma apresentação apropriada da distribuição de dados numéricos. Portanto, é basicamente um gráfico como gráfico de barras ou gráfico de barras que vimos. Parecia que o tipo de distribuição representa essa distribuição de dados numéricos. Então, basicamente, se você tiver dados numéricos, você pode desenhar um gráfico ou Brad e o histograma é uma representação muito apropriada da distribuição de dados numéricos. Então, basicamente, é usado o quê? Dados numéricos, e esses dados numéricos devem ser natureza contínua na maioria das vezes, foram introduzidos pela primeira vez por Karl Pearson. Então, Karl Pearson apresentou o histograma. Outra forma de dizer histograma, como outra definição de histograma, é uma exibição gráfica de Brita usando partes de diferentes alturas. Em um gráfico de barras, vimos o ônibus morrer da mesma forma. histograma também é uma exibição gráfica de dados usando barras de alturas subdiferentes. É semelhante a um gráfico de barras ou histograma que agrupa números em intervalos. Portanto, se você ver um gráfico de barras, os dados não estão agrupados no intervalo, como dez a 2020 a 30. Não vai arrumar. Ele não agrupará os dados, mas no histograma , agrupará os dados nos intervalos. E então ele colocará o gráfico de barras, gráfico de barras com números nos intervalos. agrupamento de números nos intervalos fornecerá um histograma. Então, espero que a imagem esteja ficando clara. Também veremos as imagens. Veremos a representação real de como o gráfico de barras é diferente do histograma. Portanto, aqui é bom observar que o gráfico de barras mais o agrupamento de dados numéricos em intervalos, como se você tivesse dados de 10 a 100. Então, isso criará as barras. E com isso, também organizará os dados de 10 a 2020 a 30 nos grupos. E isso criará caminhos. Então, será um histograma, a altura de cada barra vendida, quantas se enquadram nessa faixa. Então, basicamente, você terá uma ideia de que 10-20, quantos números existem? Quantos apoios? Se você está analisando o salário das pessoas. Então, vai te dizer, entre dez e 20, quantas pessoas existem? Quantas pessoas existem assim? Ok. Criando um sol histórico, criação de um histograma fornece uma representação visual da distribuição de dados. O histograma pode exibir uma grande quantidade de dados e a frequência dos valores dos dados. Então, da mesma forma que ele faz, ele agrupará os dados em intervalos. Então, ele lhe dará uma frequência de dez a 20. Quantos? Portanto, ele também fornecerá a frequência suportará um valor de dados específico. Ele dirá quantas vezes isso está ocorrendo, a frequência dos valores dos dados, a mediana e a distribuição dos dados podem ser determinadas pelo seu histograma. Portanto, a mediana e a distribuição dos dados também podem ser determinadas pelo histograma. Além disso, ele pode resolver quaisquer discrepâncias ou lacunas nos suportes de dados. Temos os dados 10-140 a 50. Não temos nenhum valor. Então, ele dirá que 40 a 50 , não mostrará a barra. Então, com a representação gráfica, você pode encontrá-la, ok , 40 a 50, não temos funcionários. Portanto, ele mostrará a lacuna nos dados e também o outlier. Suponha que você tenha entre dez e 100 e depois tenha outra barra vindo de 17180. Portanto, todos os blocos de dados tenderão a 100 e outro gráfico estará distante. Ele está mostrando intervalos de 171-81-7180 e um valor atípico que podemos identificar facilmente observando o histograma. Então, o histograma, ou uma ótima maneira de resolver isso, contém dados contínuos e contínuos que eu lhe disse anteriormente, como altura e peso, se você quiser. Portanto, o histograma é mais adequado para esse tipo de radar. Então, aqui estou eu. Então, estou apenas mostrando como você pode diferenciar o gráfico de barras e os histogramas. Então, vejo você no histograma, não há lacuna. É muito contínuo, como 468 até 24. O bar começa a entrar imediatamente. Aqui você pode ver a diferença entre histogramas e gráficos de barras. Então aqui você pode ver o histograma, é muito contínuo assim. Ignore as lacunas entre as barras aqui, o gráfico de barras, você pode ver , mostra as diferenças, como janeiro, fevereiro, março, e há uma lacuna entre as barras. Portanto, essa é a principal diferença de como em um histograma. As barras estarão em que não haverá espaço entre as barras e o gráfico de barras terá algumas lacunas entre as barras. Ok? Então, essa é uma diferença pictórica que você pode encontrar entre os histogramas e os gráficos de barras. Agora vem o histograma de distribuição ou quantos tipos de histogramas existem? Distribuição normal, você pode ver assim. Então, em uma distribuição normal, provável que os pontos em um lado da média ocorram como no outro lado da evidência para ver seus dados deste lado, do lado esquerdo e do lado direito serem quase iguais, certo? Então essa é a distribuição normal. E se formos para a distribuição bimodal, isso o colocará em uma distribuição bimodal. Há dois picos, C-O, há um pico e há outro pico. Há dois picos nos dados. Portanto, isso será bimodal em dados de distribuição bimodal. Então, separamos e analisamos como distribuição normal separada. Portanto, essa é uma distribuição normal e essa será outra distribuição normal. E quando duas distribuições normais se juntam, isso criará uma distribuição bimodal. Essa é a distribuição normal e essa é a distribuição bimodal. O terceiro tipo de distribuição ou histograma é uma distribuição inclinada à direita. O que é distribuição distorcida à direita ou histograma, ou distribuição inclinada à direita também é chamada de distribuição com inclinação positiva. Por que é chamada de distribuição com inclinação positiva porque veja que os valores distorcidos estão vindo do lado direito, zero ao infinito, certo? Então, esses são os valores positivos. Então, quando está do lado direito, os dois valores de empurrão são distorcidos. Será, chamamos de distribuição distorcida à direita. Em uma distribuição inclinada para a direita, um grande número de valores de dados ocorre no lado esquerdo, com um número menor de valores de dados no lado direito. Veja aqui, no lado esquerdo, há mais valores de dados, e no lado direito, o número está diminuindo, ok? Tudo bem, é uma distribuição distorcida maneira uniforme quando os dados têm um limite de alcance no lado esquerdo do histograma, por exemplo, limite de G. E o próximo é a distribuição distorcida à esquerda. Aqui. A distribuição inclinada para a esquerda também é chamada de negativamente. Por que negativamente? Porque, do lado negativo, está ficando distorcido. Em uma distribuição inclinada para a esquerda são grandes. O número de valores de dados ocorre no lado direito. Portanto, o número está aumentando da esquerda para a direita. Então, quando estamos nos movendo para a direita, o número está aumentando, certo? E menos valores de dados abaixo lado esquerdo ou esquerdo é menor do que no lado direito. Mais valores é uma distribuição inclinada para a esquerda. E uma distribuição inclinada para a direita geralmente ocorre quando os dados têm um limite de alcance. No lado direito deste diagrama, por exemplo , limite, como centenas. Ok? Então, esses são os quatro tipos de histogramas. Uma é a distribuição distorcida à esquerda, depois vimos a distribuição distorcida à direita, depois a distribuição bimodal e, em seguida, a primeira é a distribuição normal. Histograma. Agora, você está apenas hist na função JIST hist para criar um histograma. E serão necessários alguns parâmetros ou argumentos para desenhar um histograma. Ok, então, o que é X? X é um vetor de valores para o qual o histograma é um gráfico. Então esse x é um vetor para o qual queremos desenhar o histograma, o main, xlab e ylab. Principal. Principal. Main é o título do histograma, e xlab são os rótulos dos eixos, ok. Como frequência ou qualquer outra coisa, se você quiser portar. E então x, lima e wildly são os intervalos dos valores de X e Y. Ok? E, em seguida, quebra o vetor único do Brexit , fornecendo que os pontos de interrupção entre as células do histograma são função dos pontos de interrupção do vetor do computador em um único número, fornecendo as vendas de um histograma. Ok, veremos o que isso quebra em detalhes. Então temos o carvão que é colorido e depois temos a borda que você conhece. Então, na próxima aula, veremos o exemplo de como podemos usar a função hist para desenhar nosso histograma. Então, desenharemos um histograma usando a função hash na próxima aula. 34. Histograma de desenho usando a função hist: Olá e bem vindo de volta. Então, nesta palestra, vamos escrever nosso primeiro programa para histograma. Então, o que faremos é criar um vetor que conterá nossos dados. E então, com esse vetor, vamos fazer um histograma. Vamos representar graficamente esses dados em um histograma. Então, vamos começar com isso. Então, o que eu fiz, eu já criei um arquivo de ponto R que é histograma ponto R. E eu escrevi o código. Então eu vou te mostrar qual é o curso. Então, eu já escrevi o código para que possamos economizar tempo escrevendo, ok, assim por diante. O que estou fazendo é criar dados vetoriais para o gráfico. Então, estou criando os dados aqui. Então, estou criando, estou criando um vetor e atribuindo esse vetor a x. Então x é n vetor que contém dados, lago para impressões e 17.000, 3.006 mais suporte externo. O salário poucos implica que estou armazenando nesse vetor x. Então, esse vetor X são nossos dados e contém suporte, o salário dos funcionários. Ok? Então esse é o salário do propano implícito Tao Qian, desse jeito. Ok, então em alguns intervalos, como preppy até 2050 a 60, 20 a 30, 40 P2P assim. Ok, agora o que vem a seguir, o que será exemplo muito simples de histograma. Ok, agora temos os dados. Eu quero traçar um histograma. Então, o que vou fazer criar um arquivo de imagem do histograma Foster. Então, vou usar a função PNG e daremos um arquivo igual ao ponto do histograma PNG. E então, o que vou fazer é usar a função hist que eu disse na palestra anterior. Então aqui estou criando o histograma, ok? Então, usarei a função hist e passarei esse x. O que é x? X são os dados para os quais vamos traçar o histograma. Ok, então esses valores aparecerão aqui com X. Então X é um vetor de dados, dados vetoriais. Então, o que estou dando ao xlab é igual ao salário e , em seguida, a cor que estou dando como verde e a borda amarela. Portanto, ainda não estou fornecendo muitos parâmetros. Não estou passando muitos parâmetros. Sim. Só uma placa que eu dou salário, depois a cor, eu dou verde e a borda, eu darei à Eslováquia. E então vou salvar esse arquivo de imagem gráfica em nosso sistema que está com pontos de profundidade desativados. Ok, então antes de avançarmos, deixe-me definir nosso diretório de trabalho. Então, para fazer isso, o que eu vou fazer, e ainda assim o que eu vou fazer, eu vou guardar isso. Vá para esse diretório. E a próxima coisa que vou fazer, vou fazer mais. E, no entanto, o que vou fazer é definir o diretório de trabalho. Ok, então agora vou salvar esse arquivo. Então, espero que as etapas sejam bem simples. Estou criando um vetor X com os dados. Em seguida, estou usando a função PNG para criar um arquivo de imagem para todo o nosso gráfico, que possamos ver e utilizar. E então eu estou armazenando isso em nosso arquivo local de Deborah off. Ok. E eu estou usando a função hist para o rim fazer histograma com os dados e passando o vetor x aqui e depois o laboratório x, estou dando o nome salário e a cor verde e trocada será a cor amarela. Então agora eu salvei, agora eu fiz isso todo esse arquivo fonte. Clique em Fonte e pronto. Em seguida, preciso ir até o D Drive, ir até o nosso 20 e ver aqui nosso firewall com a histona. Deixe-me verificar o nome do arquivo. A imagem final, este ponto gráfico superior PNG. E se ele também estiver, acho que esse é o nome do arquivo, gráfico de histograma PNG. Ok, então é assim que eu excluo todos os outros que eu criei anteriormente. Agora temos o histograma de x. E aqui o que estamos criando, eu estou dando o, deixe-me remover isso, excluir isso. Deixe-me executar o programa novamente. Deixe-me mudar isso para vermelho. E a borda será de hóquei amarelo. Deixe-me fazer isso de novo. Deixe-me ver se o arquivo em geral deve ver seu histograma. Isso é salário e aqui frequência. E aqui estão os intervalos de dez a 2020 a 30.030 a 40.040, 2050 a 60.000. Agora você pode ver como o histograma está ficando escuro. Então, dez a 20.000, quantos inscritos estão tentando o salário 10-2123. Vamos verificar isso com os dados. Ok. Então, vamos até aqui, vá aqui. 22 tendem a 2010 a 23, então dez a 2012. E então temos outro, você tem uma vantagem dois. White está fazendo. Ok. E então temos $20 ou 2.000.017.000,15 mil. Então, essas são as três implicações de desenhar tristemente 10-20. Portanto, está mostrando uma tendência de 2310 a 23 funcionários. Dessa forma, ele dividirá os dados em intervalos e os tornará nossos grupos ou dez a 23 funcionários, então 20 a 32 também implicará menos 25 dados. 20 a 31. Eles começaram a ver de 20 a 30. Temos dois funcionários. Ok. 25.020, 2000. Isso também é verdade. Totalmente. Depois, 30 a 42. Novamente, 30 a 42, 34, t1 e t2 um. Ok. 30 a 40 também para os próximos são 40 a 50, apenas um funcionário lá. Então, vamos ver para T2, T4, T5. E veja que isso está mais do que perfeitamente correto. Portanto, 40 a 50, apenas uma implica durante a próxima é a última, T2s t Temos quatro implicações. Vamos ver isso mais de 5012, depois três e depois quatro. Então, temos quatro, certo? Veja, se você tem que confiar na cidade, temos quatro implicações. Dessa forma, ele agrupará os dados e informará a frequência. se você ver isso, você pode facilmente dizer que o criptosistema tem mais de 50.000 salários para funcionários ou atrai de dez a 23 funcionários, 20 a 32 implica e 40 a 50, apenas um que está recebendo salário por P2P. Dessa forma, o histograma será desenhado e agrupará os dados com base na frequência. Ok? Ele definirá um intervalo ou Beta e, em seguida, informará a frequência de ocorrência dos dados nesse intervalo. Então, ocorrem dez a 23, 20 a 32 trabalhadores, 30 a 42 trabalhadores, 40 a 52 ocorrências e, em seguida coloque a placa de Petri t como agonista. Então, o que fará, agrupará os dados em alguns intervalos e, em seguida, informará a ocorrência de dados nessa tendência. Então, dez a 20, há três dados, 310 a 20 e é Jacqueline três vezes. Ok? Dessa forma, dessa forma, podemos dizer que três funcionários estão secando, infelizmente 10-20. Portanto, esse é o significado do histograma. Ok. A seguir está o que eu fiz. Eu pego nossos dados diferentes aqui. Eu sou o que estou usando, 114-567-8910. Ok. Então, a mesma coisa, estou dando um gráfico de programa embelezado a um arquivo diferente, PNG de um ponto. E aqui o que eu estou usando, x sin x, estou passando um ano. Somente os pontos de dados são diferentes. Os valores dos dados são diferentes aqui. Ok. E muito simples mais tarde, 114-567-8910. Ok. E então eu estou guardando para tudo bem. Vamos fazer isso e ver o que estamos recebendo. Então, deixe-me encontrar o gráfico 1 do histograma aqui. Agora. Está definindo os dados. Eu gosto de zero a dois. forma como está definindo o intervalo é de zero a 22 a 44 a 64.628,8 a dez. Então, g rho 22, quantas ocorrências? Duas ocorrências em que G linha 2 a 11, essas duas unidades são menores que duas, certo? Então, zero a dois para corrigir. A próxima coisa é dois por um. Então, dois a quatro. Apenas quatro Existe um. Em seguida, quatro a seis a quatro a 65,6 para escrever do que seis para 8782 novamente e, em seguida, 9108 a dez até 9,10. Dessa forma, ele está dividindo os dados em dois intervalos, zero a dois ou dois a 44 a 66 a 8,8 a dez. E então está nos dando a frequência de ocorrência dos dados 0-22 duas vezes dois a quatro, uma vez quatro a seis. Preço repetido, ok? À ocorrência dos valores 4-6, certo? Sim, 5,6. Dessa forma, você também pode mudar a cor a partir daqui. Você pode torná-lo preto. E saiba que o gráfico estará em preto. Dessa forma, podemos mudar a cor do histograma. Te vejo na próxima palestra. Veremos alguns outros exemplos de histograma. 35. Usando pausas de ylim xlim no histograma: Olá e bem vindo de volta. Então, na palestra anterior, vimos como desenhar um histograma. Vimos dois exemplos, dois dados diferentes. Então, pegamos um vetor. E então, no segundo exemplo, pegamos dados muito simples. E agora, o que vamos fazer, vamos aprender como usar break, como usar limites, y, limites e quebras, esses três parâmetros da função hist para desenhar um histograma com break e limite x. Ok, então eu escrevi o código. Então, primeiro, vou usar o mesmo vetor em que temos a leitura sutil de suas persianas desde a origem da pré-impressão até 60.000. Então, estou criando um vetor x que fizemos na aula anterior. E então eu estou criando um arquivo de destino onde eu armazeno esse histograma. Estou usando a função p e g e finalmente estou dando Mises para Brex dot PNG To com Brex dot PNG. Esse será o nome final que será criado no nome do arquivo que será criado no qual nosso gráfico estará, nosso histograma será desenhado, ok, e aqui com a função hist, estou criando o histograma. Então, estou passando o vetor x aqui nos dados. E então eu estou dando o nome xlab para adicionar peso e cor. Estou dando azul, entregue a borda. Estou dando aquele verde. E então o limite x que estou dando. Aqui, estou usando um argumento que é excelente. Os limites x. Para o eixo x, estou dando o limite de zero a 40.000. E veja que nossos dados contêm os valores de tolerância de 15 a 60 cobertos. Os dados vão além de t, mas aqui estou fazendo um loop, limitando os valores do eixo x a zero a 40.000. Ok? E por que o membro é GTO a dez. Ok, tudo bem, por que o eixo y será a frequência de ocorrência dos dados como zero a dez ou zero a 20, o que quer que criemos. Nossa abertura implica um sorteio de salário de 0 a 2020 a 30 ou 30 a 40, assim. Ok. Para que eu esteja levantando o dedo do pé. Então, eu estou usando outro parâmetro aqui, quebras iguais a dois. Então, deixe-me primeiro fazer um. Ok? Então, o que estou fazendo é dar ao Brexit igual a um. Veremos o impacto que esse Brexit igual a um está causando em nosso histograma. E então eu estou salvando o arquivo. O histograma que será gerado salvará neste dedo do pé com o arquivo PNG Brex dot para salvá-lo em nosso local, vendo-os usando db dot off. Com isso, ele será salvo em nossa máquina. Então, agora esse é o código, um código simples de uma linha para o qual estamos passando alguns parâmetros com blocos. Slim. Xlim, xlim está limitando os valores de dados no eixo x, os limites y para o eixo y e break entenderão quando eu executar esse código. Assim, você entenderá melhor ao ver o resultado. E com essa visualização, entenderemos o que o Brexit realmente está fazendo. Ok? Então, deixe-me executar essa fonte, segure a fonte, clique na fonte e pronto , então deixe-me abrir os arquivos de saída. Então, aqui estão dois com o arquivo Brexit criado. Deixe-o abrir. Agora o arquivo, nossos números históricos. Então você verá aqui, como eu dei intervalos iguais a um, estamos vendo apenas uma barra grande, certo? zero a 40, e mostra que 0248 empregadores estão testando salários entre 40 e 40. Deixe-me verificar isso. Veja aqui, temos um total de 10,12 3456, 1234, 5670, 2408. Mas temos uma lista, 702, 40, acho que 123.456,7. Todos os outros são mais de 40, certo? 1234. Ok, agora podemos ver esse gráfico. Deixe-me mudar os tijolos para dois. Então, agora você verá que haverá duas partições. Ok? Então, deixe-me, quando o arquivo estiver novamente, veja aqui agora que temos de zero a 40. O salário de 40 foi dividido em duas partes, zero a 20,22, 40 e, em seguida, 42 status exibido separadamente, certo? Então, agora todo o conjunto de dados foi dividido em três, mas de zero a 40 desde aqui. Desde aqui, começamos de zero a 40. Então, zero a 40 dados, zero a 40 dados foram divididos em duas partes. Cheeto até 20,0 a 60, c, zero a 20,0 a 22 400.220,02, 400.223,22, 44 dados e 40 a 65. Ok. Então, deixe-me mostrar a diferença. Se eu colocar t zero em t aqui, o que acontecerá? Os dados de zero a 60 serão divididos em duas partes. Deixe-me abrir o arquivo novamente. Agora, G zero a 60 foi dividido em três partes porque não temos dados além da segurança. Não está mostrando a outra, mas uma dívida na web de zero a 60%. Nós temos dados. Portanto, os dados de toxicidade de Quito foram divididos em três partes. Então, neste estágio, o que quebra, faz com que x lim de zero a 60. Se eu fizer 50, o que acontecerá? Os dados de zero a 50 serão divididos em duas partes. Ok, deixe-me fazer isso. E então você viu que pode, deixe-me clicar em Fonte e deixe-me ir até o arquivo e abri-lo novamente. Agora, os poucos pré-dados do J22 foram divididos em três partes. Ok. Entendi. De zero a 2020 a 40, depois de 40 a 60 se juntam, certo? Então, está aparecendo até 50. Ok. Se eu fizer três, o que acontecerá? Vamos ver. Deixe-me abri-lo novamente. Vejo que você atenda de 2020 a 40,40 a 60. Deixe-me. Vamos continuar experimentando. Se eu fizer quatro, o que acontecerá? Veja, agora está mostrando dez a 2020 a 30, 30 a 40, 40 a 50 e, em seguida, 50 a 60 serão separados. Então, os dados de 12340250 foram divididos em quatro, certo? Isso é o que pedimos para o R2P, então o dividimos em quatro. Se eu fizer zero para supor 32, 30.000 dados serão divididos em quatro partes. Então, deixe-me abrir o arquivo novamente. Dez a 20,20 a 30, porque não temos muitos dados, certo? Então, dez a 2020 a 30 e depois 30 e além foram divididos. Porque nós, se eu conseguir também, vamos ver. 30 dados foram divididos em duas partes. O primeiro é 0220 e depois 20 a 40 e além, certo? Então, deixe-me pegar meu retrato como G zero para T e deixá-lo fazer para ver. A saída. A segurança do portão A2 foi dividida em 1234 partes. Deixe-me abrir o arquivo novamente para ver o arquivo objeto C e G, zero a 6110 a 2020 a 30, 30 a 40, 40 a 50 a 60. Ok, então isso é o que fazemos com os intervalos. Ok? Então é isso que x Lim e toupeiras selvagens, selvagens. Então você pode, nosso CEO, enquanto a imagem está restringindo a frequência do eixo y a zero a dez. Então, suponha que se eu mudar isso, se eu mudar isso para apoiar seus únicos seis, o que acontecerá? Deixe-me executar isso e abrir o arquivo atual. Veja aqui agora que estamos vendo a frequência de zero a seis. Ok? Dessa forma, podemos restringir os eixos x e y, onde o xilema é amplamente suportado. Se eu fizer isso, o que vai acontecer. É bom experimentar o código para ver a saída. E quando você ver a saída, você saberá o uso real do parâmetro C. Você obtém dois para, um pouco para ele, tudo bem. Se eu fizer suportes, farei com que seja zero a dois. O que vai acontecer? Agora estou mudando o eixo y, a frequência. Eu vou ver, você sabe, está indo como este. ocorrência total da frequência alélica está indo para a direita. Dessa forma, podemos brincar com o código em qualquer linguagem de programação, bit R ou Python ou qualquer outra coisa. Se você quiser aprender, precisa começar a brincar com o código e começar a brincar com os parâmetros. E se você alterar o parâmetro, verá o impacto exato desse parâmetro. E nesse sentido, você aprenderá melhor e obterá as implicações, o impacto exato desse argumento específico, parâmetro específico em uma função específica. Como em sua função, sabemos o que é x, o que é x lab, o que é cor, o que é borda? O que é x Lim. Vimos como o xlim está impactando o histograma, como o parâmetro do membro selvagem está impactando o histograma e como os tijolos estão impactando o histograma, impactando o histograma. Portanto, ao experimentar, ao brincar com o código e seus dados, você obterá melhores insights e uma melhor compreensão do código. Então, espero que você entenda o que é ligado ao X, ao Y e às quebras e como elas afetam nosso histograma. Então, com isso, vamos nos ver na próxima palestra. 36. Gráfico de linha básico para séries temporais com ggplot2: Olá e bem vindo de volta. Então, na palestra anterior, vimos como desenhar um histograma. Agora estamos passando para um gráfico muito interessante. Você pode ver nosso gráfico de linhas básico. E isso é muito importante porque será importante quando você aprender mais sobre séries temporais ou problemas em sua jornada de ciência de dados. E isto é, nesta palestra, vamos ver como podemos desenhar um gráfico de linhas simples para nossa série temporal usando o gráfico GG, que é um pacote em R. Então, o que é tempo desde ele? Primeiro, precisamos entender isso. Então, deixe-me levá-lo às definições básicas e muito básicas da Wikipedia sobre séries temporais. Uma série temporal é uma série de pontos de dados. Então, basicamente, seus pontos de dados de trabalho em CD indexados são listados ou capturados. Portanto, pode ser a indexação da série de pontos de dados, ou pode ser uma série elevada de pontos de dados, ou pode ser uma série de representações gráficas de pontos de dados em ordem temporal. Portanto, pode ser qualquer coisa , menos nossa ordem de tempo. Portanto, uma série de pontos de dados indexados em ordem temporal. Isso significa que os pontos de dados são baseados no tempo, portanto, devem ser construídos com o tempo. Então, quando temos dados baseados em, que são baseados no tempo um determinado período de tempo ou horário específico em Teach com base na hora, então essa série é Brita. Podemos, quando traçamos, obter um gráfico de séries temporais. Então, o Lee mais comum, ou série temporal e sequência tomadas em um ponto sucessivo e igualmente espaçado no tempo. O que isso significa? Significa que série temporal é uma sequência que bloqueamos, certo? Série temporal ou sequência de pontos de dados indexados em ordem temporal. E, mais comumente, em séries temporais, é uma sequência feita em compromissos sucessivos e igualmente espaçados em um horário. Suponha que, em nossa linha do tempo, vamos pegar pontos sucessivos e igualmente espaçados em tempos de todas as 0220 4 h, então levaremos de zero a 3 h do que três a 6 h 32, 9 h nove a 12. Sucesso inicial, dois pontos igualmente espaçados, como três, 3 horas de intervalo que estamos tomando. Então, isso será um dado de 0,326, 6299 a 12, assim. Ok. Então, estou dando um exemplo. Não é a coisa exata. Mas dá para entender qual cronograma, zero a 24 horas e poucas coisas que estão acontecendo a cada segundo, a cada minuto, certo? Então, quando documentamos esses pontos de dados, como em algo de quatro estrelas, esses são os dados da segunda hora. Esses são os dados do tada. Esses são os dados. Portanto, quando definimos esses dados sucessivamente igualmente espaçados em pontos no tempo, eles fornecerão a série temporal, sequência das séries temporais. Portanto, é uma sequência de dados de tempo discretos. Não é contínuo, é de natureza discreta porque estamos retirando pontos de tempo igualmente espaçados desses dados. Então, estamos fazendo um discreto. Então essa é a definição. Agora, o que faremos, tentaremos entender isso traçando. Quando planejarmos, entenderemos mais sobre isso. Ok, então, antes de traçarmos, pedimos para instalar a biblioteca GG plot two, para que você possa acessar o pacote e instalar o GG plot two. Ok? Então, para isso, precisamos gráfico dois da Biblioteca GG e do player, ok? Portanto, essas duas bibliotecas são necessárias. E então, o que fazemos, criaremos dados fictícios. Então, o que eu vou fazer criar um DataFrame que conterá o dia. Eles ficarão agitados como um ponto. Isso significa que ele coletará dados nesse formato, como o total de 15 da primeira geração. E então o que eu vou fazer, eu quero daqui até zero também. Pesquise até 4 min, 365 dias. Então, daqui até 365 dias, cada dia como primeira geração e depois 31 de dezembro de 2014 desse jeito, vou levar de três a cinco dias. E para uma data específica em que estou considerando o valor, estou usando a função runif. Você sabe, o que é executar uma função executando fox e ela criará o que, o que ela fará. Isso criará uma sequência de números retos, 4365. Então, isso criará uma sequência de números. Então, o que a função de execução fará? Ele gera os desvios aleatórios da distribuição uniforme e é escrito como runif. Então, o que ele fará é gerar facilmente o gênero n de números aleatórios que renderizará. Então, o que estamos fazendo aqui para gerar valor é gerar pesquisas de iniciativa para eliminar números aleatórios de cada dia. Então, atribuiremos o primeiro número aleatório do gerador até o momento, um, como este. E então o segundo número gerado aleatoriamente será atribuído à segunda data. Ok? Portanto, não estamos apenas usando os números gerados aleatoriamente a partir dessa função padrão. Ok? Mas também estamos adicionando isso por, também somos uma sequência genética de menos 142 a 40. E nessa sequência nós somos o que estamos fazendo. Estamos tirando uma raiz quadrada disso e depois dividindo com esses 10.000. Ok? Então, basicamente, queremos a saída disso. Vamos adicionar o que obtemos dessa função runif. Ok? Portanto, runif fornecerá desvios aleatórios e distribuição uniforme. Ok? Então, o que obtemos com a data, dia e o valor que armazenaremos neste DataFrame, estamos criando um DataFrame que conterá dois valores, t e um valor específico dessas duas funções que obteremos, veremos como temos, quais são os valores que estamos obtendo, ok? E então, o que faremos é imprimir os dados para mostrar quais dados estamos obtendo. E então, com esses dados do DataFrame, o que farei, usarei o gráfico GG para plotar esses dados. Então, vou passar esse quadro de dados. E então, o que isso fará, fornecerei o eixo x como eixo t e y como um valor. Mais. Vou usar a linha geom, função dois e depois os valores xlab, ok? E depois vou imprimir a impressão, vou imprimir o produto. Ok. Em seguida, o que vou fazer, o que essa função de linha geométrica fará aqui. Você pode ver suas nove fontes do Zoom sobre o que ela fará. Ele conectará os pontos na ordem da variável no eixo x e G. E , na verdade, criará poeira como um gráfico de degraus de escada. Ok, então basicamente o que ele fará, juntará os pontos e criará o gráfico. Ok? Então, aqui usaremos alguns símbolos como porcentagem, d é d como um número de zero a 31. porcentagem será criada como uma porcentagem de um dia da semana maiúscula, como um dia da semana abreviado, como segunda-feira. E isso será turbulência e porcentagem de pijamas. mês zero a 12 e apresentado b e o maiúsculo B serão abreviados e um mês abreviado como janeiro será abreviado e janeiro completo não será agravado. E então a porcentagem Y e porcentagem de capital Y serão Tool, porcentagem de vitaminas com dois dígitos ainda, e as porcentagens maiúsculas Y serão ainda quatro dígitos. Ok? Portanto, essa é a abreviatura básica que vamos usar. Então, vamos ao RStudio e tentar executar esse código. Então, estamos usando o gráfico GG e a biblioteca do jogador aqui. E então o que estou fazendo aqui é usar dados. Estou criando um DataFrame aqui, dados fictícios com acetato semelhante. E então estamos criando um valor aleatório usando esse runif e sequência. E então estou imprimindo o, o que quer que estejamos obtendo do runif, mostrarei o que obtemos da função runif e o que obtemos como dados. Ok? Então, deixe-me executar esse código aqui. Ok? Então, deixe-me seguir esse exemplo aqui. Então, agora vou te mostrar o que estamos recebendo. Ok? Então veja aqui, para a função runif, estamos obtendo esse valor, ok, 0,3, 44,4. Assim, ele gerará 365. Ventos. Ok, e então, para os dados que estamos obtendo, d, como 1º de janeiro, John, total e distante entre si, e estamos obtendo esse valor. Ok. E então, para a proteína de 31, 3 e 4 de dezembro, estamos recebendo, então estamos obtendo esses dados e valores em nosso quadro de dados. E agora o que vou fazer passar o quadro de dados para os dados do gráfico GG e , em seguida, sair da chamada hoje Y igual ao valor. E vou usar a linha geométrica para traçar os dados e , em seguida, o que estará lá ou o que estou usando aqui. Estou usando a escala de desvio médio, sublinhado, data do sublinhado. E aqui estou dando os níveis de dívida que x v. Ok? Então, deixe-me executar o código inteiro. Clique na fonte e veja o enredo aqui. Então, deixe-me imprimir o chão. Veja aqui. Agora, estamos recebendo dados de séries temporais de janeiro de 2014, julho de 2014, outubro de 2014 e janeiro de 2015. Ok. E se eu executar isso, obteremos que seremos abreviados de janeiro, julho para o n. Então fica assim. Se eu usar Y maiúsculo, b, b e d minúsculos, o que obtemos, teremos o ano inteiro como 2014, depois o primeiro de janeiro faz uma turnê com 14 roupas como esta. Ok. E esta é a semana, certo? Então, mostrará as semanas, os atrasos. 13ª, semana, 26ª, semana 3093 e assim por diante. Ok. Se é uma montanha enorme, por que ela nos dará o mês, por quê? Mês e YC. janeiro tão sombrio, totalizando 14 aprovações para uma proteína de túnel como essa. Então, este é o mês aqui que estamos vendo no eixo x. Aqui estamos vendo a montanha juntos. Estamos vendo o valor específico naquele momento. Ok? Então, é assim que podemos desenhar uma série temporal simples. Aqui. Podemos modificar isso um pouco. E aqui estou usando o SLB, nossa biblioteca de equipes, na qual você pode, se não tiver , acessar os Pacotes, clicar em Pacote, clicar em Instalar e instalá-lo e usá-lo. Então, estou usando os mesmos dados que criamos no passado. Agora mesmo. E aqui o que eu estou fazendo, tudo, eu estou usando o tema na linha geom. Estou fornecendo a cor verde. Hesíodo é a linha preta. Por enquanto, estou mudando isso para verde. Então, aqui, geom line, vou fornecer cor, a cor para verde. Então, será que o gráfico estará na cor verde. E então o tema ressalta Ipsum, estou usando o blast para a equipe. O que eu recebo x dx t ponto x elemento ponto TXT sublinhado t Na verdade, ângulo. Estou dando 45 e só estou dando um. Então, o que esse ângulo 45 fará, ele girará esse gráfico em 45 graus. Então, deixe-me executar todo esse código. Veja aqui. Agora, o gráfico está vindo assim. E os 45 graus, então ele é convertido em 45 graus. Então, dessa forma, podemos usar esse ângulo igual a 45 antes de eu suponho que t. Vamos ver a diferença que estamos obtendo. Um artista mudou um pouco. Deixe-me alterá-lo para suportar 160. Você pode ver alguma diferença se eu colocar 45? E agora eu vou mudar isso. Doe 145. Vamos ver se estamos fazendo alguma diferença. Agora está chegando janeiro de 2020, outubro de 2019. Assim. O gráfico está mudando a taxa. Se eu fizer isso 45. Está vindo assim. E quando eu estiver fazendo isso , suponho que 90 graus, ele virá de uma maneira diferente. É. Essa representação está mudando, certo? Janeiro. Isso, essa coisa está mudando, certo? Se eu fizer dez graus. E se eu traçar e ver aqui como isso é o que estamos escrevendo aqui, janeiro de 2019, esse ângulo está mudando, certo? Se eu conseguir, suponha que ele veja TDD, vamos ver como esse gênero não muda. Deixe-me torná-la uma entidade. Quando você brinca com os dados, continue. Você pode dar para entender o que realmente é diferente? Você está acertando. A orelha. É meio, final de janeiro de 2019. Agora está aparecendo como uma imagem espelhada de janeiro de 2019. Então essa é a diferença. Ok. Então, dessa forma, podemos nesse nível, ok? Então, orientação no nível do eixo x, cadeias de fim de semana como essa, ok? Se você colocar 90 graus, ele virá em um diploma de TI. Então, espero que agora você tenha certeza diferença que esse ângulo está fazendo, certo? Agora está nos 90 graus. Dessa forma, podemos usar o elemento textos e podemos mudar a orientação dos textos como janeiro, assim. Ok? Então, dessa forma , podemos fazer isso. 37. Plot de dispersão e matrizes de enredo em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre o gráfico de dispersão. Então, o que é gráfico de dispersão? Um gráfico de dispersão é um tipo de gráfico. Nosso diagrama matemático usando coordenadas cartesianas para exibir valores: quais normalmente duas variáveis configuram melhor? Então isso significa que é simples. Se você pegar nosso plano x, y, precisamos colocar pontos no plano, x e y, x vírgula y, o ponto que precisamos traçar para que não desenhemos linhas sejam seguras nem nada, mas apenas os pontos onde vamos portar para apoiar o Majlis e o número de cilindros, assim por diante. Cilindro. O número épsilon no eixo x e minha legenda o eixo y. Então, será como quatro vírgulas. O número de cilindros é quatro e a mielina está triplicando ainda quatro. Imprima um ponto no plano cartesiano que colocaremos. Portanto, é bem simples. Se os pontos estiverem codificados, um, ainda valioso, poderá ser exibido. Ok, então o que estou fazendo aqui, vou desenhar um conjunto de dados que são carros vazios, que são os dados de entrada. Conjunto. Nosso nível com o que já usamos em nossos exemplos anteriores. Então, vou usar um conjunto de dados de carros vazio que está prontamente disponível em nosso ambiente. Então, o que esses carros vazios, Laboratório da OMS terá. Ele terá dados sobre os carros, como número épsilon, mielina escura e peso do carro e outras coisas. Ok, então, a partir desse conjunto de dados, o que estou fazendo, vou pegar o número cilindro e a mielina, e isso significa o número de cilindros e o Majlis do custo específico que vou obter desse conjunto de dados. Então, estou usando recta. Veja mielina cilíndrica. Mielina, isso significa mielina cilíndrica. E estou armazenando isso nesse objeto. Ok? Então, se eu executar esses dois, o que vou conseguir aqui? Então, estou recebendo detalhes de vários carros, como Mazda, Datsun, e estou recebendo o número Epsilon, seja, seis, exportação de formaldeído. E a quilometragem é de um para um. Da mesma forma, Lotus Europa, número épsilon, ou seja, comida e mielina é 34 para Bandera. É um cilindro, e a mielina é para apontar, enquanto o número de cilindros de Woof 142 é quatro e a mielina é 21. Dessa forma, estamos obtendo as histórias de muitos carros, vários carros e sua quilometragem. Ok. Agora, o que vou fazer criar um gráfico de dispersão mostrando os deuses e depois minha lista. Então, para isso, o que estou usando, estou usando uma função PNG e estou dando o nome do arquivo do gráfico de dispersão como meu PNG de pontos do gráfico de lista. E então eu estou usando a função de plotagem. função de plotagem simples será usada para desenhar esse gráfico de dispersão. E ainda assim estou fornecendo esse x igual à entrada. Então x é basicamente o vetor de entrada. Então você obtém x igual ao que estou fornecendo. Estou fornecendo informações como um número de cilindros. O eixo X, x será o cilindro de entrada. Significa que estou recebendo o número de cilindros, ok? E o eixo y será importante. Mpg input dollar mpg significa que estou recebendo esses dados mpg, mpg. Então, essa é a minha lista eixo x será o número do cilindro do cilindro e o eixo y será a quilometragem, milhas por galão. Ok. E xlab, estou dando o nível do eixo x. Recebi um cilindro numérico porque estou colocando o número de cilindros lá. E para o eixo y, estou dando o nome mielina e o limite x estou dando quatro a oito porque o número de cilindros está lendo 4-8 ou dez. Ok? Então, estou dando de quatro a oito para o limite do eixo x. E o limite do eixo y, estou dando de dez a 35. Ok? E o nome do gráfico ou o nome do gráfico de dispersão, estou dando o número cilindro, cilindro versus irracional. Meu laser Dot custou, ok. E então eu estou usando Keep dark or off para salvar a luta. Portanto, está bem claro aqui. Agora, vamos salvar esse arquivo e usar esse nome como carros vazios. Ca vai cilindar menos ok. E depois salve-o. Ok, agora vamos executar isso. Então, vamos executar esse arquivo fonte. Então, agora é bem-sucedido mais tarde. Agora, veja se o arquivo de saída deve ser espalhado, plote minha lista de produtos. Então veja o nome que demos. Recebemos o ponto PNG do gráfico de milhas. Então esse é o enredo. Ok? Então, veja, o nome da equipe do gráfico de dispersão é o número de cilindros para essa mielina e eixo x, estou costurando um cilindro numérico em que cada 45678 e eixo y é mielina, 10, 152-025-3035. Ok? E aqui com cada ponto, suponha que esse seja o ponto. Esse ponto é para o número épsilon, ou seja, quatro, porque o valor do eixo x é quatro e valor do eixo y está em torno de 21 ou 22. Então, quatro cilindros e cilindro mielogênico Frontier 14, outro ponto 4,23 ou 2023, depois 2044, vírgula 24 e depois quatro vírgulas 26, 27, assim para cerca de 30143034 vírgula quatro. Então, o número de cilindros para, e essas são as quilometragens dos carros de quatro cilindros. E vejo você logo como um ponto, x vírgula y ponto neste plano cartesiano no plano x-y bidimensional. E estamos colocando pontos como o número do cilindro quatro e meu ponto religioso de 21 pontos, ok? Da mesma forma, o eixo X seis significa número de cilindros, seis pontos esse número seis. Os carros que não tinham cilindros eram seis, tinham tantas bainhas de mielina. Essa mielina parece uma pegada, marco de 16171516 a 2021. Assim, podemos saber que os guardas de seis cilindros começam a dar menos quilometragem em comparação com os carros de quatro cilindros e chegam aos carros com cilindro de ar. São minhas lentes para esse laço. Portanto, os carros de oito cilindros estão dando a menor quantidade de mielina. Portanto, a melhor mielina é dar a Garza o número de cilindros, quatro e depois seis verdes. Com esse gráfico de dispersão, podemos chegar à conclusão de que o número de cilindros está decidindo a quilometragem do carro, quanto menor o número de cilindros no carro, maior será a mielina. Isso significa que se o número de cilindros está aumentando, a quilometragem está diminuindo. A convulsão pela quilometragem é mais seis mielina, reduzindo. O número de cilindros está chegando a oito. A mielina está ainda mais reduzida e mais baixa entre os carros de 46,8 cilindros. Então, número a, bainha de mielina. Inversamente proporcional ao número de cilindros, o cilindro, o número de cilindros no motor do carro é menor, quilometragem será maior e o número de cilindros no carro será maior, a quilometragem será menor. Ok? Então, com esse tipo de gráfico de dispersão, podemos facilmente chegar à conclusão apenas olhando para o gráfico, ok? E é um dos gráficos mais simples que você pode ver e é muito fácil analisar e obter os detalhes do próprio gráfico. Em seguida, darei o nome do arquivo como carros vazios e discutirei o gráfico de dispersão, o crepúsculo ou o colchão. Então, o que vou fazer aqui usar a função par em R. E com essa função de par podemos criar colchões semelhantes no gráfico. E como podemos fazer isso. Podemos pegar os pontos de dados do conjunto de dados de carros vazio. E em cada ritmo. Quilometragem por cilindro de deslocamento de galão. A partir desse conjunto de dados, dados de carros vazios, estou obtendo dados iguais a m pré-moldados, o que significa que estamos usando esse conjunto de dados de carros vazio. E a partir disso, estamos usando essas quatro variáveis : quatro colunas, como Espera, MPG, milhas por galão, deslocamento e número de cilindros. E coluna F4. Esses quatro parâmetros serão usados para criar gráficos, como peso , e o gráfico de dispersão será desenhado com base no peso. E minha lista, peso e deslocamento, peso e número épsilon. Da mesma forma, a mielina será obtida e, em seguida os gráficos não serão como o peso do Mileage Plus menos, deslocamento e depois o cilindro Mileage Plus. Então quilometragem versus cilindro, quilometragem versus deslocamento, quilometragem versus peso. Dessa forma, uma variável será obtida e o gráfico será desenhado em relação às três variáveis. Aqui estou dando a matriz de dispersão de carros vazios como nome. Então, primeiro, deixe-me elogiar o principal. E primeiro vou usar, vou começar com o simples. Vou tentar desenhar o MP. Minha lista era esse diagrama numérico de Epsilon que desenhamos aqui sem par. Então, o que eu faço, vou tentar desenhar uma cerveja escura usando apenas MPG e cilindro. E vamos ver qual será a saída. Ok? Então, vamos executar isso. E o nome do arquivo é esse C aqui. Te vejo. Portanto, a mesma saída. Mas aqui o que estamos vendo, estamos vendo em forma de matriz. Então, aqui está jogando MPG milhas por galão e nadando número epsilon doc. Então você pode ver aqui milhas MPG por galão e aqui o número de cilindros. Então você pode, o número épsilon que é para todos os carros de quatro cilindros ser seu 46,8. Eles estão agrupados aqui para respectivas quilometragens ou curam a mielina de quatro cilindros aqui, depois a mielite de seis cilindros, e agora é o cilindro da minha lista. Então, se você combinar esses dois, obterá esse gráfico de dispersão. Se combinarmos esses dois, obteremos esse. CEO, não estamos recebendo o mais cedo, estamos colocando esse número de cilindros na minha lista. Este gráfico que estamos obtendo, estou subindo o cilindro da minha lista. Agora estamos vendo a antipatia do eixo y. Este será o da quilometragem. Ok. E o número de cilindros sendo Sonia e a mielina é ser Sonya separadamente em forma de matriz, certo? A mesma coisa, mas em representações diferentes. Ok. Agora, deixe-me ir até o código e deixe-me comentar esta linha e depois descomentar esta linha. Agora estou usando DUF para variáveis. E deixe-me fazer isso. E agora veja no gráfico como isso está acontecendo. Então abra isso. Agora veja as quatro variáveis, peso, MPG, deslocamento e cilindro. Então aqui está o peso, o deslocamento de Majlis e o cilindro ajudando Sonya. Tudo bem. Então, esse desperdício é fino. 123 456-789-1011, 12,4 cisteína foi extraída. Ok, deixe-me planejar, na verdade. E com essas quatro coisas, então, marido matricial quatro por quatro, certo? Dessa forma, podemos usar essas cervejas para criar a matriz de plotagem para esse conjunto de dados. Então, isso criará a matriz do gráfico de dispersão que podemos usar para criar matrizes de blocos. Ok. Nos vemos na próxima palestra. 38. Encontrando média em R: Olá e bem vindo de volta. Nas próximas palestras, aprenderemos sobre estatística em R. Então, veremos quais são as funções embutidas em nossa programação que podemos usar para análise estatística em R. E isso será muito útil em nosso corpo. Isso será muito útil em aprendizado de máquina, inteligência artificial, aprendizado profundo e todas essas coisas. Portanto, as estatísticas são a principal coisa se quisermos obter informações dos dados. E a análise de artigos é fundamental para os algoritmos de aprendizado de máquina. Portanto, devemos saber quais são as análises estatísticas e os dormitórios. Então, nas próximas palestras, aprenderemos sobre essas coisas, a análise estatística em nossa programação. Então, vamos começar. Existem muitas funções embutidas por meio das quais podemos fazer análises estatísticas. E essas funções são ferramentas muito úteis e apenas uma unidade para usar o nome da função e você precisa passar o vetor de dados, pegá-lo com alguns argumentos e seu trabalho estará concluído. Portanto, é muito fácil fazer todas as análises em nossa programação. Então, agora vamos ver o que é média e como podemos calcular a média. Então também veremos o que é mediana. E então veremos mais. Então, basicamente, vamos aprender nesta palestra, média, mediana e modo. Ok, então vamos começar. Então, em primeiro lugar, o que significa? A média é calculada tomando a soma de todos os valores dividida pelo número de valores. Então, é como se fosse normal. Então você sabe como calcular a média. Eu apoio que você tenha números 12345 e queira obter a média disso. Então você fará um mais dois mais três mais quatro mais cinco dividido pelo número de valores. Então, número de setas, amarelo, 5/5, então você obterá a média. Portanto, a média é mesquinha. Média também é média é equivalente à média. Portanto, a média é a soma dos valores em um vetor, nossos dados, alguns valores nos dados divididos pelo número de dados. Ok, então deixe-me mostrar como podemos fazer isso em R. E para calcular a média, há uma função em R chamada função principal. Ok? Então, deixe-me escrever um programa para isso. Primeiro, deixe-me dizer o que significa a parte da sintaxe e depois escreveremos isso. Para mim. Usamos essa função mean e quais são as coisas que vamos pegar, pegaremos x e esse será o vetor de dados. E então será necessário outro argumento que seja igual a zero. E depois escuro. Então, o que isso fará e o que é o stream, veremos quando fizermos nossos treinos. Então é justo e, em seguida, o ponto RM é igual a falso. E é isso. Ok? Portanto, essa é a função principal básica na arte, onde x é o corte do vetor de dados e, em seguida, um automático. Então, o que é x? X é o vetor de entrada. Então, deixe-me dizer aqui, x é o vetor de entrada, que conterá os dados da data. E então nosso sonho aqui em que estamos usando o acabamento aqui é usado para retirar alguns valores de ambas as extremidades. Então, se você der um sonho igual a zero, ele não reduzirá nenhum valor. Mas se você der um, ele eliminará um valor de cada lado. Então é se você deseja eliminar valores de ambas as extremidades, ambas as extremidades desse vetor x. Ok, veremos e entenderemos melhor. E o Dark Adam fará o que ele fará. Isso apenas removerá os valores que faltam. Portanto, é para remover os valores que faltam. Então x é o vetor de entrada, vetor de dados. Trim são os valores de seca dos exércitos extremistas e do NMDA. E remova isso. Valores ausentes. Suponha que você tenha um conjunto de dados e faltem valores maiores. Então, se você quiser remover esses valores, você pode usar qualquer um que não seja igual a verdadeiro. Então, quando essa imagem acabou sendo chamada de falsa, significa que ela não removerá as cargas que não estão contendo nenhuma. Isso não removerá os índices que não têm valores. Quando você usa isso como verdadeiro, ele removerá todos os valores ausentes. Ok, entendi. Você pode dizer que é verdadeiro ou falso com base em sua exigência. Então, deixe-me comentar isso. Agora, o que faremos criar um vetor simples. Então, o que estou fazendo aqui, vou criar um retângulo que é vetor de entrada. Ok? Então, vou criar um vetor de entrada. Então, o que eu vou fazer, vou usar esses dados. Suponha um grande como vetor de entrada, ou simplesmente um enorme. E eu vou, eu vou dar alguns valores aleatórios aqui. Ok? Suponha que eu tenha 789, 671-250-6304 a 405-80-9907, menos dois, -34, 32 -21, todos esses, todos os moradores. Portanto, temos nosso vetor de entrada que contém os valores. Ok? E agora, suponha que eu queira encontrar a maldade. Então, o que eu posso fazer simplesmente usar suponha a média de a para criar uma variável aqui. Significa sublinhado a, isso significa média de a. Ok? E eu simplesmente usarei a função média e passarei esta a, vou passar o EBITDA aqui. Então, o que essa função média fará, ela pegará isso, fez esse vetor como entrada e calculará a média desses valores. Então, deixe-me dizer sublinhado. Então, isso nos dará a média desses valores. Ok? Deixe-me fazer isso. Aqui. Estamos obtendo o valor médio de 33,7, 8571. Então, essa é a média desses valores e a média desses valores. Ok? Então é assim que podemos encontrá-los. Média do vetor de entrada a partir da média dos dados de entrada. Portanto, a média desses dados é 33,78. Ok? Então, a próxima coisa que vamos aprender é como aplicar e deduzir átomos. Então, suponha que eu crie outro vetor aqui. Deixe-me colocar este terminal ou console à esquerda, que será EG. Então eu vou até as tintas e vou colocar isso à direita para que possamos ver isso aqui. Ok. Então, a maldade está aqui, ok. Agora, o que eu vou fazer, eu vou, desculpe. Vamos remover os valores que faltam. Ok? Então, suponha que eu tenha o mesmo vetor com alguns valores ausentes, ok? Então, esses são os valores que faltam. Suponha que um esteja aqui. Ok? Portanto, para eles, não temos Beta, se NA não se aplica. Ok? Então, como remover esses valores ausentes? Então, podemos simplesmente, se eu usar mean, sublinhar um, desculpe. E vou usar a média ou como obtemos o resultado. Vamos ver. Então, deixe-me. Veja, não estamos vendo nenhum resultado porque ele tem os valores de NA. Ok? Agora, se eu colocar a média de uma vírgula e escurecê-las como verdadeiras, o que acontecerá? Isso nos dará, vamos ver. Desculpe, eu usei e isso está errado. Então, deixe-me fazer isso de novo. Veja que estamos obtendo o valor agora. Ok? Se eu remover qualquer um que esteja alterado daqui e se eu o executar novamente, o que acontecerá? Para ver? Veja, não estamos recebendo nenhum. Ok? Então, se você quiser obter a média desse vetor diminuindo o valor de NA, então você tem que usar qualquer um que o outono seja chamado de verdadeiro e isso lhe dará a aprovação. Então, a próxima coisa que eu vou fazer usar a função trim, então usando a opção Trim aqui, ok? Então, o que eu fiz foi criar um vetor C, que tem ReLU, valores simples, 1234567. Ok? E se eu executar isso e descobrir a média disso , obterei algum valor médio. Isso é quatro. Ok? Então, e como estamos obtendo quatro, porque um +2, 361-015-2120 8/7 é igual a quatro. Essa é a média simples. Ok? Agora, o que eu vou fazer simplesmente por sete aqui. Então. Vou colocar um aqui, coloco quatro aqui e três aqui. Então, simplesmente, estou apenas colocando os valores em um lugar aleatório. Ok? Portanto, essa não é uma matriz ordenada, certo? Então, se eu descobrir o significado disso, novamente, vou pegar a foto. Ok, temos o mesmo valor, certo? Se eu perder o acabamento igual a zero, o que acontecerá? Vamos ver. Vamos pegar os quatro, certo? Agora, se eu usar 0,13 igual a 0,1, o que ele fará é classificar essa Addie. Ele classificará isso em ordem crescente e, em seguida, eliminará aquele em que um valor de cada lado. Então, vamos ver o que significa que estamos chegando aqui. Estamos obtendo Y porque cairá 1,7 e o resto do valor para dois mais 244 mais 36 mais 399 mais 514, e depois mais 62020/5 é quatro, certo? Se eu sonhar com Coulter com o que ela fará, isso deixará as duas Alice do lado dele. E, novamente, estamos recebendo. Então, deixe-me colocar isso como o original, o classificado. Então, vou apenas comentar aqui e colocar 123.456,7. Então, o que isso igual a zero a 0,2 fará, removerá 1,2 desse lado e 67 desse lado. Então, o que vai levar? 345. Portanto, ele recairá com o C igual a três vírgula quatro vírgula cinco. Então, sete mais três mais 47 mais 51212 dividido por três quartos. Então é aí que estamos recebendo quatro novamente. O que acontecerá se eu colocar dez? Chamamos 2.3 e executamos isso. Ele classificará e removerá três valores de cada lado. E, novamente, obteremos y, chamamos se removermos 123 deste lado e cinco sextos de n deste lado, novamente, obteremos que 41 dos quatro ficarão à esquerda, certo? Restarão apenas quatro e a média de quatro será quatro. Ok? Então é assim que funciona. Deixe-me, vou colocar mais alguns valores aqui, 910910 aqui. E vamos executar isso. Veja agora que estamos obtendo a média como phi y porque ela removerá três valores, 1.234,78, 7910 desta pesquisa. Então, o que nos resta , resta com 45,6. Então, 4561, qual será a média? Serão 15, certo? Alguns deles para 5 s por 15/3. Isso significa número de valores três agora, então a pegada dividida por três, obtemos, obteremos cinco. Então é assim que podemos usar a função trim. Então, primeiro, o que ele vai fazer é classificar isso em um resort, esse vetor, e vai fazer com que seja assim. E então removerá três que eu perco do lado leste, do, dos três primeiros e dos três finais. E o restante lhe dará a média. Ok, então é assim que esse sonho funciona. Ok? Então, se você quiser remover os valores do início e do fim, tanto do final quanto do final, queremos encontrar a média, ou você pode usar o corte e o valor apenas Texas 0.1. Você não quer um meio sem fio do lado dele. 0,2 significa duas letras minhas, digamos 0,3 min, três valores de cada lado. Ok? Então é assim que funciona. E se você quiser remover os valores que faltam, você pode usar qualquer ponto árabe igual a verdadeiro. Ele removerá esses valores de NA do conjunto e fornecerá os valores restantes e encontrará a média desses valores restantes. Ok? Então é assim que funciona o nn dot autumn and trim. vemos na próxima palestra onde aprenderemos sobre mediana e como encontrar a mediana na arte. 39. Encontrando mediana e modo em R: Olá e bem vindo de volta. Nesta palestra, veremos como podemos calcular a mediana dos dados, ok? Então, como podemos encontrar o valor médio? Então, primeiro de tudo, saberemos qual é a mediana. Portanto, a mediana é o valor médio em uma série de dados. Então, suponha que tenhamos essa série de dados. Então, queremos encontrar o valor médio dessa série de dados. Então, vamos começar. Ok, então medial, o mais relevante, o valor que vem no meio, não é como eu, que é o valor médio da série de dados. Mas essa é a média, se plotarmos esses dados em alguns x , qual valor virá no meio? Ou seja, o valor que vamos encontrar, a mediana. Portanto, a mediana é o valor médio em um conjunto de dados, tudo bem. E para encontrar a mediana, usamos a função mediana em r. Então, usaremos a função mediana na arte. Então, não eu, DNA, é mediano. Então, vamos usar essa função, mediana, ok? Use a mediana DIN para encontrar a mediana. O conjunto de dados. Portanto, esse é o conjunto de dados que criei e essa é a função mediana. E quais são os valores que isso exigirá. Ele pegará o E e o vetor de entrada. E então, qualquer chamado sombrio do outono será falso ou verdadeiro, o que você quiser, você pode dar. Ok? Se quisermos remover valores, você pode colocar o ponto Adam. Se você quiser remover os valores N A, você pode colocá-los em Aram iguais a false. Vimos como usar o NADH na palestra anterior, onde discutimos sobre a média. Portanto, com a mesma funcionalidade e também com qualquer item de dados. De acordo com false , isso não removerá os valores ausentes. E se n não for igual a verdadeiro, ele removerá os valores ausentes. Ok? Agora, se eu executar isso, o que quisermos , eu obterei a mediana dessa série. Vou colocar sua mediana sublinhada a e atribuir essa mediana a isso. Mas **** entendeu bem essa variável, a idade média do sublinhado. Então, deixe-me imprimir isso. Então, se executarmos isso, obteremos a mediana como um valor médio desses dados. A série Seizes é nove, certo? Suponha que eu use, vou colocar mais alguns valores aleatórios como 6745, 2245, 4722, 9979. E agora, se eu tentar encontrar, obteremos 33. Ok? Da mesma forma, ele tentará encontrar o valor médio do conjunto de dados. Eu vou fazer isso de graça e isso vai dar 44, ok? Portanto, ele tentará descobrir se o valor médio do conjunto de dados está bem. É assim que encontramos a mediana de uma série de dados, nosso conjunto de dados. Agora, a próxima coisa é que vamos aprender que é encontrar o modo. Ok? Então, agora vamos usar para tentar encontrar o modo. O que aprendemos aqui não encontramos a mediana. Então, agora aprenderemos como descobrir mais. Então, qual é a moda? Modo é o valor que tem o maior número de álcalis no centro da cidade. Suponha que tenhamos isso. Deixe-me copiar isso. E deixe-me criar o conjunto de dados para esse problema de encontrar mais problemas, ok? E este é o nosso conjunto de dados onde temos suporte de que 45, 45 está ocorrendo muitas vezes, então 45 do que o seu, vou remover esse pseudo 45, e então obterei para diversos. Então t Aqui, 45 está se repetindo 1234 vezes, certo? Suporte. Portanto, esse modo de descoberta significa mod Easter. Número de encontrar o número máximo de ocorrências ou por valor, certo? Portanto, modo é o valor que tem maior número de documentos em nosso conjunto de dados. Ao contrário do modo médio e mediano, pode ter números e caracteres. Então, primeiro veremos como encontrar o modo desse conjunto de dados numérico. E então diremos que tente encontrar também o conjunto de dados do personagem. Então, se eu usar mod porque não há uma função embutida para encontrar mais em R. Ok? Então, o que faremos é criar nossa própria função personalizada para encontrar o número máximo de ocorrência do valor de dados em um conjunto de dados. Ok, então, para isso, o que vou fazer, vou criar uma função. Então, o que eu posso aqui, você receberá pela quantia, ok? Então, vou criar o modo de função de região, ok? E o que eu vou fazer é dar esse nome como eles fizeram. Vamos mais. Ok. E para isso, o que vou fazer é usar a função e depois passar isso. Ok, então qual é o conjunto de dados? Ok? E abaixo disso, o que vou usar, encontrar uma idade de sublinhado única e única. Um valor tão único é o que eu quero encontrar. Então, para isso, o que vou usar, vou usar uma função única que está na arte. E o que eu vou fazer é passar isso aqui. Portanto, essa função exclusiva me dará o valor exclusivo neste conjunto de dados. Ok? Então, deixe-me simplesmente levar isso para a escola. Eles sabem o que eu vou fazer. Vou simplesmente usar mais do que isso é chamado de a. E o que eu vou fazer é chamar isso de “ Modo Concluído” de falso e “ok”, então eu vou passar um líquido sobre isso. Ok? Então, deixe-me elogiar isso e eu preciso colocar no modo, modo, e isso é chamado de a. Ok, então deixe-me executar isso novamente. Então veja aqui o que estou recebendo agora. Estou recebendo o mesmo conjunto de dados, certo? Agora. O que eu preciso fazer, eu preciso fazer alguns cálculos aqui. Preciso escrever alguma lógica aqui para encontrar o valor exclusivo do número de ocorrência de um determinado. Descobriremos assim o número 45, o número mais frequente nesta série. Ok? Então, para isso, o que vou fazer usar um sublinhado exclusivo a. E o que vou aplicar aqui adoro jogar rich, dark max. E então eu vou usar tablet, tablet, tablet. E então o que vou usar é a função match. E o que eu vou fazer é usar macarrão, um coma, único e faz um bom dia. Ok. E agora, se eu receber a devolução, se eu executar isso, vou pegar o modo, ok? Sim, 45, estou terminando de digitalizar 45. Então é assim que podemos. Para criar uma função definida pelo usuário para o modo de busca. Então, aqui estamos criando nossa própria função, retorne mais sublinhado, que é pegar esse vetor como vetor de entrada ou os dados de entrada que estamos fornecendo aos dados aqui. Então, isso acontecerá, esse conjunto de dados entrará nessa função. E aqui o que estou fazendo, estou criando outro valioso sublinhado exclusivo j. E aqui estou usando a função embutida em R que é única, única. Portanto, isso proporcionará um bem-estar único. E então, o que estou usando para essa descoberta, esse sublinhado exclusivo a, hum, você não o atribuiu ao ponto máximo, que é o, que está ocorrendo o número máximo de vezes. Então, estou combinando esse e, esse conjunto de dados original com esse conjunto de dados exclusivo e descobrindo qual número está acontecendo na maioria das vezes e estou obtendo o resultado. Então, aqui estou criando outro modo de sublinhado j, e estou apenas chamando essa função e ela nos dará o maior número de ocorrências, número mais ocorrido desse conjunto de dados. Isso é 45. Se eu suponho que um bom 76, na maioria das vezes. E se eu tentar executar isso, o que acontecerá? Vamos ver. Agora estamos recebendo 76 como o número mais difícil. Dessa forma, podemos usar isso, podemos desfazer a mesma coisa com o texto do seu suporte de MBA. Quero criar um caractere sublinhado em algum conjunto de dados. E aqui o que vou fazer, vou colocar alguns valores de string. Suponha que eu coloque o nome do país como Índia, EUA, África do Sul, Austrália assim. E o que vou fazer, vou apoiar isso. Eles venceram essa Austrália algumas vezes. Ok. Repita essa Austrália duas vezes, ok. E repita esse fingimento duas vezes. Ok. Então agora este é o, este é o conjunto de dados em que escrevemos duas vezes e a Austrália duas vezes. Ok? E eu quero desligar o modo. Isso se chama atraso. Então, o que eu posso fazer é chamar esse modo de retorno de sublinhado. E eu posso simplesmente colocar esse conjunto de dados aqui no modo de escrita de funções, ok? E se eu imprimir isso, ficarei com a Austrália como resultado. Então, deixe-me fazer isso. Ok, então eu esqueci de colocar C aqui, erro tolo que eu cometi. Então, deixe-me colocar isso aqui. Ok. Então, vamos parar , a coisa está bem. Então, estávamos melhorando porque não colocamos C aqui. É aí que você está entrando. E eu estava tão ignorando isso que não vi isso. Ok. Sinto muito por isso. Deixe-me fazer isso de novo e ver você. Agora estamos colocando a Austrália no digital, então as hostilidades se reportam duas vezes e a Grã-Bretanha duas vezes. Então, vamos pegar a Austrália. Deixe-me tentar algo. Como eu disse, a Austrália provavelmente também envia tudo duas vezes. Ambas as coisas foram duas vezes. Deixe-me ver o que temos. Nós temos a Grã-Bretanha. Então, quando você recebe as primeiras doações de ações primeiro, tudo bem, então finja que virá primeiro e depois a Austrália. E suponha que produza Índia também produza. Duas vezes vemos o que obtemos. Em C, temos a Índia, como k. E suponha que a saída seja, finja primeiro, Curtis. E eu o coloquei aqui. E se eu executar isso, vamos ver, vamos pegar a Grã-Bretanha. Então, qual é o primeiro documento que receberá a maior preferência? Portanto, embora o meridiano, Índia e a Austrália estejam ocorrendo duas vezes, isso está nos dando o resultado, pois a Grã-Bretanha que chamamos de fingir que é flush TO hockey. E se eu colocar a Austrália, deixe-me colocar a Austrália novamente. E se eu executar isso agora, chegaremos à Austrália e, de alguma forma , nos apegaremos a eles. Dessa forma, podemos descobrir o modo de nossos dados mais a partir de nossos dados. A maior parte do valor de marketing do nosso conjunto de dados. Nós nos comemos. Conjunto de dados de caracteres ou conjunto de dados numéricos. Ok, então podemos criar nossa própria função que eu não modifiquei, onde perdemos uma função única e então aludiremos qual ponto máximo. E vamos tabular isso e vamos comparar e encontrar o número máximo de ocorrências de um determinado valor. Ok, então, dessa forma, podemos usar mais. Então, vimos encontro na palestra anterior e mediana e modo nesta palestra. Então, agora sabemos como fazer o básico dessas coisas, média, mediana e modo em nossa programação, mesmo que Morty não tenha uma função embutida. Para saber mais, criamos nossa própria função de usuário para encontrar o modo de um conjunto de dados. Espero que você tenha que entender como fazer isso. Nos vemos na próxima palestra. 40. O que é regressão linear: Olá e bem vindo de volta. Então, nas palestras anteriores, vimos como podemos fazer análises estatísticas em R para aprendizado de máquina ou ciência de dados. Então, essas são as coisas que são muito úteis e devemos conhecer todas essas estatísticas para prosseguir em aprendizado de máquina e inteligência artificial ou aprendizado profundo, o que você quiser aprender mais. Neste curso, estamos aprendendo ciência de dados e aprendizado de máquina por meio de nossa programação. Portanto, temos média, mediana e modo do gramado, onde vimos essa função inversa para encontrar a média e a mediana, enquanto não tem função embutida para encontrar o modo. Então, o que fizemos foi criar uma função definida pelo usuário criar fontes personalizadas e, para encontrá-las, calculá-las mais. E então calculamos o modo que fizemos na aula anterior. Então você pode ir e ver isso se ainda não viu. Então, o que mais? Agora, vamos aprender um conceito muito importante que é chamado de regressão linear. A regressão linear é muito importante e é amplamente usada em aprendizado de máquina e inteligência artificial. Então, se você quiser prosseguir, você precisa saber o que é regressão linear e como você pode usá-la para prever. Portanto, a regressão linear é um modelo de aprendizado de máquina. Com isso, podemos prever os valores com base em, suponha que tenhamos dados, suponha que tenhamos dados aqui, altura e peso, onde temos o peso da proporção. E com base no peso da proporção, estamos calculando a altura ou a largura e a altura. Queremos calcular o peso da proporção. Então, qualquer coisa que você queira estabelecer a relação entre essas duas variáveis, altura e peso. Podemos fazer isso e prever, suponha que esses sejam os dados de amostra que temos, que coletamos por meio de nossos experimentos. Agora temos a altura e o peso dos dados. E com base nesses dados, supomos que temos essas discrepâncias de até 19 conjuntos de dados aqui. E com base nesse conjunto de dados, queremos treinar nosso modelo, modelo de aprendizado de máquina, em modelo de regressão linear. E suponha que eu queira atingir uma nova altura de uma pessoa, darei uma nova alta tecnologia que não está presente nesta coluna e quero prever o peso esperado dessa pessoa. Então, o que eu faço treinar meu modelo com esses dados. E sempre que eu forneço a nova altura de uma pessoa, o sistema prediz o peso da pessoa, o peso esperado da pessoa com base no cálculo e funciona. Dessa forma, podemos prever o peso de uma pessoa com base em sua altura. Então, vamos treinar com esses dados e quaisquer dados, quaisquer novos dados que possamos dar altura. E vai prever o peso esperado dessa pessoa. Ok, então é isso que vamos fazer por meio de regressão linear. Então, o que é regressão linear? A regressão linear é método estatístico tático usado em finanças, investimentos ou qualquer outra disciplina que tenta determinar a força e o caráter da relação entre uma variável dependente, geralmente denotada por Y, e uma série de outras variáveis conhecidas como variável independente. Então, o que você entendeu? Esse modelo, se algum método para encontrar a relação entre duas variáveis, uma é independente, Hannah, que é dependente. Então, o que depende do que é independente? Suponha que, com base na altura, eu queira encontrar o peso da porção aqui, a altura, que estamos fornecendo como entrada, será chamada de variáveis independentes. Então, aqui a altura será uma variável independente e o peso será a variável dependente porque, com base na altura, estamos prevendo o peso. Então, com base na altura, a entrada que temos como altura, isso se baseará no valor que queremos prever. Com base na altura que queremos prever. altura será a variável independente e o peso será a variável dependente. Porque dependendo da altura, estamos prevendo que o peso, a altura passarão por uma variável independente, e o peso será a variável dependente. Ok? Então você tem que saber o que é variável dependente e independente, certo? Portanto, a variável dependente é denotada por Y. E as variáveis independentes são a série de outras variáveis. Então, haverá uma folha. Suponha que você tenha uma empresa e queira prever a receita da empresa. Portanto, a receita da empresa pode ser apenas uma variável. Para que possamos prever com base em várias outras coisas, como o desempenho de sua empresa , o que é apropriado, qual é a perda? Ei, quantos clientes você tem, quantos clientes você perdeu e como, como você está dando Salish às nossas implicações. Então, todo esse componente salarial, lucro, perda, condição de mercado, todas essas são as variáveis independentes que definirão sua receita. Portanto, a receita aqui é uma variável dependente e todas as outras coisas que afetarão sua receita são chamadas de variáveis dependentes. Então, pode haver muitas variáveis dependentes e haverá apenas uma variável independente que vamos prever. Ok? Portanto, a análise de regressão é um processo estatístico configurado para estimar a relação entre uma variável dependente, geralmente chamada de resultados. Então, o resultado que vamos obter é chamado de variável dependente. E uma ou mais variáveis independentes. Portanto, uma ou mais variáveis independentes implicam salário, lucro, perda, condição de mercado, todas essas coisas geralmente chamadas preditores, covariáveis ou características. Portanto, esses também são chamados de recursos com base nos recursos que vamos prever algum valor. Vou estourar uma coisa em particular, ok? E esses também são chamados de preditores porque nos ajudarão na receita ou no peso de uma pessoa. A forma mais comum de análise de regressão, análise é a regressão linear. Ok? Então, aqui está uma análise de regressão múltipla, como múltipla, ou eles enviariam uma análise de regressão linear simples, regressão linear, todas essas coisas. Ok? Portanto, na regressão linear que fazemos, descobrimos que o pesquisador descobre que as linhas são combinações lineares mais complexas que melhor se ajustam aos dados de acordo com o critério matemático específico. Ok, então o que significa mar? Esses são os dados de peso de Nick no eixo x e Altura no eixo y. Ok? Então, com base na altura, vamos prever o peso da proporção. Então, aqui, se você ver esses são os pontos. Esses pontos são como 64, 64, R1, 77 kg, 177, altura. O peso é de 64 pontos, certo? Então, esse ponto, esses são os pontos de dados que temos. Então, o que fazemos com a regressão linear, tentamos encontrar uma linha aqui. Tente encontrar aqui uma linha que represente os dados, que os preparará. Dados de resultados, como suporte, você encontra aqui qualquer ponto, como 65. E quando você traça uma linha aqui, ela cruza ali, você ganha um ponto e aumenta esse peso. Você obterá que a altura é melhor do que esse valor de altura y, você obterá o valor X, certo? Portanto, esse ponto fornecerá a combinação x e y, ou dados de altura e largura, certo? Então, quando você traça uma linha aqui, você obterá aquela. Suponha que recebamos 65,8 ou estamos dando 162 como o valor mais alto. Então, quando chegarmos aqui, obteremos o valor de x aqui. Ou seja, esse será o peso da pessoa. Então, vamos tentar encontrar uma linha que represente corretamente a linha, ok? E dados, certo? Dados de acordo com os critérios matemáticos específicos. Ok? Então, regressão linear, essas duas variáveis ou por meio de uma equação. Na regressão linear, essas duas variáveis, variáveis dependentes e independentes, desgastarão a potência expoente de ambos os níveis digitais em um. Porque o que vamos usar nessa equação linear simples escreva y é igual a m x mais c. Y é igual a m x mais c, onde m é a inclinação e o valor constante, certo? Então, é uma constante, certo? Então, aqui m x m é inclinação. Então, com base nisso, podemos desenhar qualquer linha, certo? Então essa é a equação linear simples, certo? equação em linha reta y é igual a mx mais c. Então, com base nesses X e Y, tentamos encontrar essa linha que realmente representará esses dados de dados, altura e peso. E como eles são chamados de potência é um, y ao quadrado m x mais c. A potência de x e y é um. É chamada de equação de linha simples. E se a potência deles não for igual a um, formará um carro. Não será uma linha reta. Será uma linha curva, como função sigmóide ou algo assim, certo? Então, com base nessa equação, tentarei descobrir, ok, então y é a variável de resposta, certo? Como o valor y, vamos prever com base no valor x. E x é o valor preditor, valor ou variável independente. A e b são chamados de coeficientes. Então, quando realizarmos a regressão linear, tentaremos descobrir isso. valores A e b, Os valores A e b, chamados de coeficientes, são coeficientes de regressão. E com base nesses dois valores, a e b, encontramos o valor y, ok? E com isso, obteremos esses pontos, esses pontos na linha. E quando desenhamos uma linha, unir esses pontos obterá uma linha reta ou uma diminuição na linha. E essa linha fornecerá a verdadeira previsão dos dados. Ok? Onde é usado? Bem, usamos a regressão linear. Portanto, a análise de regressão é usada principalmente para duas forças conceituais distintas. A análise é amplamente usada para previsão ou previsão. Suponha que tenhamos dados de altura e peso. Queremos aumentar a altura. Queremos prever a altura de uma pessoa lá. Podemos usar nossa previsão. Suponha que amanhã chova ou não, casos verdadeiros ou falsos. Ok? Então, esse tipo de previsão que podemos fazer, como se o tempo fosse como um dia ensolarado. Vou sair em um dia ensolarado. Não vai chover. Previsão, podemos fazer isso na situação de previsão e previsão, usamos a regressão linear no aprendizado de máquina. E a segunda é que a análise rigorosa da situação pode ser usada para que o relacionamento casual entre as variáveis independentes e dependentes ajude você quando você tem duas variáveis dependente e independente, você deseja descobrir como elas estão relacionadas. Eles são, podemos usar essa regressão linear para encontrar a relação entre a variável dependente e a independente. Então, agora, como estabelecer a regressão ou regressão linear. Exemplo simples que vamos fazer em nossas mãos, pôr do sol, que prediz o peso de uma pessoa com base na altura. Portanto, se soubermos a altura de uma pessoa, podemos prever o peso com essa análise de regressão linear. Então, para fazer isso, precisamos ter uma relação entre altura e peso de uma pessoa e como fazemos isso, porque temos a altura e a largura dos dados aqui que vamos usar em nosso exemplo. Então, o que eu faço primeiro coletar os dados para os quais queremos estabelecer esse relacionamento. Então, teremos esses dados e, em seguida, faremos o que faremos quando tivermos os dados. A verdade é que, uma vez que tenhamos os dados, realizaremos análise exploratória de dados para limpar os dados se faltarem alguns valores, como podemos remover, o que, como podemos sentir esses dados. Então, esse tipo de coisa que fazemos na vida real. Mas aqui, o que faremos, teremos classificado muitos dados de personagens aqui. Portanto, sabemos que não devemos fazer todo esse tipo de coisa que veremos na última parte do curso. Mas, por enquanto, aqui temos os dados muito limpos. Então, o que faremos, faremos isso. Usaremos a função lm e tentaremos estabelecer a relação entre altura e peso. Altura e largura, y e x, certo? Altura e peso tentarão funcionar. O locador tentará criar um modelo de regressão linear usando a função lm. função Lm é a função inversa em R que fará todo o cálculo matemático em segundo plano. E isso nos dará a relação entre x e y. Escreva y e x são elevados molhados. Isso criará a verdadeira essência da função IF. E quando obtemos, quando usamos o resumo dessa essência real, se podemos encontrar os coeficientes a e b e como eles estão relacionados. Então, com base nisso, podemos traçar a linha regular de insulina. E também podemos prever o peso de uma pessoa. Você não previu a função. Existe outra função chamada predicar, qual usaremos essa relação que é a função lm. Ok, então ele usará a regressão linear, nosso relacionamento que estabelecemos nesta etapa. E ele usará esses valores x e y e essa relação e tentará traçar a linha de regressão para nós. Traçaremos a linha de regressão aqui, mas aqui com a função de previsão. E a função de previsão usará internamente aquela função ou relacionamento que obtemos por meio do modelo de regressão linear. E ele usará esse modelo para prever a altura com base no peso. Então, veremos como podemos fazer isso na próxima palestra. Então, espero que você tenha entendido o que é regressão linear. A regressão linear é algo como apoiar você. Temos os pontos aqui e queremos prever com base nos novos dados. Queremos prever que, com base na altura, eu quero, suponho, com base na altura de 230, qual será o peso que eu quero encontrar? Então, aqui, se tivermos apenas os pontos de dados, não podemos fazer isso. Então, o que o modelo de regressão linear fará? Isso criará uma linha reta que realmente representará esses pontos de dados. Então, será feito até 30 se você desenhar uma linha aqui e aqui, o ponto de interseção aqui, isso lhe dará algo como qual será a altura dessa pessoa. Então, ele lhe dará uma linha de regressão. Com base nisso, você pode prever o valor preditor de R, prever o peso de uma pessoa com base na altura. Ok? Então nos vemos na próxima palestra. 41. Previsão usando modelo de regressão linear: Olá e bem vindo de volta. Então, na aula anterior, aprendemos o que é regressão e o que aprendemos, o que é a regressão linear e como podemos usá-la e onde ela está. Você está certo. Então esse é o sistema prático. E aqui tentaremos escrever nosso código para implementar regressão linear simples, onde usaremos um dos dois vetores, x e y, onde x contém o peso das porções. X cada um contendo a altura da altura do paciente ou a altura parcial de poucas pessoas, ok? E então y conterá o peso. Então x é altura e y contém o peso correspondente a esse x. Ok? Então, com base em nenhuma altura construída sobre o x, queremos encontrar o y, certo? Então esse é o nosso conjunto de dados, certo? Então, com base em X, na altura de uma pessoa, queremos prever a altura de um saudita parcial feito na altura. Queremos prever o peso da pessoa, certo? Então, com base em x, queremos prever o y, e é aqui que estamos considerando o porquê de outro peso. Então x é altura e peso. E é muito simples estabelecer a relação entre x e y em R. E como R tem oh, função lm, função lm é função de regressão linear ou modelo linear. função Lm criará essa relação entre x e y. Então, aqui a primeira variável, os primeiros dados vetoriais de dados que definiremos aqui, que são as variáveis dependentes. É por isso que queremos prever com base no x. Então, quando escrevemos assim, significa que, com base no x, vamos prever y. Então y não é o valor preditivo e x é o preditor. X é a variável independente e y é a variável dependente. Y. Y é dependente porque o valor de y depende do X fornecido, certo? Então, qualquer que seja o valor de x que forneça com base nisso, nosso modelo preverá o valor y, seja, o peso, certo? Então, forneceremos X que é a altura da proporção. E com base nisso, ele vai prever a variável dependente Y, que é peso e altura. Vamos prever o peso da proporção. Portanto, essa função lm é simples, não vamos fazer as contas de fundo porque função lm a implementará, encontrará o coeficiente e tudo que estabelecerá essa relação. Mas em R, como estamos usando in vitro em bibliotecas construídas da função lm, ele criará automaticamente a relação entre x e y. E com base nisso, podemos prever. Então, a primeira coisa, o primeiro passo é tentar estabelecer a relação linear entre x e y, ok? Portanto, o preditor estará aqui ou a variável dependente estará aqui. E essa é a variável independente. Então, com base na altura, vamos prever x. Por que isso é, espere até a porção. Então, aqui estou simplesmente dando um nome de arquivo, W, altura, peso, um ponto PNG, qualquer arquivo. Deixe-me, você pode dar a eles aqui o que estou fazendo. Estou apenas representando valores de y, x, y, valores de x no plano xy. E eu estou dando a ele uma cor azul. Você pode dar verde. E podemos escrever aqui a altura, o peso das aulas. Se você pode imprimir as lições, a regressão, o que quiser, você pode colocar aqui, ok, e então eu estou usando a linha AB. Cada linha criará a linha de regressão, mas estou fornecendo o LM. Ok? E então, com isso, veremos como podemos mudar e o que é isso? É como haha, como você quer colocar os pontos de dados no gráfico. E então, no eixo x, gaiola de espera e eixo y, altura em centímetros. Ok? Então é assim que vamos traçar isso. E então o que estou fazendo aqui. Eu fornecerei 170 centímetros de alto toque. Então, aqui estou fornecendo X igual a 170 centímetros. E com base nesse valor de x, eu quero prever o peso previsto da pessoa Y. Então, X eu estou fornecendo aqui. Então, estou criando um DataFrame e estou plotando x igual a 170. Ou seja, estou dando a essa variável o nome de uma nova borda, nova altura. Ok? E então, o que estou fazendo simplesmente prever um museu, a função de previsão, prever e estou usando essa relação que estabelecemos. E eu estou fornecendo. A variável independente que é x. Então esse valor de x está aqui. Novo molhado. Estou fornecendo um novo, mas é um anos 70, um fornecendo o que estou desenhando x aqui e quero prever o Y. Então, quando executarmos isso, obteremos o valor y. Então, para 170 centímetros de altura, qual será o peso da pessoa que vai prever com base na relação que estabelecemos no modelo linear, modelo de regressão linear. Então, deixe-me executar isso e ver a saída z. Saída que estamos obtendo como 67,33. Então, para 170 centímetros, a altura de uma pessoa é ter a altura de um centímetro de 70. Nosso sistema está prevendo que ele deve ter o topo máximo de 67,33. CEO. Se você ver 170 , será sobre isso. Ok, eu vejo 167. É. Nosso sistema está prevendo para um, 70s, 67. Ok? Então, ele fará o cálculo matemático dentro da lição anterior estabelecida e concluímos que, com base nesse modelo, aquele modelo de regressão linear que criamos, ele preverá o peso da pessoa que está chegando por volta de 67,33. Deixe-me mostrar o gráfico. Bem, então este é o gráfico que imprimimos aqui. Certifique-se de ver aqui esses pontos, os pontos de dados estão vindo em verde porque fornecemos aqui em verde. Se eu fizer com que seja lido, os pontos de dados serão convertidos em certo, certo. Ok, então deixe-me abrir o arquivo novamente. Os pontos de dados estão em vermelho. E mais uma coisa que eu queria te dizer, veja, esse valor de CX definirá se eu fizer com que ele suporte 2,5 e se eu executá-lo, os pontos de dados serão maiores. Ok? Então, veja bem, agora os pontos de dados estão chegando em uma forma maior. Ok? Dessa forma, esse é o valor de x para aumentar ou diminuir os lados dos pontos de dados. Ok? E essa peça aqui, cisteína, deixe-me mudar para 26 e ver qual é o impacto da votação. Agora está vindo assim. Então, é basicamente assim que você deseja colocar seus dados. Então agora está chegando agora. Maneira retangular, reta. Se eu colocá-lo no projeto, ele virá em um diamante igual. Então, é basicamente assim que você quer colocar sua agulha, como você quer fazer com que ela tenha uma cor sólida. Então, basicamente, o valor do PC mudará a forma dos pontos de dados, certo? Retrato de cisteína, ela virá em círculos mais ou menos circulares. Ok? Então, agora e xlab é o que colocamos no eixo x e o nome no eixo x e depois na altura do eixo y. Então, essa é a altura e esse peso da borda. E isso é o principal que, se tivermos usado, gerencie altura, peso e zíper. Então, isso virá aqui e verá, sim, essa é a linha de regressão que nosso modelo desenhou. Então isso vai te dar. Se você quiser prever um valor, basta colocar aqui 67 e isso fornecerá esse sistema de valores que predirá. Então veja seu processo T7, a altura é, deixe-me aprofundar um pouco mais na coisa. Então, procurei 67, a altura é uma. Tal T7. Eu não queria prepará-lo. E vamos ver o que nosso sistema está prevendo para 150, ok? Essa é minha porta 165. Então você pode ver esse T7, este também. Mas nosso sistema está prevendo cinco. Portanto, é semelhante a 67,25, 1321 a T7. E nosso sistema está prevendo um que colocará o posto de controle e C. Então, isso é como brincar com o código. Se eu derramar isso, vamos ver o que obtemos. C, obtemos 65,44. Em nosso conjunto de dados, o que é isso? Chegando por volta dos 67. Então é assim que nosso sistema está prevendo. É muito preciso, ok? E isso diz a linha de regressão que ele desenhou. Então, aqui estamos prevendo, ok? A próxima coisa que podemos fazer é definir meu estado ideal. Ok? O que eu queria te dizer mais que podemos tirar alguém aula e veremos o que isso nos dá. Então, se eu colocar peso apenas nisso, CEO, devemos obter todos os resíduos como mínimo, mediana de um quartil, valores máximos do terceiro quartil e, em seguida, os valores do coeficiente de cópia m e c m e c m x mais c m e c estão saindo como interceptação aqui. E aí está chegando esse valor t e o valor de P está vindo assim. Então, essas são as coisas, essas são a cooperação que é calculada pela função lm. E com base nisso, está prevendo o clima. E com base nisso, está testando a linha celular específica. E os vários valores de R quadrado do CEO estão chegando assim. O R-quadrado ajustado está vindo assim. E as estatísticas F estão chegando aqui. Ok? E os valores de p aqui, veremos da mesma forma, que estão além do escopo deste curso. Quando aprendermos, quando você aprender algoritmos de aprendizado de máquina em profundidade, você saberá o que são essas cópias e como elas são usadas. Isso está além do escopo deste curso porque estamos apenas aprendendo nossa parte de programação para aprendizado de máquina. Você deve saber que agora a função lm usará internamente esses coeficientes de custo do mundo 3D e o erro padrão que ocorrerá porque nenhum modelo preverá o botão Connect, então haverá um erro. Portanto, o erro padrão residual está em torno desse valor R quadrado de 17 graus de liberdade. Então, o que eu quero são os valores previstos e o valor esperado, os valores previstos e o que quer que seja. Então esse será o erro. O que quer que estejamos procurando e o sistema que está oferecendo, haverá uma edição. E se o fizermos for um dia muito ruim, obteremos os que estão descritos aqui. Ok? Portanto, esses são os valores que serão usados internamente pelo modelo de regressão linear de aprendizado de máquina e para prever a variável dependente. Ok, então espero que você tenha entendido pouco de um modelo de regressão linear e como você pode usar a função lm para prever e desenhar essa linha de regressão linear. Ok, então Stephen site, a próxima palestra. 42. Leitura de CSV que cria modelo de LR e previsão: Ei pessoal, bem-vindos de volta. Então, na aula anterior, vimos como podemos usar modelo de regressão linear e como podemos criar a relação entre a variável dependente e a variável independente, e como podemos prever e como podemos até mesmo traçar a linha de regressão linear. Eu quis dizer linha de regressão. Ok, e vimos quais são os coeficientes quando usamos o resumo e como o modelo linear para pixels, e vimos como podemos prever os dados. Mas no exemplo anterior, o que fizemos, pegamos o vetor r, pegamos esse vetor de dados para altura e peso. E então criamos o modelo de regressão linear para x e y. E depois previmos que, agora, no mundo real, não teremos os dados nesse formato, no formato vetorial. Em vez disso, nós, na maioria das vezes, teremos os dados em nossos bancos de dados nos arquivos Excel ou CSV. Na maioria dos casos, será um arquivo CSV de pontos, arquivos separados por vírgula, certo? Você sabe. Então, neste exemplo, o que vou fazer, vou te dizer, como já vimos como podemos ler o arquivo CSV nas palestras anteriores. E esse conhecimento que vamos usar nesta palestra para criar um modelo linear. E leremos os dados do arquivo CSV. Então, para isso, criei com os mesmos dados de altura e peso que usamos na aula anterior, criei um arquivo CSV com peso e altura. Portanto, essa coluna é o peso e essa coluna é a altura. Ok? Portanto, este é o arquivo CSV, altura, largura e ponto do arquivo CSV. E o que vou fazer, a primeira etapa é ler os dados do arquivo CSV, tratar o arquivo CSV. Então, para isso, estou usando metadados e estou usando a função read.csv para ler o arquivo CSV. Então, com esse read.csv, ele lerá o arquivo CSV e colocará os dados nesse vetor, esse objeto, objeto de dados. Assim, podemos ver com nosso arquivo read.csv que está lendo os dados corretamente ou não. Então, para isso, podemos usar a função de visualização e fornecer o objeto dentro dela. Então, quando essa visualização pular e obtivermos esse objeto de dados, ela aparecerá aqui e lerá o arquivo CSV. E então, com a BYU, podemos obter a visualização dos dados. Então, deixe-me executar essas duas linhas para você. Veja aqui, estamos obtendo a visualização dos dados TO em nosso peso e altura. Então, o mesmo, desculpe. Veja os mesmos dados que podemos ver no RStudio agora com a função de visualização, função de onda verá os dados dessa maneira. Então, agora temos certeza de que nosso arquivo de dados, dados que lemos do arquivo CSV. Agora, o que podemos fazer na próxima etapa é criar o modelo de regressão linear para previsão. Então, queremos prever o peso e a altura. Queremos prever o peso da pessoa. Então, para isso, criaremos o modelo de regressão linear. Então, usaremos a função lm e w aqui, peso será o peso será a variável dependente e altura será a variável independente. Então, com base na altura, queremos prever o peso. Aqui, os dados são chamados de dados. Dados significam que estamos usando esses dados. Você pode dar qualquer nome a ele. Você pode. Agora, podemos modificar isso com, desculpe, altura, peso, desculpe, na verdade, dados W, dados de altura e peso. E então estamos comendo seu arquivo CSP. Vamos colocar isso aqui. E então os dados são que o CO2 aumentará a altura dos dados, ok? Dessa forma, a fonte de dados são os dados de altura e peso que obtivemos do arquivo CSV. E aqui estamos criando o modelo de regressão linear usando a função LM. E estamos fornecendo a variável dependente ou independente aqui, espere, e a variável independente é altura e os dados iguais à nossa fonte de dados serão esses DOIS dados. E deixe-me comentar isso para que isso não nos perturbe. E agora temos, agora esse modelo. Eu dei um nome e um modelo. E usaremos o resumo do nosso modelo para obter os detalhes. Então, deixe-me executar essas duas linhas são, deixe-me correr até aqui porque nós modificamos. Então, deixe-me fazer isso. Então, veja aqui, agora estamos obtendo o resumo do nosso modelo linear, modelo regressão linear como os níveis de colesterol ou este, a mediana quartil. Coeficiente máximo do terceiro quartil, interceptação estreita, todos esses valores que estamos obtendo aqui. E então estamos recebendo o erro padrão. Erro padrão como 1,21, 0,789, 17 graus de liberdade múltiplo de R ao quadrado, valor R quadrado ajustado, valor de p. E também estamos obtendo estatísticas, ok? Então, agora nosso modelo, isso significa que um modelo de regressão linear está pronto. Agora estamos prontos para prever com base nos novos dados. Então, o que estou fazendo aqui fornecer uma nova altura que é 152,21. Ok, deixe-me modificar isso para 16485. Ok? E para essa altura, eu quero prever o peso, o que é essa altura de 165,85 centímetros, eu quero prever o peso da pessoa. Então, esse DataFrame divertido, porque tudo o que lermos do arquivo CSV, ele virá como um DataFrame. Então, estou criando um DataFrame aqui e com altura igual a 174,85 e estou dando a ele um nome que sabia que objeto mais recente de ontem conterá o site azure 164.85. Agora, os últimos dias estão prevendo o peso usando um modelo. E para isso, estamos usando a função de previsão. E dentro da função de previsão, estamos fornecendo dois argumentos. Um é nosso modelo, nosso modelo que criamos aqui. Então, este modelo de LM que estou fornecendo aqui, para que, com base nessa relação, ele preveja e o que prediz. E estamos fornecendo os dados que são altura. Portanto, estamos fornecendo uma altura de 164,85 anos. Portanto, estamos fornecendo o objeto de dados aqui que é a nova borda. Portanto, ele tomará isso como uma entrada. Ele vai para este modelo. E com base nessa essência real da altura e largura, ele colocará a altura 174,85 e preverá o novo peso, peso dessa pessoa. Ok, então agora isso prevê algum valor. Estou mantendo o peso previsto porque nós somos os pesos. Então, eu dei wet predicted como nome desse objeto. Agora, a próxima coisa é que temos o novo peso desse peso repetido nesse objeto. Precisamos imprimir isso. Então você pode usar a impressão aqui. Mas como eu queria imprimir uma linha múltipla, estou usando a função cat. Ok? Então, como a função printf imprime apenas 11 linhas por vez, eu queria concatenar ou duas frases. Para altura. Esse peso previsto é esse. Ok? Portanto, isso só pode ser possível com a função cat. Não podemos fazer isso com a função de impressão porque a função de impressão tem a limitação de imprimir apenas os objetos, valores dos objetos. Só ele pode imprimir, não pode imprimir a declaração. Então, para isso, estou usando cat. Se você quiser imprimir algo assim, você pode usar a função cat. Agora estou usando cat e estou usando para altura igual para modificar este para vento. Se cinco pesos previstos são, estou imprimindo agora onde está previsto aqui. Então, deixe-me executar o código inteiro aqui, então eu clicarei em Fonte e CEO para ver a altura 164,85. O peso previsto é 661794. Agora, com isso, podemos prever, agora nosso modelo, esse modelo de regressão linear, está prevendo o peso como 66,79. Deixe-me mostrar este modelo e o modelo anterior estão dando o mesmo resultado ou não. Então, o que vou fazer, em vez de um PIP2 no exemplo anterior, colocarei 164,85 e tentarei correr neste último ano também, estamos obtendo o mesmo resultado, 66,7, 9465. De qualquer forma, como os dados são os mesmos aqui, nós os mantivemos na forma vetorial Here e aqui os estamos lendo do arquivo CSV, mas os dados são os mesmos. É por isso que estamos obtendo os mesmos resultados dos dois modelos. Dessa forma, você pode ler o arquivo CSV e criar um modelo de regressão linear. E então, com base nisso, você pode prever o valor, o que quiser. Você pode fazer isso. Você pode tentar esse problema com qualquer outro ponto de dados que possa ter. exemplo, com base na idade, você pode detectar o peso ou, com base em dados categóricos, seus dados podem ser coletados e colocados no arquivo CSV e prever um valor mas por outro, criando o modelo de regressão linear. Portanto, espero que, com este exemplo, estejamos bastante confiantes sobre a regressão linear, como podemos criar um modelo de regressão linear para prever os valores. E espero que você pratique mais com isso. E você pode fazer muito melhor do que isso, certo? Então, ao praticar, você ficará melhor com nossa programação e com as coisas de aprendizado de máquina. Espero que você tenha entendido o modelo de regressão linear. E isso é tudo para esta palestra. Então, vamos ver o que podemos aprender mais. 43. Regressão múltipla: Na palestra anterior, vimos como podemos usar a regressão linear. O que vimos como regressão linear usando dois vetores são dois objetos de dados, como peso e altura. E criamos essa marca licenciada, depois temos o hóquei. E então temos esse arquivo CSV aterrissado ou criamos nosso modelo LM, a relação linear entre o peso e a altura e , em seguida, o encontro e a altura. Previmos o correspondente menos produtivo. Ótimo até a parcial. Ok? Agora, isso foi o linear ou a colisão, certo? Agora, nossa regressão linear simples, agora temos outro problema em que somos a variável de resposta em nossa variável dependente, ou o valor que vamos prever vai para ela. Pode, como na regressão linear, o que vimos, a variável dependente e as variáveis independentes. Variável dependente, dependendo de apenas uma variável, uma taxa variável independente. Mas em situações da vida real, na maioria das vezes a produção ou o valor que vamos prever. Não dependerá necessariamente de apenas uma variável dependente. Mas pode haver muitas, muitas variáveis independentes que serão definidas afetarão a variável independente. Portanto, não é como na situação sempre obteremos , pois sempre obteremos a regressão linear simples. Podemos ter várias variáveis independentes que afetarão a saída. Como no caso de suporte, a forma como essa previsão, o clima. A previsão pode depender muitas situações, como se é um dia chuvoso, que região está, que tipo de nuvens existem? E muitas outras coisas, certo? Suponha que você tenha um negócio e preveja sua receita com base em alguns fatores. Portanto, deve haver, pode haver muitos fatores, como eu disse anteriormente, por exemplo, você deve ter o número de funcionários, como vamos elogiar seus funcionários, isso também afetará sua receita. Como estão seus lucros e perdas? Se você tiver lucro, sua receita será maior. Se você estiver perdido, suas receitas diminuirão. E se você não quiser, suponha que você tenha alguns dos nossos impostos, mais impostos, então a receita vai afetá-los. Portanto, há muitos fatores que decidirão ou definirão sua receita. Então, aqui, esse problema não pode ser tratado com a regressão linear. Temos que usar a regressão linear múltipla porque o valor da saída ou a receita dependem de muitos fatores. Então, aqui os fatores são que as características serão independentes. As características são os fatores que determinarão a receita. Então, nesse caso, teremos como a, B X1, X2 mais assim por diante e assim por diante, bn XN. Isso significa que, b1, b2, bn e E, todos os coeficientes que vimos posteriormente em nós, y igual a mx mais c aqui, apenas um eixo ali. Mas na regressão múltipla haverá b1, b2, b3 antes de nós até Vn, certo? Que pode haver uma série de fatores que afetarão esse y. Ok ? Então, essa é a regressão linear simples. E essa equação é para regressão linear múltipla porque você é B1, B2. Pode haver vários fatores que afetarão o resultado. Portanto, a regressão linear múltipla, também conhecida simplesmente como regressão múltipla, é uma técnica estatística que usa apenas várias variáveis explicativas para prever o resultado de nossa variável de resposta. Ok, então o que vou fazer, deixe-me mostrar um conjunto de dados. Então, o que vou usar, vou usar em dados reais que estão disponíveis com o R, ou seja, carros vazios. Portanto, dados empíricos, esse conjunto de dados está disponível com o próprio pacote R. Então, quando você baixar o R, ele virá construído com o pacote R. Ok? Então, carros vazios, para que você possa usar a visualização. Visualização. Os gatilhos fornecerão uma visão do conjunto de dados. Então veja, este é o conjunto de dados de vários deuses como Martha Jackson, Hornet. Isso é incomparável, tudo bem. Portanto, existem muitos carros e são como milhas por galão, cilindrada, potência, peso. Ok. Então, existem muitos carros importantes de vários anos. Ok. Portanto, todos esses fatores definirão as milhas por galão ou alguns fatores podem não estar afetando muito. E os vetores de campo afetarão mais. exemplo, se você considerar milhas por galão como a saída que deseja obter, você deseja prever as milhas por galão com base na cilindrada, potência e peso do carro. Além disso, talvez o número de cilindros não afete muito a partida abaixo, tenha muito efeito nas milhas por galão ou, em alguns casos, possa ter muito Lexi, sim, quatro cilindros têm -33, 30, 26 a mais. E se você ver que oito cilindros têm menos dois, esse número de cilindros no motor afetará a mielina. Então, esse é um fator. Então. deslocamento também pode afetar a média da quilometragem do carro. E então leia mais: o carro também afetará. Veja aqui que existem várias características, são as variáveis independentes, o número de cilindros, peso e o número de marchas. Então, essas são as coisas que afetarão a mielina. Então, aqui temos que usar a regressão múltipla se você quiser prever a quilometragem ou por carro com base no número de cilindros, cilindrada, peso. Todos esses fatores, se você quiser considerar, então temos que usar essa regressão múltipla. E se você, se você ver essa equação de regressão múltipla, isso b0, b1, b2, x2 e x1. Então esse X pode ser o peso do carro, mais pode ser a cilindrada do carro. E o X3 pode ser o outro fator, como o número de cilindros no carro. Então, e esse b1, b2, b3 be, para todos esses coeficientes, decidirá com base em como, como X1 ou o peso do carro estão afetando o Majlis geral ou a média do carro. Então, com base nesses valores, como isso está afetando isso, será decidido se for a, b1 é mais do que esse peso do X1, será mais certo? Dessa forma, podemos usar a regressão múltipla. Então, o que eu farei na próxima palestra que vamos colocar em prática esse conjunto de dados que são carros vazios. E tentaremos usar linear múltipla ou regressão múltipla para prever milhas por galão ou calcular a média de um carro com base nas características que dependem disso, então aqui, o deslocamento do cilindro, o peso do carro. Todas essas serão variáveis dependentes ou independentes. E milhas por galão serão as variáveis dependentes. Significa que esses valores serão peso do cilindro do carro, o número do peso do cilindro do carro, cilindrada do carro, o número de anos no carro. Esses serão os preditores e as milhas por galão serão o valor previsto. Ou esses serão os recursos ou os recursos independentes, variáveis independentes. E essa será a variável de resposta, ou a variável de saída, ou o valor da predição. Então, isso que vamos fazer em uma aula prática na próxima aula. Nos vemos na próxima palestra. 44. Prevendo quilometragem de carro usando regressão múltipla em R: Olá e bem vindo de volta. Então, agora faremos algo com a regressão múltipla. Portanto, este é um sistema prático sob regressão múltipla. Então, vamos usar um conjunto de dados de carros vazio. E para isso, não vamos usar todas as colunas, são todas as coisas que estão lá fora. Mas vamos usar MPG, deslocamento, SP e esperar até Deus, ok, potência e peso do carro. Ok. Então, com base nesses três, vamos prever a quilometragem do carro ou a média do carro, milhas por galão acima do carro. Ok, então vamos usar esses três recursos, esses quatro recursos em nosso conjunto de dados. E três serão as, essas três serão as variáveis independentes e esse NPD será a variável dependente ou o valor previsto. E esses três serão o preditor previsto. Ok? Então, a primeira coisa é que precisamos criar o modelo de relacionamento, o modelo de regressão linear, nosso modelo de regressão múltipla. Da mesma forma, vamos usar a função lm que temos aqui dois em regressão linear simples. A função lm do tema que vamos usar, mas com uma fórmula ligeiramente diferente. Então, o que quer que dermos, ouça essa chamada fórmula. E a segunda entrada é que o segundo argumento são os dados. Ok? Então, aqui, deixe-me colocar esses dados de custo. Isso tem um custo. Ok? Então, agora isso é o, são nossos dados. Isso conterá esses quatro recursos, ok? E seus valores correspondentes. Ok? Então, dados, estamos usando dados de custo de hóquei que estamos obtendo dos carros vazios. Ok? Vamos criar o modelo. Ok? Deixe-me torná-lo modelo de regressão linear, modelo regressão linear múltipla, modelo MLR. Estou dando o nome a ele. Então deixe-me, tudo bem. Então, agora aqui, nossa camada, o que fazemos? Tínhamos apenas um valor previsto e um preditor, certo? Então costumávamos dar assim, ok, casados em situação de deslocamento, encontrar o Majlis. Mas agora temos três variáveis independentes que afetarão a mielina no carro. Então, temos que dar, esse será o valor previsto ou a variável dependente. E aqui esses três, podemos dar o deslocamento mais esse p mais o peso. Essas três serão as variáveis independentes que afetarão a mielina. Dessa forma, podemos usar a função lm para regressão múltipla e regressão porque estamos usando vários recursos para prever um valor. Um valor previsto virá com base em mais, uma ou mais variáveis independentes, ok? E dados iguais a cos theta. Então, deixe-me correr até aqui. Vamos imprimir o modelo. Ok, vamos ver quais são os coeficientes e tudo que estamos obtendo de sódio. Então, veja aqui agora que nosso modelo está dando a interceptação como 37 e deslocamento como vento urogenital 97 no coeficiente b está vindo assim. E o coeficiente de nosso coeficiente está chegando aqui. Então aqui está a interceptação. Esse valor de interceptação é 37. Ou seja, isso é a. Se você observar esta fórmula, y é igual a a mais b1 x1 mais x2 mais beta três x três. Ok? Então aqui temos três, então chegará a ser três. X d. Aqui está 37. Esse valor de interceptação será a e, em seguida, B1 será o deslocamento. B2 será o HP, o coeficiente HP e B3 será o peso das cópias, seja, -3,8. Ok? Então, agora temos os valores dos coeficientes aqui. Podemos simplesmente imprimir o valor do coeficiente. Se eu colocar x. Isso, obterei o coeficiente de deslocamento. O mesmo valor que estou recebendo aqui, certo? Então, o que eu posso fazer agora é colocar esses valores de coeficiente nessa equação para obter nosso valor previsto y. Y será o MPG. Nesse caso, nossos pilotos, nesse caso, temos essa interceptação e temos o B1 como esse, B2. Nós temos isso e esse será o V3. Agora, se tivermos um carro com cilindrada 324 e HP e 110 e peso de 2,5. Podemos prever a média colocando esses valores com o coeficiente e as coisas estão separando essa fórmula. Então o que eu vou fazer, y igual a um mais, então a será esse valor 37, ok? E x será a interceptação do deslocamento, esta. E então vou multiplicar isso pelo valor de deslocamento 324. Então x é p será o coeficiente de HP, este. E vou multiplicar isso pelo 110. Essa será a parte mais quente do carro. E então x t será o coeficiente de peso que estamos obtendo aqui, -3,8. E vou multiplicar isso pelo peso do carro. Então, veja, simplesmente colocando essa equação, esses valores, podemos prever a saída, qualquer que seja essa equação, a saída do presente, será a quilometragem prevista do carro. Então, deixe-me executar isso, deixe-me executar essas duas linhas. Agora, as milhas previstas do cartão são 23,87. Então, com base na pergunta aqui, com base nessa equação, porque aqui o valor E será 37 -0,00, 0937. E todos esses valores. E se colocarmos isso, obteremos o valor y. Y é o mpg milhas acima do carro. Então, o carro com 324 de cilindrada, HP cem e 10,2, 0,5, nosso sistema está prevendo a mielina como 23,8 7247. Então 23,8 será a média desse carro. Da mesma forma, você pode dar outro valor para a cilindrada em B e o peso do carro. Então, com base nessas três variáveis independentes, estamos prevendo uma variável dependente que é y. Então, veja aqui que temos os coeficientes e interceptamos nesta equação para obter a quilometragem do carro. Isso é bem simples e bem real, certo? Estamos obtendo a saída real, estamos obtendo a saída. , isso é por meio um modelo de regressão múltipla que criamos por meio desse relacionamento, por meio dessa fórmula. Aqui, a fórmula é que você altera apenas todas as outras coisas que são bastante semelhantes à regressão linear. Mas aqui, se quisermos colocar mais recursos ainda, você pode colocar essa variável mais independente aqui. E haverá uma variável dependente ou a variável de saída. Ok? Então, com base nisso, estamos obtendo a saída como 23,87. Dessa forma, podemos usar a regressão linear múltipla e a regressão múltipla para prever o valor. Portanto, preveja um valor com base nas muitas características de muitas variáveis independentes. Temos que usar regressão linear múltipla. 45. Regressão logística: Olá e bem vindo de volta. Nesta palestra, aprenderemos regressão logística e veremos um exemplo simples de regressão logística e como podemos usá-la. Ok, então, primeiro, vamos entender o que é regressão logística. Modelo de regressão logística. modelo logístico, também conhecido como modelo lógico, é usado para modelar a probabilidade de uma determinada classe. Por exemplo, suponha que se você quiser, se você tiver alguns dados de Watson que eu sou como um rótulo de diabético, rotule todas essas coisas. E com base nisso, você quer prever se o sol está apto ou não, certo? Então, aqui a pessoa está em forma ou não. Então, sim, os dados são a saída que queremos prever que é de natureza binária, ali mesmo. Há duas coisas que se encaixam, não se encaixam, em uma pessoa em forma ou em uma pessoa não adequada, certo? Portanto, o modelo logístico é usado para modelar a probabilidade de uma determinada classe ou evento existir, como a pílula contra chefes, se você estiver escrevendo algo errado, você terá uma taxa de aprovação ou reprovação. Se você estiver participando de acompanhamentos e ganhará ou perderá. Portanto, há uma saída binária certa, pálida, ganha-perde, viva, morta, saudável ou doente. Isso pode ser estendido para modelar várias classes de eventos , como determinar se uma imagem contém um gato ou um cachorro, um leão, certo? Assim, você pode colocar nossos e-mails e treinar um sistema que os encontre, sejam imagens de gato, cachorro ou linha, certo? Então, gato ou cachorro, tipo leão, certo? Cada objeto detectado na imagem teria uma probabilidade de 0 a 1, certo? Então pode ser um gato ou um cachorro, certo? Então, ser gato, um ser cachorro. E se você apresentar qualquer imagem, ela atribuirá o valor zero ou um, ou uma probabilidade entre zero ou um. Pode ser 0,05 ou 1,65, desse jeito, certo? Então, a probabilidade será 0-1 e toda a soma de todas as probabilidades será igual a um porque na ocorrência de eventos, probabilidade de ocorrência de eventos seria sempre uma, certo? Dessa forma, usamos nossa regressão logística e regressão logística, certo? equação para regressão logística é y igual a 1/1 mais e potência a mais b 1X1 mais b2 x2 mais B3 X3 e assim por diante. Então essa é a equação matemática da regressão logística. Em Python, usamos a função GLM para a função GLM para regressão logística. Então, a função GLM para ela também é conhecida como modelo logístico generalizado, certo? Glm. E conterá a fórmula como fizemos na regressão linear. Então, escreveremos a fórmula When com a variável dependente e a variável independente, certo? E então temos que fornecer os dados nos quais queremos executar a função GLM. E então temos que fornecer a família da fonte. Como uma família. Aqui, usaremos o binômio em nossos exemplos. Então, o que eu vou fazer usar os dados de carros temáticos, dados carros vazios que usamos anteriormente, certo? Portanto, dados de custo que também usamos no exemplo anterior. E eu vou usar o AIM. O objetivo é como um sistema de transmissão automática ou manual. Então, HP, potência, peso e número de cilindros no motor, certo? E esse EM é automático ou manual. Portanto, nos dados dos carros vazios, ele contém zero ou um. Então, deixe-me mostrar, deixe-me executar essas duas linhas e ver os dados. Veja aqui, para todos os carros, HP, peso e cilindro, m é zero ou um. É um valor binário, zero ou um. Ou é automático ou manual, certo? Ok. Para todos os carros, temos dados para m, que é zero ou um, então é um ou zero para toda a combinação de peso e cilindro de HP. Então, o que eu vou fazer aqui neste problema, nesta palestra, o que vamos fazer com a função GLM ou função de regressão logística. Com base no que faremos, existem quatro coisas. Quatro colunas, braço, HP, peso e cilindro. Então, vamos tentar encontrar isso. Vamos fazer com que esse HP, peso e cilindro sejam variáveis independentes. E m será a variável dependente. Meios. Vamos prever. Não, eu estou bem, tudo bem, então o que faremos é apoiar que você esteja criando um modelo. Devemos saber quais são os fatores ou quais são as características que afetarão os valores previstos. Mais suporte. Se criarmos um modelo de regressão logística com todas essas três variáveis de resposta ou variáveis independentes ou o modelo pode não estar correto porque nesses três HP de peso e cilindro, todos os três não afetarão os carros sendo manuais ou automáticos da mesma forma, certo? Talvez o número do cilindro do endocast decida ter mais impacto na escultura considerada uma empregada doméstica, um carro automático, manual ou pesado tem mais peso ou HP. A potência está decidindo o fator que os custos seriam automáticos ou manuais. Então, o que faremos com a função GLM simples tentará descobrir quais dessas três variáveis dependentes. Desculpe, descobrimos essas três variáveis independentes estão tendo impacto no EM. Então, o que ele fará nos ajudará a analisar isso, que são as características que devemos considerar para uma análise mais aprofundada. E deixe o outro suporte IP. Descobrimos que o peso está tendo menos impacto sobre Am do que os outros dois. Podemos deixar de fora o peso para análise posterior e usar o HB e o cilindro, certo? Se o cilindro não está tendo, não tendo nenhum impacto nisso, podemos usar o SPN, que, portanto, essa análise nos ajudará a encontrar a característica irrelevante, coluna irrelevante na decisão do EM. Ok, então é isso que vamos fazer nesta palestra. Ok? Então, como vamos fazer isso? Usaremos a função GLM e reescreveremos a fórmula como se fizéssemos m como valores previstos ou variável dependente. E essas três variáveis independentes tentaremos criar, tentarão gerar a função GLM. E então, com o resumo do GLM, tentaremos ver quais são o coeficiente e o valor de p que estamos obtendo. O valor p decidirá se nossa variável tem ou não um valor previsto. Valor P. Valor P significa probabilidade de ocorrência daquela coisa, ok, probabilidade de ocorrência de peso neste peso e cilindro de HP. Portanto, se o valor de p for maior que 0,5, significa que, se suportado como parte do valor de HP, o valor p for maior que 05, significa que P não está tendo nenhum impacto, nenhum impacto significativo na mira. E podemos deixar o HP e seguir em frente com o valor de p. Vá em frente com as variáveis independentes que têm valor de p menor que 0,05. Então deixe-me, então terminamos com isso. Então, deixe-me, a próxima etapa, próxima etapa é que precisamos fazer a regressão logística. Então, aqui estou dando um nome de variável aos dados do carro. Ok? Portanto, nosso conjunto de dados é cos Theta. E aqui estou criando um modelo de regressão logística. Estou te dando o nome de custos que eu sou e estou usando a função GLM aqui na fórmula, o que eu recebo como uma variável independente, dependente, e ômega, automática ou manual. É ter algo binário, certo? Zero ou um. E estou dando como variável dependente o valor que vamos prever com base nesses três cilindros, SP e radar, as variáveis ou características independentes que decidirão se estou certo. E dados que estou usando carros, dados que estamos obtendo do binômio carros vazios e famílias. Ok, agora deixe-me fazer isso e imprimir o resumo dos dados, o modelo de regressão logística de dados de um carro. Agora, usamos a função GLM e imprimimos o resumo dela. Você pode deixar essa impressão e simplesmente executar o resumo. Isso também vai te dar a mesma coisa, ok? Então, veja aqui, está nos dando todas as coisas que temos o suficiente. Até mesmo a regressão linear também considera o coeficiente e aqui também, estamos chamando a função GLM com a fórmula assim. Ok? E estamos usando os dados da classe do conjunto de dados e o binômio da família e vemos seus dividendos. Média, mediana do primeiro quartil, máximo do terceiro quartil, todos esses valores que estamos obtendo. E então estamos obtendo os coeficientes para cada variável independente. Então, aqui, veja aqui interceptar, estamos obtendo esse valor e esse é o valor PR, esse é o valor de p do qual eu estava falando. Se o valor de p for maior que 050,05, essa, bem, tão valiosa, essa variável de resposta, podemos deixar de fora, certo? Isso não está tendo muito impacto no objetivo. Para cilindro. vejo? O valor de p é 0,6 491. É muito alto em comparação com 0,05, certo? Então, cilindro, isso significa que o valor p do cilindro é maior que 0,05. Isso significa que esse número de cilindros não está tendo um impacto significativo na decisão de se os custos seriam automáticos ou manuais, certo? Então, podemos deixar o cilindro ao lado, HP, HP, o valor p é um esquema de valor de probabilidade 0,084, que é novamente maior que 0,05, certo? podemos deixar o HP porque ele também tem um valor de p maior que 0,05. Em seguida, leia a terceira variável de resposta. E tem o valor de p de 0,0 276, que é menor que 0,05. Isso significa que o peso está afetando o peso do carro e decidirá que os carros sejam automáticos ou manuais, certo? Então, o peso da carta está tendo um efeito significativo no valor de m porque seu valor de probabilidade está chegando a 2,0, 276, certo? Correto. Então, com isso, que conclusões podemos chegar? Podemos chegar à conclusão de que, em análise mais aprofundada, estamos mais longe. Se você quiser construir ainda mais nosso modelo de regressão logística, podemos deixar o cilindro e o HP e seguir em frente apenas com a variável de resposta de peso porque isso é ter, a variável de resposta de peso, porque isso é ter, ou seja, ter um impacto significativo no valor m em comparação com o cilindro e o HP. Bem, ok, sabemos que, por causa desse valor de p, o valor de p maior que 0,05 decidirá que a variável de resposta está tendo algum impacto significativo na variável dependente ou não. Ok, então este é o uso simples da função GLM que aprendemos em. Agora. Portanto, você pode praticar com isso e pegar qualquer conjunto de dados e fazer isso para descobrir qual responde muito bem está afetando os valores previstos. E você pode omitir aqueles que não estão tendo muito impacto com base no valor de p. 46. Distribuição normal: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre distribuição normal. Então, qual é a distribuição normal. Então, antes de entendermos o que é uma distribuição normal, deixe-me dizer. Na vida real, a maioria dos dados, maioria dos dados, são normalmente distribuídos. E por que estou dizendo isso? Porque se você analisar os dados de altura em pés, suponha que você tenha dados, dados de altura e peso e dados de altura e peso, teremos uma distribuição altamente, altamente normal? Por que estou dizendo que é altamente distribuído normalmente? Porque é muito raro encontrar uma pessoa que tem muito menos altura. E também é muito raro pegar pessoa com uma marcha lenta muito alta, uma altura longa, como um pacote com menos de 3 pés, tem uma probabilidade muito baixa de acontecer. Uma pessoa com a altura de Clifford é muito rara, certo? Da mesma forma, Boston com altura de 6,5 pés livres a 7 pés. Por que tríade, certo? Então, nesse sentido, maioria dos dados é normalmente distribuída entre 4,5 a 6 pés, certo? Então, por que esse tipo de distribuição de dados é conhecido como distribuição normal, ok? Portanto, esse tipo de distribuição beta é conhecido como distribuição normal em que a maioria dos dados é distribuída para observar a média dos dados. Então, suponha que se considerarmos esse gráfico, esse gráfico como distribuição de altura e peso de Parsons, então você pode ver que isso representará esses dados. Isso, isso, essa comemoração. Eu representarei a altura da sela, o sabor do sal na Tailândia. Este é o tipo C mais longo ou o Parsons com uma altura muito pequena. É muito raro acertar. Portanto, a pessoa que está conosco tem menos de três bits de altura está muito certa. Deixe-me fazer menos de três. Menos de três. Da mesma forma, largura de Parson, altura muito longa, certo? Oi altura. Isso também é muito raro, certo? Maior que 6,5, certo? Portanto, esses dois dados classificam menos de 3 pés e a altura de 6 pés é muito rara. E é por isso que você pode ver que é muito baixo na curva normalmente distribuída. Uma distribuição normal da curva ocorre como quando distribuímos, quando traçamos os dados normalmente distribuídos, ela virá como uma curva em forma de sino. Por que virá como uma curva em forma de sino? Porque veja aqui, esse é o caso muito raro de acontecer. Ele é distribuído em direção a aqui e aqui tem uma altura muito alta, 6,5 pés. Então, esses dois estão representados aqui. E a maioria dos dados, quando você chega até aqui, a maioria dos dados é distribuída. A maioria dos dados é distribuída aqui, certo? Nesta parte. Correto. Então essa é a média dos dados, certo? Então essa é a média. Esta é a altura média das parcelas. Então, se você consegue ver corretamente, maioria dos dados está distribuída em ambos os lados da média, certo? Se você dividir os dados pela metade, obterá a média e a maior parte dos retirados divididos em direção à média. Portanto, a altura pastor está aumentando e vamos observar a média. E depois do valor médio, ele está aumentando e está atingindo uma altura muito alta de 6,5. Portanto, a maioria dos dados normalmente é distribuída nessa região. E essa região é a região, certo? Portanto, a maioria das pessoas, podemos dizer facilmente que elas caem abaixo da altura de 526,5 pés. depois disso será que a descoberta de uma pessoa com a altura 6,57 é muito, eles pediram que está vindo assim. Dessa forma, obtemos uma curva em forma de sino, uma curva de distribuição normal é sempre BellKor. E essa é a média. E isso é chamado de desvio padrão. Portanto, desvio padrão do valor médio. Assim, quanto mais você se desviar do valor médio, você estará indo para este lado ou para este lado. Então, isso é chamado de distribuição normal. curva de distribuição normal pode ser muito alta em carboidratos, como essa, ou pode ser como essa roxa, ou pode ser como esta. Isso também depende de seus dados, mas essa será a média dos dados. Ok? Essa será a média desses dados e essa será a média desses dados, certo? Então, isso é chamado de distribuição normal. A maioria das coisas em nossa vida é normalmente distribuída, certo? Então, na próxima aula, veremos qual é a propriedade da distribuição normal e como podemos traçar dados normalmente distribuídos. 47. Distribuição normal usando função de norma e norma: Olá e bem vindo de volta. Então, na palestra anterior, entendemos o que é distribuição normal e como ela funciona. Nesta palestra, abordaremos a distribuição normal e veremos quais são as funções embutidas que temos em nossa programação para distribuição normal. Portanto, existem basicamente quatro tipos de distribuições normais. As funções são niveladas em nossa programação e são denominas. Essa norma da função d, que recebe três argumentos ou três objetos de valor como entrada, ou seja, média x e sd, que é desvio padrão. Então, o que é X aqui? X é o número vetorial. Tipo o quê? Vetor numérico de números. Então, suponha que você tenha um conjunto de dados, temos vários suportes de que você deseja obter a probabilidade e tudo mais. Então, para isso, o trabalho do vetor numérico de saída é feito vetor numérico de números e média é a média que você deseja, você tem que decidir qual pino em qual significa. Você deseja traçar a distribuição normal. E então essa é a média do conjunto de dados, ok? E então o desvio padrão, você terá que fornecer o desvio padrão. O valor padrão máximo é um para o desvio padrão. E podemos dar qualquer valor do gráfico, mas o valor padrão é um. Se você não der a cor a algo, por padrão, ela assumirá o desvio padrão de um. Portanto, a norma d é uma função. E então temos que a norma p ser enorme. Também envia mensagens de texto com os números principais, depois a média e o desvio padrão. Então temos a norma Q, que assume o p. P é um vetor de probabilidades. Aqui X é um vetor de números. Na qnorm, a entrada p é um vetor de probabilidades, depois média e desvio padrão como estão, então temos outra função chamada então temos outra função chamada não bancária e a função desconhecida assumirá como entrada e média e também o desvio padrão. Ok, então o que está aqui? N é o número de observações. Isso significa que o tamanho da amostra aumenta o número total de amostras que vamos entrar e pegar isso, ok? E a média é o valor médio dos dados da amostra. Seu valor padrão é zero. Ok? Aqui está o que estamos fazendo e estamos dando o desvio padrão, o valor padrão padrão é um. Ok? Então, vamos começar com a maldita distribuição normal. Então, o que farei primeiro, veremos qual é a distribuição normal para X e d. Agora, qual é a função normal? Portanto, o presente nulo, a altura da distribuição de probabilidade em cada ponto para uma determinada média e desvio padrão. Portanto, ele fornecerá a altura da distribuição de probabilidade em cada ponto do conjunto de dados. E para a média dada, porque a média é a entrada que fornecemos junto com o desvio padrão e o vetor dos números. Ok? Então, suponha que entendamos qual é o exemplo, estamos considerando um x como número de atores que são números corruptos. Ok? O que quer que estejamos fazendo aqui, estamos gerando uma sequência de números de menos cinco a 20. E então, o que nos é dado, recebemos o desvio padrão medida que aumentamos menos cinco para 20 incrementando 0,15. Ok? Então, como -0,15, -5,15, -5,3, desse jeito. Ok. Então, será incrementado. O número gerado terá sido aumentado em 0,5 branco, ok? Portanto, X tem faixas de pedágio gratuitas. Veja, é assim que os números serão gerados. Ok? E então, o que estamos fazendo aqui, pegamos nosso vetor y e a função normal da região D e estamos plotando x como importante que X estamos obtendo dessa função de sequência. Então, significa que estou dando 7,5 suponha, e o desvio padrão que estou dando é pontual. E então eu estou traçando o gráfico com x e y. Então x será esse valor e y obterá dessa função dnorm. Ok? Então, deixe-me comentar esse x e executar esse trecho de código. Então clique aqui, c aqui. Agora estamos obtendo esse gráfico de distribuição normal. Então, aqui a média é 7,5. E 7,5 dados são normalmente distribuídos com um desvio padrão de 0,1. Desvio padrão do ponto. Se eu der uma curtida de 0,5, veja, nossos dados chegarão nesse ponto , virão assim. Se eu der um, que é o desvio padrão, nosso gráfico virá mais ou menos assim. Se eu der 1,5, nosso gráfico ficará assim. Se eu o der como ferramenta, nosso enredo virá assim. Ok, então você pode dar o desvio padrão para o outro quadrante e traçar x e y, vamos, estamos representando os valores de x e y. Ok? Então, isso é 13 toda toxina, que dá a altura da distribuição de probabilidade em cada ponto. Então, o próximo é p naught p norm. O que isso faz é dar a probabilidade de número aleatório normalmente distribuído ser menor que, menor que o valor de um determinado número, ok? E também é chamada de função de distribuição cumulativa. Então, aqui estamos tomando o mesmo exemplo e aqui estamos incrementando em 0,4. E então estamos gerando y usando a norma p x. Estamos passando x aqui para dentro da função da norma p. E então eu estou dando a alguém por cinco novamente e o desvio padrão, vamos apontar. E então eu estou plotando x e y. E quando plotamos, obtemos esse tipo de dado. Se eu colocar um desvio padrão de suporte de um ponto, veja, estamos vendo assim, ok, se eu aumentar isso pelo vento, Suporte 0,5. Ok? Dessa forma, podemos obter a função p-norm que podemos usar e obter esse tipo de gráfico. Então, o que isso nos dará, nos dê a probabilidade de um número aleatório normalmente distribuído ser menor que o número fornecido. Ok? E o resto das duas normas 2 e nosso número veremos na próxima aula. 48. Distribuição normal usando função de qnorm e rnorm: Na palestra anterior, vimos como podemos implementar a função dnorm para distribuição normal. E também vimos p Now para distribuição normal. Agora, nesta palestra, veremos o qnorm e nosso senso de Don Funk para distribuição normal. Então, o que é a função qnorm? Essa função pega a probabilidade do valor e mantém o número cujo valor cumulativo corresponde ao valor da probabilidade. Isso é bem simples aqui, usaremos o outro importante aqui. O que faremos é usar 0,1 e gerar a sequência de números 0-1 e três números serão incrementados em 0,03. Então, geraremos uma sequência de números de 0 a 1, e cada número será incrementado em OpenGL ou três. E então usaremos a função qnorm e ainda forneceremos essa entrada exógena. E o que estou dando, estou dando a média S2 e o desvio padrão como dois. Você pode dar o que puder se quiser, dar, média como 1,5, você pode dar um desvio padrão, você pode dar um ou 1,5 e ver como seu gráfico está chegando para dois e uma média padrão S2 e desvio padrão dois, estamos obtendo este gráfico. E se eu executar isso por 1,5, obteremos algo assim. Ok? Então é assim que usamos a função qnorm para distribuição normal dos dados. Ok? Agora, a próxima coisa é que não são anônimos usados para gerar números aleatórios para distribuição é normal. Então, qual é nosso número e, como eu disse na aula anterior, Dexter n é a entrada onde n é o número de observações ou os locais de amostra, certo? Portanto, qualquer outro número que tenhamos, o tamanho da amostra fornecerá isso como entrada para a função. Então, o que ele fará é usar o tamanho da amostra como entrada, como aqui, estou fornecendo cartilagem e gerará números gerados aleatoriamente para o tamanho da amostra. Suponha que recebamos 30 aqui, tamanho da amostra. Então, ele gerará os números aleatórios do gerador. E então usaremos o histograma para desenhar essa distribuição normal usando um console desconhecido. Portanto, esse vetor y produzirá números gerados aleatoriamente a partir desse tamanho de amostra 30. Ok? Então, uma vez que executamos isso, obtemos esse histograma para os números gerados aleatoriamente. Ok, então é assim que usamos a função desconhecida para distribuição normal. Então, deixe-me imprimir y para que possamos ver quais números estamos obtendo aqui, c aqui. Então, se você clicar em Console, esses são os números que estão sendo gerados usando o por 30. Então, ele gerará números aleatórios como este. E o histograma que vamos representar graficamente são números gerados aleatoriamente em um histograma. Então esse é o, esse é o y entre menos um a três, está sendo vendido. E então no suporte, esse é o eixo x, esse é o eixo y, essa é a frequência. Então, g rho dois, como menos um a menos de menos um números que estão ocorrendo quatro vezes menos um a zero. Essa é a frequência dos números e de zero a 1,122 assim. Ok? Então, deixe-me alterar os dados para obter suporte, o que os tornará 100. E se eu executar isso, veja, estamos obtendo esse histograma. E se você ver o console, verá que é assim que usamos a função pnorm para desenhar o diagrama usando nossa função desconhecida para distribuição normal. Ok? Então é assim que usamos a distribuição normal. E vimos a distribuição normal dos dados da norma qnorm e das funções desconhecidas do Vietnã do Norte . Como pode 49. Recursão em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre recursão em nosso programa. Então, o que é Dickerson ou o que é uma função recursiva? Então, função recursiva é uma função que se chama várias vezes, certo? Portanto, apoie você se quiser realizar a mesma operação repetidamente. Podemos usar o Dickerson para não agir como se você devesse ter aprendido como um número um tanto antinatural. Alguns de vocês numeraram todas essas coisas como esses problemas, como encontrar alguns números naturais em que n pode variar de um a qualquer número, certo? Até um a 100.000, algo assim. Então aqui para resolver esse tipo de problema, precisamos usar o Dickerson e seu cursor é uma coisa muito importante quando fazemos a programação, certo? Portanto, em nosso Também, podemos usar a função Dickerson. função recursiva pode se chamar repetidamente para realizar as operações. E, finalmente, isso nos dará o resultado. Então, para entender como recursão funciona em nossa programação, diremos que faremos um programa simples para encontrar a soma dos números naturais até n usando recursão. Ok? Então, vamos tentar encontrar, daremos um número, qualquer número. E vamos tentar encontrar a soma dos números naturais de um a esse número. Suponha que aqui eu esteja dando 85. Então, aqui eu quero encontrar a soma dos números naturais até 85 min, um mais dois mais três mais cinco mais seis mais sete mais oito, até mais 85, certo? Então, para resolver esse tipo de problema, precisamos usar a recursão. Então, o que estou fazendo aqui simplesmente escrever uma função simples aqui e dar a ela um nome sublinhado n. Isso significa alguns dos números naturais, certo? Alguns sublinham n. E, dentro disso, estou tomando como argumento uma entrada , pois n u n será o número de números naturais, certo? Número natural até o qual queremos calcular a soma. Certo? Aqui. Estou fazendo uma verificação simples. O que estou fazendo aqui. Estou simplesmente verificando se n é menor ou igual a um, simplesmente devolvo isso. Então, por que estou verificando essa condição aqui? Porque se for n é um, precisamos retornar um porque um é de um mês. Os números naturais começam com um. E às vezes algumas pessoas consideram todos os tipos de números naturais com zero. No caso de 0,1, precisamos retornar esse número específico em si porque você produz zero, precisamos retornar zero e, se for um, precisamos determinar apenas um, certo? Não é necessário chamar a função recursiva. Ok? Então, esse é o caso de cuidar do 0,1 se você considerar os números naturais incluindo zero, e se estiver começando de um, se você considerar então um, ok? Então, basicamente, os números naturais começam com um, mas às vezes as pessoas consideram em zero o Agile começando do zero também. Ok? E então eu estou usando isso, estou dando uma condição if e depois estou usando outra condição. Caso contrário, o que estou fazendo, estou simplesmente devolvendo Gan mais alguns meios de Yan mais, suponha que um número seja para, suponha que eu lhe dê dois. Então, suponha que esse número seja de dois a dois mais soma até menos um, soma de um. Então, o que ele fará, fará cerca de dois mais a soma de dois no verão com menos um. Vamos somar um. Ele virá aqui e a soma de um retornará um. Essa função retornará dois mais um para mais um será três. Então, se executarmos essa função, obteremos a saída como três aqui. Porque alguns números naturais até dois são três, certo? Suponha que eu dê três aqui. O que vai acontecer? Vai demorar, vai entrar na outra parte porque três não está satisfazendo essa condição, certo? Maior que um, certo? Então, ele entrará em outra parte e retornará apenas n mais a acusação três mais. E então ele mesmo os chamará novamente. A função se chamará função sum n no Excel. E isso fará com que parte de N três menos dois, alguns tenham dois, alguns tenham dois venha aqui. Então n é igual a dois, ele virá aqui. Então, o que ele fará, dois mais três mais dois mais soma de dois menos um, soma de um. Ele entrará aqui e retornará um. Então, três mais dois mais um. Quanto? Seis. Então, esse sexo escrito. Veja aqui que a produção é de seis anos. Então, entendemos como isso funcionará. Deixe-me colocar o comando em ordem. Você é a primeira vez que isso vai acontecer? Vai ser tipo, vai ser como “olá”, pronto. Três mais três mais soma sublinhado N. Três menos 13 menos um significa dois. Então, isso fará com que alguns até, ok, se chamem. Isso é chamado de recursão. Então, novamente, na próxima etapa , a próxima etapa será escrita em três, resumindo como ela virá. Ele virá aqui para funcionar, receberá a entrada S2 e depois virá na outra parte, mas mais. Então aqui virá como se três mais dois mais dois menos 12, menos 12 menos um fosse a soma de um, certo? Então, o próximo passo é três mais dois mais a soma de uma água divertida de verão que ela vai, ela vai embora, ela chamará a função em si. E chegará à soma de um. A soma de um retornará n, isso significa um. Então, isso nos dará o resultado um. Então virão três mais dois mais um. Então, isso é chamado de ticarcilina, a produção final que estamos obtendo é de apenas seis. E aqui também três mais 25 mais 16. Então isso se chama Records sun, certo? Suporte. Vou te dar um grande número, 785. Então, ele entrará nessa função e chamará 75 menos um, depois 782-52-7875 menos 1784. Então ele virá aqui, 74 menos 17823. Então, ele continuará ligando. Isso é chamado de recursão. Então, se executarmos isso, obteremos a saída assim. Ok, relaxe alguma coisa, ok? Dessa forma, podemos usar a recursão em nossa programação para encontrar a soma dos números naturais. 50. Encontrar uma documentação de um número usando recursão em R: Então, nesta palestra, faremos outro Hansen. E nesta palestra, tentaremos encontrar o fatorial usando recursão. Então, você sabe o que é fatorial de um número? Você deve ser gentil, certo? Você deve ter estudado isso em suas aulas de matemática e morreu. Então, matemática do ensino médio, você deve saber o que é fatorial. Deixe-me dizer o que é fatorial. Fatorial, nosso número de telefone é o produto de todos os números inteiros de um até aquele número suporta, se eu disser fatorial de dois, fator dois será o produto de um a dois. Produto dos números 1-2. Então, o produto do fatorial de dois será um em dois, certo? Se eu disser que fatorial de três é um em dois em três. Da mesma forma, se eu disser fatorial de sete e denotarmos o fator assim. Portanto, sete fatoriais serão um partir de um produto dos números de 1 a 7. Portanto, será um em dois em três em 45 e 6,7, o que resultará em torno de 5.040 como produto do número. Portanto, o fatorial para o número começa de um até que esse número multiplique cada número e obtenha o produto de todos os números. Ok? Então, 1287, se eu colocar y fatorial oito aqui, será um produto dos números de 1 a 8. E isso será outra coisa, certo? Então, vamos descobrir qual é o fatorial disso. Então, deixe-me executar este programa e deixe-me imprimir isso. Deixe-me fazer isso. fatorial C de oito é 43 20, então o fatorial dele será 43 20. Então é assim que podemos encontrar o fatorial de um número usando a recursão. Então, deixe-me explicar essa função, que escrevemos para encontrar o fatorial de um número. Então, aqui estou escrevendo uma função fatorial recursiva. E isso usará o número como entrada. E aqui estou verificando se n é menor ou igual a um, vou retornar simplesmente esse número um, ok? Então o fator zero também é um, ok? Então, se for um ou zero, retornará a saída como uma. E se o número for maior que um, entrará na outra parte. E aqui, o que eu estou fazendo, eu estou usando, eu estou usando N em, N em, e então eu estou chamando a função novamente da mesma função. Isso é chamado de concentrado para ser. A função se chamará dentro da função. A função se chamará dentro da função, e isso é chamado de recursão. Então, dentro dessa função fatorial de registro, chamaremos isso de função fatorial. E você precisará de menos um. Isso significa que o suporte é fatorial do mesmo. Então, ele vai para as fontes e recapitula fatorial. E considerará a entrada como oito menos 17. Então, ele considerará a entrada como sete, e chamaremos esse registro de fatorial. Então, novamente, a função virá aqui. Então, novamente, ele virá aqui e será oito em sete, em um fatorial recorde de seis. E assim será recorrente, certo? Isso é chamado de recurse on, ele continuará se chamando dentro da pílula funcional. O número se torna zero. Tudo bem? Então, começará de 8 a 7 a 6. E então virá como o que virá um menos 10. E então fatorial de n menos um. Então, o fatorial de zero se tornará um e obteremos o produto de oito em sete em seis em cinco em quatro em três em um. E é assim que o fatorial funciona. Deixe-me mudar isso para cinco e chegará em torno de 120. Veja, o fatorial de cinco é 120, ok? Então é assim que a função fatorial funciona em nossa programação usando a recursão. Portanto, a constante é suportada e estou escrevendo essa função considerando fatorial. E dentro dessa função em si eu estou chamando a função em si. Então, dentro da função fatorial recursiva, estou chamando isso de fatorial de registro. E isso é chamado de recursão quando a função chama a si mesma de “inside ” é chamada de Carson. Quando a função chama a si mesma, ela chama o carro de filho. Ok? Então é assim que a recursão funciona em nossa programação. Vimos dois exemplos. Uma delas é encontrar o fatorial de uma função usando recursão. E no exemplo anterior, vimos como encontrar a soma dos números naturais usando recursão, onde construímos esse ecossistema para encontrar a soma dos números naturais. E aqui encontramos o fatorial de um número usando recursão. 51. Dados de amostra de uma população: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre amostragem de uma população a partir de um conjunto de dados em programação R. Então, isso é muito importante porque quando temos um problema de aprendizado de máquina, um problema de ciência de dados ou um problema de inundação, temos um grande conjunto de dados, certo? E queremos obter algumas informações dos dados, ou queremos uma amostra dos dados. Suponha que tenhamos a maioria da população da cidade e queiramos analisar quantos Parsons têm diabetes. Então, vamos pegar uma amostra de dados, analisá-la e, com base nisso, podemos criar um modelo e depois aplicar esse modelo a uma população maior, certo? Portanto, tirar uma população pequena ou uma amostra de um grande conjunto de dados é chamado de amostragem de uma população. Em termos gerais, amostrar um Beta é muito importante. E para saber isso, devemos saber o que é, nossas funções são simples, como criar vetores. E então sabemos todas essas coisas. Então, nós, o que fazemos, veremos um exemplo simples como podemos fazer a amostragem. Ok? Portanto, para lidar com a amostragem e fornecer suporte de amostragem para a amostragem, ou tem uma função embutida chamada amostra. Então, nossa função de amostra, essa amostra simples de SAM PLE, essa função de amostra, o que ela fará, simplesmente amostrará a população se dermos amostra e fornecermos qualquer número inteiro como entrada. Então, o que ele fará é amostrar de um a 20 números, significa que criará uma população, amostra de uma a 20. Então, se eu executar isso, veja aqui, deixe-me limpar isso para que possamos ver a saída corretamente. Então, se eu executar esse exemplo 20, veja o que ele fará. Isso criará alguns números em nossa população de números de 1 a 20. E não é contra, não ganhou uma certa aleatoriedade, ok? Portanto, simplesmente não está organizado em ordem crescente ou decrescente. Apenas os números de 1 a 20, ele gerará. Então 123, todos os números de 1 a 20. Ok? É assim que podemos criar uma amostra de números de 1 a 20. Esse é um exemplo simples. A próxima coisa é o que eu vou fazer. Vou criar um vetor de 1 a 15 números. Suponha que este seja o, este é o nosso conjunto de dados que contém os números 1 a 21 a 15 aqui, por exemplo , um a 20, este é o nosso vetor x onde estamos mantendo os números de 1 a 20. Então essa é a população. Esse x será conhecido como uma população porque esse é todo o conjunto de dados que temos. Então X é a população. E dessa população de x, quero amostrar externamente cinco elementos, ou cinco. Eu quero um arquivo de amostra. Eu quero os cinco. Essas são as marcas. São esses, esses são o número de pessoas pré-impressas. Eu quero o número de apenas cinco pessoas. Eu quero experimentar cinco elementos. Como podemos fazer isso? Podemos usar a função de amostra. Podemos fornecer a população aqui, x e depois vírgula cinco, quantos elementos você deseja amostrar do conjunto de dados do lote de X. Portanto, a amostra x vírgula cinco nos dará os cinco números aleatórios grandes dados populacionais e criará uma amostra para nós. Então, deixe-me fazer isso com pressa e, em seguida, amostrar o exon cinco. Veja aqui. Agora estamos obtendo 481.410,12 do conjunto de dados populacionais, certo? O conjunto de dados de populismo é esse, ok? De um a 15. Então, a partir disso, obtemos o aleatório de 81.410,12. Este é o nosso conjunto de dados de amostra. Se eu executá-lo novamente, ele nos dará cinco números diferentes. Veja aqui, agora a amostra foi alterada e, portanto, ele escolhe aleatoriamente cinco números desse vetor x ou população x e criará uma amostra de dados. Então é assim que nossa função de amostra funciona. Em seguida, podemos dar um substituto igual a verdadeiro. Então, para este, substitua por igual a dois. Isso gerará os mesmos números. Se eu executá-lo novamente, ele nos dará os diferentes cinco números aqui substituídos, não nos dando à guerra o que ela faz. se usarmos nossa amostra e fornecermos atos como uma população, simplesmente usaremos replace igual a true. O que vai acontecer? Vamos ver. Ele substituirá o elemento c. Agora 51302, 74, 414-151-2312. Veja, todos os números não são o certo para 15. Alguns números foram substituídos como 131 vezes, mas cinco também é uma vez, 14 é repetido três vezes, 12 é repetido duas vezes. Ei, aí. Da mesma forma, alguns dos números serão substituídos por outros números como alguns de apoio, suporte. Não há ninguém nisso, mas nosso conjunto de dados original tem de um a 15. Mas aqui nem todos os números, 1-15 aqui, certo? A maioria dos números é substituída. Então, o que substituiu igual a verdadeiro servirá, ele continuará substituindo os números do conjunto de dados. Então, do um-dois a três por cento, ele pegará alguns dos dados, repetirá alguns dos dados e substituirá alguns dos números. Então, alguns dos números foram substituídos pela soma dos outros números como um. Suponha que um seja repetido, um tenha sido substituído por quatro, certo? Da mesma forma, 14 substituiu algum outro número como seis ou algo assim. Porque falta sexo aqui. Está faltando aqui. Então, aqueles 6,8 que estão faltando, que foram substituídos pelos outros números no conjunto de dados populacionais. Isso é 14412, certo? Então, o que ele fará é substituir o número internamente e resfriar o gênero em nossa amostra de população para nós. Portanto, ele simplesmente continuará substituindo os dados uns pelos outros. Ok? Então, suponha que tenhamos um evento de cabeça e cauda jogando uma moeda. Então, temos dois eventos, certo? Ou pegamos a cabeça, estamos bem? Suponha que tenhamos esse conjunto de dados de amostra e um evento recíproco de cabeça e cauda de H e T. E queremos que seja amostrado. Ele fornecerá o tamanho da amostra para impressão e substituição igual a dois. O que ele fará, simplesmente executará isso, verá o que fará. Ele simplesmente criará uma amostra com t e borda, cabeça e cauda. E ele repetirá a cabeça e dirá várias vezes. Porque fornecemos os tamanhos das amostras em roxo. E assim criará a borda DHHS, uma entidade. Isso é bastante aleatório. Eles estão sequenciando que, se você executá-lo novamente, poderá obter outra sequência de H e T, e será um script positivo. Dessa forma, podemos criar uma amostra de eventos de cabeça e cauda. E podemos dar os números aqui. Se eu der cinco , estará feito. Isso nos dará o TTT. Veja aqui nesta tendência temporal que apresentamos apenas cinco caudas. Caudas, caudas estão chegando. Não, não há cabeça. Se eu conseguir, suponha seis. Agora vamos para cabeça, cauda, cauda, cauda, cauda e cabeça. Portanto, é bastante aleatório. Dessa forma, podemos usar a função de amostra na programação R para obter a amostra de uma grande população, como fizemos aqui. Pegamos essa população x, que contém números de um a nove, e pegamos apenas uma amostra cinco elementos desse conjunto de dados. E criamos nossa amostra de cinco elementos. Então é assim que podemos usar a função de amostra para obter a amostra de um conjunto de dados populacionais, ok? 52. Programa para verificar números primos: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos como verificar se um número é primo ou não. Então, esses são os problemas que podemos enfrentar em nossas entrevistas competitivas de codificação, quais o entrevistador pode pedir que você escreva um programa para descobrir a soma de n números ou se um número é primo ou não, ou alguns números pares ou encontrar números pares. Como verificar o número par, como pegar o número primo. Então, esses são os problemas, muitas vezes solicitamos exames abrangentes e recorremos a testes de programação. Portanto, é melhor saber como implementar isso em nossa programação também. Se você é um aspirante a cientista de dados engenheiro de aprendizado de máquina e IA. Então, é bom saber o básico, certo? Então, na série de palestras, estamos explorando essas coisas, como escrever um programa em nossa programação para encontrar um número primo, particularmente nesta palestra. Ok? Portanto, este programa serve para verificar se o número é primo ou não. E o número que tomaremos como entrada de entrada. Então, pediremos que o usuário insira a entrada e, assim que o usuário inserir o número de entrada, pegaremos esse número de entrada e verificaremos se esse número é primo ou não. E para isso, usaremos o loop for. Então, se você souber como usar if e else, e for loop, será muito bom fazer este programa. Ok? E deixe-me dizer qual é o número primo? Portanto, o número primo é um número inteiro positivo maior que um, que não tem outros fatores exceto um e o próprio número. Então, o que isso significa? Suponha que tenhamos um número para o número quatro, podemos escrever na forma de dois em dois. Portanto, tem dois fatores. Dois em, dois em dois é quatro, certo? Portanto, esse não é um número primo. Suponha que tenhamos um número. Suponha que tenhamos o número seis. Número seis, podemos escrever na forma dois em T3. Portanto, tem dois fatores, 2.3. Da mesma forma, temos um número. Suponha que tenhamos o número cinco. Número cinco, não podemos escrever em um fator, certo? Não podemos tentar o número dois em algo como dois em algo como dois em dois, mal podemos esperar. Podemos fazer dois em 2,5, mas isso não está correto. Devemos ter os fatores inteiros corretos. Dessa forma, não é possível, certo? Então, os números são como cinco, que tem um fator, um e ele mesmo. Então, podemos escrever cinco na forma de um em cinco. Da mesma forma, como temos 77, também podemos escrever na forma de querer sete Wanli. Podemos escrevê-lo em um pouco com a ajuda de alguns outros números, como escrevemos seis a três, não podemos, não podemos encontrar um número que possa dividir. 77 pode ser dividido por um, apenas 1,7 em si. É por isso que os números primos são os números, números inteiros positivos maiores que um, que podem ser divididos por um. Número em si, que não tem outros fatores, exceto um e o próprio número. Então, os números primos ou dois, depois três, depois cinco, depois sete, depois LeBron, e depois 13, depois 17 e assim por diante. Então, esses são os números primos, C7. Não podemos dividi-lo por nenhum outro número, exceto um e ele mesmo, 13 também, 11 também. Então, esses são os números primos. Então, agora temos a compreensão de quais são os números primos. Vamos continuar resolvendo esse problema. Então, primeiro, como obter informações do usuário em R. Assim, podemos usar a função de linha de leitura para obter informações do usuário. Então você deveria estar, você deve conhecer a função readline, que tem um argumento rápido do Azure. Portanto, a função readline será solicitada, portanto, solicitará que o usuário o faça. E tudo o que você escrever aqui, será exibido no console. E ele pedirá que você faça o que você escrever aqui para pedir que você faça. Suponha que aqui estamos entrando, estamos escrevendo, por favor, insira um número. Portanto, o prompt pegará o número digitado pelo usuário e o passaremos para a função de linha de leitura. E aqui podemos converter a entrada do usuário em dois números inteiros. Então, o que somos, estamos armazenando o número inserido pelo usuário. 0 e n variáveis. Portanto, como número inteiro de pontos, ele será convertido em inteiro de tudo o que obtivermos dessa função de linha de árvore por meio desse prompt. Ok? Então, se eu executar isso aqui, se eu executar isso, ele solicitará que insira um número. Ok? Então deixe-me esclarecer isso. Ok? E então estamos colocando uma bandeira. É chamado de zero. Inicialmente. Veremos por que estamos usando essa bandeira igual a zero e também veremos por que ela está chegando. Isso é soma, porque inserimos os números. Está nos mostrando o mesmo número. Isso é soma, ah, edição que veremos. Ok, então estamos definindo a bandeira como igual a zero. E depois adicionamos doações. Como eu disse, os números primos são sempre maiores que um, certo? Comece com dois até 357-11-1317 desse jeito. Portanto, é sempre maior que um. Então, a primeira coisa que verificaremos é se o número é maior que um. Em seguida, entraremos no circuito. E se o número não for maior que um, então definitivamente não é um número primo, certo? Então, para essa bandeira será zero. E para a bandeira zero, o que estamos dando, para a bandeira zero, não recebemos um número primo. Então, se você inserir o número em menos, menos dois, menos três, menos cinco, para que eles venham aqui. Pulse e ela cederá, ela cederá. Então, a mensagem de que você digitou um número não é um número primo, ok? E se o número for maior que um? Suporte 235678, todos esses números. Então, o que faremos é verificar os fatores. E antes de verificar os fatores, o que faremos, definiremos a bandeira como uma. Ok? Um significa que número é número primo, ok? Então, inicialmente, nós o definimos como zero. Agora, o nudge entrará dentro desta instrução if, if loop, IF, if, o que faremos se o número for maior que um, definirá a bandeira como igual a um inicialmente. E então, que azul, criaremos um loop for. E qual será o loop for? Pois loop é para I em dois, porque os números primos começam com 22 a n menos um. E menos um significa supor que estamos inserindo cinco, então dois a quatro. Então, em dois a 4 minutos , serão necessários quatro a T para esses três números. E o que será necessário para o fator, se o número é um número está sendo dividido por dois, três ou quatro, ele pode ser dividido por 23,4 ou não. E então, se uma pessoa, essa pessoa fez, eu perdi, ela verificará o fator se o número inserido for dividido por, suponha que estejamos inserindo cinco. Então, ele verificará se o segmento está dividido por dois ou não. E então ele verificará dividido por três ou não. Então, será quatro ou não igual a, igual a zero. E então definiremos a bandeira como igual a zero. E se for dividido pelo 234, definirá a bandeira igual a zero e sairá da declaração for. Isso quebrará o ciclo de forma e sairá disso. E tudo bem, e se n for igual a, igual a dois, a bandeira será igual a um. Então, o que ele fará aqui, verificará se o número, suponha que estejamos inserindo seis. Então seis é dividido por dois, certo? Então, será igual a zero. Então, ele colocará a bandeira zero e sairá do circuito. E isso sinalizará. bandeira zero virá na outra parte, e virá, então não é um número primo. Suponha que estejamos inserindo cinco. Então, cinco é dividido por dois. Não, sairá e a bandeira durará um ano. Então, a bandeira um significa que cinco é um número primo, certo? Com suporte semelhante, estamos inserindo oito, então oito é dividido por, serão necessários dois a sete para primeiro dividir por dois. Divida para apenas sinalizar é zero. Ele sairá do circuito e sinalizará zero , pois não é um número primo como esse. Ele verificará e nos dará o resultado. Apoie você, estamos inserindo 11, então será necessário N dividido por 211/2. Não, ele sairá do loop suportado. Estamos inserindo a cisteína. Cisteína dividida por 2/2. Sim, bandeira zero 016 dividida por assim. Ok? Portanto, ele sairá do circuito salvando, definindo a bandeira como igual a zero. E nem todos os números serão primos. E suponha que estejamos inserindo 1717/2. Não. Então, quais são as duas coisas que acontecerão, elas sairão do circuito e colocarão a bandeira como igual a uma. Bandeira igual a um significa que é um número primo. E se o número que você estava digitando, então números primos diretamente, certo? E, por um lado, estamos chegando na outra parte, maior que uma, estamos chegando na outra parte. Ok? Então, deixe-me analisar toda essa fonte. Qual é o problema aqui? Ok, deixe-me executá-lo novamente. Agora, o console está pedindo que digitemos um número. Suponha que eu insira um número um. Desculpe. Suponha que eu insira um número um aqui e pressione Enter, o que acontecerá? Um não é um número primo. Por que um não é um número primo? Ele virá aqui e verificará se n é maior que 100 ou mais. Yan é maior do que um ou não. Então, sério, isso não é , não entrará nesse loop e a bandeira será zero para este porque não está entrando nesse loop porque F é um e virá aqui, bandeira igual a zero. Então agora ele virá aqui. E verificará a bandeira igual a um nó. Então, ele virá na outra parte e estudará a Arábia Saudita. Ele entrará nessa outra parte. E um também não é um número primo como esse. Ok? Deixe-me fazer isso de novo. E se eu inserir dois, desculpe, se eu inserir dois aqui, o que acontecerá? Ele em c2 é um número primo. Por que dois é um número primo? Ele virá aqui e é maior que um, certo? Dois é maior que um. Então sinalize, ele definirá um, depois virá aqui para dividi-lo por, para dividi-lo por dois para um, certo? 2/2. Então C é 2/2 se comemorar. Então, sairá desse ciclo, certo? E a bandeira será uma. Então, dois é um número primo. Se eu colocar três, desculpe. Se eu executar isso novamente e colocar o número três, então ele recebeu três é um número primo. Por quê? Porque ele entrará nesta bandeira de declaração. Isso definirá a bandeira para 1,4. Sinalize um, será número primo e depois entrará nesse I de quatro ciclos em 222, certo? Então, 3/2, não. Então, isso quebrará essa afirmação e a bandeira será uma, certo? Então e será o número primo. Assim, se você inserir suporte de comprimento ou 17, a célula de apoio saudita insere 17 aqui. 17 é um número primo, por quê? Ele virá aqui e 17 é maior que um. Ele virá aqui, definirá a bandeira como um e entrará nela para fazer um loop para i em 21617/2. Sim. 17 não é desviado por dois, então ele sairá desse circuito e a bandeira permanecerá 1,4. Sinalize um, o número é um número primo e é por isso que esses 17 são números primos. Então, é assim que podemos escrever um programa simples para encontrar números primos em nossa programação. 53. Programa para verificar EVEN ou ODD: Nesta palestra, escreveremos um programa em nossa programação para um programa em nossa programação para descobrir se o número inserido é par ou ímpar. Então, pegaremos a entrada do usuário e pediremos que ele insira um número. E com base na entrada do usuário, verá que o número de entrada do usuário é um número ímpar ou um número par. Certo? Então, o que é um número ímpar ou um número par? Então, números que são divididos por 0/0 sem o resto. É chamado de número par. Suponha que tenhamos um número x e se dividirmos o número por dois e obtivermos zero como lembrete, então é um número par. E se o número for dividido por dois e nos der algum resto, então um número par. Então, simplesmente, se um número é dividido por dois e o restante é zero, então numere par e divida por dois. E está dando alguma exigência, é um número ímpar, certo? Então, vamos pegar o programa. Então, aqui eu escrevi um programa em que estou tomando a entrada como um número inteiro. Então, estou pegando a entrada do ID do usuário como número inteiro e estou pedindo ao usuário que insira o número. Por favor, insira um número. Portanto, a função readline será usada para receber a entrada do usuário e a solicitação que estamos fornecendo. Por favor, insira um número. Em seguida, estamos convertendo para um yeoja, Ads dot integer. Ok? Então, seja o que for, um número inteiro, certo? E então estamos simplesmente verificando se esse número n está dividido por dois. E se o restante for zero, então n dividido por dois. Se Amanda for igual a zero, diremos que n é um número par. E se obtivermos um resto diferente de zero ou número, certo? É um número ímpar. Coisa tão simples. Se n for dividido por dois e o restante for zero, então se o número for par, e se o resto for diferente de zero, é um número ímpar, certo? Então, espero que você tenha entendido a ideia. Então, deixe-me dizer quais são os números pares e ímpares. Então, 24681012. Todos esses números são números pares. E nossos números são como 35791113. Todos esses números. Então, não só isso, vai continuar até Ok. Então, o número que a senhora esperou muito com Gino exigiu. O número exigido é chamado de número par. Um número ímpar se apresentar essa afirmação abaixo de zero. Então, vamos executar esse programa e ver o resultado. Então, deixe-me esclarecer isso primeiro. Insira um número. Então, suponha que eu insira o número 45. Portanto, a tensão de saída que chega a 45 com eles, ou o número por 45 é um número ímpar, porque se dividirmos 45 , obteremos uma, demanda ou duas em 20 a 44,1 que recebemos como lembrete, então o lembrete é diferente de zero. Então, ele entrará nessa outra parte. E foi realmente o método em que 45 é um número ímpar. E suponha que eu o execute novamente, e se eu inserir um número 12, desculpe, vou inserir o número 12, então 12 é um número par. Suponha que eu o execute novamente. E se eu inserir um número, aqui, tem que nos dar um número par direto. E se eu executar novamente, e se eu conseguir cinco, e conseguir cinco é um número ímpar. Dessa forma, podemos identificar se um número é lógico ímpar ou mesmo simples e dividido por dois é igual a zero. Se for do zero. Como lembrete, dizemos qual número, caso contrário, são números curtos. Então, espero que esses programas simples ajudem você a entender como a programação funciona e a sua lógica. E essas também são perguntas muito populares em entrevistas, especialmente para um freezer. E se tivéssemos um recém-formado e procurássemos emprego, essas perguntas são muito comuns na colocação da faculdade no campus, ok. 54. Programa para verificar negativo positivo ou ZERO: Nesta palestra, escreveremos um programa no qual verificaremos se um número é negativo, positivo ou zero. Portanto, será um teste simples em que descobriremos se um número é negativo, positivo ou zero. Então, para isso, faremos a mesma coisa que fizemos na palestra anterior de Linda, mas um pouco diferente aqui. O número pode ser atribuído a uma lombar dupla. Ok, então considere a entrada como dupla e usaremos a função de linha de leitura e o mesmo prompt, insira um número. Em seguida, verificaremos se o número inserido é maior que zero. Se for maior que zero, dará a mensagem. N é um número positivo. E se for igual a zero, daremos como se fosse zero. E nisso somente se for diferente de zero. Então, primeiro ele verificará isso. Se n for maior que zero, então pós-renal, certo? Em seguida, ele entrará em outra parte em L3 usando um if-else aninhado. Se o número não for maior que zero , chegará a essa outra parte. E então, nesta outra parte, estamos verificando se o número é igual a zero, o número é zero. Caso contrário, se o número não for zero e maior que zero, menor que zero, o que faremos é digitar essa outra parte. Isso significa que será um número negativo, certo? Se o número for menor que zero. Se o número não for maior que zero, se o número não for maior que zero, certo? Mantissa, pode ser zero ou menor que zero, certo? Então, se for zero, obteremos zero. Se for menor que zero, chegaremos à outra parte e colocaremos a mensagem como se o número fosse um número negativo, basta verificar. Vamos executar isso. Deixe-me esclarecer isso. Ok? Ok, aqui. Ok, então vamos fazer isso. Então, deixe-me inserir um número para apoiar o Atlanta. Oh, menos cinco. Menos cinco é um número. Suponho que vou executá-lo novamente e inserir 45. Desculpe. Vou entrar por 45 anos. Quatro a cinco é uma porção ou suponha que eu a execute novamente, prático, colocarei zero. J, o número Saudi Tito é zero. Ok? E então suponha que eu o execute novamente e forneça um número duplo como -78,5. Então -7.578,5 é um número negativo, certo? Da mesma forma, se eu colocar menos oito tem um negativo. Portanto, este é o programa simples para descobrir onde o número é positivo, negativo ou zero. 55. Programa para verificar o ano de salto ou não: Olá e bem vindo de volta. Nesta palestra, vamos escrever um programa para descobrir onde está esse ouvido, na Bolívia ou não. Então, o que é folha aqui? Saia daqui. Você terá um dia extra, como três a seis dias em um ano. 376 dias aqui apareceram de repente, certo? Então, como decidimos se o pátio não seria um ano bissexto ou não. Portanto, existe uma fórmula simples. Se a orelha for dividida por quatro e o restante for zero, pode ser uma Líbia, mas essa não é a caixa de um litro, certo? Se a orelha for dividida por quatro, essa é a função do módulo. Se você dividir por quatro e dar zero a qualquer fornecedor, então pode ser a Líbia. Mas temos que verificar outra condição, se o número também é dividido igualmente por cem. Além disso, se você dividir o relatório de estudo da United Way e entregá-lo em zero, pode ser um ano bissexto, mas temos que verificar se ele está dividido por cem e fornecer um lembrete como 0/100. Além disso, dar o restante é zero. Novamente, pode ser uma transmissão ao vivo aqui, mas, novamente, temos que verificar uma condição que os dados ainda estão divididos por 400 e dar um lembrete como zero. Se esse ano também for 400 e dar um lembrete como zero dividido igualmente por 400, então esse será seu próximo ano bissexto. E se não for, então não será como a Líbia. Portanto, a primeira condição que precisamos verificar é se a edição é dividida por quatro, então temos que verificar se elas estão divididas para frente e restante como zero totalmente dividido, certo, para seu modelo, isso significa módulo 40. Então, temos o projeto ainda mais ou menos 100 , está em torno de zero e o módulo 400 do ano. Então, eles também chegam a zero. Se isso, ele tem sua, uh, Livia. Lívia. Ok. E se e aqui também, isso não é uma divisão por 100, então ainda não está ao vivo. Também sairá deste painel, vá para a outra parte. E se não for dividido por quatro, certamente não é um ano bissexto. Ok? Então, aqui também, se o ano não é direcionado corretamente para isso, não é Olimpíada. Ok? Então, vamos executar esse programa e apoiar e entrar em 2020. 2020 é o caminho preferido porque é dividido por quatro. Também é dividido por cem. E será dividido, certo? 400 também, certo? Bem, está realmente certo por volta de 400 anos de 2020. Sabia que eu escrevia para sim. E se não estiver dividido por y, se estiver sendo dividido por cem e apenas lhe dando um lembrete de zero, então temos o Projeto 400. Mas aqui está, nos dando algo aos demandantes, certo? É por isso que o restante não é zero aqui. Então, chegará à outra parte e o colocará às 20:20 é a Líbia. Então, se é mais ou menos zero, então temos que verificar dividido por 400 ou não. Se o módulo não for igual a zero, ele chegará a esta parte e nos dará que a Líbia de 2020 suporte novamente uma estrutura em torno dela. E se eu desse 1520500, sim, de repente, para já ou não. Então C ainda 2051, que é dividido por quatro. Então, ele virá aqui. Ele pegará e dividirá por 100 ou não. Portanto, é dividido por 100 totalmente. Em seguida, chegará à divisão desse loop e verificará se está dividido por 400 ou não. Então, veja 2500/400, o que nos dará o restante. Alguém o renderizará não precisará ser zero, então ele virá aqui e chegará à outra parte porque o restante não é igual a zero. E esta parte, que imprimirá 2.500, não é uma Líbia. Então, vamos entrar e ver o resultado. C, 2.500 não é uma folha aqui, certo? Da mesma forma, se eu colocar 19.1.900, não só tenho medo de 2.300.2300, mas ainda não estou vivo, certo? Espere, eu preciso novamente de Tao Qian. 12. Se, de repente, entendermos por que está ao vivo aqui, porque está dividido por quatro, então chegará ao fim e verá se a taxa anual total deste ano é dividida por 100 e nos dá um restante de zero. Não, não está nos dando o zero restante. Então, precisamos verificar novamente. E claramente chegará à parte da saúde e imprimirá em líbio. Ok. Dessa forma, podemos escrever um programa para descobrir se uma determinada divindade já dorme ou não. 56. Programa de mesa de multiplicação: Olá e bem vindo de volta. Então, nesta palestra, vamos escrever um programa simples para imprimir tabelas de multiplicação, certo? Gostar de uma tabela de multiplicação é uma tabela para igual. Suponha que a tabela de multiplicação até seja dois, depois dois em 24, depois 2,236, fazendo 2482 em tubos desse jeito. Ok? Então, uma tabela de multiplicação simples que vamos imprimir. E para isso vamos escrever um programa. Então, eu já escrevi o programa para economizar nosso tempo. Bem, primeiro consideraremos a entrada do usuário como um número inteiro e solicitaremos: insira um número. Assim que você inserir um número. Vamos pegar esse número. E o que faremos executar um loop for. O que está em um a dez, porque a tabela de multiplicação, queremos acabar com ela. 14, até dez números Valley, certo? Então, e então imprimiremos a multiplicação, o número n. E o que faremos, colocaremos o número n. E o que faremos, simplesmente multiplicaremos N por i. Então, primeiro os pegaremos, ou alguém pegará o número três a três para um. Da próxima vez que o conselho chegar, eu serei um. Então, 3,22 e 3,23 até dez. Assim. Ele imprimirá a tabela de multiplicação e, simplesmente, isso é para a saída. Então, serão três em um igual a 33 em dois. Sexo assim. Ok, então vamos executar isso e suponho que eu insira três aqui. Então, qual será a saída para ver três em 13 e eu é um ano, ok, então três em um igual a 33 em um igual a três, depois três em 26 até dez. Então, se você quiser aumentar esse número, você pode colocar o cotovelo de apoio aqui. E se eu o executar novamente, e se eu apostar por três anos, veja aqui, isso vai até as pré-impressões. Dessa forma, você pode gerar a tabela de multiplicação ou para qualquer número n, para qualquer número de primos até obter a dor adequada, um próton é o que você quiser. Então, suponha que eu o execute novamente e mantenha o número 20, estude. Número 25 anos, Atlanta 25. Deixe-me esclarecer isso. Vou inserir um número de 25 anos. Quero gerar a tabela de multiplicação para 25. 25 um para um. Se eu quisesse escolher t, 25 a três é igual a 75,25 em dez, por favor. Dessa forma, podemos gerar a tabela de multiplicação em nosso programa. 57. Quais valores e tipos de valores em falta em falta: Olá e bem vindo de volta. Nesta palestra, aprenderemos conceito muito importante que é chamado de imputação de dados faltantes. Então, sempre que estamos fazendo qualquer projeto de análise de dados, projeto de aprendizado de máquina ou até mesmo ciência de dados, inteligência artificial ou projeto de aprendizado profundo. Seja qual for o projeto que você esteja fazendo relacionado aos dados, precisamos trabalhar nos dados. E um dos problemas mais desafiadores, ou o maior problema, agora é a falta de valores nos dados. Então, o que quero dizer com valores faltantes ou dados perdidos? Então, quando isso vai ajudar na forma como coletamos dados, coletamos dados por meio de pesquisas ou pedimos às pessoas que preenchessem os formulários. E enquanto as pessoas estão navegando na Internet, nós coletamos dados, enquanto as pessoas estão navegando, nós coletamos dados que serão polares, vamos às compras. Coletamos dados por meio de poemas pedindo feedback, todas essas coisas. Então, existem várias maneiras de coletar dados, certo? E nessas várias formas de coletar dados, às vezes a pessoa que está nos fornecendo dados ou nos fornecendo dados reluta em fornecer todos os dados que solicitamos a Bob, certo? E quando ele hesitar e Gibbs errar os dados ou não guardar os dados de alguns dos valores dos formulários , os dados desaparecerão, certo? E isso vale para o mesmo, sem completar os dados. E quando tentamos analisar esses dados, podemos enfrentar problemas porque muitas das colunas ou linhas de dados estarão ausentes. Suponha que o exemplo simples seja quando você está indo a um shopping center e eles estão. As pessoas estão pedindo que você preencha um formulário de feedback, As pessoas estão pedindo que você preencha onde perguntarão os detalhes de sua família, seu número de celular, seu ID de e-mail e sua mãe chamada Nome do pai, seu nome de rua, onde você sai? Quais são suas preferências? Quanto você resolve? Em um mês? Você parece que seu salário detalha todos esses dados. Portanto, a maioria de nós não estará pronta para fornecer todos esses dados, como nossos dados salariais ou até mesmo o endereço residencial ou o número do celular. Portanto, tendemos a nos esconder e não fornecer esses dados confidenciais ou detalhes de nossa família, como se somos casados ou solteiros ou temos uma gaiola ou não. Esses dados não fornecemos. Então, quando a empresa coleta os dados de milhares de pessoas no shopping, pesquisando-as, elas, quando coletam os dados , quando entram, analisam os dados. Eles descobrirão que a maioria das pessoas não respondeu, como quanto possuem e qual é seu estado civil, quantos filhos têm quando não oferecem esse tipo de separação, não conseguirão categorizá-los. Bem, como se eles pudessem apoiar algumas pessoas. Eles se casaram e não preencheram a coluna, casados ou solteiros. Portanto, eles os categorizarão erroneamente ou não serão capazes de categorizá-los. E esse é o grande problema em projetos de análise de dados e aprendizado de máquina ou ciência de dados. Portanto, para resolver esse problema, existem maneiras de preencher os valores que faltam. Então, apoie você. Se você tiver dados numéricos e suporte, você tem os dados de idade e peso coletados de milhares de pessoas e de algumas pessoas em que faltam ou faltam idosos. Então, o que podemos fazer no caso de dados numéricos, podemos simplesmente calcular a média do conjunto de dados disponível. E podemos preencher o valor médio ou o valor médio nos valores faltantes. Quaisquer valores que estejam faltando serão preenchidos com o valor médio ou valor médio. E isso completará os dados e poderemos obter uma boa análise sobre isso. Portanto, essa é uma maneira simples de imputar dados ausentes em R ou em qualquer projeto de ciência de dados. Ok, então, no caso de valores faltantes, numéricos, e se os valores faltantes não forem numéricos? O que faremos. Então, agora, o que entendemos, entendemos quais são os valores que faltam e quais são as outras regiões para eles. Então, vamos entender os tipos de valores faltantes com os tipos de valores faltantes. Nós os classificamos em três tipos. Um é M, CAR, depois MAR, ou o último é um MAR. Então, o que é esse gato MC, AR, M. Então MCAR, Stanford errando completamente ao acaso, faltando C4, completamente A4 em arpa, faltando completamente aleatoriamente ao acaso. E é o tipo avermelhado de valores ausentes quando não há custo em faltar. Em outras palavras, os valores ausentes não estão relacionados a nenhum recurso , como o nome sugere. Esse lago. É apenas um caso muito raro em que ao colocar os dados no banco de dados CDART do Excel, você perdeu os dados. Ou quando estamos amostras de dados ou pesquisando algumas pessoas, algumas pessoas, aleatoriamente, você perde alguns dados. Portanto, este é um caso bastante raro em que obtemos o MCAR. Em seguida, na próxima coluna, os dados MAR, MAR significa ausente aleatoriamente. Isso é bastante comum e implica que os valores que estão faltando podem ser completamente explicados pelos dados que já temos. Por exemplo, pode haver um caso em que os homens provavelmente sentirão uma pesquisa relacionada à depressão independentemente de quão deprimidos estejam. Gostar. Suponha que algumas pessoas estejam deprimidas e nós estejamos servindo essas pessoas. Então, a maioria das pessoas esconde seu estado mental, certo? Eles estão muito relutantes em compartilhar sua saúde mental e mental, certo? Então, eles esconderão que têm alguns problemas mentais. E isso fará com que as pessoas recebam informações erradas. Portanto, esses valores ausentes ou MAR, certo, ausentes aleatoriamente, na verdade vêm da suposição sobre os dados. E não há como provar se os valores dos dados ausentes aumentam o MAR. Sempre que valores ausentes são categorizados como MAR ou MCA ou dois números maiores , eles podem ser ignorados com segurança. Então, MCAR, MAR, já que eles são como se fossem perdidos aleatoriamente, podemos ignorá-los. Podemos, se você tiver um dado preenchido com isso, esse tipo de valor ausente, você pode simplesmente ignorar esses valores e prosseguir completamente sem preencher esses valores ausentes e removê-los do conjunto de dados. E isso está completamente bem. Você não perderá muito disso porque todos os números estão faltando aleatoriamente. Isso não o relaciona a nenhum recurso ou a nenhuma variável que afetará muito o resultado geral de seus dados. Ok? O último é um AR, e M significa não faltar aleatoriamente. E isso é importante. Por quê? E CMR. E quando os dados não forem MCAR, MAR, eles serão categorizados como não faltantes aleatoriamente. E o que não falta aleatoriamente significa que, como eu disse anteriormente, quando estamos pesquisando pessoas no shopping, elas podem esconder o nome do cônjuge, o nome do filho, os detalhes do endereço, os detalhes do cartão de crédito ou os detalhes do salário. Então isso não é aleatório, certo? As pessoas estão ocultando voluntariamente os dados que não estão fornecendo. E quando você, ao analisarmos os dados, descobrirá que as pessoas não forneceram o estado civil ou o nome do cônjuge, ou quantos filhos têm e quantos não têm. Portanto, esses dados não faltam aleatoriamente. Então, isso é importante. E isso não é aleatório e talvez não saibamos ou não em qual caso os pacotes se enquadram, como se uma pessoa não tivesse dito nada sobre o estado civil, se ela é casada ou não, não poderemos categorizá-la como homem casado ou homem solteiro. E isso levará ao problema de não sermos capazes de categorizar essa pessoa em uma categoria específica e, portanto, não poderemos analisar nossos dados corretamente. E se ignorarmos essa reunião de NM AR que não falta em dados aleatórios , suponha que analistas ou cientistas de dados que ignoram esses dados não faltem aleatoriamente. Ele pode acabar fazendo cálculos errados, são previsões erradas e isso resultará em uma grande perda no negócio. Se você o apoiar, se estiver prevendo a receita de sua organização e ignorando a não perda de dados aleatórios em seu conjunto de dados, poderá acabar fazendo previsões erradas de cálculo e quais, o que pode levar a uma grande perda, não estão segmentando seus clientes corretamente. E isso trará muitos problemas para você. Portanto, você precisa cuidar desses três tipos de valores ausentes. E você, ao ampliar, deve saber quais são e quais tipos de valores faltantes estão faltando em seu conjunto de dados. E se não estiver faltando no conjunto de dados aleatório. E como, como você sabe que não faltam dados aleatórios, valores ausentes não faltam aleatoriamente. E que você pode decidir com base em como, como esse valor ausente está afetando. Ok. Então, como a pessoa é casada ou não, isso afeta porque você não consegue categorizar corretamente a pessoa. Dessa forma, você pode identificar as implicações e o impacto que esse valor ausente terá em todos os dados e resultados que você obterá da análise dos dados. Portanto, além da média, se não tivermos dados numéricos, você pode colocar outros valores ausentes usando a média, média de todo o conjunto de dados. Além disso, temos alguns pacotes R que podemos usar para imputar os valores ausentes. E essas são as fibras dos populares pacotes R para imputar valores ausentes. E o primeiro e muito popular desses mouses MIC. Esse é o pacote que pode ser usado para imputar os valores faltantes. Então Emilia é outro pacote, floresta perdida é outro e perca outro. Um MI é o quinto. Então, esses são os cinco pacotes Popplet R para valores ausentes. Ou, com a ajuda desses pacotes, podemos muito bem calcular, imputar os valores que faltam em nosso conjunto de dados e acabaremos com uma ótima análise de nossos dados. Então, espero que você tenha entendido o que está imputando dados ausentes em R. Quais são os valores ausentes, os tipos de valores faltantes e como você pode identificar o tipo correto de valores faltantes e como podemos lidar com os valores faltantes. Ok, então nos vemos na próxima palestra. 58. Imputando valores em falta nos ANs em conjunto de dados: Bem vindo de volta. Então, na palestra anterior, abordamos quais são os valores perdidos e quais são os tipos de valores faltantes que temos Aprendemos que MCAR, MAR e MAR não faltam aleatoriamente. Então, aprendemos quais são os valores que faltam e quais outros tipos de valores faltantes podemos ver na vida real quando fazemos nossa habilidade, nossos projetos de ciência de dados. E também vimos quais são os pacotes disponíveis em nossa programação com os quais podemos usar para imputar os valores que faltam. Então, temos cinco, um popular pacote R, camundongos, Aemilia, Ms. Water, Act, perderam um MI. Ok. Então, essas são as coisas que abordamos na última palestra. Agora, vamos fazer nossa verdadeira experiência prática e nosso projeto em que, o que fazemos, usaremos o conjunto de dados embutido que está disponível com nosso pacote, que é o conjunto de dados da íris. E nesse conjunto de dados Iris, o que fazemos, incluiremos alguns valores ausentes. Então, intencionalmente, colocamos alguns valores ausentes no conjunto de dados Iris. Em seguida, tentaremos imputar valores ausentes com alguns dados. Então, usaremos o pacote Ms. perished e os camundongos usarão os camundongos e a Sra. Perez para fazer isso, ok? Portanto, impute os valores que faltam no conjunto de dados. Ok? Então, para isso, usaremos a floresta central e usaremos o conjunto de dados Iris, que está na área de soldagem. Portanto, o primeiro passo é carregar os dados. Portanto, para carregar o conjunto de dados embutido que está prontamente disponível em R, precisamos simplesmente chamar esses dados. Portanto, os dados são iguais a eles. E quando colocamos dados para alguém, e quando executamos isso, vamos fazer com que alguém preencha o conjunto de dados da íris. Então, veja aqui, esses são os dados que obtemos do resumo desses dados irlandeses. Portanto, há muitos outros dados, mas este é apenas um resumo simples dos dados irlandeses. A próxima coisa é o que precisamos fazer. Nós o faremos, já que estamos usando o pacote de mouses aqui. Então, expressões idiomáticas de camundongos faltam em valores aleatórios, certo? Então, vamos ver os valores ausentes em nosso conjunto de dados pois esse conjunto de dados Iris não terá nenhum valor ausente. Então, o que faremos é colocar valores ausentes, ver os valores ausentes em nosso conjunto de dados usando função NA ampla e essa função de ampliação que podemos obter da função Miss Forester. Ok, então com isso podemos usar Iris dot miss os valores que faltam e podemos usar a função wide n a. E usamos o conjunto de dados que fornecerá o nome do conjunto de dados aqui, íris e nenhum 0,01. Ok? E quando fizermos isso, ele verá, o que fará, os valores que faltam em nosso conjunto de dados. Então, quando tentarmos executar essa parte, descobriremos por que estamos recebendo esse erro, porque essa função de ampliação não está disponível porque pertence ao luxo de o pacote perder o polimento. Então, o que faremos tentar instalar o MS perished e os mouses. Então, primeiro deixe-me, já que a notificação está chegando aqui como um pacote de mouses a ser instalado. Então, basta clicar em Instalar e remover os dados ausentes no RMD, o pacote de mouses será instalado. Então, ele começará a ser instalado. Agora é possível ver o processo de instalação que foi iniciado com a instalação dos mouses. Então, ele fará o download, levará alguns segundos. Ok? Portanto, os pacotes foram instalados com sucesso. Ok, a próxima coisa é que precisamos instalar outro pacote chamado Miss Forester. Então, vamos digitar que você perdeu. Ok? Então, basta clicar em Instalar e o pacote Hmisc será instalado. Instale esse pacote. Além disso, você pode usar o comando installed packages e dar a eles esse nome de floresta e ela será instalada. Ok, então agora o armazenamento de água perdida também foi instalado com sucesso. Vamos tentar executar este. Pedaço acima aqui. Acabei de ensinar mito e religião, trouxe uma função e um valor anual de 0,01. Ok, então vamos fazer isso. Não sei por que estamos fazendo isso de novo. Então, agora esses pacotes mal dobrados foram instalados corretamente. Agora podemos simplesmente, e depois vou isso, pensei que a Srta. trouxe. E então vou publicar o resumo de Irish Dartmouth. E veremos aqui. Então, ao ver esse resumo dos dados irlandeses, você não verá nenhum valor. Você verá que não há nenhum valor. Mas quando usamos esse amplo NA e impuramos alguns valores que faltam nos dados da íris. E criaremos uma nova arte, sem valores. Nadar do IDs. Ids me ensinou. Veja, sim, o que está fazendo, está adicionando comprimento sépala, comprimento e largura da sépala, comprimento da pétala e largura da pétala e largura da pétala e é 19 e proteínas do RNA da setosa. Portanto, introduzimos esses muitos 1.819,14. Qualquer valor que use isso trouxe uma função do pacote Hmisc. A próxima coisa é que precisamos remover as variáveis categóricas. Ok? Então, vamos fazer isso e ver aqui. Ok, então removemos essa espécie. Espécies como a cor virginica. Todas essas coisas que removemos, os dados categóricos foram removidos disso. E a próxima coisa é que continuaremos com a implementação mouses, o que faremos na próxima palestra. 59. Imputando valores em falta usando o método de PMM: Então, o que fizemos na palestra anterior, usamos qualquer função do pacote myths forest para introduzir 10%, 10% de valores faltantes em nosso conjunto de dados. Portanto, ou temos um novo conjunto de dados inicial e, quando executamos esses 10% de valores ausentes, serão introduzidos em nossos dados. E para verificar isso, executaremos isso e obteremos o resumo aqui. E aqui, você pode ver que os valores de NA foram introduzidos em nossos dados. Ok? A próxima coisa que estou fazendo remover as variáveis categóricas para que possamos nos concentrar nos valores contínuos. Ok? Como são os poços contínuos? Veja, se você ver aqui, esses são o valor contínuo do fio e as espécies como assentamentos Qual é a cor da Virgínia? Eles não são dados categóricos, então vamos removê-los. Então, o que removemos isso, removemos o select, usamos o irlandês, o conjunto de dados e o que estamos conectando, estamos criando o subconjunto e entramos no olho, eles começam a perder o conjunto de dados, aquele conjunto de dados com valores ausentes e estamos procurando selecionados, você chama duas espécies menos c. Isso significa que removerá a espécie, que é um dado categórico em nosso conjunto de dados. E então obteremos o resumo. Então, quando executamos isso, obtemos esse conjunto de dados em que as espécies serão removidas do nosso conjunto de dados para que possamos nos concentrar e focar nos valores contínuos. Ok, a próxima coisa, o que vamos fazer, vamos instalar os suportes do mouse. E por que precisamos desses pacotes de mouses, porque esses pacotes de camundongos têm uma função chamada padrão de pontos Md. Portanto, a função padrão de pontos Md, o que ela faz, ela retorna uma forma tabular de valor ausente apresentando cada variável em um conjunto de dados. Ok, então, para isso, o que fazemos, instalaremos o install.packages que usaremos para instalar o pacote. E então usaremos os mouses da biblioteca. E então usamos o padrão de pontos Md para os valores ausentes presentes em cada parte, cada variável verá quais são os valores ausentes presentes. Então, primeiro, vamos instalar ou já instalamos. Além disso, se quiser, você pode executar isso novamente. Se não tivermos instalado. E depois disso, depois que o pacote não for instalado, você pode acessar esse trecho de código e executar esse padrão de pontos Md e colocar seu conjunto de dados. Portanto, esse é o conjunto de dados Iris que tem os valores ausentes. Ok, então vamos fazer isso. E quando executamos isso, veja aqui o que obtemos. Obtemos aqui os valores que faltam para ele. Cada um aqui, mas como a largura da sépala, comprimento do ponto sépalo, o comprimento da pétala e a largura da pétala. Então, vamos entender essa tabela. É isso que estamos obtendo nesta forma tabular. Vamos entender. Portanto, existem 98 ou 96 objetos e aqui estão lá 96 observações, que não têm valores faltantes nos valores faltantes. E então, tudo bem, então esses seis. 96. Este significa que não há valores faltantes e zero significa falta. Bem, então 96 variáveis que não têm valores faltantes e largura de pontos sépalos. E aqui você prossegue. Seis executáveis estão com valor ausente do que uma variável também está sem ReLU. Então, com isso, podemos entender quantos valores faltam. Zero significa que essas variáveis estão com valores ausentes, ok? E isso está parecendo muito ruim. E se você quiser, você também pode ver isso. Bastante sobreposto. Então veja aqui. Ok, então a próxima coisa que faremos, faremos fila, criaremos a representação visual do que estamos vendo nessa forma tabular. Então, para isso, o que faremos, instalaremos o pacote. Ok? E depois disso, usaremos a biblioteca BIM. E o que faremos, vamos usar isso. Traçaremos o que quer que estejamos obtendo através do pacote de camundongos, padrão de pontos vazios. Vamos tentar planejar isso. Então, usaremos essa função e a função EDR, e usaremos esse conjunto de dados, iris Dartmouth. E então usaremos cores, azul marinho, amarelo, o que você quiser. Você pode colocar, suponha que eu coloque vermelho e amarelo e números para classificar o valor e depois o nome do rótulo. Eu darei quaisquer nomes que existam em qualquer partida perdida. E por que o laboratório realmente não tem um padrão de dados. Ok, então vamos fazer isso e ver o que visualizamos e estamos obtendo. Agora, estamos recebendo essa visualização. Então, veja aqui com essas visualizações, o que entendemos é que 67% dos valores, 67% dos valores no deserto sem nenhum valor ausente, 67% dos dados não têm nenhum valor ausente. Há dez por cento dos 13% que têm valores ausentes comprimento e na largura da pétala e na parte externa da pétala. Ok? E também podemos ver esse histograma. Histograma. Ok, deixe-me ver um histograma aqui, dados ausentes e Leah, as variáveis pétala, largura da pétala estão tendo cerca de uma porcentagem de pré-impressão acima dos dados ausentes, onde o comprimento é dez por cento, comprimento da sépala está em torno de 9% ou algo assim. A largura da sépala é ter 8% ou algo parecido de dados ausentes. E aqui você também pode entender, ok? Dessa forma, podemos ver a representação gráfica dos valores faltantes. Agora, a próxima coisa é a parada crítica. O que estamos fazendo aqui. Estamos dentro, vamos imputar alguns valores nos valores que faltam. Então, para isso, usaremos a função mouses e usaremos o conjunto de dados ID start missing com valores ausentes. E m phi m é igual a cinco. O que ele fará é reportar para a imagem igual a cinco, se você fornecer, ele criará o conjunto de dados do tipo de arquivo com valores ausentes. Portanto, ele criará cinco conjuntos de dados imputados e um endereço máximo e será 50. E o método em que vamos usar o PMM. O que é esse PMF? Pmm é a correspondência média preditiva para valores numéricos. Vamos usar o método PMM, que é a correspondência média preditiva, ok? E então vamos ver isso por 500. E então veremos o resumo da entrada nos dados. Então, vamos executar esse pedaço de código inútil. E aqui estamos recebendo algumas edições. Ok? Por que não está encontrando a função mouse? Em seguida, precisamos ganhar. Ok, então veja aqui agora, estamos inserindo os dados com. Valores ausentes. Portanto, os valores faltantes serão imputados a alguns dados e aos processos em andamento. Você pode ver aqui. Então, como são 50, eu me visto na areia, estamos vendendo por 500. Portanto, isso pode levar algum tempo. Agora. Está feito. Certo? Então, esses são o número de imputação múltipla cinco. Nosso método de imputação é PMM que usamos, prevemos e matriculamos. Você pode ver o comprimento da sépala, a largura da sépala 11. Essa é a matriz de confusão, ok? E qual a largura da pétala? Então, essa é a matriz de confusão que estamos obtendo. Agora, o que fazemos, podemos verificar os valores imputados usando dados imputados, e podemos usar a largura da sépala para isso. Então, vamos duplicar isso. Os dados importados não foram encontrados. Por que estamos tentando fazer isso de novo. Ok, então eu dei o nome da variável como o nome do conjunto de dados como o período de tempo. E se eu executar isso, veja aqui, esses são os valores que imputamos para a largura da sépala. Ok? Então, da mesma forma, podemos vir aqui e Controlar Alt. Eu realmente posso adicionar jarda e eles servirão, vou colocar um pouco de comprimento. E se eu executar isso, obteremos os valores imputados para o comprimento do ponto sépalo. Ok, agora podemos ver quais são os valores que inserimos em nosso conjunto de dados, inseridos em nosso conjunto de dados. Agora podemos obter os dados imputados completos. Como temos os cinco dados inseridos na configuração, podemos obter o segundo objeto usando a vírgula dois imputada. Então isso nos dará o, ok, ele meio que foi sublinhado, imputado hóquei e dirigiu isso. Então, podemos usar o resumo. Dados completos. Dorsi. Esta é a petição completa de envio de dados, ok, dessa forma, podemos imputar os valores que faltam. Então, suponha que você precise gritar um projeto mundial onde existem alguns valores ausentes. Portanto, você pode usar este programa ou esse mecanismo para imputar valores ausentes usando, como aqui, usamos o PMM. Você também pode usar o outro método. E também existem alguns outros métodos que você pode usar, como usamos a correspondência de média preditiva do PMM para valores numéricos. Se você tiver variáveis binárias com dois níveis, poderá usar a regressão logística. E para isso, a função é log reg. E se tivermos a regressão bayesiana de Bali Tom, você pode usar uma quarta variável de fator com dois ou mais níveis. Você pode usar o método polimérico. E se você tiver modelos estranhos, você pode usar os modelos 4D proporcionais para nível de pedido dois ou mais. Então, esses são os métodos dr. Esses são os métodos e pacotes que você pode usar para inserir os dados. Então, tudo isso tem a ver com esse projeto. E neste projeto, aprendemos como imputar dados. Então, da mesma forma, também podemos implementar seu próprio projeto. E você pode, você pode pegar esse conjunto de dados ou usar qualquer outro dado. Digamos que tente imputar os valores faltantes e tente colocar os valores faltantes dentro dos dados. Primeiro, o que fizemos aqui, inserimos alguns dos nossos dados com variáveis sem valores, certo? E então nós, o que fizemos, usamos o PMM para imputar esses valores com alguns dados, alguns dados relevantes para que possamos obter a saída correta. Então, espero que você aprenda como imputar dados na programação para seus projetos de aprendizado de máquina e ciência de dados. Então, espero que você tenha aprendido alguma coisa. 60. Analisando conjuntos de dados usando funções de R: Nesta palestra, analisaremos o conjunto de dados. Então, primeiro de tudo, se você planeja trabalhar como cientista de dados ou engenheiro de aprendizado de máquina, ou mesmo analista de dados de visualização de dados. Você tem que ter um não. O que é análise de dados e como você pode analisá-los. Portanto, a parte mais importante de qualquer dado de projeto de ciência de dados é como você os analisa. Portanto, a análise de dados é a parte mais importante de qualquer projeto de aprendizado de máquina de ciência de dados ou mesmo projeto de análise de dados. Então, o que vou fazer usar conjunto de dados embutido que está prontamente disponível com o pacote ou download. Ele vem com o pacote R, ok? Portanto, você não precisa baixá-lo separadamente. Será que virá com o coração, ok? Portanto, é um conjunto de dados embutido com o r. Então, vamos usar essa mão. Vou te contar como podemos usar as funções embutidas para analisar os dados obter informações sobre os dados. Ok? Então, o que é conjunto de dados? O conjunto de dados é basicamente uma coleta de dados. E temos visto que os conjuntos de dados mais comuns são pagáveis. Usamos em nossos bancos de dados. Bancos de dados: o que eles forneceram. O conjunto de dados mais comum que vimos é o. Então, em nossos bancos de dados, como minha sequência, nosso MongoDB ou qualquer banco de dados, se você perceber que eles são basicamente dados suficientes em cálice, certo? Se você perceber que o MongoDB é uma coleção de dados em termos de par chave e valor. Se você ver meu banco de dados sequencial ou RDBMS, sistema de gerenciamento de banco de dados relacional, eles manterão os dados na forma de linhas e colunas. E as linhas e colunas manterão os dados, certo? Então, a coleta de dados mais comum é a tabela, ok? E também mantemos os dados no formato XML, também no formato JSON. Mas a coisa mais comum é a mesa, ok? Então você pode, tudo o que você viu na tabela do Walmart que basicamente mantém os dados com ela, certo? Então, vamos usar carros vazios. Carros vazios são um conjunto de dados embutido em R. E vamos analisar este. Então, carros vazios são o conjunto de dados de carros de tendência automotivo embutido em R e recuperado da década de 1970 para o Motor Trend US makin, ok? Então, esses dados são recuperados dessa combinação do Ford Motor Trend US de 1970, ok? Então, a primeira coisa é quando você supõe que temos esse conjunto de dados embutido que são carros vazios e queremos carregar esses dados. Então, o que podemos fazer simplesmente escrever o nome do conjunto de dados. E quando executarmos isso, obteremos o conjunto de dados. Portanto, esse é o conjunto de dados que temos. Ok? E quando você o mantém fora, há mais colunas, certo? Então, essas são as linhas. E essas são as linhas diferentes. Bons nomes, ok? E para cada cartão existem várias variáveis, como MPG, deslocamento do cilindro que esperamos. Ok? Então, todos esses dados que temos com o carro vazio, certo? Portanto, tem 11 colunas e 32 estradas. Isso significa que ele contém os detalhes de 32 carros com 11 colunas. 11 colunas são 11 variáveis diferentes para cada cartão. Ok? Portanto, basta digitar o nome do conjunto de dados e você obterá as informações mais antigas, embora defina todas as linhas e colunas do conjunto de dados. Ok? A próxima coisa é, suponha que tenhamos isso dentro. Queremos obter as informações, mais informações sobre o conjunto de dados. Então, como esse conjunto de dados está em um ângulo de onde obtemos esse conjunto de dados. Assim, podemos simplesmente colocar o ponto de interrogação na frente do nome do conjunto de dados. E quando executamos isso, obtemos as informações sobre o conjunto de dados. E essas informações do conjunto de dados estão chegando aqui. Então, quando terminarmos. Esse aqui. interrogação, ponto de interrogação: carros vazios obterão esse conjunto de dados de carros vazios de informações. E isso significa conjunto de dados de testes rodoviários do Motor Trend Car. E isso vem da documentação do R. Ok. E por isso está fornecendo a descrição completa. E o total usa um Brita, como esses dados foram formatados. Ok, então este é um protesto de carros de tendência automobilística e os dados foram direcionados da década de 1970 para o uso da Motor Trend. Makin compreende conceitos de combustível e aspectos de antena design e desempenho de automóveis para 32 automóveis, 32 carros nos modelos 1973-1974. Ok. E então está fornecendo o formato de mpg significa milhas por galão. Cilindro significa número de cilindros de cilindros, HP, potência, tração peso da relação axial de 141 por quatro milhas em tempo parcial. Reavalie o motor como VSEPR em geral, motor reto. Então, como antes, economizamos e, se estiver com zero, é recebido e um quarto consecutivo, então sou para transmissão automática se for um imperador automático manual ou automático e manual. E um bom número de anos e um número reduzido de testes Cadbury. Ok, então as outras informações que estamos obtendo para essa fonte de dados, ok. Agora, volte para a parte de análise. Então, basta colocar um ponto de interrogação na frente do nome do conjunto de dados e obterá todas as informações sobre o conjunto de dados de entrada. Agora, queremos obter as células de diamante e o nome da variável. Suponha que temos os diamantes e a camada, as linhas e as colunas, e esses são o nome da variável. Então, suponha como eu quero os nomes de variáveis de um loop. Então, como posso conseguir isso? Então você pode usar. Então, a primeira coisa que precisamos fazer é atribuir esse conjunto de dados a alguma variável. E para isso, o que estou fazendo, estou criando um conjunto de dados variável que sublinha carros e estou atribuindo carros vazios. Portanto, carros vazios, carros do conjunto de dados representarão os carros vazios. Portanto, todos os valores de nossos carros vazios estarão aqui no conjunto de dados de carros e isso podemos usar em nosso programa posteriormente. Portanto, se eu usar dim e passar a variável do conjunto de dados, esse conjunto de dados sublinha os carros. Vou fazer a soma do diamante no conjunto de dados. Portanto, se eu usar nomes e parte do conjunto de dados do nome do conjunto de dados, obterei os nomes das variáveis no conjunto de dados ou deixarei executar esse trecho. Veja aqui. Agora está fornecendo os diamantes, 32 funções e 11 colunas que podemos verificar a partir daqui, como 32 linhas e n colunas. Ok? Então, esses são os diamantes e estão acima do conjunto de dados. E então, quando usamos nomes, obtemos os nomes das variáveis. Então você vê aqui, estamos recebendo os nomes das variáveis. O cilindro Mpg é arrastado por SP com todas essas coisas. Portanto, 32 por 11, 32 linhas e 11 colunas são as dimensões do conjunto e esse é o nome da variável. A próxima coisa é que eu quero extrair o nome errado da primeira coluna. Então, eu quero encontrar os nomes das linhas das colunas. Eu posso usar nomes de linhas. E eu posso passar a variável do conjunto de dados do conjunto de dados. Então, o nome e eu passarei o conjunto de dados e os cartões de acompanhantes. Isso me trará o nome de todos os guardas primeiro, nomes das colunas dizem C ou D, ou Delta T. Quantos? Essas são as 32 variáveis do conjunto de dados. Desculpe, esses são os 32, 32 carros que foram usados no conjunto de dados que estão disponíveis nesse conjunto de dados. Então, a coluna de descarga, ok? E então, se usarmos o escuro, se eu quiser obter a única informação valiosa, como eu quero obter as milhas por galão do conjunto de dados. Posso usar esse nome de conjunto de dados de cifrão e depois o cifrão MPG. Vou obter os valores da variável mpg. Ok? Dessa forma, podemos obter os valores de uma variável específica. Então, no caso aqui, valor de mpg, eu posso, estou obtendo os valores de mpg se eu usar EM aqui e você obtém 0,1 porque isso é automático e manual. Então, vamos ver aqui, 1000, assim. Ok, então zero para automático, um para manual. Dessa forma, podemos usar nomes de variáveis aqui se eu usar MPG e a próxima coisa é se eu quiser classificar isso, esse MPG está vindo assim, ok? Se eu quiser classificá-los em ordem, posso usar a função de classificação nisso. E eu posso classificar o conjunto de dados e o scorecard dollar mpg. E classificará os valores dessa variável mpg c, um artista chegando agora, forma ordenada, em ordem crescente. Ok? Então é assim que podemos classificá-los. Eu perco um valioso. O próximo passo é que agora eu quero analisar o conjunto de dados. Assim, posso usar alguém e dar o nome da variável para o conjunto de dados e obter o resumo dos dados. Veja aqui aquele lindo resumo dos dados como milhas por galão. Qual é a média? Quais são os valores do primeiro quartil? Qual é a mediana? Qual é a média? O que é o terceiro quartil? Qual é o valor máximo para cada variável? Estamos obtendo esses seis valores, certo? Mediana primeiro, como min, primeiro quartil, média mediana e depois média mínima, mediana, valores máximos. E no primeiro quartil e no terceiro quartil de cada uma dessas variáveis, estamos obtendo essas informações. Então, isso fornecerá esse resumo dos dados. E essas são as coisas que aprenderemos nas próximas palestras. Como obter média, o que é mediana, o que é primeiro quartil e terceiro quartil? Então, é assim que podemos obter informações e analisar o conjunto de dados em R. Podemos usar o nome do nosso conjunto de dados para obter o conjunto de dados. Podemos usar o cifrão para obter as informações sobre o conjunto de dados e nós usaremos o conjunto de dados. Podemos usar a função lm para obter a dimensão do conjunto de dados. Podemos usar nomes, funções para obter o nome das variáveis. Podemos usar nomes de linha para obter uma linha, primeira coluna, cada linha na primeira coluna, ok? Valores de cada linha na primeira coluna, então podemos usar esse cifrão para obter os valores das variáveis para o conjunto de dados. E então podemos usar a função de classificação para classificar os valores das variáveis e, em seguida, podemos usar o resumo para obter o resumo dos dados. Ok, então é assim que podemos analisar esse conjunto de dados em R. 61. Manipulação de dados usando o pacote do dplyr: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre manipulação de dados em R. Então, aprenderemos sobre manipulação de dados. E para isso vamos usar o pacote ggplot. Portanto, o pacote duplicado é muito importante quando você deseja fazer a manipulação de dados em. E eu estou usando esse arquivo RMD. Eu já escrevi o código para que possamos seguir em frente e aprender sobre as coisas básicas do jogador e fazer algumas manipulações de dados. A primeira coisa, se você quiser usar o player, você precisa instalar o pacote certo? Em nosso caso, sempre que você quiser usar o embutido, queremos usar algumas funcionalidades. Precisamos instalar o pacote em nosso R e, em seguida, podemos prosseguir. Se você quiser trabalhar com o plano, você tem, você precisa instalá-lo. Você pode instalar a camada profunda em si, uma jogadora feminina, ou se quiser instalar tudo o que vem com o verso organizado, você pode usar o tidyverse. Portanto, se você instalar um verso organizado, por padrão, entrará uma camada profunda em que o plano estará dentro desse verso organizado. E se você não quiser instalar tudo dentro desses Tidyverse, você pode usar o d plus sozinho. Então você pode executar isso ou isso. Qualquer um desses. Você pode correr. Então você pode continuar com isso. Você pode usar o verso arrumado ou pode usar a camada profunda, ok? Então, você se baseia em suas necessidades. Você pode continuar com isso. Eu vou sugerir que você instalou o tidyverse. Então, eu instalei esses dois pacotes, então não vou executar esse subpedaço de código, esse trecho de código, não vou executá-lo porque já os instalei. Então, o que vou fazer, vou te mostrar a próxima coisa. Ok, então deixe-me esclarecer isso. Então, a primeira coisa que podemos fazer com a manipulação de dados na arte, usando isso, o jogador é que podemos usar o filtro que podemos usar para selecionar. Podemos usar agrupar por todas as coisas que podemos fazer usando o gráfico em R. Ok, então o que eu vou fazer, vou usar, também vou mostrar como podemos usar o filtro em R usando as bibliotecas de desfoque. Então, para isso, o que vou usar, vou usar o conjunto de dados embutido chamado Star Wars. Star Wars é um conjunto de dados embutido disponível na arte. Então, o que vou usar, vou usar Star Wars e depois vou usar esse operador de tubulação. E o que vou fazer usar a função de filtro e é usar a função de filtro e dar às espécies de filtro chamadas de duas tríades. Então, o que ela fará é buscar todas as espécies iguais para desenhá-la. Então, ele irá para o conjunto de dados de Star Wars. Ele enfrentará o conjunto de dados de Star Wars. E por dentro, ele aplicará o filtro e falhará. Ele filtrará o conjunto de dados com base nessa espécie. Ok? Então é assim que vai funcionar. Então, a espécie arrasta, ela aplicará o filtro. Então, deixe-me, acabei de executar esse código. Então, basta clicar aqui e ver. Agora estamos recebendo a recarga. Ok. Então veja seu nome, cabelo comprido e pantanoso, cor da pele, cor dos olhos, conserte todas as coisas que estamos recebendo. Ok. Então, isso estamos recebendo para a espécie. Experimente. Ok. Veja aqui, se você ver a coluna Espécies, está tudo seco. Só isso, certo? Portanto, ele está mostrando dados apenas para secos porque aplicamos o filtro seco aqui. Portanto, ele nos mostrará terceiros dados apenas para espécies . Dessa forma, podemos aplicar o filtro, podemos usar o nome do conjunto de dados Via e, em seguida, o operador de tubo e , seguida, a função de filtro e sua espécie. O nome da coluna é específico da espécie, igual a desenhá-la. Assim será, então todas as espécies, os dados excluídos para nós, ok. Então é assim que o filtro funciona na planta. Ok, a próxima coisa é que vamos usar o Select. Então, selecione como isso funcionará. Novamente, a mesma coisa. Vamos usar. Essa estrela era um conjunto de dados e, em seguida, um operador de canal e então usaremos Selecionar, selecionar e, em seguida, precisamos manter o nome que termina com cor, para que ela busque todos os nomes que terminam com cor. Então, deixe-me fazer isso. Veja aqui. Agora o que está fazendo. Ele está buscando todas as colunas. Todas as colunas terminam com cor, cor do cabelo, cor da pele e cor dos olhos. Portanto, está mostrando apenas as colunas que terminam com cores, certo? Então, Star Wars seleciona o nome e termina com a cor. Então, ele mostrará as colunas de Wanli George que terminam em cores. Então, sublinhe, sublinhe a classe. Portanto, está mostrando apenas esses dados. Se você olhar para a coisa anterior. Aqui. Existem muitas colunas, como altura, massa. E então temos ER, sexo, gênero. Mas não está nos mostrando todas essas colunas, mas está mostrando apenas as colunas que terminam com Carlos, que estão terminando com cores. Ok? Portanto, essa é a maneira de usar o select. Dentro. A próxima coisa é que vamos aprender sobre mutação. Então, o que o mutate fará? Ele criará, se você quiser adicionar algumas novas variáveis ou valores variáveis no conjunto de dados, você pode usar a função mutate, ok? Então mude para adicionar, para adicionar algo novo, ok? Adicione algo novo, uma nova variável. Se você quiser adicionar, você pode usar a função use the mutate. Então, como podemos fazer isso, podemos simplesmente dar o Star Wars, depois o operador de tubo e, em seguida, a função de mutação, e então precisamos dar um nome. E aqui você pode definir a nova variável ou o novo valor que você deseja fornecer. Então, aqui, o que nos é dado, recebemos nome e nome. Aqui estamos introduzindo uma nova variável IMC e v aqui estamos dando a eles como o IMC deve ser calculado. Então, se você não quiser dar, você pode codificar o valor. Mas aqui o que estamos fazendo, estamos usando a massa dividida pela altura por 100 de potência para, ok? Então essa é a fórmula que estamos usando para calcular o índice de massa corporal do IMC, ok? Então, a altura e o peso que estamos usando para calcular o IMC. E então estamos passando esse IMC para selecionar a função. Portanto, estamos usando o operador de tubulação duas vezes aqui. Então, o que ele fará, primeiro calculará esse IMC aqui, e então esse IMC será, esse IMC será passado para essa função de seleção aqui. Veja que seu IMC está vindo de lá. Então, o que quer que seja coletado aqui, chegará a esse ponto. Então esse IMC virá aqui, certo? Então é isso que os operadores e operadores de tubulação fazem, certo? Ele passará o, passará a saída desta para a próxima função, desativará o modo mudo. Ele irá para a mutação selecionada. Mutar, mudaremos, criaremos o IMC, criaremos o IMC e depois passaremos para a função de seleção. Ok? Então, se eu der uma representação pictórica, o que, como ela funcionará, suporte de TI, usaremos mutate. A função Mutate fornecerá alguma saída. E essa saída da função de mutação irá para o Select. Ok? Então, suponha que aqui temos a massa e a altura. Massa e altura. massa e a altura irão para a mutação e, em seguida, a saída de mutação irá para o, vá para o Select. Então é assim que o operador de tubulação funciona, certo? Ele passará a saída disso para essa função. Ok? Então é assim que o operador de tubulação rockstar. Aqui estamos criando a nova variável IMC, novo valor IMC , e estamos passando para a função de seleção para selecionar a função o que estamos fazendo chamado massa e IMC. Então, ele selecionará a máscara e classificará o IMC. Então, deixe-me executar esse código. Então clique aqui e veja aqui nome, altura e IMC. Portanto, com base na massa e altura, peso e altura, ele nos mostrará o IMC em breve. Essa coluna IMC, IMC não estava presente nos dados anteriores, certo? Deixe-me te mostrar. Aqui. Não temos o IMC, reabilitação de IMC criada com o IMC que criamos com essa função mutante, certo? Então, com a mutação, criamos IMC e adicionamos ao nosso conjunto de dados. Ok, dessa forma, você pode criar uma nova variável ou um novo valor e adicioná-lo ao seu conjunto de dados com a função mutate no jogo. Em seguida, descreva a fonte de massa. Somos o que podemos fazer. Podemos organizar a missa. Então, vamos fazer isso e ver. Veja aqui agora que estamos obtendo a altura, massa e cor do cabelo, cor da pele, cor dos olhos, todos os dados, todas as colunas que estamos obtendo, certo? E está dando o valor da massa, certo? Aqui. É. É como uma ordem decrescente. Está nos dando a massa, altura, a cor do cabelo e todas essas coisas. Ok. Se você quiser alterá-lo para, você pode alterá-lo para outra coisa e ver como está acontecendo. Próximo. Uma é que também podemos usar o grupo aqui. Então, o que o grupo por, o grupo BY fará? Ele será agrupado por espécie. Então, o que estamos fazendo é um conjunto de dados muito enxuto da Starbucks e esse é o operador de tubulação. E então agrupe de acordo com o que o grupo por espécie postula o que ele fará. Ele agrupará qualquer uma das espécies e então nos dará o testamento. Então, como resumo em um único conjunto de dados, ok? Ele fornecerá o que a função de resumo fará. Ele fornecerá um resumo único do conjunto de dados. Então, aqui estamos usando n é igual a n, massa igual à média, massa média ascendente. E um na.rm significa que qualquer valor não disponível removerá o que termina em nosso umbilical. Veja se você olhar aqui, alguns dos valores não estão disponíveis, certo? Portanto, ele removerá os valores que não estão nivelados. Ok, então eu acabei não. O que eu vou fazer. Isso removerá as linhas de dados que não têm nenhum valor. Ok? Então, o que ele fará, criará a máscara média da massa. Ok? Assim será, já que estamos agrupando por espécie. Portanto, para cada SPC, ele mostrará a massa média, a massa média. E para isso, estamos usando a função média para obter a média desta ou a média da massa total de uma determinada espécie. E estamos agrupando por espécie. Ok? Em seguida, o que estamos fazendo é usar o filtro. Estamos usando um filtro aqui. E maior que um, massa, maior que 50, estamos aplicando o filtro aqui. Qual filtro? Portanto, seja maior que um e deve ser maior que 50. Então esse é o nosso filtro, esse filtro que estamos aplicando. Ok? Então, quais outras etapas estamos fazendo? Primeiro? Estamos agrupando por espécie e, em seguida, obtemos um resumo único. E estamos obtendo a média da massa para essa espécie em particular. E então estamos aplicando um filtro em que n é maior que um e a massa é igual a. Então, vamos executar isso e ver qual saída estamos obtendo. Então, vamos executar isso e ver a saída aqui. Veja a saída C. Agora não estamos recebendo o nome, estamos recebendo a espécie porque temos um grupo. Nós usamos, usamos o grupo por espécie, usamos grupo por espécie. E calculamos a média da massa da espécie. É por isso que está mostrando o n. maior que um. Para ninguém, não está aparecendo, é costura e valores que são mais de um. Ok. E a outra espécie, chiclete seco, humano. Você pode possuir MATLAB, Tweak, Rookie Jab Rack. Então, todas as espécies são oscilantes e estão aparecendo para os valores 1250, porque o que nós demos, o que eu dei a resposta, é maior que um. É por isso que está nos mostrando valores de n maiores que 123630 bytes. Agora mostrando os valores menores que um, ok? E então a massa está se mostrando maior do que o normal. Então, qual filtro aplicamos um filtro que aplicamos quando nos masturbamos com mais de 50. Então, está nos mostrando uma máscara maior que a puberdade. Essas massas significam aglomerar essas espécies. Então, para isso em nossa tela, talvez haja muitas coisas, certo? Mas pegamos a média ou média de todas essas peças e subimos a média das secas. Ok, então deixe-me mostrar o conjunto de dados. Veja aqui como se todas essas espécies pertencessem à seca e têm massa, certo? Eles têm a matemática, certo? E eles nos capacitaram a fazer o que fizemos. Há anos acabamos com esse braço para remover essas fileiras. E todos esses nomes pertencem à espécie. Desenhe, desenhe e eles terão massa. Então, o que fizemos foi pegar toda a massa, somar toda a massa dividida pelo número de espécies, numerar os nomes no seco. Com essa precisão, calculamos a média usando a função média aqui. Deixe-me mostrar aqui, certo, quero dizer, por isso que em uma estrela é tão média mosfet cada grupo de espécies. Portanto, para a mensagem principal humana, T2 para secador significa massas. Isso, ok, então, dessa forma, podemos usar o gráfico para manipulação de dados. Ok, então quais são as coisas que aprendemos? Aprendemos que precisamos instalar nosso pacote tidy verse para usar a duplicata. E usamos como filtrar e aplicar filtros em nosso conjunto de dados. E como podemos usar select em nosso conjunto de dados. E então, como podemos mutar e adicionar, alterar ou adicionar uma nova variável em nosso conjunto de dados. E então vimos como podemos organizar nosso conjunto de dados. Por fim, vimos GroupBy e resumimos junto com o filtro em nosso último exemplo. Então, espero que você saiba quais são as coisas que podemos fazer com a camada profunda e como fazemos a manipulação de dados na arte. 62. Introdução a painéis interativos brilhantes em R: Olá e bem vindo de volta. Nesta palestra, aprenderemos sobre como assinar com o RStudio. Então, o que é esse sinal? Do nosso total? Então, essa minúscula é uma forma de se comunicar com os dados. É basicamente uma solução de painel ou uma ferramenta de visualização de visualização para nós, ok. Então, se você quiser visualizar dados em R, você pode usar esse pequeno RStudio. Isso é interagir, analisar e se comunicar com o login. Podemos criar painéis interativos nos quais não apenas exibimos os dados no formato gráfico ou em um painel, mas também podemos interagir com os dados finos e eles estão no painel. Então, essa é a beleza do login do RStudio, que não apenas criará um painel baseado nos conjuntos de dados, mas também interagirá no próprio painel. Portanto, diz adotar uma frase abordagem interativa para contar sua história de dados com a assinatura, permitir que os usuários interajam com seus dados e suas análises e façam tudo com os nossos. Portanto, eles não apenas verão os dados em formato gráfico, nos gráficos e no painel, mas também poderão interagir com os dados e poderão realmente ver o impacto de nossa análise sobre os dados. Então, deixe-me rolar para baixo para ver o que dizem as outras opções. So are in arsine é um pacote R que facilita a criação de aplicativos web interativos diretamente do nosso. Portanto, não vamos usar nenhuma outra coisa, mas usaremos a programação R em si. E podemos criar painéis interativos baseados em aplicativos web. Você pode hospedar aplicativos independentes na web ou incorporá-los ao R. Os documentos do Markdown são criados como esportes. Então veja, isso deve ser flexibilidade. É verdade que podemos, não só podemos criar páginas da web e aplicativos independentes, mas também podemos incorporá-los ao arquivo RMarkdown. Os documentos estão em um painel, então essa é a beleza de assinar no R. Você também pode estender seus aplicativos de assinatura com equipes de CSS, HTML, widgets e JavaScript, CEO da Exxon. Então essa é a beleza que você pode usar. Css, equipes, HTML, widgets e excelência, para que seja mais interativo. Assim, uma vez criado, podemos trabalhar de várias maneiras com o painel criado com a assinatura. Então, o que outras coisas a assinatura pode fazer? destinatário combina o poder computacional do R com a interatividade da onda moderna. Então, todos nós sabemos que o R tem pacotes dos quais podemos gostar para trabalhar com os dados. Podemos obter os insights. Podemos obter informações dos dados diretamente por meio de nossos pacotes e adicionar programação. E não apenas esses insights, mas também tudo o que obtemos. Calcule a partir dos dados. Podemos colocá-los na onda moderna e interagir com os painéis, dados ou gráficos. Então, isso nos dará mais informações a partir dos dados, certo? Então, veja um exemplo simples de atribuição de aplicativo. Você pode ver você. Ok, então deixe-me ver o índice do Google, Índice de tendências. Este é um aplicativo simples e brilhante que eles criaram. E aqui você pode ver um gráfico muito bonito está à direita que podemos ver. Agora, com o destinatário, podemos ouvir que você pode selecionar o índice, a tendência, o índice de viagem. Ou, se você quiser mudar, pode alterá-lo para publicidade, marketing e SEO. O gráfico está mudando. Eu posso selecionar algo aqui. E neste gráfico vamos apenas construir com base no Índice de Tendências de Desemprego. Eu quero ver, See. Agora, isso mostra a tendência do desemprego. Eu posso selecionar pequenas empresas e isso resolverá a tendência de pequenas empresas para esses dados, aluguel, essa nova tendência. Ok, então, é assim que podemos adicionar o seletor. Podemos criar um painel interativo usando a assinatura. Ok? E veja, sim, isso é criado puramente com nossos programas, nosso código. Agora, também criaremos um desses aplicativos Shiny na próxima palestra. E veja aqui, esses são os dados do aplicativo que são o programa escrito em R4, esse tipo de painel interativo desesperado. Então, aqui eles estão usando pacote de sinalização, leitor de camada profunda, equipes si110 e uma camada profunda. E essa é a descrição. Se você quiser, você pode passar por isso. Este é o site oficial do signing.rstudio.com. Se você quiser saber mais sobre a placa, você pode ir e ver a galeria e obter mais informações sobre a assinatura. Ok, Arsine, você pode ir e ver a regressão linear do processo de modelagem de detetives. E então nosso pequeno pacote para aprender a modelagem da resposta imune. Existem vários projetos que você pode ler sozinho. Vou etiquetar na sinalização do site. Ok. Então, na próxima palestra, também criaremos um aplicativo Shiny. E veremos como podemos interagir com o painel, ok. 63. ShinyApp criando painel interativo com brilho: Olá e bem vindo de volta. Então, nesta palestra, vamos criar nosso próprio aplicativo Shiny, onde criaremos um aplicativo Shiny. Então, o que vamos criar, e depois veremos como criar. Ok? Então veja aqui que este é o nosso aplicativo Shiny. E aqui vamos fazer isso. Vamos criar uma diáspora baseada no videogame Mario Kart Eight e com base nos personagens de videogame que vamos analisar. Vamos ser designers. Vamos criar um painel onde você pode interagir com o painel. Clique na Visualização e veja aqui, por padrão, a divisão estará lá. E aqui as outras variáveis estarão lá, ok? O eixo y e o eixo x, ok? Então você obtém que o eixo x será a variável y, aqui estará a velocidade, e aqui no eixo y estará costurando o personagem. Então aqui temos os personagens, os personagens e os nomes dos personagens estão aqui, ok? E vamos analisar quais são suas velocidades e outras variáveis, como a velocidade na água. E também podemos selecionar a aceleração e você pode ver qual aceleração beta. Então veja aqui, este é o painel onde podemos, podemos interagir com o painel. Podemos selecionar a variável aqui, manipulação. E é isso que resolveremos para o, para o manuseio e diremos: Sim, vou colocar o manejo na água e ele gerará. Dessa forma, podemos criar o que é mais suficiente, que será interativo. E você pode selecionar a variável aqui e ver o efeito no painel, ok? Gráfico. E veja aqui que as diferentes cores são vidro de atirar, pesado, leve e médio. Ok, então é assim que podemos usar o aplicativo de assinatura para nós, o painel interativo, terminamos o jogo Mario Kart Eight. Ok, então agora vimos o que é isso? Então veja aqui as classes, as diferentes cores estão mostrando a classe pesada, leve e radium. E aqui podemos selecionar a velocidade e ela mudará o tratamento da variável, então o gráfico mudará. Ok, então este é o aplicativo, assine o aplicativo que vamos criar, ok? E isso, podemos abrir no navegador que também é porque ele está abrindo em nosso host local. Ok, então podemos abrir isso no navegador também para clicar em abrir no navegador, e ele abrirá em seu projeto padrão da mesma maneira. Ok, então veja que hoje em dia operamos no navegador de hóquei, e estamos perdendo o nível da fonte de dados no site da Kaggle. Assim, você pode acessar o site do Kaggle e ver os dados e ver sua visualização. Você pode selecionar a mudança, ok? Então, com base no que você está selecionando, tudo bem. Então, isso é interativo, é isso que vamos criar. Então, deixe-me levá-lo rapidamente ao código. É um código bem simples. Então, o que precisamos fazer aqui, basicamente, esse aplicativo de assinatura terá três componentes. Três componentes x, na verdade, três componentes , ou três páginas da web , três páginas que precisamos obter, a primeira será a primeira será o ponto do aplicativo e, em seguida, a segunda será o servidor. E a terceira será a parte da interface do usuário. Ok? Então, conjunto de palavras e depois UA. Então app.all server e UI.r. Então esses são os três arquivos que vamos escrever, ok? Além disso, criamos uma pasta. Você terá que criar um para leucina no aplicativo, qualquer nome que você queira dar, você pode dar. Em seguida, atualizei um aplicativo de pasta de dados que manteve o arquivo CSV, cada um contendo o conjunto de dados. Ok. Então, deixe-me abrir o solo. Este é o conjunto de dados e contém todos os caracteres, contas de vidro, outros detalhes, e esses são os nomes e essas são a velocidade e todas essas coisas. Ok? Portanto, este é o conjunto de dados que mantive. Traga-nos o CSV do Character dot, baixe-o do Kaggle. Ok. A próxima coisa está aqui, a imagem que estamos vendo na face frontal. Essas imagens estão aqui. Pasta W, W, W. esses são os três arquivos De qualquer forma, esses são os três arquivos de dados do solo de guitarra do aplicativo, dados que eu criei. Ok, então deixe-me ver o código. A primeira coisa é app.all. O que precisamos. Precisamos, precisamos da biblioteca do destinatário, ok, então você precisa baixar o download e instalar a biblioteca Shiny. Você pode vir aqui os pacotes instalados por sexo e ano. E você precisa clicar, basta clicar em Instalar e, portanto, um pequeno nome lá, e pronto. Então, deixe-me mostrar, basta clicar aqui. E aqui você precisa colocar a assinatura S, I, N, Y,. E então temos que clicar em Instalar. E o pacote Sami será instalado. Então, eu já instalei, então não vou fazer isso de novo. Então você precisa colocar o brilhante e clicar em Instalar e ele será instalado. Além disso, você também pode usar install.packages. Você pode usar algum problema com a caneta, ok? E você pode instalar o sinal de nome aqui. Literalmente, está bem? Então você pode usar install.packages e colocar o nome do pacote e me atribuir. E aqui estamos dando a essas fontes de adição de fontes de UI.r, UI.r e outros servidores de fontes essa opção. Então, essas são as duas coisas que vamos usar no aplicativo. Ponto, ponto, ponto é nosso principal arquivo interno que chamamos de UI.r e dados celulares. Em seguida, estamos criando o aplicativo Shiny dando o nome de aplicativo Shiny. E aqui, UH, igual a UA e sorológico a servidor. Ok, então seja qual for o nome que você está dando, o nome do arquivo que você pode dar aqui, ok. Então, este é o aplicativo simples ponto nosso arquivo onde estamos apenas carregando a biblioteca, fornecendo à fonte como se fossemos usar E-Y-E dot r e o servidor que estão dentro dessa reflexão tardia. Ok, e então estamos criando um aplicativo de atribuição onde especificamos o nome do arquivo UID e o ramo de sulfeto. Ok. Então esse é o aplicativo que sai do arquivo. Então a próxima é a terceira palavra dot are. Estou muito triste com isso. Vou ver os dados do celular. E aqui você pode ver que carregamos o gráfico GG na biblioteca. Porque vamos fazer isso, estamos criando um painel ou estamos criando um gráfico para o gráfico. Estamos vendo que estamos criando com a ajuda do GG plot two. E aqui temos uma especificação desse conjunto de dados. Então, a partir daqui, vamos obter o conjunto de dados. Os dados têm menos caracteres, não o aplicativo de arquivo CSV. Então, você e nós estamos usando read dot csv total, esse arquivo CSV. E como ler o arquivo CSV que já vimos nas palestras anteriores. Ok, então estamos criando o servidor aqui. Para criar um servidor, estamos executando um servidor em que dado o valor dos meus nomes de variáveis, está bom, e então estamos perdendo função, entrada, saída e saída. Estamos lendo o enredo. E estamos usando a função RenderPlot para renderizar o gráfico. E estamos usando personagem, personagem e, em seguida, estamos usando fatores para criar dados, rótulos e ordem. Estamos usando a classe Character Dollar, ok? E então estamos usando o gráfico GG para desenhar esse gráfico. E aqui, dados que estamos lendo: caracteres, ponto CSV e eixo x, valor x, caractere WM, identidade estatística. E a entrada y. valor do dólar y significa qualquer entrada que selecionaremos para o y que será selecionado. Que essa é a parte em que temos a interação ou o menu suspenso que estamos selecionando, ela chegará lá, ok? E então estamos lendo cartas viradas. Então, as coordenadas serão invertidas. Ok? Então, a próxima coisa é UI.r. Então, se você ver por que isso é estranho, também é bem simplificado. Estamos usando o característico ponto CSV e estamos reiterando o arquivo csv de ponto de caractere. E então estamos usando a introdução da primeira página, já que temos duas páginas e produtos e a fase n, visualizações e produção está no painel da guia Desenhar para criar o painel para introdução. E estamos usando o título da introdução para a final. E então estamos usando a fonte da imagem. E estamos dando uma pausa aqui. E esta é a redação do parágrafo. E aqui estamos fornecendo o link aqui, o link Kaggle que vimos, que temos proteína que, página após página, é simples. A interação e o painel, estamos criando a melhor ferramenta para a visualização. O que estamos fazendo é usar valores selecionados, nome da coluna. O nome da coluna dos caracteres serão os valores. E então o que estamos usando? Selecione valores, selecione onde perder os personagens. Ok? Então, somos parte da aula, ok? Aqui estamos usando a consulta select, muito bom. Não está na tarefa de seleção Value. Ao contrário de basicamente, estamos removendo as colunas indesejadas aqui. E vamos com o personagem dessa classe. Aqui estamos obtendo a barra lateral usando o painel da barra lateral. E aqui estamos selecionando a entrada para y, onde y sublinha onde e o nível será a variável y. Você, se quiser, pode alterá-lo para qualquer coisa, opções, selecionar valores. E o valor carregado já será aquele para que a velocidade selecionada seja igual à velocidade. Portanto, a velocidade estará lá, por padrão, selecionada para nossos desesperados. Ok. O próximo passo é o conteúdo principal. Estamos usando o painel principal e o gráfico de saída do gráfico, ok? E isso virá do Southern blot. E os segundos palestrantes, o painel de guias em que estamos tão individualizados , o painel título que estamos dando, aquele parágrafo que estamos escrevendo. E então o layout da barra lateral, cuja barra lateral sublinha o conteúdo, o conteúdo principal virá aqui. Ok? Então foi assim que criamos esses três arquivos. E esses dois pontos, servidor e cara, estão ligando para judeus dentro dos dados do aplicativo. Ok, agora vamos executar o aplicativo. Então clique em Executar aplicativo, e ele será executado e abrirá a janela do RStudio. E agora estamos vendo a página, nossa mão aqui, você pode ver a página de introdução e visualizar e colar duas páginas. E a introdução compensa. Nada acabou de acontecer. E a imagem que incluímos, e este é o parágrafo e este é o link que fornecemos onde especificamos isso. Se você vier aqui na UI.r, veja aqui o título que demos e, em seguida, a imagem que temos ainda melhor na Calábria, vencemos. No entanto, apesar de termos fornecido o link do Kaggle, tudo bem, é isso que estamos vendo dentro do painel de introdução e do segundo painel, quando você abre a visualização. Aqui, você pode ver por que habilita a velocidade por padrão, porque aqui selecionamos como velocidade e o nível é o motivo pelo qual você pode, ok? E vamos dar a trama como saída e ver o título. E este é um parágrafo que estamos apresentando. Ok. Então, deixe-me mostrar como isso está mudando com base na seleção. Se eu selecionar Speed ground, o gráfico ficará em cadeia. Se eu selecionar manipulação, o gráfico mudará se eu selecionar faixas no gráfico relacionado. Portanto, este é o painel interativo que criamos usando o aplicativo Shiny. Ok? Veja aqui as diferentes cores que mostram o vidro pesado, leve e médio. E aqui você pode selecionar e ver a diferença entre essas coisas. Ok, então é assim que o sinal, o aplicativo funciona. 64. Alguns exemplos de aplicativos brilhantes em R: Nesta palestra, veremos alguns exemplos já escritos de aplicativos de assinatura que já estão no site de assinatura. Então, esses são os exemplos do aplicativo Shiny que você pode ver em mãos. Você pode vê-los e modificar o código. E você pode criar seu próprio aplicativo Shiny fazendo login no Esports. Então, deixe-me dizer como você também pode executar isso. Você só precisa ligar para a biblioteca Shiny. Então, precisamos escrever a biblioteca e depois assinar, e precisamos executar isso. Feito isso, você pode começar a usar os exemplos como se o primeiro fosse o quê, um histograma. Então, um exemplo é a função que você pode usar para chamar esse programa já escrito de aplicativo de assinatura. Ok, então 01 sublinhado Olá é este. E vamos fazer isso e ver o que estamos recebendo. Então, ao executar isso, você abrirá o aplicativo responsável. E veja aqui que está dizendo olá assinando. E aqui você pode ver o número de caixas chegando e aqui um histograma dos tempos de espera, ok? Então, aqui, à medida que você aumenta o número de compartimentos, veja aqui, o número de compartimentos está aumentando. E agora existem meios peptídicos. Se você fizer um, só haverá um vencedor, certo? Se você colocar seis, há 6,12 3456 caixas. Se você ver aqui, ele é interativo, então você pode aumentar ou diminuir o número de pinos neste quadro de tarefas. Portanto, essa é a especialidade do aplicativo Shiny que podemos jogar com o painel que criamos, painéis interativos criados pelo Shiny App. Agora, aqui você pode ver, se você vier até aqui, ele lhe dará a descrição. Este é um aplicativo pequeno, pequeno, demonstre, assine essas atualizações automáticas da interface do usuário. Ok? Então, aqui está a região RenderPlot e os compartimentos de entrada. E veja aqui abduzir, nosso arquivo já foi fornecido aqui. Então você pode simplesmente copiar o código daqui. E você pode executar em, use esse código, apple.tar. Veja seu laboratório usando a biblioteca shiny and uy, depois um título e, em seguida, o layout da barra lateral. E aqui o ID de entrada da barra lateral que estamos fornecendo aos beans, o número de caixas e o mínimo é um, máximo é a propriedade e o valor iniciado, portanto, por padrão, ele será selecionado. E aqui, a saída do gráfico do painel principal que estamos obtendo, a saída ou o painel principal. Então, essa é a ideia de saída da trama. Então, se você for até o servidor, poderá ver as entradas da função do servidor ou nós usaremos a função. função F receberá a entrada como entrada e fornecerá a saída. Ok? E aqui mostre esse gráfico. E então estamos chamando o RenderPlot. E aqui estamos dando o valor x. E o valor x é uma espera fiel. E Vinci está aqui, você pode dar debates como uma sequência de mínimo a máximo e, em seguida, marcar os pinos de entrada mais um. Ok, aqui estamos desenhando o histograma. Então, estamos testando o histograma com o valor de x e estamos dando ao Brexit igual a tinta e colorido. Você pode dar o que quiser manualmente, xlab e título principal, você pode dar o que eles quiserem. E então criaremos o aplicativo usando o aplicativo Shiny e, em seguida, UY igual a ui e servidor, cada chamada para o servidor. Então, alguém faleceu no servidor. E cara é que estamos definindo aqui. Então, se você quiser, pode colocar isso na UI.r até aqui. Você pode inserir o UI.r e a parte do servidor. Você pode colocar no servidor que r, e esses serão os dados do seu aplicativo e onde chamaremos a interface e o servidor. Dessa forma, você pode pegar este aplicativo dot r, que é um único arquivo e convertê-los em três arquivos, se quiser, e se quiser adicionar mais algumas coisas, se quiser adicionar, se quisermos carregar algum outro gráfico aqui, giardia, você pode fazer isso. Portanto, você pode modificar isso porque o código já foi fornecido com sinal de pato no site do aplicativo a partir daí. Então, isso está na construção do pacote de inscrição, certo? Então, deixe-me encerrar isso. Vamos ver o segundo exemplo. O segundo exemplo é executar o exemplo zero para sublinhar textos. Vamos ver o que está lá. Este é Table send DataFrame. Então, vamos executar este aplicativo Shiny e ver você. Quando você clicar nele, ele abrirá os textos de inscrição. Ele vê aqui. Aqui podemos selecionar o conjunto de dados rock, Fraser e car support. Estou selecionando o cartão. Então, está nos mostrando a velocidade e isso tende à velocidade e à distância. E aqui você pode definir o número de linhas, número de observações a serem visualizadas. Então agora é 1012. Então veja aqui hoje em dia. Então, em cascalho. E se eu reduzir isso para supor um, está mostrando apenas um, eu posso aumentar, continuar aumentando. 123. Veja aqui, estamos interagindo com isso e aqui eu posso selecionar a pressão, então ela vai te mostrar a temperatura e a pressão. E aqui podemos simplesmente aumentar a temperatura e a pressão, também nesta tabela. Dessa forma, podemos brincar e aprender com isso, e esse código também está aqui, app.all, que você pode pegar e modificá-lo conforme sua necessidade. Então, vamos para o terceiro exemplo. Esse é o aplicativo de expressão reativa. Portanto, 03 ressalta a reatividade. E vamos fazer isso e ver o que nosso aplicativo si110 está pronto para chegar aqui. Então, veja aqui as lacunas e necessidades de montagem de dados. montagem de dados e o conjunto de dados são preservados em rochas e carros novamente. Assim, podemos selecionar chaves e aqui, a mesma coisa que linhas e colunas. Você também pode selecionar n para isso. O arquivo externo é fornecido, o destinatário, nosso arquivo é fornecido aqui. Você pode levá-lo para examiná-lo e aprender estranho. Se quisermos modificá-lo, você pode modificá-lo. É de código aberto, então você pode pegar isso modificar e usar sozinho. E a seguir, vamos ver estrangeiros de judô chamados MPG. E clique em Executar. Assim, a abertura do apogeu notou um número de oscilação de cilindros, transmissão e engrenagens. Portanto, está mostrando milhas por galão. A relação entre o MPT e o equipamento. E quando você seleciona a transmissão é igual a Toyoda, aulas entre o carro automático e manual e o Majlis, ok? E se você selecionar engrenagens com o cilindro de engrenagem com o cilindro, e para este, você poderá obter o arquivo tar e modificar um nicho para si mesmo. A próxima coisa são as barras deslizantes. Então, vamos fazer isso e ver o que. Então, esses são um bom exemplo para aprender sobre pacotes de sinalização e você pode modificar um gramado. Veja aqui. Esses são os controles deslizantes. Então, há muitos controles deslizantes nesse esporte. E para este trimestre já está lá. Você pode ver aqui que eu posso calcular o valor inteiro. Eu posso fazer 1.000 ou 172 decimais, 0,8 ou um como este. E então o intervalo, eu posso modificá-lo a partir daqui. E assim que você o modificar aqui, você poderá ver as alterações lá. Formatador personalizado que podemos definir animação em loop, podemos definir aqui. Dessa forma, podemos adicionar anti-A aqui. Essa é a opção de jogar nesses formatos personalizados. Você pode clicar aqui e a Síria 0-500500 está mudando automaticamente. Está tocando bem, então veja aqui, agora está mudando lentamente aqui. E veja que essa animação numérica também está em alta. Então, como isso está mudando, o controle deslizante está mudando. Isso também está sendo alterado e adicionado. As outras figuras também serão alteradas. Então, esse é o pacote Magic of si110 em R em que você pode criar esses painéis interativos. Veja aqui, isso está mudando e isso também está mudando. Ok, então vamos passar para o próximo exemplo que é digitar células. Então, basta clicar em executar e ver o que obtemos na profundidade: normalmente uniforme, longa, normal e exponencial. Então, podemos simplesmente clicar aqui e podemos ver o resumo, podemos ver a tabela, ver como ela está mudando. Com um clique, você pode ver o normal. Se quisermos ver o uniforme, você pode ver o uniforme. E se quisermos ver a forma longa, você pode ver o longo poema. Você pode ver o tratamento antigo, resumo da trama e as tabelas. E todos os três estão mudando juntos. Clique em todos os dados aqui com um clique, número de observações que você pode aumentar. E instantaneamente você pode ver que essa é uma ferramenta muito boa para analisar dados e analistas de dados ou cientistas de dados. Ou se você quiser ampliar seus dados, você pode usar o arsine e esse tipo de painel interativo que você pode criar e dizer com sua equipe ou seu gerente você sai com seu cliente e eles podem obter instantaneamente a visão dos dados. Então, da mesma forma, você pode ver a outra coisa. Veja aqui um exemplo, upload de arginina que nos permitirá fazer o upload dos arquivos e tudo mais. Vamos ver. Você pode clicar aqui e simplesmente selecionar qualquer arquivo e fazer o upload. Suponha que eu queira fazer o upload, agora ele está carregado e , como não é nosso arquivo CSV, estamos entrando, então, se você quiser fazer o upload de um arquivo CSV, pode ir em frente e fazer o upload de um arquivo CSV. Então, deixe-me ir ao tribunal de primeira instância em 2020 e tentarei abrir um arquivo CSV. Deixe-me abrir dados CSV de pontos da OTAN que curamos em um de nossos exemplos, vamos abrir isso. Vamos fazer o upload dos dados aqui. Agora, podemos ver que o arquivo CSV do ponto de dados foi carregado e podemos ver os dados dentro do CSV do ponto de dados. Podemos remover a apostila. Você pode colocar o cabeçalho assim. Nós podemos fazer todas as coisas. Podemos colocar ponto e vírgula. Podemos usar um separador, vírgula, ponto e vírgula, ou até mesmo usar fita adesiva e aspas sem aspas duplas. Todas essas coisas que você pode fazer aqui. Eu já estou mostrando todos os dados que estão no CSV Data dot, certo? Então, seu carma e veja se eu coloco a cabeça, mostrará que você só abasteceu o cachorro é como alguém e está recebendo o varejo completo. Observe o lançamento de dados. Então isso é uma coisa muito importante. E aqui você pode criar isso. Isso acontece em nosso si110 e você pode compartilhar com seu cliente onde ele pode fazer o upload do arquivo CSV e ver o arquivo CSV sem ter o XL T-TIP. Eles não estão se divertindo muito. Eles podem simplesmente selecionar o pilão CSV. Vou ver o CSP na sexta-feira, ok? E para isso também o código já foi fornecido aqui. Então, essa é uma coisa muito legal, vegetal, as coisas que você pode analisar como uma tarefa e aprender com essas coisas que você pode modificar e usar para si mesmo. Veja o cronômetro. Você pode clicar aqui e o cronômetro virá da hora atual, é essa coisa. Dessa forma, podemos usar a assinatura. 65. Aplicativo com 2 arquivos no RStudio: Olá e bem vindo de volta. Nesta palestra, vamos criar um aplicativo de assinatura de duas páginas. Então, dois arquivos se inscrevendo, vamos criar. Então, vimos como podemos fazer três páginas, como fizemos com apple.tar, UI.r e Teradata. Outro exemplo. Aqui. O que vamos fazer é criar um lead, dois arquivos. Um é o UI.r e o segundo serão os dados do servidor. Então, primeiro, o que precisamos fazer é ir ao nosso diretório de trabalho e criar uma pasta com a sigla. Então, aqui estou dando o nome do aplicativo como verdadeiro ao assinar o aplicativo. Ok? E dentro disso, criarei dois arquivos, UI.r e Solver dot art, para que eu já tenha criado e escrito o código da forma como está dentro da pasta do aplicativo de assinatura de arquivos. Ok. Portanto, o nome do aplicativo será o nome da pasta. E dentro da pasta salvaremos esse UI.r e o ponto r do servidor. Então, esse ponto terá a mesma interface de usuário igual ao layout fluido da página e da barra lateral e à entrada do painel, painel e barra lateral. Então, aqui estamos fornecendo o OBS e o número de observações, observações e número sobre visitantes e o mínimo é dez, máximo é 500 e o valor será cem. Ok? Em seguida, chamamos o painel principal e a saída do gráfico. Esse gráfico e esse gráfico virão do servidor em que nossas fontes são o que chamamos de função de entrada e saída e a saída será o gráfico de prato. E esse gráfico será renderizado no histograma, onde os dados serão a entrada do OBS serão a entrada para nossas normas e a cor que estou nos dando é vermelho e verde. Ok, então apenas esses dois arquivos e nenhuma necessidade de escrever o aplicativo são e como executá-lo. Podemos simplesmente acessar o console aqui. Então, deixe-me limpar o console. E aqui você só precisa escrever um aplicativo de execução. Execute isso. Agora precisamos chamar run app e dentro da unidade RunApp para fornecer o nome da pasta ou o nome do aplicativo para assinar o aplicativo que criamos. Então, esses quatro que criamos para assinar o aplicativo. Então, vamos dar um nome a isso aqui e precisamos executar isso. Então, pressione Enter e seu aplicativo Simon encontrará o número de observação do CEO. E aqui está um histograma. Então eu dei verde, vermelho e a borda será verde. E se eu mudar esse número de geração em geração, ele continuará mudando. Dessa forma, podemos criar ou criar um aplicativo de assinatura de arquivos onde a UI.r responda por esses dados, vamos eliminá-los? Se quiser mudar a cor, você pode colocar o amarelo e o verde. E aqui precisamos apenas fechar isso e executá-lo novamente. Executei o aplicativo para arquivar qualquer aplicativo e apertei Enter. Vamos ver aqui agora que ele virá em amarelo e limpo. Ceo, o amarelo e a borda são verdes. Então você pode fazer assim. E você pode ver que várias apoptose variadas e anormais e você pode ver que o histograma está mudando. Ok? Dessa forma, podemos criar dois arquivos. Inscreva-me. 66. Gerando relatórios para download em brilhante: Nesta palestra, aprenderemos gerar relatórios descarregáveis. Como podemos gerar os relatórios baixar nosso divórcio para download. Ok. Então, quando você acessa o site assignee.rstudio.com, você pode ver que já existe uma substância e coisas prontas que você pode aprender sobre como assinar em nosso estúdio. Então, criar o painel interativo aqui é opsin. Você pode vê-lo gerando relatórios para download. Então, aqui você pode ver um exemplo como app.all e que eles deram. E aqui você pode experimentar isso e denunciar dot RMD. E ele acreditava que o relatório vazio e criaria uma trama. E o que você pode baixar nesse relatório. E há outro exemplo de vértice que mostrarei, onde podemos baixar o relatório na forma de PDF ou HTML e barras. Então, veja aqui, esta é a donzela, o conjunto de dados de carros vazios que está prontamente disponível com o R. Aqui, você pode ver com base no número de cilindros, podemos ver o modelo de regressão. Esse é o modelo de regressão. Cilindro e número de cilindros, MPG, como o número de cilindros está afetando a quilometragem, milhas por galão, como o ponto de acesso está afetando o MPG, como o peso do carro está afetando as milhas por galão, a evidência ou quilometragem do carro, ou o raio, como esses fatores estão afetando o número de marchas está afetando a mielina que esses são os coisas que estamos analisando sua dívida fizemos por meio de nossa programação. E essas são as coisas que podemos gostar: internamente, elas foram geradas quando desenvolvemos um modelo de regressão em que eles estão tentando encontrar a linha de melhor ajuste. E por isso, agora, este é o relatório e apoia seu deslocamento. Posso colocar assim e existe a opção de formato de documento, PDF ou HTML ou trabalhar para apoiá-los clicando em PDF e eu clico em Baixar. Todo esse relatório será baixado em formato PDF se eu abrir. E como você vê aqui , está mostrando que funcionou assim. Aqui está o modelo de regressão. E de onde estamos obtendo essas coisas, essa coisa está saindo do arquivo RMD do ponto de relatório. Estamos lá criando o modelo de regressão linear baseado nas fontes de dados, carros vazios. E então eles estão usando o coeficiente para isso. E então eles estão colocando isso no gráfico para encontrar a linha de melhor ajuste, e então eles estão obtendo a linha de melhor ajuste, nossa linha de regressão. Então, esse relatório está chegando assim. Quando você vê aqui, está nos mostrando os pontos de dados, mas quando você faz o download, obtemos o relatório completo. E este é o conjunto de arquivos de r dot r e c aqui. Calculando a média da fórmula, da dica e da entrada MPG, depois da saída, desalavancando outro gráfico e seguida, baixe o relatório aqui, grande parte, o formato do nome do arquivo será o PDF e, em seguida, o conteúdo, eles serão normalizados. Mas vamos importar que estão vazios. Isso é importante porque todos os cálculos e tudo que vimos neste relatório aqui, são coisas provenientes dos arquivos de montagem. Ok, então isso é muito importante. E aqui estão eles, simplesmente configurando o diretório de trabalho como um diretório temporário para que ele não solicite o acesso do administrador. E eu vou procurar isso. Eles estão usando isso e depois encontram uma cópia do lote e relatam isso no MD, certo? Em seguida, publique o markdown original e isso serve para renderizar o arquivo RMD no PDF. Ok? Então, e então descubra o arquivo de saída de renomeação. Ok. Então, essas coisas, deixe-me também mostrar o arquivo RMD que foi usado internamente. Assim, você pode clicar em Obter código e ele o levará até o repositório do GitHub que está assinando. Aqui você pode ver um relatório de que nossos funcionários são palavras que são, de qualquer forma, ponto, ponto em todos os arquivos. Então, quando você clica no ponto de relatório RMD, você pode ver aqui a média do modelo de regressão e este é o código aqui é meu modelo de regressão. E então, usando nosso modelo, complete true. E ele tinha opinações. Essas outras coisas que estamos vendo são ótimas. E então o MPG original frutífero e essa coisa. Ok, então eles estão criando um gráfico de dispersão e, em seguida, encontrando a linha de melhor ajuste usando a linha abline. E eles estão colocando a cor certa? Então é assim que estamos obtendo este relatório lendo esse arquivo de montagem e preparando os relatórios. Dessa forma, você pode obter um relatório que pode ser baixado. Se você quiser baixar este relatório no formato Word, você pode clicar nele e ele será baixado em um documento X4, certo? Ok. E se você quiser fazer o download em HTML, você pode clicar em HTML e fazer o download. E ele será baixado no formato HTML Vamos abrir isso e os dados do CSIA, meu arquivo HTML de pontos de relatório. Dessa forma, se você quiser criar um relatório ou painel que possa ser baixado, você pode usar o discord e escrever o seu próprio. Assine o aplicativo. 67. Análise de Covariância: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre análise de covariância. E também é chamado de cola. Então ENCO Reais. Isso significa análise de covariância e clandestinidade, como a chamamos. Então, o que é essa análise de covariância? Então você sabe o que fazemos nos algoritmos de aprendizado de máquina ou em um modelo de regressão linear. O que fazemos na regressão, tentamos encontrar um valor real, um valor contínuo, certo? Ao contrário dos dados categóricos, sempre tentamos encontrar o comprimento do arco sim ou não, verdadeiro ou falso, zero ou um desse tipo, certo? Então, na regressão, tentamos encontrar um valor contínuo. Então, criamos uma análise de regressão para Lake. Usamos modelos de regressão. Análise de regressão para construir modelos que descrevam o efeito da variância na variável preditora, certo? Sobre as variáveis de resposta. Então, qual é o efeito da variância nas variáveis de previsão no modelo de resposta? Que efeito as variáveis preditoras terão na variável de resposta. É isso que estamos tentando fazer com a análise de regressão. E quaisquer que sejam os modelos com os quais estamos criando , faremos isso de uma maneira. Mas às vezes o que acontece? Temos um conjunto de dados categórico. Então, se você ver esse conjunto de dados de carros vazio que está embutido no R e que vamos usar se executarmos esse trecho de código, você verá que temos uma coluna E m. O que é esse m. M é automático ou manual. Veja seu valor, seu valor é zero ou 10 significa automático e significa manual, então algo assim. Ok? Então D representa o Automático e o Manual, ok? Portanto, esse é um dado categórico, é zero ou um. Não está tendo um valor contínuo como milhas por galão, 2.122,8, 21,14, 0,7, certo? Portanto, é difícil encontrar o efeito dessa variável categórica nesse mpg. Veja aqui a potência, a HP também está lá, mas é um valor contínuo, não é categórico. Olá. Então, o que acontece? Precisamos, temos uma variável categórica com valores como não, zero ou um, masculino ou feminino. Em alguns casos. Qualquer coisa, pode ser perda de lucro, seja o que for, então quaisquer valores categóricos que possamos ter. Portanto, a análise de regressão simples fornece vários resultados para cada valor da variável categórica. Então, para essa linha G e um para zero, obteremos 21 pontos para esse 018,7. Então, estamos obtendo um valor diferente e diferente para MPG, para o mesmo zero, certo? Zero representa o Hornet e esses representam o esporte do Hornets, certo? Então, esses valores são diferentes. Então, como descobriremos o efeito que isso está causando nas milhas por galão. Então é isso que entra em cena, análise de variância. Então, deixe-me dar uma pequena explicação. A análise da covariância é usada para testar o efeito principal e de interação da variável categórica. Isso significa que esse objetivo é uma variável dependente contínua, ou seja, mpg, controlando o efeito da seleção de outras variáveis contínuas. Então, se sabemos o efeito que isso está causando nisso, podemos até ter decidido qual HP está afetando podemos até ter decidido qual HP está afetando o MPG ou o que esse m está afetando o HP ou mpg, que covariam com o dependente. As variáveis de controle são chamadas de covariáveis. As variáveis ainda controladas são chamadas de covariáveis. Às vezes, se tivermos uma variável categórica com valores como sim ou não ou masculino ou feminino, ou lucro ou prejuízo. A regressão simples e as lanças obtêm vários resultados para cada valor da variável categórica que discuti aqui. Para zero, existem muitos valores mas MPG e para um também existem muitos valores. A análise de regressão simples fornece vários resultados para cada valor da variável categórica. Nesse cenário, podemos estudar o efeito da variável categórica usando-a junto com a variável preditora escura e comparando as linhas de regressão para cada nível de uma variável categórica. Então, o que está dizendo é que, em tal cenário, podemos estudar o efeito da variável categórica usando-a junto com o preditor. Então, junto com um preditor como o HP. Então, usaremos um m junto com o HP para prever o MPG. E encontraremos a linha de regressão para cada nível da variável categórica para 0,41, para cada um, mas cada nível encontrará a variável categórica. Ok? E isso é chamado de análise de covariância. Então, vamos considerar esse conjunto de dados de carros vazio em que m representa a transmissão automática manual. É uma variável categórica com valores de 0,1, como discuti anteriormente, milhas por galão ou MPG de um carro podem depender dela. Além disso, o valor da potência, mpg, pode depender se o carro é automático ou manual, e também pode depender da potência. Então, estudamos o efeito do EM na regressão entre MPG e HP. E isso é feito usando uma função ou V. função Aov é a análise da função de variância seguida pela função NOR. Então, usaremos as funções do Bot. Primeiro, usaremos a função AOV para encontrar a regressão. Ao usar essas duas variáveis colegas HP são previsíveis e pretendem encontrar o MPG. E então usaremos o Nahuatl e decidiremos qual modelo está nos dando o que e como essa variável categórica ou uma variável preditora categórica está afetando a variável dependente MPG. Então, o que fazemos primeiro, obtemos os dados de entrada que são carros vazios. Então, estamos armazenando isso nos dados vazios dos carros. E então estamos criando um modelo de regressão e um modelo de reversão. Para o modelo de regressão, estamos usando um AOV ou com a função de análise de variância, função AOV que estamos usando e estamos criando um modelo de regressão entre MPG e HP junto com am. E estamos aproveitando fontes de dados, carros vazios, dados que estamos obtendo dos carros vazios. E então vamos imprimir dois desses. Obteremos o resumo do modelo 1. Então, deixe-me executar isso e deixe-me executar o modelo 1. Então, estamos criando um modelo de regressão aqui. Então, que visão estamos obtendo desse modelo de regressão aqui, essa fonte original de que tanto a potência quanto o tipo de transmissão de HP e M têm um efeito significativo nas milhas por galão como o valor p ou ambos. O valor de P em ambos os casos é menor que 0,5, certo? Portanto, ele tem ambos os valores de p com menos de 0,5. Mas quando tomamos esse HP e m juntos, o valor p é maior que 0,5 e isso significa que o SPN am juntos não terá nenhum efeito significativo no MPG. Portanto, a interação entre o, este AM e SB não é significativa pois não terá nenhum efeito sobre o, no MPG. Portanto, esse modelo está nos dando a ideia de que HP e eu, se você usá-los sozinhos, eles afetarão o MPG. Mas quando os juntarmos, eles não terão nenhum efeito significativo no MPG, pois o valor de p é maior que 0,5. A próxima coisa que eu vou fazer criar outro modelo de regressão. Onde você vai, o que faremos? Não incluiremos o valor categórico. Valor, ok? Modelamos sem o valor categórico, ou seja, am. Então, quero dizer que sem a interação entre HP e m, vamos criar outro modelo de regressão, a função AOV. E veremos o efeito que eles estão tendo no MPG. Então, deixe-me fazer isso. No entanto, estou usando o carrinho vazio para ser tão valioso e ele terá os mesmos dados dos carros vazios. Então veja aqui. Agora, nosso modelo com isso, não há interação entre HP e m. Então, quais insights estamos obtendo. São suas almas que tanto a potência quanto as transmite , têm um efeito significativo em milhas por galão, pois o valor de p é menor que 0,5. Ok, então agora o que vou fazer, vou comparar esses dois modelos, modelo 11, com o valor categórico. Interação entre o HP e m. E outro modelo é sem a interação entre o PNM. Ok? Agora, deixe-me comparar esses dois modelos, modelo dois e modelo um. Então, o que estou usando, estou usando função NOR para comparar esses dois modelos de regressão. Então, deixe-me fazer isso. Veja agora quais insights estamos obtendo dessa região. Estamos entendendo que o valor de p é maior que 0,5. Assim, podemos concluir que a interação entre potência e tipo de transmissão não é significativa. Portanto, as milhas por galão dependerão de forma semelhante à HP e à am. Ok? Portanto, o HP e o m afetarão, ambos terão efeito suficiente sobre esse MPG. Da mesma forma. Não é como se ambos fossem afetar de forma diferente. Ambos afetarão da mesma forma. Portanto, o MPG dependerá de maneira semelhante da potência do carro, tanto no modo automático quanto no manual. Então, se a potência suporta a potência de um carro, que é automático, e ele está dando mais quilometragem. E se não usássemos manualmente o mesmo ponto de acesso, ele fornecerá menos mielina. Isso não vai acontecer com a quilometragem do carro, seja com o mesmo suporte, metade. Agora, suponha que 1 cv, um carro esteja lá e seja manual. E outra carta é a mesma, 1 cv e é automática. Ambos fornecerão o mesmo mpg. A média não vai mudar se o carro é automático ou manual. Ok. Portanto, depende da potência e o manual ou automático não afetará muito a quilometragem do carro. Portanto, é assim que podemos fazer a análise da covariância. Covariância significa que as outras variáveis preditoras que se tornarão Eddie, eu vou afetar a variável dependente. Nesse caso, b e m são a covariante e mpg é a variável dependente. Então, descobrimos que se o carro é automático ou manual com a mesma bola, terá o mesmo tipo de idiotice. 68. Handson com biblioteca de dplyr: Olá e bem vindo de volta. Nesta palestra, vamos revisitar a manipulação de dados. E a atividade de manipulação de dados funcionará com o pacote de camadas profundas que está relativamente nivelado com o ímpar. Portanto, o player é um pacote que fornece Egito ferramentas para as tarefas mais comuns de manipulação de dados. Então, aprenderemos tudo sobre o plano hoje e veremos quais são as tarefas de manipulação que podemos realizar. E faremos esse longo arquivo que eu escrevi. Faremos todas as coisas e veremos quais são as coisas que podemos fazer e como podemos brincar com os dados, como podemos manipular as tarefas de manipulação de dados. Como podemos usar a tarefa de manipulação de dados usando o plano. Então, vamos começar. Portanto, a camada profunda fornece a gramática da manipulação de dados, fornecendo um conjunto consistente de distorções que ajudaram você a resolver os desafios mais comuns de manipulação de dados. Portanto, a primeira função que discutiremos é a função de mutação. E o que ele faz é adicionar novas variáveis que são células de variáveis existentes. Então, o que ele fará, adicionará novas variáveis que são funções da variável existente, saberá o que significa quando fazemos a prática. Ok, então o próximo é selecionar, selecionar, ele cospe a célula. O que seleciona? Ele escolhe variáveis com base em seus nomes é o mesmo que uma consulta de seleção em SQL, se você conhece SQL ou MySQL ou qualquer banco de dados relacional, usamos o select para selecionar o valor e selecionaremos algo dos dados da tabela usando o nome da coluna. Ok, então é isso que o select também faz aqui, fixo ou variável com base em seus nomes. Então temos o filtro, filtro mais estreito. O que ele faz é escolher os casos com base em seus valores. Então, se você quiser filtrar seus dados com base em alguns valores, como na orelha ou em qualquer coisa, qualquer vestido e você possa assistir, ok? Resumir, a função reduz os vários valores a um único resumo. Então, o que o sumário fará, reduzirá os vários valores a um único resumo. Também veremos que então temos a função laranja. O que eu não fiz foi mudar a ordem das regras, então apenas organizou os dados em uma ordem diferente. A ordem da rosa, do crepúsculo, tudo bem. Além disso, ele também suporta o operador de tubulação. Então, este é o teste percentual do operador de tubulação e, em seguida, maior que o sinal e, em seguida, apresentado, é chamado de operador de tubulação. Ok. Agora, deixe-me contar como você pode instalar o pacote em seus artistas para fazer ou até mesmo na arte. Então, você pode simplesmente acessar os pacotes aqui e clicar em Instalar e colocar aplicar aqui. Ok. Além disso, você também pode usar o pacote tidy verse, a maneira mais fácil de instalar o gráfico é instalar o tidyverse inteiro. Portanto, se você instalou o pacote tidyverse, ele incluirá o plano D. E se você não quiser instalar este tidyverse porque o tidyverse conterá muitos pacotes. Ok? Então, se você quiser, não quiser, os pacotes que você não está usando, você pode ir e colocar o plano D install.packages, ok? Portanto, ele instalará um dos principais pacotes duplicados. Além disso, você também pode seguir esse caminho. Agora. Você pode acessar o pacote de instalação e colocar o nome do pacote e instalá-lo. E para invocar a biblioteca, temos que começar a usar a biblioteca e depois o nome do pacote que fornecemos. Então, as outras coisas que você já sabe, mas só para dividir as coisas que estou lhe dizendo. A próxima coisa é menos explorada. As esposas de manipulação básica do jogador usarão o conjunto de dados Star Wars. Então, vamos usar o conjunto de dados de Star Wars que está disponível com o arco, que é pré-carregado em R. Ok? Então, se colocarmos cabeça, cabeça, Star Wars, o que ele vai dar, ele dará os primeiros cinco. primeiro tipo surgiu no conjunto de dados que já conhecemos e usamos várias vezes, certo? Mas esse pacote de camadas profundas fornecerá outra função chamada vislumbre, que eu não usei até ela. Estou usando pela primeira vez. Portanto, se você der uma olhada em Star Wars, ele fornecerá todas as informações sobre as regras. E assim, veja aqui que está dizendo é linha, 87 linhas e 14 colunas. E está dando, nos dando o nome da coluna, nome, altura, massa, cor, e quais são os valores disso? Ok. Os três primeiros por colapso. Está nos dando o, então este é o vislumbre dos punks e só lhe dará uma ideia dos dados. Portanto, se você quiser ter uma visão rápida dos dados, pode usar a função de limpeza. Caso contrário, você também pode usar a cabeça. Ok. Então, se você comentar um vislumbre e executar a unidade principal, cabeça fornecerá um resultado como este. E um vislumbre lhe dará esse resultado como este. Ok? Então, essa é a cabeça e esses são os membros. Ok? Então, agora vamos passar para aquele operador de tubulação. Deixe-me fechar isso. Assim, e da mesma forma, também vimos a vista. Assim, você pode oferecer um Star Wars e ele lhe dará uma visão do lago de dados. Isso lhe dará uma visão completa do conjunto de dados como uma pessoa normal que você vê. Então isso vai te dar todo o conjunto de dados, ok? Agora, o operador pipe, todas as funções de camada profunda usam DataFrame como primeiro argumento. Dataframe será o primeiro argumento para tudo o que a plataforma tem, em vez de forçar o usuário a salvar o objeto intermediário ou o aninhamento das funções O xadrez fornece às linhas de filtro do operador de tubo a função de filtro. Portanto, o filtro permite que você selecione o subconjunto de estradas em um DataFrame. O primeiro argumento é o DataFrame. O segundo documento e o documento subsequente se reportam ao valor dentro do quadro de dados, selecionando as linhas em que a expressão é verdadeira. Então veja aqui para selecionar o personagem com pele clara e olhos castanhos. Então, o que podemos fazer para usar isso é o nome do conjunto de dados Star Wars. E então podemos usar o operador de tubulação. E então podemos usar o filtro e fornecer o parâmetro para filtragem. As cores da pele seriam claras e cor dos olhos. Então seja marrom. Ok? E você também pode fazer de outra forma, como Star Wars. Então você pode usar o Star Wars e, em seguida, o colchete, Star Wars, colchete e os dólares de Star Wars podem colorir. Isso significa que vamos afetar o banco de dados sobre a cor da pele do conjunto de dados de Star Wars. E é escamosa, a cor da pele ficará clara, e então a estrela ficará mais alta. A cor dos olhos significa que vamos analisar o banco de dados sobre a cor dos olhos e a cor dos olhos deve ser marrom. Você pode usar o operador de tubulação assim. Ou, alternativamente, você pode usar o dólar. E Star Wars. Isso significa que a cor da pele em dólares de Star Wars significa que vamos ajustar o conjunto de dados com base na cor da pele desse conjunto de dados de Star Wars. Isso significa que a cor da pele é uma coluna no conjunto de dados de Star Wars. Ok? E então podemos usar simplesmente isso ou você pode usar o operador de tubulação e usar o leito do filtro sob a cor da pele e da cor dos olhos. Ambos fornecerão o mesmo resultado. Veja aqui. Ambos estão dando o mesmo resultado. Não há diferença. Portanto, você pode usar com o operador de tubulação ou com seus dólares. Ok? Então, essas são as duas maneiras de filtrar os dados. Linhas organizadas com função laranja. Portanto, nosso filho pequeno funciona forma semelhante ao filtrado, exceto que em vez de filtrar ou selecionar linhas, ele as reordena. O que isso fez? Ele reordena todo o conjunto de dados. Ele usa o DataFrame e uma configuração, os nomes das colunas são expressões mais complicadas para ordenar POR, use essa ordem correta e decrescente. Portanto, se você usar essa função DESC, ela ordenará a coluna na ordem decrescente. Se usarmos EEOC, ele será enviado. Ok, então aqui adicionamos elementos na ordem decrescente de altura. Então, como podemos fazer isso, podemos usar Star Wars, depois o operador de tubulação e, em seguida organizar a função e a altura DESC. E simplesmente você fornece isso e ele organizará os dados na ordem decrescente. Veja aqui, agora os dados são dos mais altos e estão diminuindo. Essa é a ordem decrescente. Dessa forma, podemos adicionar os dados ou filtrar os dados com base na altura em ordem decrescente. Ok, a próxima coisa é fatiar. O que corta dois slides permite que você indexe rolados por sua localização inteira. Ele permite que você selecione, remova e duplique linhas. Portanto, discordo um pouco dos dados do nosso conjunto de dados. Corte a cabeça do sublinhado e desliza na chamada cauda. Selecione a primeira e a última linha dos dados. Corte a amostra de sublinhado, selecione aleatoriamente essas linhas. Portanto, os slides abaixo da amostra de sublinhado fornecerão o Raj selecionado aleatoriamente do conjunto de dados, se você quiser que sua fonte o faça. Portanto, se você não obtiver uma amostra do conjunto de dados, um grande conjunto de dados, poderá usar slides nessa amostra de código e, em seguida escolher aleatoriamente algumas estradas e vendê-las para você, usadas frequentemente como suporte, para escolher certas. Proporção dos casos. Slice underscore mean e slice underscore max selecionam as linhas com o maior ou menor valor de nossa variável. Portanto, ele simplesmente fornecerá, se você fornecer a média do sublinhado da fatia e aqui você fornecerá a altura. Ele fornecerá o mínimo de altura e os slides sublinharão a matemática, máximo, a altura, e fornecerá o máximo da altura. Então, vamos fazer as coisas com a mão na massa. Então, para obter o personagem de 5 a 10, podemos usar o operador de tubo de Star Wars, fatia cinco e dois pontos dez. Então, deixe-me simplesmente executar isso. Ok? Nós te daremos de cinco a dez, ok? Se usarmos n igual a três, isso nos dará, veja, apenas três linhas, ok? E se usarmos n igual a 512345 linhas, se você ver a diferença aqui, cinco a dez, isso lhe dará o estado da linha 56789106, incluindo cinco n aqui, n igual a 5 min apenas 512345. Ok? Agora, para amostrar dez por cento das linhas, podemos usar isso. Podemos usar cinco operadores de Star Wars, amostra de slides sublinhados. Suporte 0,1%. 0,1 significa dez por cento. E isso lhe dará os dez por cento dos dados. Ok? Ele separará os 10% dos dados. Agora, usando slides para obter o valor mais baixo ou mais alto. Portanto, podemos usar o filtro Star Wars para não esconder. E então podemos usar a fatia. é próximo passo O próximo passo é selecionar colunas com a seleção desativada quando você trabalha com um grande conjunto de dados com muitas colunas, mas apenas algumas são realmente interessantes. A seleção de poucas permite ampliar rapidamente um subconjunto útil usando avaliações que geralmente funcionam com uma saída única na posição da variável numérica. Então, selecionando colunas por nome. Assim, você pode usar os operadores de tubos de Star Wars selecionar a cor do cabelo e a cor dos olhos. Então, isso lhe dará a cor do cabelo e dos olhos. A rainha e somente essa linha. E se você selecionar as colunas fatiando, podemos usar a cor do cabelo e a cor dos olhos, ambas não são iguais. Então, queremos selecionar isso. Neste resultado, você pode ver a cor do cabelo e a cor dos olhos não estão lá. Todas as outras colunas estão lá, mas a cor do cabelo e dos olhos estão bloqueadas e não estão incluídas. seleção de colunas com os critérios específicos termina com a cor. Então, queremos selecionar os dados um para o outro, qualquer coisa com essa cor. Então, deixe-me analisar essa cor de cabelo, cor da pele e cor dos olhos. Três colunas terminando com a cor. Agora, mutar, mutar de Sun permite que você faça isso, permite a criação de novas variáveis. Isso é extremamente útil para análises estatísticas. Então, aqui está o operador de tubos de Star Wars altera a altura para a altura em 100. Então, o que adicionamos? Aqui? Estamos obtendo a altura do Star Wars e dividindo-a por 100 e criando um novo sublinhado da altura da coluna. Em seguida, selecione a altura, altura e tudo mais. Então, deixe-me fazer isso e ver o que obtemos C aqui, estamos obtendo a altura sublinhada de uma nova coluna aqui, e isso é 172 dividido por cem, então 1,72 e todas as outras colunas de Star Wars, estão incluídas. Dessa forma, podemos alterar o novo sublinhado de altura da coluna m no conjunto de dados. E podemos alterar a nova coluna e obter o novo valor para essa coluna usando a função mutate. Ok? Agora, o modelo de regressão ajustado com a altura como exame, exame três valioso e Marte, qualquer variável de resposta, incluindo o outlier, exibem as estatísticas resumidas da cooperação existente. Então, aqui usamos um modelo de regressão. Usaremos a função lm, altura e massa e, em seguida, valores de dados, Star Wars e resumo. Vou usar isso. Então, deixe-me fazer isso. Veja aqui, estes são os resumos que estamos recebendo. Também podemos traçar esse modelo de regressão. Vamos ver aqui, obteremos esse resíduo para alavancagem. Ok? Então, se você quiser entrar em detalhes, você pode ver a água, o coeficiente que estamos obtendo, o valor de ReLu p, todas essas coisas, você pode ver qual é a mediana mínima. Primeiro quartil, terceiro quartil, valor máximo. Todas essas coisas que você pode analisar, você pode ver aqui o Q-Q normal e os resíduos padrão e localização teórica do bloco do quadrante. Todas essas coisas. Você pode analisar sua agenda, contratar alguém e traçar o modelo de regressão com base na altura e na massa a partir dos dados. Foi dito que esta é a rápida prática de usar a função de plotagem o modelo de regressão com base na altura e na massa a partir dos dados. Foi dito que esta é a , uma biblioteca em D bemol no R. Então, espero que você saiba o que é D bemol e como podemos usar as diferentes funções, como mutex, selecionar Filtrar, resumir e não são todas essas coisas. A próxima palestra. 69. Regressão linear simples com o conjunto de dados da qualidade do ar: Olá e bem vindo de volta. Nesta palestra, na verdade, vamos fazer outro projeto simples em que vamos usar a regressão linear. E o que faremos com a regressão linear para tentar encontrar a linha mais adequada para nosso conjunto de dados. Ou seja, conjunto de dados de qualidade do ar que está prontamente disponível com o R. Portanto, esse conjunto de dados de qualidade do ar está disponível com o r. E este é o conjunto de dados sobre a medição da qualidade do ar de Newark. Ok? Então, vamos entender o que são esses dados e, em seguida, o que vamos fazer com esse conjunto de dados e o que vamos conseguir com a regressão linear. Portanto, medições diárias da qualidade do ar no Iraque, de maio a setembro de 1973. Então, esse é o conjunto de dados que trata. Está medindo a qualidade do ar na cidade de Nova York de maio de 1973 a setembro de 1937. O conjunto de dados é a qualidade do ar. E vou formatar o formato dos dados com as 153 observações em seis variáveis. E quais são essas variáveis? Camada de ozônio, qual é a quantidade de níveis ordinais? Portanto, r ponto r será número numérico e estará nos pulmões. E esse será o PPB. A velocidade do vento será de MPH e, em seguida, a temperatura estará em Fahrenheit e no mês de um a 12 de janeiro a dezembro. Ok. Portanto, ozônio significa leituras diárias dos seguintes valores de qualidade do ar. De 1 a 30 de setembro de 1973 foi retirado e listado no conjunto de dados. Não quero dizer ou não em partes por bilhão. 1300-1500 h na Ilha Roosevelt. Ok. Tão alto quanto ao que isso representa, interrompendo a radiação solar no arrendamento de terras na faixa de frequência 4000-7700, Armstrong angstrom, das 08:00 da manhã às 1.200 h no Central Park. Vento. Esta é a média quando a velocidade em milhas por hora, 7-10 h no aeroporto Land Gorilla significa que esta é a temperatura máxima diária em graus Farenheit neste aeroporto. Ok, então isso é tudo sobre o conjunto de dados. Vamos passar para o código. Então, eu já escrevi o código. Eu vou te explicar o que vamos fazer. A primeira coisa é que precisamos usar o conjunto de dados que está disponível com a arte, ou seja, a qualidade do ar. Portanto, podemos usar dados e podemos usar a desigualdade. Ok? E aqui podemos visualizar os dados com a visualização, função, visualização e, em seguida, quantidade. E veremos os dados. Então, esse é o conjunto de dados. Temos as seis colunas ou dados solares de John. Esta é a radiação solar, a velocidade do vento, a temperatura, temperatura mais alta do dia e depois o mês, em que mês? E esse é o dia. Então eles têm a temperatura do mês e do mês em que ele dividiu a radiação solar, solar e origem. Ok? Então, isso é tudo sobre o conjunto de dados e ele contém um para cada três dados, ok, um roxo, três linhas neste conjunto de dados. Agora, o que eu quero fazer simplesmente traçar isso ou Joan e a radiação solar em um gráfico e ver o que estamos obtendo. Então, deixe-me traçar esses dados. O eixo x é sobre a radiação solar e a camada de ozônio será representada no eixo y. Então, em um determinado dia, a radiação solar será essa e a origem, qualquer quantidade, será essa. Então, esse é o gráfico que estamos obtendo. Agora, o que eu quero fazer com a regressão linear, quero encontrar a linha de melhor ajuste que represente esse conjunto de dados corretamente. Então, qual será a linha mais adequada? Algo parecido com isso. Algo que dividirá os dados de forma quase igual. E com isso, podemos adivinhar qual será a radiação solar em um determinado dia. Então, se você seguir essa linha, como se y fosse igual a mx mais c será a equação da linha reta. Então, se traçarmos essa linha em um determinado dia, podemos adivinhar. Ok, então o que eu vou fazer é descobrir qual é a média da quantidade de ozônio, camada de ozônio. Qual é a média do que eu perco, eu perco o que é extraído dessa qualidade do ar. dólar da qualidade do ar ou John nos dará a origem, o valor para cima ou para baixo do conjunto de dados de qualidade do ar. E aqui o que estou fazendo, qualquer dado verdadeiro de cada trimestre significa que, se os valores não estiverem disponíveis, acabamos de ver, não consideramos isso. Ok? Então, com isso, encontraremos a média da origem. Portanto, o valor médio da origem é 42. Então, será algo como aqui. O que vou fazer é desenhar uma linha reta que representará o valor médio da origem. Então, deixe-me executar essa coisa aqui. Essa linha reta representa a média da origem. Ok? Agora, o que vou fazer é usar a regressão linear para ajustar a melhor linha possível. Ok, então, como podemos fazer isso, podemos usar a função lm, função modelo linear, e podemos usar a origem e a energia solar realmente sensíveis aqui. E então eu vou usar os dados de qualidade do ar. Ok, então, a partir dos dados de qualidade do ar, use esses dois parâmetros ou não responda muito que são radiação solar. E vou tentar criar nosso modelo de regressão linear. Então eu criei, agora vou ver o que nosso modelo está oferecendo. Então, deixe-me colocar isso no lado direito. Então, veja aqui, estamos obtendo esses coeficientes. valor de interceptação Y é esse e tão alto para os artistas, ok? Agora, o que vou fazer tentar, com esse modelo, encontrar a linha de melhor ajuste que represente totalmente nossos dados corretamente. Então, o que eu perco, eu perco a linha AB, e vou passar esse modelo que criamos com a função lm e nosso jogo colateral. Quero dar uma cor diferente à linha mais adequada. Então, eu estou usando o código de cores aqui, laranja. Então, deixe-me fazer isso. CEO. Agora, essa linha laranja é a linha mais adequada que estamos obtendo para essa coisa. Então, isso representará o valor do valor regularizado da camada de ozônio enterrada na radiação solar. Essa é a linha de melhor ajuste que obtemos da regressão linear. Portanto, com base nesse suporte de um dia PIP3 de dados que temos, queremos prever isso. Então, podemos ver que qual é o suporte que eu quero prever aqui? Então, essa radiação solar, suponha aqui, e isso nos dará o valor jarda delta que será em torno de 60 ou 75. Ok? Dessa forma, podemos encontrar a linha de melhor ajuste usando a função lm ou regressão linear. Ok? Então, é assim que podemos usar a regressão linear para encontrar a linha de melhor ajuste. 70. Lidando com valores em falta: Olá e bem vindo de volta. Nesta palestra e nas próximas palestras, vamos lidar com os valores faltantes em R. Então, veremos como podemos lidar com os valores faltantes em nossa programação. Porque sempre que você inicia um projeto de ciência de dados ou um projeto de aprendizado de máquina e começa a trabalhar nos dados. O primeiro passo é explorar os dados. Você precisa ler os dados e entender os dados. Quais são os valores existentes? O que são esses dados que você realmente precisa entender? A menos que, até que você entenda os dados, você não consiga criar nada ou obter informações sobre esses dados. Portanto, é o primeiro passo para entender os dados. E uma vez que você tenha a compreensão dos dados, quais são as colunas que existem nos dados? Quais são os valores existentes? E do que esses dados estão falando, para que servem esses dados? Então, uma vez que você tenha esse entendimento, uma vez que você tenha a compreensão da versão beta, do que os dados estão falando, para que servem os dados. Você pode interpretar esses dados e, uma vez que tenha entendimento, pode se basear nesses dados. Portanto, logo no primeiro passo, você deve ter em mente que precisa entender os dados. Você precisa entender quais são as colunas e para que servem essas colunas? Que tipo de dados estão sendo armazenados nessas colunas. Assim que tivermos esse entendimento, você poderá começar a trabalhar nos dados. Você pode começar a trabalhar em seu ciclo de vida de aprendizado de máquina ou ciência de dados. E a única etapa muito importante para trabalhar com os dados e criar aprendizado de máquina ou inteligência artificial. modelos de ciência de dados lidam com os valores que faltam. Sempre que você vê qualquer conjunto de dados, pode ver que há muitas colunas, muitas linhas nas quais os dados não estarão disponíveis. E o que isso significa. Isso significa que sempre que coletamos os dados por meio de formulários, pesquisas e coleta de informações dos usuários. Portanto, sempre que coletamos dados do raio de usuários , você é apenas um grande grupo de usuários. Às vezes, eles odiavam compartilhar seus dados ou, às vezes não tinham um tipo de nível de protótipo com eles. Então, eles ignoram os pontos de entrada do Dojo. E quando coletamos esses dados e criamos nosso conjunto de dados, podemos descobrir que há muitas, muitas colunas, muitos valores que estão faltando. E para que nosso conjunto de dados funcione adequadamente em nosso modelo de aprendizado de máquina ou inteligência artificial, você se reabilita para lidar com os valores que faltam. Portanto, é uma tarefa muito comum na análise de dados lidar com os valores ausentes. Em nossa programação. Os valores faltantes são representados por um a e isso significa que não são aplicáveis ou qualquer outra coisa. Você pode entender como os valores ausentes são representados por um a e , de outras formas , também são representados por 99. Ok? Portanto, a etapa muito, muito importante é lidar com os valores que faltam. Portanto, ao lidar com os valores que faltam, temos que seguir as três etapas. A primeira é provar os valores que faltam. O que isso significa? Isso significa que temos que examinar o conjunto de dados e testar o valor que falta. Temos que ver quantos valores faltam. Onde estão os valores que faltam? Portanto, temos que encontrar os valores que faltam. Então, depois de testar os valores faltantes no conjunto de dados, precisamos registrar o valor ausente. A segunda etapa é decodificar os valores ausentes para o que está decodificando os valores ausentes é que temos que colocar alguns, outros valores no lugar dos valores faltantes. Suponha que tenhamos nossos dados de idade em que alguns de vocês simplesmente não tenham fornecido detalhes sobre a idade. Então, o que podemos preencher aí, podemos entender o significado disso. Você acabou de comer tudo o que a justiça juvenil significa ou média é que podemos atribuir ao valor que faltava. Então, seja qual for a fonte que você escolher, quem não tiver a idade, escolher, quem não tiver a idade, podemos colocar o valor médio da idade do grupo lá. Dessa forma, podemos registrar os valores que faltam. Portanto, precisamos registrar os valores ausentes com base em algum algoritmo, como média, todas essas coisas. Ok? Então, a terceira etapa é que podemos, ou pensamos, ou a outra forma seria excluir o valor que falta. Então, de outra forma, em vez de gravar, podemos excluir as linhas de valores ausentes. Portanto, podemos simplesmente remover as entradas que não têm suporte, ajudar a apoiá-lo. Nós temos o nome, você apenas cidade, a idade e os detalhes do emprego. E se algum usuário não tiver a idade dele, podemos simplesmente remover esse usuário do conjunto de dados para que possamos excluir os valores ausentes. Então, essas são as três etapas para lidar com os valores ausentes. E no próximo exercício, na próxima aula, faremos uma atividade prática simples na qual veremos como podemos identificar os valores faltantes, como podemos registrar o valor ausente e como podemos excluir os valores ausentes. Portanto, a próxima palestra será totalmente prática, lidando com os valores que faltam. Então, nos vemos na próxima palestra. 71. Teste os valores em falta: Olá e bem vindo de volta. Então, na palestra anterior, vimos como podemos trabalhar com valores faltantes em R, ou como lidar com os valores faltantes em R. Vimos quais etapas precisamos seguir. Precisamos seguir essas três etapas. Ou você pode dizer duas etapas. Você pode registrar os valores ausentes ou excluir o valor faltante. Portanto, o primeiro passo é provar os valores faltantes. Precisamos testar e encontrar os valores que faltam no conjunto de dados. Em seguida, a segunda etapa é necessária, os valores ausentes ou excluir os valores ausentes no conjunto de dados. Então, vamos começar com a primeira etapa, que é testar os valores ausentes. Então, como podemos testar os valores faltantes. Então, eu escrevi esse código e faremos a largura prática. Então, deixe-me dizer o que estou fazendo aqui. Estou criando um vetor com alguns valores ausentes. Então, estou criando um vetor 1-6 e, em seguida, estou incluindo um valor NA que está faltando valor e, em seguida, oito a dez e depois ausente. Bem, quando executamos esse vetor, veja o que obtemos. A saída é 123456 porque de um a seis. E então, quando qualquer valor, então 89108 a dez e depois qualquer. Portanto, temos dois valores ausentes aqui. Este conjunto de dados que estamos criando por nós mesmos. Ok, então, para dizer qual é o valor que falta, estou apenas incluindo o valor que falta no vetor. Ok? Agora suponha que esse vetor x que temos, que tem dois valores ausentes. E não sabemos aqui que podemos ver, então sabemos que faltam dois valores. Mas suponha que não saibamos, não estamos cientes, não estamos, não estamos vendo como podemos. É um grande conjunto de dados, não apenas uma linha. Pode haver um conjunto de dados que tenha várias linhas, milhares de linhas, você sabe, encontraremos os valores que faltam lá. Então, podemos simplesmente executar um teste, ou seja, Annie é alguma, e então precisamos passar o nome do conjunto de dados. Ok, então aqui vamos passar o extrator ativado, encontrar o valor que falta. Ele dirá que, se faltarem valores, dirá verdadeiro. Ok? Então, cada NA e valor ausente, ele passará por esse vetor, vetor x, e encontrará o valor que falta. E um valor ausente está lá, ele retornará verdadeiro. Então, deixe-me fazer isso. Aqui. Estamos ficando falsos, falsos, falsos, falsos e verdadeiros. Então isso é para 1234566. Falso significa que não falta nenhum valor até seis. Então, para o sétimo lugar, há algum, e por isso está nos devolvendo verdadeiros. Então 8910, falso, falso, falso. E para até dez, existe algum, então está voltando a ser verdade. Portanto, ele retornará o verdadeiro para os valores ausentes. Dessa forma, podemos descobrir que faltam valores para esses dois valores. Ok? Agora vamos criar um DataFrame com dados ausentes. Então, estou criando um DataFrame. Df data.frame é a maneira de criar DataFrame. E aqui estou criando quatro colunas, coluna um, coluna dois, coluna três, coluna quatro. E na coluna um, estou dando 123 e uma coluna para esse NA é, então esses são os valores que estou colocando no DataFrame. Ok? Então, deixe-me executar este DataFrame e vi a saída. Então veja aqui, o DataFrame é assim. Coluna um, coluna dois, coluna três coluna para coluna um terá 123.1 e coluna dois terá este é um texto. Coluna três, verdadeiro, falso, verdadeiro, verdadeiro. Ok. Então, a coluna quatro será 3,55, 0,26, 0,2. E então esse é o DataFrame que eu criei. Agora, eu quero identificar que n está no DataFrame completo. Neste quadro de dados, quero encontrar algum. Então, eu posso simplesmente executar o teste com um a e posso primeiro usar o DataFrame V0. Portanto, cada quadro de dados inserido retornará verdadeiro ou falso. Então, esse NA, que está aqui, coluna um, quarta linha, estamos examinando, depois outra entrada aqui. Então, estamos passando por aqui. E isso é mais um e mais dois aqui. Isso significa que neste, ok? Então, dessa forma, podemos executar nosso teste de qualquer forma. Suponha que você queira identificar qualquer coluna específica do DataFrame. Então, eu quero verificar se esse DataFrame tem algum valor na coluna dois para que eu possa executar o teste. E então o nome do DataFrame df dollar column two. Então, o que ele retornará, ele retornará o verdadeiro e o falso para a coluna. Então, vamos analisar isso e ver seu falso, verdadeiro, falso, falso. Por que isso é falso? Porque na coluna dois, o valor está lá, então ele está retornando falso. Pois N8 está executando true para is e text é Dunning, false, false. Isso significa que falta um valor na coluna dois. Dessa forma, podemos descobrir que os valores de NA são valores ausentes em uma coluna específica. Agora podemos executar a função sum e identificar a contagem do NINR DataFrame. Portanto, podemos usar um pouco de off se qualquer df for N A e precisarmos passar o nome do conjunto de dados. Então, vamos fazer isso e ver aqui agora que estamos recebendo três. Então, há três. N está no quadro de dados. Agora, a soma da coluna é df, ela fornecerá a soma dos valores faltantes nas colunas. Ok? Então, vamos executar isso e ver se é feito na coluna um, linha, um, coluna 21, coluna três. Não faltam dados. E coluna por um. Então C, coluna três, tudo está lá verdadeiro, falso, verdadeiro, falso, e não temos valores ausentes na coluna três. coluna três suporta se eu colocar algo, alguns outros valores, em vez de verdadeiro/falso, colocarei um pouco de marrom. Alguns valores que precisamos colocar 20, ok? E agora execute o DF. Ok? Agora, execute isso. coluna três não tem nenhum valor faltante porque arredondou para 905123 todos os dados disponíveis, certo? É por isso que isso é feito em geral para a coluna três, soma do número, o número total de valores faltantes na coluna três é zero. Na coluna um, falta um valor, que é esse. Na coluna quatro, há uma razão, bem, é essa. E na coluna dois há um. Dessa forma, podemos testar os valores ausentes em R usando is any, is any retornará verdadeiro se houver um valor ausente no DataFrame. Então é assim que podemos dar esse primeiro passo. Na próxima palestra, veremos como podemos obter um registro dos valores faltantes. Nos vemos na próxima palestra. 72. Recodificar os valores em falta: Olá e bem vindo de volta. Então, na palestra anterior, vimos como podemos trabalhar com os dados ausentes. E vimos como podemos identificar os valores que faltam em um conjunto de dados usando seu ponto, certo? Então, cada ponto e ele fornecerão os valores que faltam. E agora, quando você sabe que os valores faltantes estão no conjunto de dados, o que podemos fazer é registrá-los com algum valor ou removê-los. Então, vamos ver como podemos registrar o valor que falta em um conjunto de dados. Então, a primeira coisa é que podemos registrar o valor que falta. Se for um dado numérico, podemos gravar com a média do conjunto de dados, média dos valores, ok, média do valor. Podemos dizer que podemos portar dois. Então, aqui estou criando um vetor x, ok? E vamos ver o que há no vetor S. É 123456, depois um, depois 8910 e depois qualquer. Ok, então aqui estão todos sobre dados numéricos. Então, o que podemos fazer é seguir em frente e encontrar a média dos dados existentes, ajustar nossos números numéricos, números e preencher a média no lugar dos valores, não faltam valores. Então, o que podemos fazer usar o x, que é o conjunto de dados ou vetor e podemos encontrar um a de x. Podemos encontrar todos os valores de NA. E aqui podemos colocar a média do valor de x. Assim, podemos encontrar a média de x usando a função média e onde, onde quer que haja alguma que não seja igual a verdadeira. Assim, podemos colocar o valor médio no lugar. Removeremos os valores e colocaremos o valor médio no lugar do envelope. Então, deixe-me fazer isso. E agora, tudo bem, então o Z aqui, agora temos o 123456 e no lugar de qualquer, temos 5,33 e depois 8910. E no lugar disso, todo mundo tem esse 5.3. Então, deixe-me fazer isso de novo. Então, aqui, em vez de um a, temos 5,33. Então, como estamos obtendo esse 5,33? Estamos obtendo a média de 1234561 mais dois mais três mais cinco mais seis, mais oito mais nove mais dez, e dividimos pelo número de valores quando obtemos 5,3. Então, no lugar dos anticorpos, estamos colocando o 5,33. Então essa é a única maneira de lidar com os valores faltantes, estamos registrando o valor faltante com esse valor médio, que é 5,33. próximo passo é o DataFrame que reveste o valor ausente como nitrogênio. Alguns, em alguns conjuntos de dados, os 99 representarão o valor ausente. Então, suponha que esse seja o DataFrame que estou criando, que tem duas colunas. E vamos executar isso e deixe-me mostrar o DataFrame. A coluna um do DataFrame, coluna 2123. E aqui, em vez de cinco , está tendo 99. E a coluna dois tem todos os poços. Então, esse 99 está fora de lugar. É como se faltasse um valor. Portanto, ele é tratado como o valor faltante. Agora, o que podemos fazer, uma coisa, podemos substituir esse 99 por um a para que o, ele esteja em vigor. Então, se quisermos substituir esse d F igual a 99 dentro de a, podemos usar DFT e entre colchetes df igual, igual a, igual a 99. E se for 99, precisamos substituir por DNA. Então, deixe-me fazer isso. Vejo você agora em 99, esses 299, temos os valores N A, certo? Então você pode substituir pelo inevitável. Se você não quiser substituir por nenhum valor, você pode simplesmente deixar-me mostrar o DataFrame novamente com o 99. Agora, podemos colocar qualquer valor aqui. Se você quiser colocar cinco, você sabe que deveria haver cinco e você pode simplesmente colocar cinco e C. Agora, os valores substituíram as duas casas como cinco. Dessa forma, você pode lidar com os valores ausentes. Podemos simplesmente colocar DNA, ok, então, dessa forma, podemos registrar os valores que faltam em nós. 73. Árvore de decisão: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre a árvore de decisão, que é muito importante no aprendizado de máquina. Então, aprenderemos tudo sobre a árvore de decisão e recomeçaremos do zero. O que é árvore de decisão? Então, primeiro, deixe-me dizer, qual é a nossa decisão. Uma decisão é algo que tomamos todos os dias. Suponha que queiramos ir a algum lugar e suponha que eu queira ir a algum evento. E para apoiar isso sou eu. E eu preciso, eu preciso dele para levar um pouco de água, algum evento. Então, o que eu vou dizer se o tempo está bom ou não, e com base no clima está bom, eu vou subir. Se o tempo não estiver bom, eu não vou. Portanto, isso depende da condição climática. Então, aqui estou distinguindo-os do jeito que são. Então, essa é uma espécie de árvore de decisão que estou tomando. Estou tomando, estou tomando decisões com base no clima e no apoio. Posso acrescentar mais uma coisa, se isso for bom. E, novamente, quero acrescentar algo como se eu estou bem e não, certo? Então, se eu estiver bem, eu vou embora, vai ser sim. E isso não será. Então, tudo isso se tornará uma grande árvore de decisão em que a primeira coisa que acontece é que o tempo está bom, eu vou, tempo não está bom, eu não vou. E se é bom Também é um aplicativo para ver se eu sou bom ou não. E então, melhor do que minha condição de saúde, direi sim ou não. Então essa é uma grande árvore de decisão, ok? Agora, então é assim que tomamos a decisão, certo? Quando estamos dirigindo um carro, estamos dando uma olhada nele, observando as condições do trânsito, e então estamos fazendo nossa jogada, certo? Se a armadilha, se o sinal de trânsito estiver verde, se moverá. Se estiver amarelo, vamos esperar. E se estiver vermelho, vamos parar, certo? Então, esse também será um tipo de decisão que estamos tomando. Então, o que é árvore de decisão? Se você quiser entender, temos que dar um exemplo. Suponha que eu tenha, suponha que seja eu, esse sou eu. E eu quero ir comer algumas frutas. E eu não reconheço frutas. Ok. Então alguém da minha família, alguém, ele me disse que a maçã, maçã, maçã tem duas características. É vermelho e arredondado, certo? E então ele disse que banana, banana é de cor amarela e não está errado, certo? Não é redondo. Na verdade, é longo. Ok. E então ele disse que nós entendemos. Entendi que é de cor laranja. E isso não está errado. Ok. Não está errado. Então, agora eu vou ao mercado de frutas para patos. E lá eu vi um teclado flexível. Eu vi um lojista que está vendendo frutas. E ele tem muitas frutas, assim como tem um monte de, desculpe. Ele acumulou um suporte de banana. Essa é a banana. Então ele tem muitas bananas que, eu não sei, são bananas. Ok, então algo em um cofre de banana, estou planejando fazer, desculpe pelo meu desenho ruim. E ele tem algumas frutas. Alguma bateria prova que ele tem. E então ele teve uma coisa de cor laranja. Entendi. Ok. Apoio que poucos reuniram lá. Então, agora vou parar e estou pensando em como forçar a perda de água, com base em qualquer descrição que recebi de um membro da minha família, vou perguntar à tecla programável qual pergunta vou fazer. Vou perguntar qual é a cor, certo? Então, a primeira coisa que vou perguntar, como Egito ou vermelho ou laranja, certo? Eu perdi você, Gita. Cor laranja. Então, a protease de cor laranja. E se for, eu responderei diretamente, será sim ou será. Tudo bem. Então, se for sim. Entendi que será classificado aqui. O S, as cenouras virão aqui, certo? Então, todos os candidatos virão aqui por causa disso, cor laranja e todas as bananas, porque não são cor laranja. Então, todas as bananas serão bananas, elas virão aqui. E mais velho. Maçãs também deste lado, certo? Porque eles também não são de cor laranja. Então, agora eu tomei uma decisão. As frutas, eu classifiquei as frutas em duas categorias, laranja ou não. Então, laranja, eu pego todas as cenouras e não laranja. Eu tenho a banana amarela e as maçãs vermelhas. Agora, a próxima coisa que vou perguntar ou não, certo? Rodada. Então eu recebo sim e vou receber não. Certo? Até agora, todas as maçãs virão aqui, certo? Todas as maçãs serão classificadas corretamente, certo? E por enquanto, para saber o que vai acontecer. Todas as bananas virão aqui, certo? Porque as bananas não são redondas. Então, vou pegar todas as bananas aqui. Então, agora veja, se você olhar para essa coisa, podemos ver que isso é tudo. Essa coisa toda é uma árvore de decisão porque parece uma árvore, certo? A árvore tem galhos e folhas, certo? Então esse, o principal, esse é chamado de nó raiz. O nódulo raiz e os nódulos infantis que estamos obtendo e os lábios digitais, certo? Ok. Então, esta é uma árvore de decisão em que eu sou o primeiro, estou vendo todas as frutas e decidindo se elas são laranjas ou não, depois estou classificando os dados que estão sendo classificados corretamente. Então, a banana unipolar aqui e depois é sua própria, então as maçãs e as bananas são classificadas corretamente. Classifique as frutas com base em sua cor e salve. Então, basicamente, as árvores de decisão são usadas para problemas de classificação. Então, os séculos são usados em problemas de classificação, certo? E a média desse nó, desse nó, desse nó, do nó raiz aqui. Isso é chamado de entropia. Então, o que nossa entropia significa, quanto maior for o número de itens nesse nó raiz, mais densa será sua árvore de decisão. Ok? Então, o que eu preciso fazer, eu preciso combinar cada decisão com cada nó. Preciso de cada nó para reduzir a entropia. Então aqui a entropia está aqui, então o trapézio será o mais alto. E então, com cada decisão, preciso reduzir o valor da entropia para que possamos classificar esses itens. Ok? Então, isso é chamado de entropia. Então, cada traço ocular e nós seremos, estaremos reduzindo a entropia, correto? Veremos na próxima palestra como reduziremos a entropia. Então, aqui podemos ver como podemos usar isso e eliminá-lo também com a titulação e alcançar o nódulo infantil, como reduzimos a entropia na próxima aula. Mas, por dentro, essa é a árvore de decisão e é assim que classificamos as coisas no aprendizado de máquina usando a árvore de decisão. E é assim que tomamos a árvore de decisão, também faremos nossa parte prática nas próximas palestras. Primeiro, examinaremos toda a parte teórica e, em seguida, passaremos para a parte prática, na qual classificaremos seu problema de aprendizado de máquina usando a árvore de decisão em nossa programação. Nos vemos na próxima palestra. 74. Ganhar Entropia e informações: Então, nesta palestra, vamos ver como a árvore de decisão, como funciona a árvore de decisão? Ok? Menos de três. Trabalhar. Ok. Então, para isso, deixe-me contar algumas noções básicas antes de prosseguirmos. Então, em primeiro lugar, nesta decisão, árvore de decisão, estamos tomando várias decisões. Então esse é, esse é conhecido como o nó raiz, ou esse é conhecido como o nó raiz, certo? Portanto, este é um nó raiz. E então esses são chamados de nódulos foliares. Então, este é o nódulo da folha. Este é outro nódulo foliar. Eles são chamados de nódulo foliar, ok? Nó radicular e nó foliar. Ok? Agora sabemos o que é um nódulo foliar e um nó radicular. Deixe-me levá-lo para outro conceito que é chamado entropia e vi que é muito, muito importante. Então, deixe-me dizer o que estou dizendo. Estou dizendo entropia. Então, o que é entropia? A entropia é uma coisa muito importante. Porque veja aqui, agora esse, isso é ter mais itens, certo? Então, isso é um lançamento de alta qualidade. Desculpe. Isso é ter alta entropia. Alta entropia, ok? E este está com baixa entropia. É um tipo de população. Então, quando você tem mais itens em um nó, ele tem alta entropia. E quando tem baixo número de elementos, é chamado de baixa entropia. Ok? Portanto, a entropia é uma medida da falta de sua coleta de dados. Curta mais itens, como aqui. No nó raiz, você tem os itens com, com três cores, laranja, amarelo e vermelho e desativados para salvar. Então isso é ter mais bagunça e certa. Então isso é ter alta entropia. E comparado com isso, neste nó raiz está tendo uma entropia baixa e isso está tendo uma entropia muito baixa. Ok? Então, deixe-me levá-lo para outro conceito com isso e isso é chamado ganho de informação. O que é isso? É chamado, é chamado de ganho de informação. Então, o que é ganho de informação? À medida que avançamos para essa árvore de decisão do nó raiz para o nó da folha, estamos obtendo informações. E com a informação obtida, o que ela está reduzindo, a entropia é uma corrida de rua. Suponha que essas entropias, pois essa entropia seja E2, para essas entropias, E3. E para isso, as entropias suportam as entropias E3. Então, para cada um que eu rastreio e você pode dizer que E2 será menor que um, certo? Portanto, o valor de y1 é E1, E1 é maior e E2 está reduzindo. E2 é menor que Y1. E da mesma forma aqui, e3 será menor que E2. Ok? Então, o que é ganho de informação? O ganho de informação é ganho de informação, se quisermos calcular, ganho de informação será igual a y1 menos y2. Y1 menos y2 lhe dará o ganho de informação. ganho de informação é a diminuição da entropia dividindo o conjunto de dados com base em algumas condições. Então veja aqui. Agora temos dados de 1234567 aqui. E estamos colocando uma condição, Agente, Laranja na cor laranja dos protistas. E com base nessa condição que estamos obtendo, estamos reduzindo o número de conjuntos de dados aqui, dois e aqui 345. Então, estamos dividindo o conjunto de dados. Então, aqui a entropia está diminuindo. ganho de informação é a diminuição da entropia dividindo o conjunto de dados com base em alguma condição. Veremos como podemos calcular a entropia. Essa é outra coisa matemática que eu te informo. Mas, por enquanto, suponha que quando estamos descendo na árvore de decisão, a entropia esteja diminuindo. Anteriormente era e um, agora é E2, e mais abaixo está descendo para e três. E um é maior que E2 e E2 é maior que E3. Ganho de informação para isso, desse nó para esse nó , está chegando a y1 menos y2. Ok, então é isso que as informações obtêm. Então, qual é o nosso objetivo da árvore de decisão? Quando dividimos o conjunto de dados com base em alguma condição, nosso objetivo é diminuir a entropia, diminuir a entropia para obter as informações, certo? Então, o telefone principal morre para obter mais informações. Ok, então, na próxima aula, veremos como podemos calcular o ganho de informações e como podemos fazer com o conjunto de dados, como podemos dividir os dados e como podemos calcular o ganho de informações. E veremos qual é a equação matemática do ganho de informação com, ok, então nos vemos na próxima aula. 75. Cálculo de Entropia na árvore de decisão: Olá e bem vindo de volta. Então, nesta palestra, aprenderemos sobre entropia e como calculamos a entropia. Então, na palestra anterior, vimos como funcionam nossas caminhadas distintas. E ainda assim eu quero esclarecer. O nó da folha será, este será o nó de uma folha. Este será o nó de uma folha, certo? E esse será outro nó foliar diferente, ok? Linfonodo, o nódulo final. Ok, isso vai ficar falado. E vimos como estamos quando descemos mais fundo na árvore de decisão, a entropia será a zona decrescente. O objetivo principal é chegar ao nó de dados, ao nó foliar, onde a entropia será menor do que a entropia do nó anterior. E entropia e ganho de informação. Aprendemos que y1 menos y2 será o ganho de informação. Agora veremos o que é entropia e como calculamos a entropia. Portanto, o tópico desta palestra é entropia. Ok? Então, vamos discutir em detalhes o que é entropia e como podemos calcular a entropia. Entropia. Na verdade, suponha que esse seja o suporte, essa é nossa única árvore de decisão. Suponha que essa seja a nossa, essa entidade onde eles dizem F1, F2, F3, ok? E então, ok, então essas são nossas folhas ao norte, certo? Esses são nossos gânglios linfáticos. E esse será o nó da folha. Pode o esporte ou o linfonodo. E esse é o nódulo raiz, certo? Então, como calculamos a entropia? Suponha que em mais uma coisa. Só para lembrar. Essa árvore de decisão. As árvores de decisão são usadas para problemas de classificação, certo? Problemas de classificação, certo? Então, basicamente, será a classificação cruzada binária, sim ou não. Ok? Então, suponha que quando adicionamos do nó raiz aqui, estamos chegando a esse F2. Estamos recebendo, suponha que estamos recebendo três anos e estamos recebendo dois nós, ok? E aqui estamos recebendo quatro anos e três nós. E então aqui estamos recebendo cinco anos. Estamos recebendo dois anos, e aqui estamos recebendo três nós. Estamos apenas assumindo esses valores, ok, e aqui para nós e suporte, aqui estamos recebendo três. Sim, e ele gostava muito de nós e apoiou este era ter a ferrovia que este era ter a ferrovia por dez anos, sete nós. Ok? Agora, como calculamos a entropia, entropia é a paridade da divisão. Então, este é o nosso conjunto de dados e estamos nos dividindo em dois nós, certo? F2 e F3. Então, quão pura e quão boa é essa divisão? É isso que vamos decidir com base na entropia. Então, entropia. entropia é basicamente quão boa é, quão boa é a divisão, quão boa é a sua divisão? Isso é o que a entropia vai nos dizer e como calcular a entropia. que exista uma fórmula simples que Suponha que exista uma fórmula simples que sustente que queremos calcular a entropia de S, então será menos a probabilidade de sim. E então registre a mensagem com a probabilidade de sim. Você também pode dizer probabilidade de positivo , mais menos Alfa. Probabilidade de não logar na base dois, probabilidade de Não, deixe-me escrevê-la corretamente. Isso está diminuindo. Suponha que apoie a entropia que estamos denotando com E. A fórmula da entropia é muito simples. Menos a probabilidade de sim no logaritmo da base dois da probabilidade de sim. Menos. Você pode transformar mais, menos probabilidade do norte em logaritmo do logaritmo de pashto, probabilidade do nó. Então, esta é a fórmula para calcular a entropia. Então, suponha que queiramos calcular a entropia desse nó. Então, como podemos fazer isso? Então aqui o E será a probabilidade de sim, sim será três. Então, três por contador total, mais três para encontrar. Então, probabilidade de sim de três por cinco anos. E então faremos o log da base 23 por cinco. E o sinal de menos menos a probabilidade de negativo será de dois por cinco. Às cinco. Logue a probabilidade de negativo na base dois por cinco. Então essa será a entropia de, essa será a entropia da nota F dois. Então essa é a fórmula. Você obterá algum valor aqui. Algum valor quando você calcula obterá o valor. Então isso vai ficar escuro e tirar você desse F2. Observe a entropia de F2, você pode, certo? Ok? Então, a entropia de F2 zero será isso menos três por cinco. A pobreza aparece menos a probabilidade de negativa e precisará tomar a base logarítmica de duas delas, probabilidade positiva e probabilidade negativa. Então, sim, você pode dizer probabilidade de positividade, probabilidade de positividade. E essa será a probabilidade de valores negativos e negativos. Ok? Dessa forma, podemos calcular o valor da entropia. Então, podemos calcular o valor da entropia para isso também, para isso também, para isso também aqui, se você calcular o valor da probabilidade, que é o único, não há negativo, certo? Porque isso é o N zero, certo? Então, suponha que estamos fazendo a divisão e obtendo, suponha que aqui estamos, em vez de 4,3 nós, estamos obtendo três anos e três nós. Então isso é muito, isso não é útil, isso é, isso não é uma coisa útil, certo? Porque estamos recebendo as duas coisas, três anos e três nós. Então isso não vai dar nenhuma ideia, certo? Então, isso é muito negativo. Esse é um tipo de divisão muito, muito ruim, ok? Portanto, seus dados não serão divididos dessa forma em uma árvore de decisão. Então isso é descontinuidade ou hóquei, porque quando você calcula esse, será três por seis menos três por seis. Basicamente, a probabilidade negativa do barco e a probabilidade parcial são iguais, ok? Portanto, temos que dividi-lo de tal forma que não devêssemos receber essa coisa. Ok? Então é assim que calculamos a entropia com essa fórmula. Ok? E precisamos, e o ganho de informação, conforme discutido, será o, suponha que este seja E um ou E F1. E isso está aqui EF2. As informações coletadas de F1 a F2 serão E F1 menos F2. Portanto, essa será a informação obtida de um nó para esse nó. Ok? Então é assim que calculamos a entropia e o ganho de informação. Ganho de informações. 76. Cálculo de informações Ganho para árvore de decisão: Olá e bem vindo de volta. Então, na última palestra, aprendemos sobre entropia. E o calcanhar está nessa árvore decisória que eu desenhei. Abdullah, um pequeno erro como Yolanda. No total, as cidades estão disparando 17, 17 itens e depois S. E não há. Então, quando você divide esses dois nós, três anos para saber. E para sim e três nós, certo? Quatro mais 37,5, apenas 12, então cinco não estão incluídos. Então você pode, então você tem que cuidar disso. Eu gosto por engano, não recebi os números corretos aqui, mas isso não afetará nada do que eu ensinei na palestra anterior. Portanto, somente os números são um total de 17 quando você está dividindo. Ok? Além disso, tudo está correto e da forma como calculamos a entropia, essa fórmula está correta, todo o resto está correto. E é isso que eu queria esclarecer que isso aconteceria. Alguns outros números. Ok. E, tipo, três ou oito anos , tudo bem. Nesse caso, seria meu erro. Eu escrevi 38 sim. Para saber 10.7, 17. Ok. E então aqui vai ficar um suporte de oito anos. E sim. Ou o McDonald's aqui, então será o correto. Ok. Ok. Então, agora vamos passar para o próximo conceito que é chamado de ganho de informação. Então, na palestra anterior, o que eu disse, eu disse em fazendeiros e o ganho é assim em entropia menos essa entropia. Portanto, este jogo informativo do qual você obterá, a partir desse recurso de taxa F1 a F2. Mas esse não é o ganho total de informações. Então, quando temos nossa árvore de decisão totalmente formada, temos que encontrar o ganho de informações da árvore de decisão total. Que jogo de informação? Novamente, estamos chegando à totalidade. Então, deixe-me jogar como Dawn e o que eu vou fazer criar uma árvore de decisão. Suponha que tenhamos essa árvore decisória. Então, apoiou este estágio, F1, F2, F3. Ok? Então, suponho que este tenha n, sim e sete. Ok? E quando estivermos nos dividindo aqui , suponhamos que ETS, nariz. E aqui estamos cortando. Que sejam esses três nós. Então, nivele e aqui estou eu recebendo três anos e três. Não. Ok, então esta é uma, nossa árvore de decisão suporta uma amostra de árvore de decisão que estamos criando aqui. Agora, para esse nó, entropia supõe que E F1 suporte você. Estamos calculando a entropia para isso, então. Sim, não, sete nós, estamos recebendo E F1. Para isso, estamos obtendo uma propriedade como E F2. E para isso, estamos recebendo E F 30. Ok? Então, agora isso se baseia nesse ganho de informação. E a entropia bastará. entropia apenas dirá que, com base no valor da entropia, podemos descobrir como está nossa divisão, certo? Não saberei se todo o obeso escolheria esse ou aquele, certo? Essa divisão, ou essa divisão, certo? Então, suponha que possamos fazer outra divisão, como começar com F2, começar com F2 e depois ir para F1 e F3. Então, isso pode ser outra divisão. Então, não sabemos qual é a correta, certo? Então, como sabemos isso? Qual estratégia ou divisão devemos visitar seria como F1, F2, F3 são maneiras, começaria com F2, F1, F3, certo? Então, como podemos decidir isso? Podemos decidir isso pelo termo que me informou algum ganho. Portanto, com base no ganho de informações, podemos decidir. Que caminho devemos seguir, menos ir por aqui ou por aqui. Ok? Portanto, isso será decidido pelo ganho incremental da árvore de decisão total. Então, como calculamos o ganho total e total de informações, e é isso que vou te dizer. O ganho de informações é a quantidade de informações que estamos obtendo para toda essa árvore decisória. Então, para essa primeira coisa, o que precisamos obter, precisamos encontrar a entropia para cada um dos nós, cada uma das características, ok, até agora suportadas, calculamos com base na fórmula explicada na aula anterior. Calculamos e obtivemos esses valores, E de um ano, PUI de três. Ok? Então, agora, quais informações ganham? Ganho de informações. O que as informações obterão dessa árvore decisória? É como se a informação ganhasse o nó raiz, seja, E, f, f1, f1 menos a soma de todas essas divisões. Resuma todas essas divisões como esta. E essa, a informação que você ganha e deixa você de fora. Ok? Então, o que será, serão aqueles subconjuntos de todas as subdivisões como esta é uma divisão e esta é uma divisão no mesmo nó, certo? Então, parte desse subconjunto, o peso total ponderado, ok? E então suporte E, F. Isso vai de z igual a um para n suporte. Vamos de um número de split para um ventilador E F1, ok? Então, suporte E F1, calculamos E, F um. Então, quais serão os quantos subconjuntos temos aqui? Estamos recebendo dois subconjuntos. Um é isso e outro é isso, certo? Então, qual será o subconjunto desses oito mais 31111 e total é 17, 11 por 17 em E de f, dois. E depois mais três mais 36 por 17. Total. A contagem é de 17 a E F três. Ok? Então, isso chegará ao E F1 -11 por 17, E F2 menos seis por 73. Ok? Então essa fórmula, essa, essa expressão nos dará, essa expressão nos dará algum valor. Suponha que eu não esteja calculando o valor real, você pode calcular. Então, suponha que esse valor estamos obtendo 0,53. E da mesma forma, suponha que também tenhamos calculado para essa árvore de decisão. Ok? O que significa essa entrada? E aqui estamos obtendo o ganho de informações como vento por exemplo. Então, agora estamos entendendo, suponha que isso seja novamente um e isso é novamente para ver como nosso algoritmo de aprendizado de máquina, ou como decidirá qual caminho devemos seguir. Devemos continuar com essa divisão. Essa divisão com base no ganho de informações. Então, aqui estamos obtendo, novamente, eu apoio 5,53 e aqui estamos obtendo ganho de 0,41, ganho informação um é maior do que a informação obtida, dois. Então, optaríamos pelo valor mais alto. Quanto maior o ganho de informações, mais precisa será a árvore de decisão. Então, vamos continuar com isso, seguir essa árvore decisória. Então, vamos usar F1, F2 e F3. O ganho de informações decidirá qual árvore de decisão ou qual abordagem devemos adotar para criar essa árvore de decisão. E isso não faremos algoritmos manuais ou de aprendizado de máquina. Ou a biblioteca diz que eles farão isso automaticamente para nós, mas devemos saber como isso está funcionando internamente. E sempre que você estiver tentando criar uma árvore de decisão para algum problema ou aprendizado de máquina, os algoritmos de aprendizado de máquina criarão esses subconjuntos, essas placas. E eles calcularão o, que calculará o ganho de informação. E qualquer que seja o ganho de informação maior , essa estratégia será seguida. Dessa forma, o ganho de informações é útil para decidir qual divisão ou qual árvore de decisão com acompanhamento com base em qual recurso devemos dividir primeiro. O recurso um também é baseado no recurso. Então, esse será o caso, pois o ganho de informações é uma dessas coisas importantes. Devemos conhecer a matemática por trás do ganho de informações. Apoie esses três, sim e três nós aqui, o valor de entropia de três será um. Por quê? Porque esse é um subconjunto totalmente impuro, certo? Porque isso não é, isso não é bom. Porque três S e três notam que ambos são números iguais, certo? Então, essa é uma divisão impura e, para essa entropia, serão 11 coisas que esqueci de te dizer. O valor da entropia sempre estará entre zero e um. O valor da entropia estará sempre em 0-1. Se você está recebendo 10, sua divisão é boa. E temos que parar a divisão aí. Ok? E se a divisão for, seu valor de entropia está chegando a um, isso significa que é uma divisão pura ou impura. Ok? Então, para zero, vamos parar e em um será uma divisão impura. Ok? Então, isso que você tem em mente. 77. Mãos na árvore de decisão em R: Olá e bem vindo de volta. Então, nas palestras anteriores, aprendemos sobre a árvore de decisão. Também vimos como criamos uma árvore de decisão. E vimos entropia. O que é entropia? Como calculamos a entropia e qual será o valor da entropia. E então vimos como calculamos o ganho de informações e como ganho de informações da árvore de decisão decidirá qual abordagem devemos seguir, qual abordagem devemos adotar. Criador de livros, a melhor árvore de decisão para nossa formulação de problemas. E também sabemos que essa entrada é usada para árvores para problemas de classificação. Ok? Então, basicamente, um problema de classificação binária com o qual lidamos com a árvore de decisão. Então, nesta palestra, aprenderemos sobre como vamos fazer isso, basicamente vamos escrever nosso código para criar uma árvore de decisão para nosso conjunto de dados. Então, aqui vamos usar um conjunto de dados embutido que vem com R, ou seja, habilidades de leitura. Então, o que esse conjunto de dados de habilidades de leitura tem e o quê, como criamos nossa árvore de decisão para isso. Isso veremos nesta palestra. Vamos escrever o código antes disso. Deixe-me contar algumas aplicações da árvore de decisão. Então, a árvore de decisão, se você quiser ver na vida real, você, as árvores de decisão estão sendo usadas quando estamos tentando descobrir qual e-mail é spam, e-mail, qualquer e-mail que não seja spam. Então, aí estamos tomando disjuntamente, certo? Então, nesse tipo de projeto de aprendizado de máquina, onde estamos, precisamos decidir se um e-mail vem de uma fonte, se é um spam ou não, aí, estamos basicamente criando uma árvore de decisão. Estamos fazendo essa jornada, spam ou não. Esse tipo de problema de classificação binária é spam ou não spam. Então, no departamento de saúde ou no setor de saúde, se você ver, detecta um câncer de aplicativo, se pode ser um tumor, pode ser canceroso ou não, que podemos decidir com a ajuda do aprendizado de máquina e usando a árvore de decisão. E no setor financeiro na Europa, você pode ver que, como nos domínios financeiros bancários do BFSI, eles talvez o usem para decidir se concedem empréstimos ou não. E eles também podem decidir se o que é bom ou o que há de bom nosso mutuário com água ruim com base em sua pontuação de crédito. Assim como a análise de risco de crédito, você pode usar a árvore de decisão. Então, essas são algumas aplicações reais de nossa árvore de decisão e problema de aprendizado de máquina que você pode pensar em resolver com a árvore de decisão. Então, como resolveríamos isso? Basicamente, criamos um modelo e depois tentaremos treiná-lo. E então, com base no modelo treinado, tentamos fornecer os dados do teste e tentar decidir todas essas coisas. Então, agora, vamos abordar esse problema, essa palestra. Voltando a esta palestra, usaremos o conjunto de dados de habilidades de leitura que vem com o R, o pacote R. Então você está dizendo, bem, o conjunto de dados e esse conjunto de dados realmente descrevem a pontuação de alguém, a habilidade de leitura de alguém, as habilidades de leitura de alguém. Se conhecemos as variáveis como idade, pontuação de suicídio e se a pessoa é falante nativo ou não. Então, se tivermos essa informação, se a fonte que eu observo e o falante nativo não são nada, podemos decidir. Podemos encontrar uma pontuação de habilidade de leitura para uma pessoa negra. Então, vamos criar uma árvore de decisão para isso. Ok? Então, em nossa programação, temos a função S3. Função S3 que usamos para criar uma árvore de decisão. E isso requer duas entradas. Uma é a fórmula e outras sim. Então. C3 está usando duas fórmulas na entrada e nossos dados. Veremos no código. Ok, então a próxima coisa é escrever o código. Então, a primeira coisa é criar uma árvore de decisão. Precisamos de um pacote chamado festa. Precisamos instalar esse pacote. Então, se você não instalou este pacote, você tem que escrever o comando install dot packages, installed packages. E você precisa fornecer o nome do pacote. E então você tem que executar o código. E isso instalará este pacote de festas para nosso uso. Então, eu comentei isso. Se você não instalou, basta descomentá-lo e executá-lo. O pacote de festas será instalado. Depois de instalado, basta comentá-lo para que esse comando não seja executado todas as vezes. Ok? Então, uma vez que temos o pacote party instalado, isso não é necessariamente para criar uma árvore de decisão porque essa função do S3 vem com esse pacote. Precisamos usar esse pacote. Para usar um pacote em R, precisamos usar a biblioteca e, em seguida, fornecer o nome do pacote. Então, empacotando minhas festas, e é por isso que estamos escrevendo uma festa na biblioteca. Agora, esse grupo de bibliotecas cultivará esse conjunto de dados de habilidades de leitura para que possamos ver o que há nesses conjuntos de dados. Então, podemos simplesmente executar essa cabeça. A habilidade de leitura da cabeça fornecerá as primeiras. Os primeiros são dados desse conjunto de dados de habilidades de leitura. Então, vamos fazer isso e ver aqui. Agora estamos obtendo as primeiras seis linhas do conjunto de dados. Está dizendo a idade do falante nativo, suicídios e depois a pontuação. Essa é basicamente a pontuação de leitura. Então, agora temos um vislumbre desses dados. Podemos ir mais longe e criar uma árvore de decisão. Então, aqui vamos usar o ponto de entrada para obter a entrada. Podemos simplesmente, se você não quiser colocar esse nome, você pode simplesmente usar a entrada. Então, aqui estou usando dados de pontos de entrada e estou obtendo os dados dessa escala de classificação. E então vamos avançar. E aqui estou apenas usando um PNG de pontos de árvore de decisão. E esse será o arquivo de imagem em que teremos nossa árvore decisória impressa nele. E então estamos criando a árvore aqui, árvore de pontos de saída. E estamos perdendo a função S3 aqui e aqui, estamos fornecendo a fórmula de falante nativo formalizado. E essa é a, essa é a variável dependente. E com base na idade, suicídios e em sua essência, decidiremos se somos falantes nativos ou não, ok? E os dados são iguais aos dados de pontos de entrada. E então estamos plotando o, plotando o diretório de saída. Então, vou colocar a árvore que estamos obtendo dessa função. E esta é a fórmula, H nativo mais pontuação com base nessas três variáveis preditoras, vamos obter o valor do falante nativo, ok? E então theta é igual aos dados do ponto de entrada. E estamos planejando isso, ou produtividade ou o que quer que estejamos obtendo com essa preocupação, estamos planejando isso. Então, vamos fazer isso e ver como estamos obtendo essa árvore decisória. Então veja aqui agora que temos nosso arquivo de árvore de decisão criado. Veja aqui, esta é a árvore de decisão que estamos obtendo. Ok? Então, ainda não decidimos como isso, ah, realmente, esse nódulo foliar, certo? O sistema decidiu automaticamente. E T são menores ou iguais a 3813 zeros x está vindo aqui, 30, menos de 38,306 voltagem vindo aqui. E então é igual a R7. São menos de seis que virão aqui mais do que c por causa do próximo ano. Então, isso está sendo impresso à distância, está sendo criado com a função S3. E aqui o ganho de informações e tudo será feito pelo sistema seco, ok? Portanto, não precisamos fazer isso, só precisamos usar a função S3 e provavelmente a fórmula e os dados, e isso criará a árvore de decisão para nós. Ok? É simples assim. Mas por que discutimos a teoria na palestra anterior, porque devemos conhecer nos bastidores o que está acontecendo com essa função S3. E devemos ficar atentos, ok? Só então você poderá ter sucesso no campo de aprendizado de máquina e ciência de dados. Você precisa conhecer as intuições matemáticas por trás da árvore de decisão ou de qualquer algoritmo que esteja aprendendo. Ok? Qualquer pessoa pode vir aqui e usar essa função S3 e criar uma árvore de decisão. Mas eles podem não estar cientes de como a árvore decisória está sendo construída. O que é entropia, o que é ganho de informação? E tudo bem, é por isso que você deve conhecer as verdadeiras intuições por trás do algoritmo de aprendizado de máquina. Ok? Então, com essa árvore decisória, que conclusão estamos chegando? Estamos chegando à conclusão que, como qualquer pessoa cuja escala de leitura é 38,3, menor que 38,3 e a idade é maior que seis, não é falante nativo, certo? Então, com isso, vamos ter um lago. Se a idade for menor que, pontuação de leitura for menor que 38,3 e a idade for maior que seis, a pessoa não é falante nativo. Então é assim que podemos criar a árvore de decisão em R. 78. Vantagens e desvantagens da árvore de decisão: Nesta palestra, aprenderemos sobre as vantagens e desvantagens da árvore de decisão. Então, primeiro veremos vantagens e depois veremos essas vantagens das árvores de decisão. Ok? Então, metade da árvore decisória das estimativas, ok? Portanto, isso não é realmente, como aprendemos, um algoritmo de aprendizado de máquina muito popular. E resolva de forma distinta os problemas de aprendizado transformando os dados em uma apresentação como essa. Ok? Trate uma apresentação como essa. E cada nó interno da árvore é assim. E eles apresentam nosso denota um atributo e cada nó de folha indica o nível da classe. E o algoritmo da árvore de decisão também pode ser usado para resolver problemas de classificação e de regressão. Portanto, não é como quando um problema de classificação vazado pode ser resolvido com a árvore de decisão. Mas também podemos resolver os problemas de regulamentação. Ok? Então isso já foi feito, ok? Portanto, essa entrada pode ser usada tanto para problemas de degradação quanto de classificação. Então, deixe-me dizer quais são as poucas vantagens da árvore de decisão. Portanto, a primeira vantagem da árvore de decisão é que ela exige menos custos e requer um operador de pré-processamento menos importante. Vamos nos separar do pré-processamento dos dados, ok? Portanto, para a árvore de decisão ou em comparação com outros algoritmos de aprendizado de máquina, você precisa trabalhar um pouco menos no pré-processamento dos dados ou na preparação dos dados. Você pode dizer que eu gostaria de uma pré-preparação, ou você também pode colocar aqui, como preparação de dados. Então você precisa se esforçar menos na preparação e no pré-processamento de dados, ok? Então essa é uma grande vantagem do aprendizado de máquina. Nosso produto. A segunda vantagem seria como se uma árvore de decisão não precisasse ser ampliada. Não é necessário ampliar os dados. O dimensionamento dos dados não é realmente necessário. Ok? Então isso também não é necessário e essa é uma grande vantagem, ok? E então a terceira vantagem, podemos dizer que isso geralmente não requer a normalização do Beta. Portanto, mesmo que os dados não estejam normalizados, você pode trabalhar com a árvore de decisão. Normalização da greta. Está pronto, não é necessário. Ok? Portanto, isso também é uma coisa boa no aprendizado de máquina e veremos essa árvore de decisão. Portanto, no aprendizado de máquina, os séculos e o algoritmo em que o adjacente normal e Gil vinculam os dados não são realmente necessários. Se você quiser, você pode fazer, mas não é realmente necessário. Não terá grande impacto se os dados forem normalizados ou não. Se estivermos trabalhando com árvore de decisão. A próxima vantagem é que a falta de valores nos dados também não tem grande impacto na árvore de decisão. Ok? Por exemplo, se você usar outros algoritmos de aprendizado de máquina, precisará trabalhar extensivamente para lidar com o valor que falta. Mas na árvore de decisão, isso não vai ter, não perder valor não terá impacto na árvore de decisão. Sem impacto, ok, então não vai impactar muito. Portanto, mesmo que existam dados ausentes, você pode criar uma árvore de decisão que não funcionará, você não perderá nada que afete sua decisão ou impacte suas previsões. Ok? O modelo de árvore de decisão das próximas vantagens é muito intuitivo e fácil de explicar para equipes técnicas ágeis em escala. Então, quando você vê a árvore de decisão, é muito fácil levá-lo a entender. É muito fácil de entender e qualquer parte não técnica ou técnica pode ser facilmente entendida. Então essa é a grande vantagem de uma árvore de decisão. Portanto, mesmo que você queira apresentar sua árvore de decisão a um gerente, você pode facilmente fazer com que eles entendam a árvore de decisão. Então essa é uma vantagem de uma árvore de decisão. Além dessa árvore de decisão. Ou como intuições muito humanas que você obtém com o Get with the decision tree. Então, é muito, muito parecido com o comportamento humano. Nós também, em nossas vidas diárias, aceitamos o mesmo sim ou não, com base em algumas características ou condições em que tomamos decisões. Portanto, é muito humano. Eu ficarei feliz com um algoritmo semelhante ao humano. Ok, então essas são as poucas vantagens com as podemos contar para o aprendizado de máquina. Agora vamos ver as desvantagens da árvore de decisão. Portanto, a primeira desvantagem da árvore de decisão que podemos ver é que essa parte é muito, não, confiável se seus dados estiverem mudando. Ok? Então, o que podemos dizer é que é instável, tipo estável. E se os dados estiverem mudando, se os dados mudarem. Então, apoie você, você criou uma árvore de decisão e há uma pequena alteração nos dados. Pequenas mudanças nos dados podem ter um grande impacto, um grande impacto na árvore de decisão. Então essa é uma grande desvantagem da árvore de decisão. Mesmo os pequenos dados de treinamento podem causar grandes mudanças na estrutura deles. Suporte da árvore de decisão Esta decisão tem a seguinte aparência. Se você alterar um pouco os dados, pode ter sido estrutura totalmente diferente da árvore de decisão e isso vai ser um tipo de grande impacto, certo? A segunda desvantagem é que a árvore de decisão às vezes é mais complexa em comparação com o outro algoritmo. Então, às vezes, para dados mais simples, sua árvore de decisão será complexa. Então, às vezes temos uma árvore de decisão muito complexa. E se você usar algum outro algoritmo, poderá obter a solução mais simples. Portanto, você precisa ver se, para nossa formulação de problema específico, você realmente precisa de uma árvore de decisão ou não. E se você estiver usando a árvore de decisão, é mais simples do que o outro algoritmo ou não. Se não for mais simples do que o outro algoritmo no aprendizado de máquina, você deve usar o outro algoritmo de aprendizado de máquina e não seguir em frente com a árvore de decisão. Então, às vezes, fica muito complexo. O problema do pescoço é como se o treinamento de um modelo de aprendizado com árvore de decisão fosse enorme, certo? Portanto, é preciso tempo e dedicação para treinar nosso modelo de aprendizado de máquina usando árvores de decisão. Portanto, é demorado. O processo leva muito tempo para treinar a árvore de decisão. O tempo gasto pela distância é maior. Então, o tempo é caro, certo? Isso levará mais tempo em comparação com outros algoritmos. E também é como se a complexidade também estivesse aumentando na árvore de decisão. Outra coisa que podemos dizer que essa lição ou não é realmente muito impactante. Então, se você usar uma árvore de decisão para problema de classificação, problema de classificação, é bom. Mas para árvores de regressão, isso não é tão impactante, certo? Como eu entendi, mas isso pode ser feito para ambos. Mas as árvores de regressão não causam esse impacto. Então, essas são as poucas desvantagens das árvores de decisão com as quais podemos contar. Então é isso para esta palestra. Essas são as vantagens e desvantagens das árvores de decisão. 79. Apresentação do projeto: Olá e bem-vindo. Então, nesta palestra, vamos aprender sobre o projeto que vamos fazer, de onde. Então, vamos fazer isso de forma muito importante. É um projeto simples de aprendizado de máquina que lhe dará clareza sobre o que um algoritmo simples de aprendizado de máquina pode fazer. Em poucas linhas. Vamos usar nossa programação e vamos usar nosso conjunto de dados, que conterá os dados anteriores da organização. E com base nos dados, vamos prever os preços futuros das ações. Sim, você adivinhou certo? Vamos fazer um projeto onde eles fizeram com base nos dados anteriores, StockData anteriores de dados históricos dos preços das ações. Vamos adivinhar preços futuros das ações como a partir de agora. Qual será o preço das ações em 100, 500 dias, ou após um ano ou dois anos, após 30 dias, após 40 dias, qual será o preço das ações? Portanto, essa será a previsão de ações. Projeto, seu aprendizado de máquina, ok? E vamos usar nossa programação para isso. Portanto, um arquivo XML simples conterá o preço das ações. E para isso, usaremos os dados de preço das ações do Google para o Google. E vamos dividir os preços do Google em 400 dias ou 100, os dias são dias, ok? Então, vamos fazer o preço das ações para X e o projeto. E para isso, temos esse conjunto de dados no formato Excel, que contém os dados históricos dos preços das ações do Google 2019-2020. Ok. E veja quais são as colunas aqui? A primeira coluna é data e começa em 26 de setembro de 19. E temos dados até 25 de setembro de 2020, quase um ano de dados, ok, e então a segunda coluna é D, e então a terceira coluna é aberta. Isso significa o preço de abertura. Quando o mercado de ações abre pela manhã , qual era o preço? Portanto, esse é o preço de abertura no sexto dia, septum auto toggle 19, que é o primeiro dia. O que acontece e naquele dia foi de 1.245, que é o maior em um dia. E pouco desejou que fosse para 1.232. Então, em um dia começou a partir de 1.241,95. Foi para a lei de 1.232 e subiu para 1.245 e fechou em 1.241. Então, esses quatro detalham o quão importante e ajustado o fechamento é quase a mesma coisa. E então o volume, como 15 lakh, 30.000 volumes estava lá. Assim, temos todos os dados de 365 dias. Então, com base nesses dados, vamos prever os preços futuros das ações até o Google. Se você traçar esses dados em um gráfico, podemos ver como os preços estão subindo e descendo. Então você pode ver aqui. Então, vamos traçar esse tipo de gráfico também e ver como os preços estão aumentando e diminuindo. Dias, está bem? Então esse é o projeto que vamos fazer. E vamos ver, na próxima aula, começaremos a importar esse arquivo do Excel para nosso estúdio de arte e, em seguida, escreveremos um código simples e tentaremos prever o preço futuro das ações até as ações do Google na próxima palestra. 80. Projeto - Prever preços de ações: Olá e bem vindo de volta. Nesta palestra, começaremos com nosso projeto que prevê o valor do preço das ações do Google em um determinado dia com base nos dados históricos que temos. Portanto, temos essa planilha do Excel, que tem dados do último ano, como 26, número 20192, até, acho, setembro de 2020. Sim. Então, até 25 de setembro, 20 países. Portanto, temos quase um ano de dados de que o preço das ações do Google está conosco em todos os 365 dias do preço de abertura. Qual foi o alto valor da ação em um determinado dia? Valor mais baixo. Qual foi o valor de fechamento e qual foi o volume? Então, todos esses dados que temos, com base nesses dados, tentaremos criar um modelo onde possamos prever o valor das ações em uma data específica, ok? Suponha que daqui a três dias, ou 500.500 dias, qual será a frase padrão? Eu diria 100 dias. Qual será a fase do AVC? Então, assim. Ok, então vamos começar o código. A primeira coisa é o que podemos fazer. Podemos importar o ponto XLS do preço das ações do Google, o arquivo Excel, para nosso estúdio. E como podemos fazer isso, podemos ir até o arquivo. E aqui precisamos acessar o conjunto de dados de importação. Portanto, precisamos acessar o conjunto de dados de importação. E aqui você pode ver que os impostos, os três NADH do Excel, de várias fontes de dados estão listados aqui. Então, o que precisamos selecionar aqui, precisamos selecionar esse Excel aqui. No Excel, basta clicar. E aqui precisamos navegar pelo arquivo em que mantivemos nossos dados. Então, temos esse arquivo do Excel. Então, vou apenas abri-lo e cortar digitalmente os dados. E uma vez feito isso, nos dará a opção de importação. Portanto, essa é uma forma de importar o arquivo de dados para o estúdio mais difícil. Essa é outra maneira. E isso também veremos veremos aqui agora podemos ver a prévia do código dessa importação. Está chegando como uma biblioteca. Eu não preciso do Excel e o preço das ações do Google será o objetivo. E aqui usaremos a função Ler Excel e forneceremos ao bot o arquivo do Excel com o nome do arquivo. E então podemos usar a visualização, esse objeto. Ok? E isso será para que possamos simplesmente copiar esse código. E eu não sei por que está demorando tanto tempo. Pode haver alguma ressonância magnética, então deixe-me cancelar isso e importar. Veja. Agora, os dados foram importados para nosso estúdio. Sim, podemos ver os mesmos dados que estamos vendo neste arquivo do Excel. Agora, podemos ver o interior deste estúdio de arte. Ok, agora temos o, agora, se quisermos ver esses dados aqui, veja se ainda não há Claudia. Mas, como importamos, podemos usar a visualização real. E aqui podemos usar o nome do objeto sólido : sua mão. Podemos correr até aqui e ver que a mesma coisa acontecerá. Mesmo se você quiser usar o resumo dos dados. Alguém podemos executar isso e vamos colocar esse conjunto de dados aqui. Média, primeiro quartil, média mediana, valor máximo do terceiro quartil na quantidade de setembro de 2020 E era 1.710, o máximo é 1.733. Isso será o mais alto. E esse é o máximo de abertura máxima. E esse é o máximo mais alto, nem o máximo local e o máximo de fechamento. Ok? Dessa forma, podemos ver o resumo dos dados, ok? Agora, em vez de usar isso, também podemos podemos usar a biblioteca. Podemos usar a biblioteca de códigos. Não sei por que está chegando. Se você não souber o código, basta acessar o conjunto de dados de importação de arquivos e do Excel. E aqui você pode ver o código aqui. Basta copiar isso e só precisamos colá-lo aqui. E ainda assim você precisa colocar o Read excel, e ainda assim precisamos colocar o nome do bot. Ok, qual será a parte aqui que vamos colocar? Posso simplesmente colocar isso. Então, estamos reorganizando a biblioteca Read excel e, em seguida, estamos usando o nome do objeto em vez de usar a função do Excel e fornecer a parte incorreta do arquivo XL. E então podemos usar o preço real das ações da Morgan e isso nos dará o mesmo resultado. Isso e veja, sim, estamos recebendo a mesma coisa. Ok? Então, dessa forma, lemos e visualizamos os dados em nossa próxima etapa é que precisamos entender a estrutura dos dados. Portanto, se você quiser entender a estrutura dos dados, pode usar a função de resumo, resumo do preço das ações do Google. E você obterá o resumo dos dados, como já vimos. Dessa forma. A próxima coisa é o que precisamos fazer. Precisamos visualizar os dados. Então, a próxima coisa é o que precisamos fazer. Precisamos visualizar os dados, visualizar os dados. Então, para isso, o que vou usar, vou usá-los muito. Então, o que vou fazer, não sei por que isso está se tornando uma grande trama. E eu vou usar essa coluna aberta e usar d e então os dados ficarão bem. E então basta executar isso. O forno, nós operamos isso, vamos ver os dados. Na sua aula. Veremos o enredo aqui. Então aqui está o preço de abertura e este é o dia 1-2, roxo. Assim, podemos ver os dados, como os preços de suas ações estão chegando no fim de semana. Você visualiza aqui. Então, dessa forma podemos chegar mais tarde, mais tarde. A próxima coisa é o que precisamos fazer. Precisamos usar a regressão linear para prever a função. Então, o que vai usar? Vou usar o preço previsto. E pelo preço previsto, o que vou usar é uma célula hilum Fung e essa função lm, usarei na mesma entrada que darei no dia de abertura. E isso foi feito neste conjunto de dados, ok, arquivo Excel, dados ALU, conjunto de dados. E então vou apenas aumentar o preço previsto. Então, vou apostar no preço mais alto aqui. Então, deixe-me fazer isso. Veja aqui que está dizendo o núcleo presente e isso. Ok, agora o que vou fazer usar a função de resumo para ver o que estamos recebendo por esse preço previsto. Até agora, esse preço preditivo, mínimo, primeiro quartil, mediana, terceiro quartil, todas essas coisas que estamos obtendo. Agora, o que vou fazer, vou prever a porta. Preditor do valor das ações em um determinado dia. Ok? Então, podemos fazer isso. Eu posso usar a função de previsão. E eu posso usar o preço. Sim. E então o que eu posso usar, eu posso usar o quadro de pontos de dados. Aqui. Eu posso fornecer que d é igual a 350, ok? E isso nos dará, isso nos dará o preço previsto das ações no terceiro dia. Então, deixe-me fazer isso, veja aqui. a taxa de mortalidade por período, o preço das ações será de 1.620 pontos. Se eu puder isso por 50. Assim, o preço das ações se separará. O preço das ações será de 1.700. Beneficiário, se eu colocar 150 , serão 1.400. Se eu colocar um, ele lerá 12.30.000. Veja, o preço das ações do Google quase dobrará desde o primeiro dia. Dessa forma, podemos colocar o valor d aqui e prever qual será o preço das ações naquele dia específico. Portanto, é um projeto bem simples que você também pode experimentar. Você pode prever o suporte. Quero prever o valor em um, por favor. Segundo dia. Em segundo lugar, desta forma, ok, dessa forma, você também pode experimentar seu próprio conjunto de dados ou usar o mesmo conjunto de dados que eu posso fornecer. Você pode baixar o conjunto de dados e tentar prever o preço das ações. Você também pode criar sua própria planilha do Excel e colocar alguns valores aleatórios. E você pode colocar seus próprios valores aqui e você pode prever, você pode pegar qualquer outro conjunto de dados que tenha o ou alguns outros valores que você também pode tentar colocar no mesmo código e tentar obter o valor previsto. Ok? Portanto, este é um projeto simples usando a função lm para prever o preço das ações do Google. Espero que você tenha entendido como usamos o aprendizado de máquina e todas essas funções simples em R para prever os preços das ações. Obrigada. 81. Análise de dados Uber do projeto 2 usando R: Olá e bem-vindo. Então, nesta palestra, aprenderemos sobre análise de dados por meio de visualizações em R. E, para isso, faremos um projeto no qual usaremos dados, qual é o agregador de lacunas, provedor de serviços para obter a solução certa em um aplicativo de evocação cab x. Você pode ver. Então você é o número um na parede para um provedor de serviços de táxi. Então, vamos usar os dados da UPA para análise de dados desse produto. Portanto, a motivação para este projeto é conduzir a visualização de dados, a narrativa e como podemos usar os dados para analisá-los e obter informações úteis. Esse é um componente importante do aprendizado de máquina por meio do qual as empresas são capazes entender o histórico de várias operações. O que isso significa? Isso significa que suponha que o que é feito no serviço agregador de lacunas e os motoristas de minitáxis estejam anexando seu aplicativo Over distinto. Em seguida, eu transmito e aceito fornecer o direito ao cliente. Tão grande que é se registrar no aplicativo e , em seguida, ele está tentando criar uma grande lacuna com base na localização deles. Então, o que você faz assim que faz login e seleciona sua localização e seu destino para onde deseja ir. Com base na sua localidade. Ele listará todos os bonés próximos que podem chegar até você no menor tempo possível. Será. Será. Será. Ele armazenará todas as lacunas perto de você e, em seguida, definirá o sexo, a localização e sua necessidade Ele terá a melhor aparência para você, o que pode levá-lo ao destino o mais rápido possível. Então, como isso faz isso? Você simplesmente tem muitos conceitos de IA, aprendizado de máquina e ciência de dados para analisar os dados e causar uma recessão. Então, neste projeto, vamos usar os dados. E vamos analisar quantas estão acontecendo em um dia ou quantas taxas mensais estão acontecendo em um dia. Quantos dos seus LEA eu começo a acontecer mensalmente e DY é a que horas do dia o VGS, esse tipo de análise que vamos fazer neste projeto. Então, todo esse tipo de operação que podemos fazer com o **** papai, com a ajuda do aprendizado de máquina. Com a ajuda da visualização as empresas podem aproveitar os benefícios de entender os dados complexos e obter insights que as ajudarão a entender que isso não é verdade. Portanto, a parte de visualização é muito importante porque, com a vigilância, podemos analisar rapidamente os dados e obter informações realmente úteis, como a que horas do dia é o BGN? Quais localidades têm menos necessidade de cabine em que os usuários não recebem tempo de cabine quando ela está atrasada. Todas essas análises que podemos fazer com a visualização. Esses são mais dados visualizados em um projeto que o guiará uso da biblioteca ggplot2 para entender os dados e desenvolver uma intuição para entender os clientes que estão nos clipes de qual aplicativo. Ok, então isso é, isso é o que vamos fazer. E o objetivo deste projeto é aprender visualizações em R e analisar os dados. Então, vamos começar. Portanto, antes de prosseguirmos, temos os dados ou arquivos do UVA conosco. E esses são os dados do mês febril. E isso é ter quatro colunas, data, hora, latitude, longitude e base. Então, essas são as informações que vocês, amigos, estão capturando. Ok, então data e hora, longitude, latitude e longitude. E a latitude fornecerá a localização da lacuna e da hora ou a hora em que eles estão reservando e a base de onde é a melhor localização para isso. Ok? Então, esses são os dados que temos. E isso é da mesma forma. Temos os dados do mês de maio, junho , julho, agosto e setembro . E vamos analisar isso com base nesses dados. Esses dados são bem simples. Data e hora, latitude, longitude E então vamos ao arquivo. No entanto, estou usando R para analisar isso. Então, antes de prosseguirmos, vamos importar a biblioteca de frutas, ou seja, GG plot two. Ok, então lubrifique e organize suas habilidades de DT. Então, o que é GG plot to GG plot twist. A biblioteca de visualização de dados mais popular que é mais amplamente usada para criar gráficos de regulação estética. Portanto, o enredo GG é muito popular em nossa programação por criar e tramas muito bonitas visualizações , luvas e tramas muito bonitas, muito desanimadoras e atraentes . Então, vamos usar o gráfico GG dois. Em seguida, usaremos o Lubridate. É essa alavancagem para o período de tempo. Usando os prazos no conjunto de dados. Então temos a camada profunda que é a biblioteca de manipulação de dados que vamos usar. Uma biblioteca antiga e importante, ela deixará seus dados muito organizados. Nossos dados organizados significam pequenos, determinam os dados com os quais é fácil trabalhar. Os dados. Se for fácil de trabalhar, podemos usá-lo em outra biblioteca com essa facilidade. Então, usaremos a biblioteca R organizada para organizar nossos dados. E então usaremos a novidade, as tabelas de dados na biblioteca JavaScript que usaremos. Então, realmente alcançando habilidades, habilidades. Essas bibliotecas costumavam, com a ajuda do gráfico, com a ajuda da escala gráfica, mapear automaticamente os dados para as habilidades corretas com o ****, com o próprio x bem posicionado. Portanto, isso nos ajudará a mapear automaticamente os dados para a escala correta. Então, para isso, precisamos usar essa biblioteca. Portanto, antes disso, se você não instalou essas bibliotecas, acesse as Ferramentas aqui e clique nos pacotes de instalação. E aqui você pode simplesmente pacotes populares chamados yuk, como você pode colocar GG plot two. E então, se você quiser juntar todos, você pode colocar temas GG e colocar coma e escrever todos os nomes, datas luminosas. Ok? Assim, você pode fazer isso, e você pode clicar em instalar esta biblioteca, isso para você. Assim, você pode instalar os pacotes. Então, vou repetir novamente. Você precisa acessar o RStudio para ir ao menu superior. Aqui você encontrará as ferramentas. Clique nas ferramentas e aqui você verá as várias opções. Em rodopsina. Você precisa selecionar o primeiro, instalar pacotes e, em seguida, fornecer o nome do pacote GG plot two. E se quisermos instalar vários pacotes ao mesmo tempo, você pode colocar uma vírgula e dar nomes aos pacotes colocando uma vírgula entre eles e clicando no estoque. Eu já instalei este pacote , então vou deixá-lo agitar. E se você não instalou, basta clicar em Instalar e ele será instalado na zona rural da Austrália. Então, vamos prosseguir. Então, uma vez que nosso laboratório os use e os use, só precisamos dizer o mais difícil de fazer isso. Vamos usar essas bibliotecas GG plot rho, g times lubridate, tidy, tidy verse, DT e escalas. Então, para isso, precisamos importar a biblioteca. E então, no colchete pequeno, precisamos colocar o nome da biblioteca GG plot two. E todas as bibliotecas que somos enormes, precisamos escrever dessa maneira. Ok, então, depois de escrever isso, selecione todas essas bibliotecas e clique em Executar. E estará pronto para os judeus na Europa. Agora, a próxima coisa, o que faremos, criaremos os vetores de cores, vetores de cores para os gráficos. Em nossos gráficos, usaremos as várias cores para os gráficos. Em nossos gráficos, usaremos as várias cores para torná-lo mais atraente e esteticamente bonito. E para isso, criaremos o vetor de cores. Então, aqui estou criando um vetor de cores e estou dando C, e então estou dando o nome da cor, o tipo igual ACCC 10166. Então, todos esses cinzentos verdes, amarelos, azuis, rosa, todos os estudiosos que vamos usar. Então, esses vetores criarão e executarão isso. Ok? E então o que faremos, a próxima coisa é ler os dados de cada período de tempo e comer. O que faremos. Temos o arquivo de dados de cada mês, conforme avaliado em maio, junho, julho e agosto. Então, faremos isso usando um csv de ponto de leitura. Você sabe que para ler um arquivo CSV em R, lemos a função do método dot csv, então o dot CSV. E aqui daremos o caminho para nosso arquivo de dados. Portanto, armazenamos o arquivo de dados nesta parte, então forneceremos isso e o nome do arquivo estará no final. Ok, então agora vamos tratar todos esses dados mensais. Ok. Basta clicar nele e ver. Ele está sendo lido com sucesso em agosto e setembro e nos vemos correndo. Então, agora está feito. E a próxima coisa é o que faremos. Vamos combinar os dados. Agora lemos os dados e os armazenamos nessas variáveis. Significa junho, julho, agosto e setembro. Agora, o que faremos é usar o método onBind para unir os dados. Então, agora, todos esses seis meses namorando um. Ok, então usaremos os dados aqui. Método de vinculação estranha, e passaremos esses objetos em maio, junho julho, e eles serão concatenados juntos. Ok, então vamos fazer isso. Então, agora temos a sensação de diamante do lago de dados para colunas e as várias funções. Ok, agora queremos ver como estão os dados combinados. Então, usaremos a cabeça e forneceremos os dados do objeto aqui. Portanto, ele imprimirá as primeiras cinco colunas dos dados. Ok, venha meu último ano, agora, temos esses dados de hora, latitude e longitude. E a próxima coisa é que usaremos esses dados contendo colunas data e hora com esses dados contendo colunas, data e hora, que é um fator, e longitude, latitude, que são duplas , e basicamente fatores. Portanto, formataremos a data e hora em um formato legível usando data, hora, convergência e funções. Então, aqui estamos dentro da função de fixação convergente de data e hora aqui para converter essa data e hora em uma mais legível. Então, para isso, usaremos dados e dados de data, data, hora e depois recarregaremos como CD escuro, formato de hora, ano, mês, data , ano e horas, minutos e segundos. Ok. E então, quando você lê este formato é este e a Lei de Reforma no hospitalista. Excelente. Ok, e então vamos combinar isso. Ok, vamos correr. Isso. O script ainda está em execução. Quando isso desaparecer, você poderá passar para o próximo. Apenas execute isso. Então, está funcionando. Em seguida, criaremos colunas individuais por mês, dia e ano. E para isso, obteremos dados de dia, mês, ano e meia semana. E usaremos o fator aqui vetoralmente. E ainda assim, dedique um tempo. Na verdade, nosso lead time mensal se eleva e considera o tempo da semana nos dados. Ok. Ok. E vamos executar isso também. Então, agora está funcionando. Sim. Então, o que faremos criar as colunas neutras em um mês. A próxima coisa, o que faremos, também adicionaremos variáveis de tempo. Portanto, em tempo parcial, são capazes de fazer INR de segundo minuto. E aqui, fatore o material do que um segundo de Aspen e pergunte a eles o segundo vetor de ruído. A segunda mina vetorial pode pegar a janela RN. Isso também executará isso. Então, está funcionando. Em seguida, quando estiver pronto, analisaremos os dados. Dados. Usaremos o método para analisar a aparência dos dados. Então, vamos fazer isso e ver agora que temos a terra diurna, a latitude e a longitude. Essas são as quatro colunas que já estão lá. Faz isso. Agora criamos novas colunas como hora, dia, mês, ano, dia da semana, segundo minuto. E essas são as colunas 123-45-6788, novas colunas que criamos. E essas colunas darão mais informações ao auditor. Acho que sim, dirá como Deus, só que agora sabemos qual dia do mês, qual mês e qual dia da semana ele teve um Richie Rich de, também saberá. E depois criado pela segunda vez. Agora. Agora terminamos com o Nita analisando os dados e criando recursos, novos recursos e novas colunas aqui. Então, a próxima coisa é que passaremos para o visualizador de dados e criaremos aleatoriamente criaremos os gráficos e tentaremos utilizar mais. Aqui. O que faremos a primeira coisa, primeira coisa que faremos é traçar os gotejamentos por RT e RD. Para isso, o que faremos é usar dados sublinhados que são valiosos e o que faremos: dados agrupados por R e usaremos a camada profunda para resumi-los. E quando executamos isso, agora, agora veja isso. Agora veja isso. Agora estamos obtendo esses dados zero, um, dois ou 3 h. Estamos obtendo a tabela de dados que comemos se você pode selecionar quantas árvores deseja ver por vez. Ok. A próxima coisa são os dados de origem na tabela de ontem. Mas agora o que faremos, traçaremos os dados pelo nosso gráfico GG e gráfico GD aqui. Os únicos dados que criamos aqui. E como nossa mentira. E então usaremos identidades de barras geométricas. Ainda assim, continuo sentindo com esse azul esverdeado e a cor se espalhará. Em seguida, intitulado os tipos de avaliação por r e o subtítulo agregado. E a legenda posiciona nenhum gráfico, título do texto e como 4,5 e 0,5 e uma habilidade como contínua. Ok, agora vamos traçar os dados pelo nosso sol neste C, e agora estamos obtendo o gráfico com nossas viagens. Cada legenda de RM aqui é um produto agregado de hoje. Então você pode ver todas as três ou 24 horas que estamos fazendo essas viagens, cada auditoria, esse brinquedo que eu comecei, eram essas muitas fitas. O segundo terço, escuro ou escuro assim. Eles nadam no clube por 24 horas e pronto, podemos ver que os 17 estão neles ou estão com mais viagens. Portanto, o bico é cobrado se quiserem aplicar o meio aplicando as Filipinas para formar nosso produto. Meia-noite do segundo ou por litro. Então, essas, essas muitas coisas, essas coisas, esses horários são muito videocassetes e aqui, quando você vê, à noite, The Office e Tends, eles aplicarão que aplicarão, cobrarão as taxas maiores e aumentarão a cabine. Então é assim que eles fazem. Com isso, descobriremos que os Rs estão prontos em VD e, com base nisso, entraremos no arroz. Então é assim que a Uber faz isso. Agora, faça as dicas de plotagem por r e mês e agregue nossos dados e realmente use a função agrupar por aqui, mês são os declarados para resumi-los. Então tente isso Então faremos o gráfico GG para traçá-lo. Então C e agora estamos obtendo a trama aqui, que está deprimida em n meses. Então veja aqui, essa cor, isso é real, isso é para mim. Este é o Módulo em julho, agosto e setembro. Mas todos os meses eles destruíram. Então, qual mês está tendo mais ou menos o pKa é semelhante em todos os meses. Mais ou menos, não exatamente, mas mais ou menos você pode analisar. Então, aparentemente, setembro também, um homem muçulmano aqui, água e sabão de Castela todos os meses. O copo é a síntese remanescente. É mais ou menos a mesma forma que está avançando todos os meses. Então, o que resumiu alguns caras como um grupo por mês e você pode anular essa falência. Agora, o que faremos na plotagem traçar dados por viagens durante todos os dias do mês. Portanto, para a dieta, usará os dados como valiosos e agrupados por dia. E usamos o Deepak para resumir startups. Execute este e depois aquele enredo fácil para traçar isso. Então, isso resultará em refrigerantes e batatas fritas da melhor maneira possível. Então, agora, quando você analisar isso, você terá um número suficiente de viagens por dia. Há muitos tipos de segundo dia como esse, então mortes por dia do mês. Nós podemos fazer assim. Em seguida, o que faremos é coletar dados por dia da semana e meses. Então, aqui vamos usar o grupo por dia da semana e mês. E, na verdade, a camada profunda para resumi-los, tópico sanguíneo. Então, muitas vezes, execute isso. E depois disso. A trama do DD se aprofundou muito por dia e mês. Então, quando fizermos isso, receberemos presentes por dia e mês. E ele tinha que ficar feliz com esquema de cores que temos nele e, a princípio, aqui, tudo bem. Agora, com isso, o que podemos conseguir, podemos conseguir isso para dias da semana como esse. Durante os dias da semana. Domingo, segunda-feira. Para cada mês. Quantas vidas existem no domingo? Quantos dias existem? Na segunda-feira? Quantos dias até o dia? Quantos dias? quarta, quinta e sexta a cada dia da semana, você receberá o número de direitos, mas todos os meses. Então, com isso, podemos analisá-lo rapidamente para domingo. Apple tem o menor número de lutas e este mês definiu para elas o que está tendo o maior número de corridas no domingo? Na terça-feira, setembro, se divertindo mais, mais verticais. Assim, podemos encontrar o dia mais popular do mês rapidamente. Agora faremos várias viagens feitas por mês, por mês, no ouvido interno. Então, para isso, usaremos grupo por mês. Não fizemos um mês por mês em um ano. Então, para isso, usaremos grupo por mês. E então vamos traçar usando o gráfico GG. Faça isso e veja se agora vamos fazer essas viagens em um mês. O mesmo aconteceu com muitas viagens, mas em maio, junho, julho e agosto. Então, é tão tubo ET. Ao observar o gráfico, você pode dizer que setembro está tendo mais viagens do que agosto e julho e maio e junho, sem quase ter tipos semelhantes. Mesmo que Joni seja um pouco melhor do que eu, e aparentemente se apresentando meses em um ano. Dessa forma. Agora, o que faremos criar um mapa de calor, DR e mês. Portanto, para o deck se agrupar por dia, há muitas viagens. Uma excelente como essa. Agora vamos traçar o mapa de calor por R&D, GG renovado, e traçá-lo. Vou usar essa bateria ainda dá para comer? No entanto, quando eles são preenchidos com o próton em um determinado dia, classe específica, quantos no total, cumulativos, permanecem brancos. Vamos fazer isso aqui. Agora, estamos recebendo este mapa térmico. Nosso mapa por dia e, portanto, nosso dia. E para essa arte no oitavo dia, isso em 11 vezes 11 hoje. E para isso, podemos analisar mais. Agora, quando o mapa de calor traça D e mês. E depois isso, e então nós vamos GG Plot registrar isso. Agora vamos meio que manter meu mês de diversão. E o próximo passo é traçar o mapa de calor T da semana e do mês. Isso, então esse é o mapa de calor para mês e dia e mês, mês. E terei acesso a um pouco de limão ainda hoje. Com isso, também podemos ter agora que criaremos a relação de mutilação de preços na Europa. Portanto, a probabilidade mínima, máxima, mínima e máxima chegará a Nova York. E aqui o que faremos, tentaremos traçar essas duas agendas. Gg, GG, trama. Então, aqui está o gráfico GG, nosso conhecimento sobre iluminação dramática, valor total dentro de uma cor e da pele, probabilidade mínima máxima e mínima máxima que estamos fornecendo. E então voltamos e estamos usando o gráfico GG para traçar esse mapa de autovalor e lisina com base nos domingos. Está demorando um pouco. Ainda está funcionando. Vamos esperar que ele saia aqui. Só está demorando muito. Então, deixe-me mostrar o mapa, aquele mapa do pai de Nova York para digitar, mas em um prático mês de setembro. Então, aqui está demorando algum tempo para os analisar todos os meus dados anteriores a setembro de 2014 e quais posteriormente a Uber usa com base na hora. Com base nisso, chegaremos a D qual mês é melhor. Então, todas essas visualizações podemos usar os dados. Então, espero que este projeto ajude você a entender a visualização e a análise de dados 82. Segmentação de clientes do projeto 3 usando R: Olá e bem vindo de volta. Nesta palestra, falaremos sobre outro projeto que é o projeto número três desta classe. E esse é o projeto de segmentação de clientes usando nossa programação. Então, neste projeto, aprenderemos como podemos fazer segmentações de clientes usando nossa programação feita em um conjunto de dados. Portanto, quaisquer que sejam os dados que temos, o conjunto de dados do cliente, isso é uma enorme segmentação de clientes de produtos. Então, vamos tentar encontrar o segmento de clientes que será útil por enquanto. As empresas que encontram seus melhores clientes e os nossos melhores clientes com melhor desempenho para seus negócios. Então, o que é segmentação de clientes? segmentação de clientes é uma das aplicações mais importantes do aprendizado não supervisionado. Então, como você sabe, existem dois, você sabe, existem dois tipos de aprendizado. Um é o aprendizado supervisionado e outro é o aprendizado não supervisionado. O aprendizado supervisionado é um tipo de aprendizado em que o livre arbítrio, suponho que seja uma criança e queremos que ele aprenda. Há duas maneiras de fornecer onde supervisionaremos seu aprendizado. Diga a ele o que fazer, como fazer e nos dará instruções de configuração para que ele aprenda. E há aprendizado não supervisionado em que não somos uma equipe de supervisão. Não será supervisionado e ele aprenderá por experiência própria. Portanto, existem dois tipos de supervisionado e não supervisionado. E a segmentação de clientes é uma espécie de aprendizado não supervisionado. Você não custou caro, agrupamento. Usando técnicas de agrupamento, as empresas podem identificar os vários segmentos de clientes ou reduzir a base de usuários em potencial nesse projeto de aprendizado de máquina. Neste projeto de segmentação de clientes, faremos uso do agrupamento k-means. Aprenderá o que é agrupamento k-mean. E usaremos essa tecnologia de agrupamento k-mean para este projeto, que é essencialmente um algoritmo para agrupar conjuntos de dados não rotulados. Então, aqui vamos usar o conjunto de dados sem rótulo sempre que você precisar encontrar seus melhores clientes , seja a metodologia ideal. Porque com isso, você encontrará facilmente esse segmento de clientes. E ao analisar o segmento de clientes, você pode encontrar sua melhor base de clientes. E você pode ter a escada Target, Who them para vender seus produtos ou serviços. Executaremos uma das aplicações mais essenciais aprendizado de máquina, a segmentação de clientes. Neste projeto, implementaremos a segmentação de clientes em nossa programação. Então, agora temos a tecnologia de reembolso, segmentação de clientes e clustering que vamos usar. Então, vamos entender em detalhes o que é segmentação de clientes de forma um pouco mais diferente, um pouco mais detalhada. Portanto, a segmentação de clientes é o processo ou a divisão da base de clientes em vários grupos de indivíduos em que existem semelhanças de maneiras diferentes que são relevantes para o marketing, como gênero, interesse e hábitos de consumo diversos. As empresas que implantam segmentações de clientes acreditam que cada cliente tem requisitos diferentes e exige um marketing específico e ao luxo de abordá-los de forma adequada. As empresas buscam obter uma abordagem mais profunda dos clientes que visam. Portanto, ser específico e deve ser adaptado para atender aos requisitos de cada indivíduo e cada indivíduo tem os requisitos de cada cliente individual para todos eles. Por meio dos dados coletados, as empresas podem obter uma compreensão mais profunda das preferências dos clientes, bem como da necessidade descobrir segmentos valiosos de valor, que seriam o lucro máximo. Dessa forma, eles podem criar estratégias para suas técnicas de marketing de forma mais eficaz e eficiente e minimizar a possibilidade de risco para seu investimento. A técnica de segmentação de clientes depende vários diferenciais importantes que dividem os clientes em grupos a serem segmentados. Dados relacionados à demografia, geografia, situação econômica e reabilitação, padrões reais, desempenham um papel crucial na determinação da direção da empresa para abordar os vários segmentos variáveis. Então, o que entendemos por segmentação de clientes é isso: UP BY adicionando a base de clientes em vários grupos de indivíduos com base na semelhança de maneiras diferentes que são relevantes para o marketing. exemplo, podemos dividir a base de clientes com base no gênero, como sexo, masculino, feminino, tipo de coisa com base nas faixas etárias, como adolescentes adultos e idosos tipos de grupos que podemos criar, feitos com base nesses parâmetros com base no interesse. Suponha que tenhamos o cliente, uma grande base de clientes onde podemos segmentar a base de clientes com base em seus interesses. Como se alguém estivesse interessado em música e dança, em artes e títulos em teatro. Assim, podemos segmentar os clientes e, com base em seus interesses, podemos recomendar produtos e serviços. Se alguém estiver interessado em. Suponha que, nos esportes, possamos mostrar a eles que os anúncios são vendidos , produtos ou serviços relacionados a esse esporte em particular. Portanto, essas são coisas muito importantes identificar os melhores clientes a serem atingidos. Com essa segmentação, as empresas obterão uma compreensão mais profunda de sua base de clientes. E com base no entendimento e na segmentação, eles podem atingir os clientes de uma forma mais específica. E isso aumentará sua lucratividade. Porque se você é apenas um remetente, enviar algum anúncio para o cliente e você está vendendo seus produtos e serviços é para o apoio de idosos e você está enviando seus e-mails para todos, então, para os adolescentes, isso não é relevante, certo? Que adulto? Pode ser relevante, de alguma forma que eles tenham os idosos em casa. Mas é mais parecido, mas é mais provável que seja relevante para pessoas com mais de 60 anos ou idosos. Portanto, é melhor segmentar apenas pessoas 60 anos e, assim, você terá o maior lucro. Então, isso é o que significa segmentação de clientes? Então, antes de prosseguirmos com nosso projeto, vamos entender o que é o algoritmo k-means. Ao usar o algoritmo de agrupamento K-means, a primeira etapa é indicar o número de clusters que desejamos produzir na saída final. Ok, então primeiro, precisamos decidir o número de clusters que queremos produzir na saída final. O algoritmo começa selecionando k objetos dos conjuntos de dados aleatoriamente. Portanto, ele primeiro selecionará o número k de objetos do aleatoriamente o número k de objetos do conjunto de dados que servirão como centros iniciais para nossos clusters. Os aglomerados de estrelas selecionados também significam vários centros. Então, esses são, como eu disse, existem k objetos que selecionamos. Portanto, esses objetos selecionados ou meios de agrupamento, também são conhecidos como centróides. Em seguida, os objetos restantes têm uma atribuição do centróide mais próximo. O centróide, o centróide é definido pela distância euclidiana. Cole a distância euclidiana presente entre o objeto e o aglomerado. Nós nos referimos a essa atribuição de cluster do Azure em fita. Quando a tarefa for concluir o algoritmo, prossiga com o cálculo novo valor médio de cada reagente de cluster nos dados após o recálculo do cluster, as observações ou verifique se eles estão um cluster diferente usando a atribuição de cluster atualizada. Isso acontece repetidamente por meio várias iterações até que as atribuições do cluster sejam interrompidas. Alterando. Os clusters presentes nas titulações atuais são os da hidratação anterior. Resumindo o agrupamento k-means. Então, isso é o que significa agrupamento k-means. Nós especificamos o número de clusters que precisamos criar. Em seguida, o algoritmo seleciona seus objetos aleatoriamente em nosso conjunto de dados. Esse objeto é um agrupamento inicial ou significa os riscos e experimente-o. Nosso principal objetivo ou alfinete é a atribuição de uma nova observação. Rebaseou essa tarefa na distância euclidiana entre o objeto e não lê os k clusters nos dados. Uma vez que nosso data center calcula os novos valores médios presentes em, presentes em todos os pontos de dados, presentes em todos os pontos de dados, esses pontos de dados, naquele ponto de dados dos clusters, o késimo centróide do cluster tem um comprimento de P que contém a média de todas as variáveis para observações no késimo cluster. Denotamos o número de variáveis se eu tentasse minimizar Jason até o total dentro da soma dos quadrados e , por meio do hidrato, minimização da soma total da atribuição quadrada parasse de oscilar. Quando e quando alcançou a máxima arbitragem. O valor padrão é dez que o software artístico usa para a operação máxima, ou seja, endereço máximo. Em vez disso, calculamos o algoritmo de agrupamento para vários valores de k. Isso pode ser feito criando variações dentro de k, de 1 a 10 clusters. Em seguida, podemos calcular a soma dos quadrados intracluster que é chamada de SS. Então esperamos por esse número, k clusters. Este gráfico denota. Então obteríamos os k clusters. E com base nisso, veremos, então essa é a parte teórica deste projeto. Neste projeto, na próxima aula, começaremos a fazer o projeto quando começarmos a discutir o código desse projeto e faremos o projeto real. Segmentação de clientes. Nos vemos na próxima palestra. 83. Segmentação de cliente do projeto 3 parte 2 usando R: Então, vamos começar com o projeto. Então, aqui, a primeira coisa é que precisamos de um arquivo de dados que contenha todas as informações do cliente. Então, aqui estamos usando modelo, modelo sublinhado. Os clientes começam a arquivar CSV e esse arquivo CSV está aqui. E se eu abrir aqui, você pode ver o número do cliente, sexo, idade e renda, pontuação de gastos. Todas essas informações foram fornecidas. Temos as cinco colunas numeradas pelo cliente e cada pontuação anual de gastos com renda Então, essa é a informação que tudo o que temos. E com base nisso, saberemos que a segmentação de clientes está usando Então, vamos começar. Então, primeiro de tudo, precisamos ler esse arquivo. Então, eu uso que os dados do aplicativo são valiosos ou os dados de sublinhado do cliente e vou usar a função, ler o ponto CSV e a parte Mazda, parte do arquivo CSV e ele lerá o agora a partir Assim, você pode ver o ID personalizado, sexo, idade, renda anual e gastos com este curso. Então, aqui você pode ver suas próprias colunas de tipo de dados, char, char Ok? A próxima coisa é o que fazemos. Nomeamos os dados do cliente e, na verdade , tentamos imprimir as primeiras cinco colunas. Esmague como favorito ou estude o ID do cliente, sexo, idade e coisas voluntárias da Commodus Ok, você pode ver que a próxima coisa é realmente resumir isso com o cliente, então vamos executar isso e ver No entanto, quando usamos o resumo Wong Sun Belt on the edge, ele nos dará a idade mínima. Eu do primeiro trimestre, primeiro quartil, mediana, média do terceiro quartil Então isso é para os dados de idade sobre isso e fiz alguma estatística, ok? Então, a idade do cliente, a renda anual e a pontuação de gastos todas essas coisas funcionarão da mesma forma. Então, obtemos essas informações, desvio padrão, estimativa, visualização de gênero Aqui, o que faremos é criar uma tabela de banco de dados de clientes na agenda. E então tentaremos traçar um gráfico de barras. E isso terá o eixo x, o gênero e eixo y como a capacidade de contagem e cores E vamos executar isso. E você verá um gráfico de bar, qual vimos os gêneros feminino e masculino aqui. Se fizermos mais. Então, usando o gráfico de barras para exibir a comparação de gênero. Ok? A próxima coisa é esta fórmula aqui dividida pela soma de a em 200 libras, masculino, feminino e masculino, feminino E isso dará a representação de que você tem masculino e feminino Então C e agora o propósito X por cento e masculino é 44%. Então, agora não queremos isso em nosso conjunto de dados. 56% do lado feminino, 44% do Agora, queremos fazer isso, tentaremos visualizar a distribuição etária Então, tente desenhar um histograma feito no vidro e na Então veja aqui, agora, esse histograma mostrará o contato de cada Então, aqui você pode ver a frequência de zero a 20 começando por 20 a 30. Todas essas coisas que você pode ver, este é o histograma Esta é a faixa etária de 2030, 30 a 40, 40 a 70. Todas essas coisas podemos visualizar e ver um gráfico de barras com a idade. E isso nos dará que a análise descritiva é um boxplot Então, aqui você pode ver que está principalmente entre a meta e, em seguida, uma renda C sub N1 Então, aqui para inscrever uma empresa, tente traçar um histograma ou a renda anual e a frequência que colocaremos no Então, veja a renda anual mais a frequência, você pode ver seu hóquei Em seguida, colocaremos o Lote de nossos clientes , outro lote aqui, gráfico de densidade para renda anual. Então, todas essas coisas que você pode analisar e, em seguida, desenharemos um gráfico de caixa para a pontuação de gastos Veja aqui, esse é o fim, esse é o gráfico da caixa para essa pontuação de gastos. Então, novamente, nosso histograma para a pontuação de gastos. E então iniciaremos nossa barra de biblioteca de algoritmos K-mean e definiremos como seed E então usaremos uma função para calcular a soma total intracluster do ISS quadrado e colocar de um a dez Ok? A próxima coisa é avaliar o valor, relatar, mapear o AV sublinhado E então traçaremos o número de agrupamentos no eixo x e no eixo y, soma total dos quadrados intracluster mais o número de quadrados Você verá de um a dez. E aqui você pode ver o eixo y total. Clusters, soma do conjunto total, soma dos quadrados, ok Número de clusters para esses, 4464814. Ok? Evidências, selecione minha terceira biblioteca. Você usará o cluster extra. Essas três bibliotecas que você usará. Então, se não estiver instalado, você pode acessar aqui as ferramentas, os pacotes instalados e fornecer o nome do pacote e não poderia estar. Vamos começar. Agora O que eu farei, nós faremos, criaremos os clusters k2 E o k2 usará os K-means Clusters. E então vamos dar que eu me vista e, no máximo, atriz e 100 e comece e comece com o algoritmo D, como. Em seguida, representaremos graficamente esse cluster e os valores dos dados do cliente. E o euclidiano quis dizer que, ok, assim, vamos colocar o Isso é mais do que isso, isso é para o A2. Agora vamos fazer o mesmo com k3, k4, k5 E nos vemos na trama do tricô. Agora vamos usar o cluster de inveja e nada mais. E vamos fazer celebridades e você verá isso de uma a cinco e dados de clientes você verá isso de uma a cinco e dados de clientes, k-means. E depois K6 Saiba que temos esse número ideal de clusters e o número de clusters O Cluster One já lutou com isso por 3,4, 647. E então temos o número ideal de clusters. Então, o que faremos, tentaremos visualizar os principais componentes principais O PCC usou a função PR para isso. E vamos executar isso. Aqui. Você pode ver a pontuação anual de gastos com renda. E então usamos o gráfico GG para traçar isso. Agora você pode ver a segmentação clientes do modelo usando dados de agrupamento k-mean, o cluster do Esse é um cluster, esse é outro cluster. Isso é uma vantagem, esse é um cluster. Portanto, o delicado agrupa o cliente com base em seu comportamento. Agora Agora tente colocar o cluster um, o cluster dois, o cluster três, o hidrogênio me deu. Então, agora você pode ver seis clusters. Cluster um, cluster dois, cluster três cluster para cluster cinco. Então, esses são os pontos, esses são os clusters Podemos ver os dados. Agora colocamos isso e tentaremos executá-lo novamente. E agora está bem claro. Agora temos o agrupamento k-means aqui. Então, aqui você pode ver que esse vermelho é o cluster um, amarelo, um, cluster dois, cluster três, o verde. Esse aglomerado, grupo cinco, é azul. E isso é cluster for. Agora, o que você pode ver é que esses são os outros clusters de clientes que criamos com base no agrupamento k-mean cluster quatro e o cluster um a cluster consistem nas pontuações dos principais clientes, de um e médio de PC. E o cluster seis. Discussão clássica Eu imprimo o cluster com PCA, alto PCO2 e baixo PC Um, cluster cinco, neste cluster há clientes com PCO2 médio e baixo Então, esses são os valores de PCA 1 e PC2 que temos Podemos aplicar essa glabela agrupamentos e comportamentos Podemos atingir os clientes com a ajuda do agrupamento. Podemos entender as variáveis de forma muito mais clara o que nos leva a tomar decisões cuidadosas Com a identificação de perguntas, as empresas podem lançar produtos e serviços direcionados aos clientes. Não dizemos isso, mas eu gostaria apenas de renda, idade, padrões de gastos, etc. Além disso, padrões mais complexos, como lançamentos de produtos, sejam considerados para uma melhor Então, essa é a explicação simples. Você pode entrar em detalhes e aprender sobre essas coisas. Além disso, espero que este projeto ajude você a entender como fazemos o agrupamento de jogos 84. Projeto 4 - Introdução - Recomendação de filmes: Olá e bem-vindo de volta. Então, neste caso, vamos fazer o projeto número quatro, recomendação de filmes, login do sistema e aprendizado de máquina. Então, agora temos o conhecimento básico de programação e fizemos alguns projetos também nesta aula. Portanto, este projeto lhe dará uma experiência muito ampla trabalhando com algoritmos de aprendizado de máquina Julgando nossa programação acontecendo, estaremos fazendo o popular sistema de recomendação de filmes Você não adicionou programação e algoritmo de aprendizado de máquina. Então, do que se trata esse projeto? Este projeto se concentrou no desenvolvimento de um recomendador de filmes Estou usando técnicas de R e aprendizado de máquina e técnicas de aprendizado de máquina. O objetivo deste projeto é o sistema de recomendação. Esse mecanismo de recomendação que sugere filmes aos usuários com base em suas preferências. Então, o que realmente está acontecendo em todas as plataformas OTP, como Netflix, hot star, T5 e Amazon Prime videos Sempre que você está assistindo filmes ou colocando o seu, você assistiu a um filme de comédia. Você tem Mazda foi um filme romântico de atos e filmes. Portanto, com base na sua preferência, que você assistiu no passado, todas as suas preferências serão armazenadas. E com base em seu comportamento anterior, como se estivesse assistindo a um filme de comédia, geralmente gênero ou atos e gênero. No próximo filme, seremos recomendados para você. Então, todos se flexionam e todos estão perdendo a mesma metalurgia. Para sugerir a você o próximo filme. Suporte. Você assistiu ao comitê e ao filme dos X-Men nas últimas semanas. Então, a seguir, o que eles fizerem, eles podem fazer. Eles podem sugerir um filme que tenha tanto comédia quanto excelente. Assim, eles podem sugerir um X e um filme com os elementos cômicos Se eles definitivamente sugerirão quadrinhos Duck e o filme junto com isso, eles podem sugerir a você os filmes que contêm comédia e éxon Então, todas essas coisas que fazemos usando os algoritmos de aprendizado de máquina Então, isso é muito popular nos dias de hoje. Portanto, ao implementar a colaboração baseada em itens para filtrar o que faremos novamente, ganharemos experiência prática na aplicação de nossa ciência de dados, aplicando nossas habilidades de ciência de dados e aprendizado de máquina a projetos da vida real, como o sistema para filtrar o que faremos novamente, ganharemos experiência prática na aplicação de nossa ciência de dados, aplicando nossas habilidades de ciência de dados e aprendizado de máquina a projetos da de recomendação de filmes O que estamos usando aqui é o conjunto de dados MovieLens, que consiste em um lakh, que consiste em um lakh, 5.039 avaliações no arquivo CSV de pontos de classificação E também contém 10.329 filmes no arquivo CSV de pontos de filmes Então, esses dois arquivos CSV, arquivos de dados que vamos usar, um conterá o filme em comissão, como mais de 10.000 filmes Além disso, acho que o CSP reservará o espaço para filmes específicos de vários críticos e auditorias Então, agora temos o entendimento básico, como o que vamos fazer. A próxima coisa é: o que são as bibliotecas? Quais são as bibliotecas de que precisaremos para isso? Portanto, precisaremos do gráfico GG para laborar data.table e receptor, as outras bibliotecas básicas de que precisamos para Então, GG os representa graficamente para a parte de digestão data.table. Qual mesa e as vistas laterais do comandante. Recomendo a lição. Então, quais são as etapas que vamos formar neste projeto? A primeira etapa será o pré-processamento dos dados. Em seguida, teremos a próxima etapa Elaborar a filtragem e explorar os dados semelhantes Em seguida, haverá um banco de dados. E depois iremos para a preparação dos dados. E a preparação de dados envolve algumas etapas e, finalmente, faremos o padrão uma por uma. Quais são as coisas que vamos fazer no pré-processamento de dados O pré-processamento de dados é o que suporta. Estamos obtendo dados brutos em um arquivo CSV de pontos de filme ou lendo medicamentos, sim Precisamos pré-processar esses dados. Então, uma vez que extraímos os dados do arquivo CSV de pontos do filme e das classificações ou conjuntos de dados CSV O que eu observo, o que observaremos nas colunas ID do usuário e ID do filme, números inteiros Então, essas são as coisas que também veremos quando examinarmos o código. Mas, por enquanto, vou te avisar. Neste arquivo, veremos quais são as coisas que podemos fazer. Vamos lavar. Então, vamos primeiro entender o que vamos perder. Então, o ID e o ID do usuário desse filme. Consistia em números inteiros. Além disso, precisamos transformar o gênero do filme em dados de sublinhado do filme, dataframe, em dataframe Filmes ou não, precisamos transformar em um formato mais fácil de usar do que você E para conseguir isso, o que eu fiz, criei uma métrica de codificação dinâmica que representa o gênero associado a cada campo Então, para obter esse quadro de dados fácil de usar, gênero de filme, o que eu fiz, criei uma matriz de codificação única que faz referência Posteriormente, cada filme foi gerado. Esses padrões foram gerados para facilitar cada pesquisa com base nos diários de John Como os filmes geralmente têm vários gêneros, todos sabemos que um filme pode ter, nós categorizamos em suporte a vários gêneros Um filme pode ter x e também pode ter drama. Então, também pode ter a comédia. Um filme também pode ter vários gêneros. Então, o que faremos, usaremos essa classe métrica. E para nossos dados, o que faremos é converter a matriz, a matriz de gênero nessa matriz esparsa para torná-la tão estável para o sistema de recomendação de filmes E para isso, sugeriremos a verdadeira classe de matriz de classificação louca na amarela Portanto, a próxima etapa será a filtragem colaborativa ou a exploração de dados semelhantes Portanto, a filtragem colaborativa envolvia recomendar filmes para você apenas com base nas preferências de Então, o que isso significa? filtragem colaborativa é, suponha que você esteja assistindo a um filme, que é um filme que é um E você não assistiu muitos filmes em uma plataforma de suporte. Você está assistindo Netflix e acabou de começar a usar seu pescoço. E você assistiu a apenas um filme, que é do gênero Comédia. Agora, como a Netflix recomendará filmes para você, porque a Netflix diz que não há dados, você aceita ter assistido a um filme de comédia. Então, ou ele pode continuar, recomendar novos, recomendar a avaliação de filmes de comédia E isso vai ser uma coisa muito estranha porque uma pessoa não vai depender Assistiremos a apenas um filme de gênero, acomodando apenas ele que possa estar interessado no x e também no drama. Então, suspense, suspense também, certo? Então, para isso, o que essa função dividida fará, eles usarão filtragem colaborativa, que é o que eles recomendam filmes aos usuários com base nas preferências de Portanto, há milhões de usuários usando a plataforma e eles também estão assistindo ao comitê x e também. Então, com base em nossos usuários que assistiram ao mesmo filme e no que assistiram a seguir. Com base em seus dados. A Netflix preverá que você também pode gostar de um filme específico, na ordem em que acabou de assistir. A Netflix pode recomendar o filme X porque você assistiu ao filme. Ok? Então, se você pular em X e o Usuário B também , os filmes serão assistidos por uma semana. E nós recomendamos uma grande variedade. A mesma coisa que expliquei a você e vice-versa. Portanto, a recomendação, recomendação de filmes depende do estabelecimento de nossa relação de semelhança entre Você verá o que realmente estamos fazendo aqui, estamos estabelecendo, estamos estabelecendo uma relação entre a similaridade de rendimento com base na semelhança de seu sotaque ou interesse Usando a biblioteca de laboratório recomendada. O que eu fiz foi computar a semelhança usando vários operadores, como cosseno, Pearson E então construa uma aula de visualização de dados. Também veremos a semelhança nos dados. Então, aqui está o que eu fiz, visualizei a semelhança entre os usuários e também explorei as semelhanças entre os filmes anteriores Para obter. Os bancos de dados são mais visualizações que os filmes verão do que eu fiz. Eu investiguei mais no conjunto de dados. Antes dessa análise, calculei o número de enormes, enormes para cada campo e os organizei que pudemos derrubar em ordem decrescente O número total de visualizações dos filmes do Golfo será visualizado usando o gráfico de barras e dos vigilantes E foi escrito que fixin foi o filme mais assistido Então, esses são os dados visualizados e as coisas que servirão. E depois disso. Depois disso, seguido por uma busca para entrar em cada aula, um mapa térmico da datação de filmes para obter uma visão das classificações dos filmes, criei um mapa de calor que exibe as classificações das 25 principais linhas e cinco colunas do conjunto de dados Em seguida, selecione a seleção. Então, o que eu fiz, eu fiz, eu realmente gosto do golfe. Basta enviar filmes por meio de um mapa térmico e também examinar a distribuição das classificações médias para o futuro. O próximo passo é a normalização de dados. Estamos analisando possíveis preconceitos causados por usuários que fornecem consistentemente avaliações altas ou baixas para todos os filmes que assistem. Eu normalizo os dados. Normalmente, repentinamente, o procedimento para padronizar valores numéricos em uma coluna para uma escala comum, garantindo que não haja distorção Então, neste caso, normalização transforma a classificação média, onde eu toco minha voz e a plico Veremos que, quando fizermos o binário prático na etapa final, os dados foram banidos, certo Atribuição de valores discretos 1.0. Essa etapa melhora a eficiência das recomendações. O que eu fiz, eu defino a matriz com uma classificação de três correspondendo a um Caso contrário, está apenas dizendo que se a classificação do filme for cerca de três, ela corresponderá a uma Caso contrário, se for menor que três, será atribuído um valor zero. Sistema de filtragem colaborativa. Nisso, desenvolvi um sistema de filtragem colaborativa baseado em itens que determina a semelhança de itens com base nas grandes classificações com base nas O algoritmo fará com que nossa tabela de itens similares comprados pelos clientes e, por meio de uma recomendação, faça parte dela . As etapas envolvidas na determinação da semelhança entre os itens são as seguintes Para cada item da agenda, o item ID1 presente no catálogo de produtos adquiridos pelos clientes, veja os itens I a j pelos clientes, considerado culpado pelo que eu fiz Eu crio o Jade por cliente , considerado culpado pelo que fiz. Eu criei um registro indicando que os clientes vêem I, i1 e i2 comprados , calcule a semelhança entre os itens I1 e I2 Ok? Como o cliente comprou I1 e I2, pode chegar à resposta de que os itens i1 e i2 são semelhantes Então, essa semelhança vamos calcular. Em seguida, dividiremos o conjunto de dados em 80% para o conjunto de dados de treinamento e 20% para testes adicionais para um sistema de recomendação A regra 80, 20 é sempre aplicável em algoritmos de aprendizado de máquina A próxima e última etapa direcionará o sistema do modelo. Para isso, exporte os vários parâmetros do filtro colaborativo baseado em itens O valor padrão do parâmetro k, que indica o número de itens, é usado para calcular 30. algoritmo identifica os k itens mais semelhantes e armazena seus números correspondentes modelo de recomendação do recomendador foi recuperado usando a função get model e a matriz de senso de similaridade de vidro ou diamante que analisamos ou mapeamos de calor ou geramos para visualizar os principais itens crocantes O modelo de recomendação do recomendador foi recuperado usando a função get model e a matriz de senso de similaridade de vidro ou diamante que analisamos ou mapeamos de calor ou geramos para visualizar os principais itens crocantes da mesma iluminação. próximo passo é explorar esse modelo de sistema de distância entre homens Ao somar as linhas e colunas de similaridade acima de zero, obtenho a distribuição de algumas Essa distribuição foi visualizada para obter mais informações. Para criar o sistema de recomendação. Neste slide, a parte superior recomendada pela dezena vertical é especificar o número de filmes recomendados por cada usuário E a função de previsão foi então usada para identificar itens semelhantes de acordo. Cada avaliação foi tratada como um peso, que foi multiplicado pelos gostos de similaridade relacionados Finalmente, todos os pesos foram adicionados para gerar as recomendações Então, essas são as coisas que vamos fazer para o sistema de recomendação de filmes usando R e aprendizado de máquina. Nosso objetivo é recomendar filmes para os usuários com base em seus gostos e desgostos e no que os usuários estão assistindo Baile de formatura subestimado com base na semelhança. Ok? E para a biblioteca GG plot TO data.table recebida por meio Estamos realizando etapas que realmente buscam o pré-processamento de dados e o processamento de dados funcionará Em seguida, faremos a filtragem colaborativa, explorando os dados semelhantes que já discutimos A aula da AWT. A seguir, veremos como podemos revisar os dados. Para preparação de dados, há três etapas para selecionar alguns dados de normalização e binarização de dados que veremos E o sistema de filtragem colaborativa que já entendemos este exemplo e o que eu já discuti Então, espero que o projeto eu expliquei. Bem, na próxima palestra, faremos o projeto escrevendo o roteiro Então nos vemos dentro do projeto 85. Projeto 4 -Parte 1- Sistema de recomendação de filmes usando R: Olá e bem-vindo de volta. Nesta palestra, faremos o projeto de ler um mecanismo de recomendação de que filmes de tecnologia para você acabaram de fazer sua preferência Eles assistiram mais cedo. E também pesa sobre os outros usuários na plataforma ou assistindo filmes. Ou eles têm tipos semelhantes de filmes que você julga. Essa dívida enorme está vigiando nossa vitrine. Se você estiver usando as plataformas de streaming ou a TPU no outono pela primeira vez, eles ainda poderão recomendar mais riscos para você Porque eles têm o banco de dados usual, que consiste em milhões de pessoas que estão assistindo o mesmo tipo de obediência que você, com base nos interesses delas e no seu interesse de assistir a um filme Essa é a semelhança entre você e outras pessoas, como pensar na plataforma para que suas preferências sejam o que elas trabalharam lá O mais pesado. Isso é. Eu recomendo para você, os filmes. Então, aqui está o que vamos fazer estaremos onde está o sistema de recomendação de filtragem colaborativa baseado em itens filtragem colaborativa Ok? Então, qual é o item, basicamente, posso me contatar com base em itens específicos. Consideraremos o dark collaborate para imprimir nossa semelhança Até agora, nesta região da realidade, vamos usar a biblioteca de laboratório recomendada, GG plot for visualization data.table, quais Então, essas quatro bibliotecas. Ok, a próxima coisa é que vamos recuperar e exibir os dados Filmes e dados dos filmes. Leia mais sobre dot csv. Sexta-feira, veremos o CSV da fonte de andrógeno. Então, deixe-me mostrar o preço das ações. Então, isso é mais Vidar CSV, que contém o ID do filme, que é de um a 10.000 Portanto, mais de 10.000 e mais riscos foram adicionados aqui neste conjunto de dados. E então vá adorar o filme, título de identificação do filme do gênero cinematográfico, cujos diários você lavou para mim Portanto, há mais de 10.000 filmes neste conjunto de dados, seu título e gênero Então, aqui você pode ver um gênero de filme, o gênero aventura. Antes desse gênero de animação de Edward Jeff, as crianças já estavam entre parênteses Terminamos essas três noites com comédia e drama. Ou seja, eu realmente amo crianças e teatro de vez em quando. Drama, fantasia, mistério, maneira segura. Portanto, um filme pode pertencer a vários gêneros de filmes E então temos a estrutura Sim, CSP, que terá o ID do usuário, o ID do filme, para qual filme, ao qual é dada essa classificação Então, qual classificação? Gente, até o filme em que é um ou um a cinco. E entre a alta rejeição retratou o filme. E então temos os diversos tipos. Então, vamos ao cerne. Então ele identificou que irá para o caminho do arquivo. Em seguida, criaremos uma variável de dados de sublinhado de filmes e, em seguida, restauraremos os dados Portanto, a função de leitura do arquivo CSV usará um ponto de filme idiota CSV que está sendo armazenado nesta tiamina, seja rígido para nós e cortado como e cortado E dados de sublinhado dendrítico, CSV de pontos e tudo começa E então veremos que os dados são obscuros, CSP menor do que isso. Veja aqui. Agora temos a identificação do filme em que o professor pode pular, certo? Scott atua no trabalho e na redação. Eles sempre. Veja naturalmente o resumo dos dados usando a função de resumo. O resumo dos dados você pode ver, sim, filme, primeiro trimestre, segundo trimestre, terceiro trimestre, quero dizer gênero. Então, aqui eles podem ver as que eu fiz no filme, com a cabeça erguida, abrindo as entidades de dados de pontuação chegando 123456. Ok. Agora podemos ver o resumo dos dados e, em seguida, realmente ver o rim saindo de um coração. E programando para criar a matriz que inclui os custos da nova Kendra Roth, cada uma por cada uma Então, isso atenderá à questão do processamento de dados. Nós criamos. O filme de codificação único destaca gin Chandra e dados como filme.data.frame sublinham os dados e a rivalidade com a Jordânia. String como estruturas, strings como fatores é igual a false Em seguida, revise a biblioteca data.table e, sim, criação de filmes sublinha E aqui adicionaremos dark data.frame. E ele tinha DST, STR, gênero de filme dividido e sequências verdadeiras de papelão digitado como arquivos de fatores E então chamaremos seu nome de gênero de filmes. E usaremos C, um para contar. E eles interrompem o gênero em algumas dessas coisas que se reportam ao joelho esquerdo. Olá, eu sou daqui até aqui. Sem nome de coluna e material de coleira. John, John Drop e lutou contra a ferramenta Index One. E eu caminhei, escrito à mão. Eu não executo esse código. E por ligar. E você, John, meus dois mais novos, eu gosto de chamá-los e adicionar Argentina. Chandra, quebrada. Quero que Dakota faça com uma corda. Em seguida, clique com o botão direito do mouse sobre isso. E então você pode ouvir como começar meus truques para essa base infantil, além plano Chandra e esses cinco truques Neste trimestre, estamos usando meus truques de edição e minha opinião sobre essas visões. Algum parâmetro importante para que dentro desse sistema por mol seja mais fácil quando você faz isso Embora seja como um registro de modelo de estação e obtenha tipo de dados de entrada para a matriz L, uma matriz. E ele inscreveu você em Eu recebi meus tiques e recomendações Mark Moore, eu sublinhei a matriz de classificação e nossa confiança Cnidária. Você só pode ver a semelhança usando este meu gráfico e nos retratou levemente que está entre os campos Ok, é isso para esta palestra, continuaremos na próxima palestra 86. Projeto 4- Parte 2- Sistema de recomendação de filmes: Na palestra anterior, começamos com o sistema de recomendação de filmes usado neste projeto Então, deixe-me fazer uma rápida recapitulação do que fizemos na palestra anterior, parte um deste projeto Então, precisamos deles para bibliotecas, laboratórios de recomendação. Você traça dois data.table. Então, nós apenas mantemos essas bibliotecas e, em seguida, precisamos obter os dados do local onde você os guardou. Em seguida, armazenaremos o arquivo CSV usando a função read.csv e restauraremos os função read.csv e restauraremos sublinhados nos filmes Da mesma forma, armazenaremos os dados de classificação no sublinhado de classificação eta pelo similar entre o CSV escuro E passaremos que a numeração final começa com CSV, depois com STR, E vamos aprovar esse movimento, sublinhando os dados. E então veremos o resumo dos dados de sublinhados do filme E isso lhe dará o título do ID do filme, o gênero. E aqui você vê os detalhes estatísticos aqui. mínimo, primeiro quartil, mediana, Valores mínimo, primeiro quartil, mediana, média, terceiro quartil e máximo para Em seguida, veremos o chefe do filme sublinhar os dados. Ele fornecerá as primeiras cinco linhas dos dados. Então veja aqui o ID e o título do filme Flush e, em seguida, o gênero do filme E então veremos o chefe da audiência. No entanto, você também pode ver o primeiro quartil mínimo, mediana ou todas as colunas, ok Em seguida, veremos o cabeçalho dos dados de classificação. No entanto, o ID do usuário, o ID do filme e uma classificação e marcação de horários são fornecidos Agora temos a ideia do que existe na ideia do que está no arquivo CSV ou no arquivo de dados que temos e que estão nesses dados que vamos seguir Então, a próxima coisa é o que faremos. Criaremos uma codificação única, criando uma matriz que compreende o geral correspondente para cada prova Portanto, para a codificação da nossa dieta, precisamos criar uma matriz Então, criaremos uma variável aqui mais do que o gênero sublinhado e, aqui como.data.frame, reutilizaremos E então usaremos essa coluna de gênero. Então, se você olhar aqui, essa é coluna de gênero nos dados de filmes, filmes do arquivo de dados. Então, usaremos isso e depois strings como fatores falsos e, em seguida, a biblioteca que eles usarão posteriormente Então, aqui criamos uma matriz, matriz de gênero de filme e, em seguida, usamos o data.frame e o gênero de filme E então concluiremos a matriz aqui, depois essa e depois o nome da coluna. E então eles param com o gênero. Gênero. Qual é a lista de gêneros, seu x e sua aventura. Todas essas coisas farão uma lista aqui. E então vemos o gênero, Mach one e os nomes das colunas E para indexar em um. E o gênero de filme rho para quatro lerá a coluna e, para cada gênero, receberá o nome do filme E tudo. Então, vamos transformar isso em dois gêneros. E então o mesmo aqui. Em seguida, passamos para o STR aqui. Em seguida, passamos para o STR. E agora, o que faremos, criaremos uma pesquisa de Patrick. Então, acho que especificando o gênero. Então John, certo? Então, vamos executar isso usando yes, C bind. Ok? E então vamos em frente e vemos aqui que estamos fazendo isso de novo. Então, título de identificação de filme da CN , excelente animação de aventura, crianças, todos os gêneros Como uma coluna nesta matriz, ok? Em seguida, isso é uma matriz. A próxima é a matriz de classificação. E agora, o que faremos é converter essa matriz de classificação e recomendar a matriz esparsa de laboratório, essa matriz e a matriz de classificação amarela, ok? E então a matriz de classificação C é 668 em dez vezes a quantidade cinco ou n colunas. A matriz de classificação de mais um está atrasada em 5.003, 13 e classificações. Ok? Em seguida, usaremos nomes acima, recomendador e modelo de recomendação E então usaremos o modo de recomendação de jogo. E aqui usaremos a descrição. Implementando um único modelo em nossa filtragem colaborativa baseada em itens, E aqui estamos usando AI VCF, ok? Agora, a filtragem colaborativa envolvia sugerir filmes ao atacante com base nas preferências coletivas de muitos outros Você é apenas, com a ajuda do laboratório de recomendações. Podemos calcular a semelhança entre a Eucaristia. Então, agora vamos criar uma métrica de similaridade e um método que estamos usando o brilho ARCore E mais longe, você está bem. Agora vamos ver que sua semelhança vai confundir isso. Novamente. Não havia espaço suficiente C. Agora você só tem semelhanças, você pode ver que você é apenas uma matriz de similaridade Da mesma forma, faremos com que pareça pelo menos vários entre os filmes que usamos. E vamos executar isso e depois imprimir essa imagem. Agora, você pode ver que essa é a semelhança do filme. Agora, classifique os valores como dados da matriz de classificação do diretor, veremos. Em seguida, classificações exclusivas extraindo as classificações exclusivas. Você usa um exclusivo e, em seguida, exige os valores de classificação. Tabela de classificações. Criação de uma classificação de filme. E então veremos os valores de classificação e avaliação da tabela Agora, o que faremos. Faremos a visualização mais vista. E para isso, vamos traçar dois filmes que sublinham as visualizações e matriz de classificação da Qualcomm chamada count usará e, em seguida, TableViews, um filme data.frame Vamos pegar os nomes dos telespectadores pegar os nomes da exibição de filmes e ir para os telespectadores. Aqui, os quadros de dados do futuro por meio desta tabela são exibidos. Da mesma forma, o índice TableViews repetirá em todos os 325 filmes inteiros E nós vamos. E então veremos as tabela visualizações em execução. Aguarde até que seja concluído. Então veja aqui agora, complete fc aqui, você pode ver as resenhas e o título do filme. Em seguida, o que faremos é perceber que você está usando o gráfico de barras ou o número total de visualizações da página superior. Até agora, usaremos o gráfico GG, TableViews Usaremos título e visualizações, barra geográfica, textos geomáticos e equipe e excluiremos Eu vou te dar o título aqui. Então, espero que você saiba todas essas coisas. Eu não vou entrar em detalhes. Então agora você pode ver que a floresta vem como 331. Seu clássico de volta a 94, visualizações e volume. Ok. Dessa forma, podemos obter espectadores atentos dos campos de relva. A Total impulsiona as principais empresas. Agora Firmas. Ok, agora vamos criar um mapa de calor para os filmes. Então veja aqui o mapa de calor das primeiras colunas de $25,25. Ok, o próximo é o que faremos. Vamos entrar na preparação dos dados. Portanto, as classificações de filmes, as classificações são superiores 50 e o contrato atual foi aprimorado. Então. Veja a classificação do filme de 22, para 1.400 em sala de aula Ok? Então, esses muitos existem por mais de três, ok? Agora, direcionando métricas relevantes, você acabou de classificar 0,9. Portanto, o mínimo de filmes e o mínimo que você verá, usaremos o conteúdo para isso. E então criaremos um EMS, veremos um mapa de calor na parte superior, basta adicionar os filmes. próximo passo é visualizar que a distribuição das avaliações médias é enorme Então, para isso, usaremos a classificação média de sublinhado. E a forma significa que não tínhamos a classificação do filme e o plano será planejado Agora você traça C e agora estamos obtendo a distribuição da classificação média, mas você está bem, então esta é a distribuição da classificação média, mas você só usá-la para a normalização de dados Para isso, usaremos classificações não normalizadas, análises de funções normalizadas e outras classificações análises de funções normalizadas e Então, parte da linha significa classificações normalizadas maiores que 0,001 E então veja essa classificação normalizada, os principais usuários. Então, aqui você pode ver que obterá colunas de um item. Ok, a seguir, a binarização de dados que já discutimos na enterotoxina Então, aqui estamos usando quantis e contagens de linhas, classificação de filmes e, em seguida, mais lavagem de base E então classificou filmes, filmes binários, mais, classificação mínima de três. Portanto, classificação mínima a3. Todos esses filmes ganharão. Então, vamos executar isso. Veja, esses são os filmes que têm uma classificação mínima de três. Agora vamos entrar na filtragem colaborativa e ela dividirá o conjunto de dados em um conjunto de treinamento e 20% do conjunto Então, dados de amostra, temos seu método de amostra aqui. E aqui o que fizemos, temos até 80% para o treinamento e o teste. Divida os dados. Agora veremos esses dados de treinamento e dados de teste. Em seguida, criaremos uma recomendação usando um registro registrado de recomendadores E aqui, o que faremos, obteremos as entradas, o tipo de dados matriz de classificação real que criamos E então usaremos o eye vcf, sublinharemos a matriz e os parâmetros reais e, em seguida, o recomendador usará os E aqui vamos passar o método de dados de treinamento. Usaremos o IV CF e começaremos. Ok, então vamos executar todas essas coisas. Agora temos o modelo de recomendação do recomendador. Já. Execute essa classe de modelo de recomendação. Você pode ver o laboratório de recomendações e agora explorar a ciência de dados, os modelos de coordenação Então, vamos transformar esse modelo de classe, esquecer modelo e modelo. E para C, D, D, C se encontraram depois, depois os colchetes e o próximo de Patrick sumiu Estes são os principais itens. Esses são os principais itens. E então veremos mapa de calor na primeira linha e colunas do. Então, quando você executa essa soma de sorteios e apresenta alguns desses 30,47, depois o gráfico GG, veremos que este é o qplot e o Você pode ver a distribuição do número da coluna de itens a serem recomendados. Você acabou de colocar menos de dez e previu um dia recomendado um dia Algumas recomendações para o primeiro filme urogenital de 1 bar, um em cada dez filmes E então matriz de recomendação, matriz com a recomendação para o voo da easyJet, E estamos avaliando os nomes das colunas da leitura dos filmes Vou comprar itens e depois título escuro, distribuição do número de IVC up e qplot do número de itens desde t, distribuição dos números do item, número de itens acima de BCF e da Vinci, os distribuição do número de IVC up e qplot do número de itens desde t, distribuição dos números do item, número de itens acima de BCF e da Vinci, os filmes mais recomendados. distribuição do número de IVC up e qplot do número de itens desde t, distribuição dos números do item, número de itens acima de BCF e da Vinci, os filmes mais recomendados. Wallace e Gromit, Deus Pai, filho morreram, assim como o YuJa Dessa forma, podemos obter o filme recomendado para o YuJa Então, espero que você tenha entendido esse projeto. Se você tiver alguma dúvida, pode comentar, fazer a pergunta em sala de aula Obrigada 87. Introdução ao Projeto 5 Detecção de fraude de cartão de crédito: Olá e bem-vindo de volta. Então, eu lhe dou as boas-vindas a outro projeto que é o projeto número cinco desta turma. E isso é detecção de fraudes de cartão de crédito, julgando nossa programação E aqui também vamos usar alguns algoritmos de aprendizado de máquina. Então, qual é o objetivo desse projeto? Você pode estar ciente de fraudes e dados on-line que ocorrem atualmente, como se o cartão de notas de alguém estivesse sendo usado. Sem o conhecimento deles, mídia social de alguém foi invadida Então, esse tipo de fraude está sendo feito online. A formação bancária de alguém está sendo roubada. conta bancária de alguém foi roubada e eles retiraram o dinheiro da conta. Na Índia, há poucos incidentes em que pessoas, sem saberem que compartilharam permissão de seu tutor ou seu OTP está em uma ligação telefônica Ah, o impostor está dizendo que eles estão ligando do banco e pedindo o número do cartão de débito E então eles estão pedindo o número do CBP. E as pessoas, sem saber, dizem, enviando todos os detalhes, pensando que a pessoa que está ligando é do banco da empresa E eles estão apenas definindo nossos detalhes. E uma vez essa OTP, todo o dinheiro de sua conta bancária foi retirado. Então, esse tipo de fraude está acontecendo e temos que ser muito, muito cuidadosos Uma dessas fraudes on-line é a fraude de cartão de crédito. Bem, as pessoas usam a liberdade condicional de seus filhos em desenhos animados ou para comprar algo, ou armazenam as informações do cartão de crédito, ou dizem: existem números de cartão Kate e alguns números pares, existem números de cartão Kate e alguns números pares sem saber, para as pessoas e as pessoas os usam sem o conhecimento delas. E há vários incidentes que o cartão Kate está sendo usado sem que o cartão Kate esteja fisicamente presente junto com o impasto Isso para detecção de fraudes com cartão de crédito. Então, precisamos fazer uma classificação frontal. Sempre que um cartão de notas for usado por alguém, a empresa saberá que essa transação pode ser uma transação fraudulenta e poderá informar imediatamente ao cliente o titular do cartão de notas que você está realizando esse tipo de E agora, o cliente ou o titular do cartão de notas diz: Não, não, não sou eu. Outra pessoa está fazendo essa transação e, imediatamente, recusará essa transação. E dessa forma, cartão de notas que deixaremos de usar e não economizaremos muito dinheiro. Portanto, o objetivo deste projeto é desenvolver nosso classificador capaz de identificar fraudulentas com cartão de crédito . Para isso, o que eu fiz, eu tenho você, usarei vários algoritmos de aprendizado de máquina, como uma árvore de decisão, regressão logística, redes neurais artificiais e, finalmente, classificador de aumento de gradiente Então, veremos quais são os algoritmos que podemos usar. E com isso, podemos classificar quais são os fraudulentos e não produtos Para isso, usaremos um conjunto de dados que terá as informações sobre o cartão de bolo e o tipo de transação com cartão de crédito em sua maioria ou sem problemas para treinar homens de nível moderado Em seguida, veremos exploração de dados, manipulação, modelagem de dados, ajuste do modelo de regressão logística, árvore de decisão, redes neurais artificiais, todas essas Mas antes disso, precisamos entender detalhadamente a fraude e seu tipo. Portanto, se você não estiver ciente do DOM ou do problema em suas mãos, não poderá fornecer a solução adequada. Portanto, antes de entrar no projeto, devemos saber qual é o problema que vamos mostrar Então, para isso, precisamos ter uma compreensão muito clara do que cada fraude e que tipo de fraude está sendo feita hoje em dia na era digital. Ok, então, em primeiro lugar, quando a Internet não existia, muitas de nossas transações digitais não existiam. Então, as pessoas costumavam ir ao banco e pegavam o dinheiro preenchendo um formulário e depois o esquema do cartão de caixa eletrônico Então, as pessoas começaram a usar os caixas eletrônicos para sacar o dinheiro. E então as pessoas começaram a cometer fraudes no caixa eletrônico simplesmente manipulando o titular do cartão de caixa eletrônico com cicatrizes e vendo a senha de alguém, roubando o cartão e usando o cartão no IPM com essa senha de caractere usando o cartão no simplesmente manipulando o titular do cartão de caixa eletrônico com cicatrizes e vendo a senha de alguém, roubando o cartão e usando o cartão no IPM com essa senha de caractere específica. Então, esse tipo de suéter fraudulento aconteceu mais cedo. E com o aumento do Davison e do banco digital hoje em dia, as fraudes on-line Muito raramente em lote. Então, o que é fraude? Fraude é definida como qualquer ato intencional de engano para ganho pessoal e financeiro Fraudar é definido como o ato intencional de preceitos e para obter ganhos pessoais e financeiros Então, se você estiver fazendo algo, se estiver fazendo esse épsilon com alguém para seu ganho pessoal ou financeiro, isso será classificado como fraude Envolve perder a apresentação, ocultação ou manipulação da gordura para E quais tipos de fraudadores de cartões de upgrade acontecem atualmente. Portanto, tipos de fraude de cartão de crédito, identidade, conta, cartão de aquisição, cartão não presente, fraude e cartões falsificados E depois vem a desnatação. Então, entenderemos um por um. Quais são esses tipos de fraude de cartão? Então, a primeira coisa é o roubo de identidade. Então, o que é roubo de identidade? Fraudamos: basta roubar para fraudadores, roubar informações pessoais, como números de previdência social ou credenciais de login Então, nessa situação, esse til, além de informações como fonte, alguns números de segurança ou outros, o nosso cartão ou número do cartão banido ou as credenciais de login do E os Kcat Dunbar, em alguns casos, fingem ser o verdadeiro cliente Em seguida, eles farão o login com os detalhes e usarão suas informações bancárias para fazer as transações. Eles usam as informações roubadas para abrir uma conta fraudulenta e fazer uma trajetória não Com aqueles como seu outro cartão cardiovascular ou PAN, eles podem abrir uma conta bancária em seu nome e, em seguida, começarem a se passar por si mesmos e farão as transações, que estarão em seu nome, mas você não estará Então isso é chamado de roubo de identidade. Em seguida, vem a aquisição da conta. A aquisição da conta é outro tipo de fraude em que criminosos obtêm acesso não autorizado a uma conta legítima do Meet roubando detalhes da conta, como senhas Então, nesse caso, eles simplesmente invadirão sua conta, roubarão sua senha, nome de usuário, senha e terão sua conta invadida E então eles farão o que quiserem com sua conta. Eles assumem o controle de sua conta e a usam para atividades fraudulentas, como fazer compras, arte e transferir fontes Então, uma vez que eles tenham o controle sobre sua conta, eles podem fazer qualquer coisa. Eles podem transferir o dinheiro da sua conta para qualquer outra conta ou podem comprar coisas online e offline. E você não terá acesso à sua conta porque sua conta foi invadida Eles também podem alterar sua senha para que você, você mesmo, não consiga acessar sua conta. O terceiro tipo de fraude é fraude com cartão não presente, que ocorre quando transações fraudulentas são feitas sem a presença física do cartão de notas E o mais comum é a transação on-line ou por telefone, em que os detalhes do cartão ou fraudadores inseridos manualmente, grandes informações roubadas do cartão de crédito para fazer compras não autorizadas Então, neste caso, o cartão de notas não estará fisicamente presente, mas o que eles farão, ligarão para você e pedirão que você faça um determinado Jackson e solicitarão as informações do cartão infantil durante a ligação e, em seguida, solicitarão o OTP E assim que você fornecer a OTP ou as tangentes e ela estiver concluída e seu dinheiro acabar, ou eles comprarão algo em seu nome e seu cartão de crédito será cobrado A próxima etapa, cartões falsificados, fraude, basta criar cartões fraude, basta criar notas falsificados que se reúnem Então, nesse tipo de fraude, o que o fraudador fará, eles criarão um rápido, eles obterão algumas informações sobre os números do seu cartão de gaiola Todas essas coisas serão numeradas. E eles criarão um cartão de aparência semelhante com um número de cartão de gaiola e o número CBP semelhantes, que pareceremos muito legítimos ao original E então eles podem codificar as informações do cartão de crédito roubado no cartão falsificado E então cartões falsificados são usados para fazer compras Muitas vezes, sem o conhecimento do titular do cartão Carter, você pode não saber que seu cartão de notas foi falsificado e que outra pessoa tem um cartão de crédito duplicado com o mesmo número atribuído a você e o usará usará Então, esse é outro tipo de fraude de cartão de crédito que está acontecendo hoje em dia. A próxima é um esquema, é que a digitalização envolve, legalmente, desculpe, a digitalização envolve captura ilegal de informações de cartão de crédito sem o conhecimento do titular do cartão, suponha que você esteja cobrando informações de cartão de crédito sem o conhecimento do titular do cartão sua loja de carrinhos e, sem que você saiba o que estão fazendo, eles estão apenas anotando os números do seu cartão sua loja de carrinhos e, sem que você saiba o que estão fazendo sua loja de carrinhos , eles estão apenas anotando os números do seu eles Se numerarmos todas as informações boas, data de validade e todo esse tipo de informação na loja, eles podem fazer de transações fraudulentas Então, sempre que você coloca seu carro no balcão para dy dx e se certifica de que ninguém está obtendo nenhuma informação do seu cartão KD sem o seu conhecimento E então os manifestantes, o que faremos, esse bloco instalou os dispositivos de esquema, terminais de pagamento ou caixas eletrônicos para capturar os dados do Recentemente, na Índia, um tipo de fraude percebeu no mês passado que eles estavam usando o carvão favorito nos caixas eletrônicos E com isso, eles estavam usando algumas técnicas em que, ao inserir o cartão da gaiola ou o cartão crédito, as informações serão capturadas de alguma forma E mais tarde, quando você sair dos caixas eletrônicos, eles ocuparão as células trágicas do seu E você pode não saber que isso estava planejando o serviço que está acontecendo hoje em dia Em seguida, eles usam as informações capturadas para criar cartões falsificados e realizam a probabilidade de turno Portanto, esse é o tipo de cartão de aquisição de conta de roubo de identidade que não está presente, cartões falsificados e atividades fraudulentas ou de escaneamento atividades fraudulentas existem mais tipos de Também existem mais tipos de fraudes, como por telefone, eles fingem ser funcionários do banco e solicitam a quantia. Felizmente, as informações do seu cartão de crédito, números de previdência social e números de cartão bancário são mais escuros E então eles fingirão que estão te dando algum prêmio ou algo assim Eles estão transferindo algum dinheiro para fazer sua conta, mas na verdade eles exigirão o dinheiro de você e enviarão um link para você E eles foram convidados a clicar no link. Ao clicar no link, com mais força, você não perceberá que se levantou para transferir o dinheiro Eles estão deduzindo o dinheiro da sua conta e você simplesmente inserirá o OTP e o dinheiro da sua conta irá para a Então, esse tipo de fraude está acontecendo e precisamos saber como detê-la. E é isso que vamos fazer neste projeto examinando o guarda de Jackson E com isso, desenvolveremos um modelo que detectará o tipo de transação e interromperá as atividades fraudulentas 88. Importância da detecção de fraude online: Agora temos uma breve compreensão do que é fraude e que tipo de fraude está acontecendo atualmente Agora, também precisamos entender por que o enredo detecta e isso é importante Portanto, a detecção de fraudes é importante, ou seja, obviamente, para evitar a perda financeira. Mas há outra região que também está lá, há algumas outras razões pelas quais eles também foram derrubados e é isso que vamos entender A importância da detecção de fraudes. Há três grandes detecções de fraudes importantes que dizem que existem. E a primeira é a prevenção de perdas financeiras. O segundo são produtos e clientes. E o terceiro é manter a confiança. E esses três parâmetros são muito, muito importantes para qualquer instituição bancária ou financeira. Porque se você não fornecer a perda financeira por táxon, o cliente do seu cliente não ficará com você Se você não está protegendo os interesses do cliente , provavelmente também não estará com você por mais tempo. E se você deixar de fazer isso, prepare, a perda financeira previne e finalize os produtos E nossa pergunta era informação, então você obviamente perderá a confiança do cliente. Portanto, manter a confiança também é importante. Então, essas três coisas são muito importantes. Então, a primeira coisa que entendemos entenderemos essa prevenção de perdas financeiras. A fraude pode resultar em perdas financeiras significativas para indivíduos, empresas e instituições financeiras. A detecção de fraudes ajuda a identificar e prevenir atividades fraudulentas que minimizam essas perdas Portanto, o primeiro objetivo do axônio do produto é evitar que a perda financeira, a perda financeira, a parte do indivíduo Pessoas como você e eu, para as empresas, as pessoas que estão fazendo negócios e as próprias instituições financeiras. Como se alguém viesse e tivesse o banco, a própria conta bancária. E então ele, o executor, pode fazer o hacker fazer qualquer transação em qualquer um dos clientes bancários, certo Então, para proteger a conta deles também, é importante, ok? Portanto, a prevenção sofisticada de perdas é uma coisa muito importante. A segunda é proteger, proteger clientes suficientes. fraude pode levar ao roubo de identidade, transações não autorizadas e outras formas de danos financeiros aos clientes, detectando e prevenindo fraudes e selando a proteção dos ativos financeiros dos clientes Então protege e um ponto de interrogação aqui. Isso significa que precisamos de um instituto bancário; se um banco está lá, outras instituições financeiras estão lá. Sua principal responsabilidade é manter as informações do cliente seguras, salvas e privadas. Para garantir que eles implementem esses detecção de fraudes para que clientes, ativos financeiros e informações pessoais estejam c, ou seja, seguros A terceira é manter a confiança. A confiança também é muito importante se seu banco, sua instituição bancária e atividades constantemente fraudulentas estiverem sendo realizadas nos cones Então, os clientes perderão a confiança em você e procurarão outro banco. fraude mina a confiança no sistema financeiro por meio de atividades, atividades de detecção e As instituições financeiras e a Venus podem manter a confiança que seus clientes e partes interessadas apoiam Único. Suponha que você seja um banco, X, Y , j e um dos titulares do seu cartão de notas, cliente receberá uma notificação quando alguém tentar fazer o que não autorizou o Exelon, seu E antes de confirmar a transação, basta ligar para o cliente e dizer: Ei, há um arco tangente e $99 estão sendo feitos em seu Egito que você está fazendo neste site específico. E se o cliente disser imediatamente Não, não, não, eu não estou fazendo isso, por favor, pare. E você bloqueou essa transação, você recusa essa transação. E dessa forma, você economizou $99 para seu cliente. E isso certamente aumentará a confiança que a pessoa coloca o cliente em você, em sua instituição e certamente recomendará sua ferramenta de ensino Outros também, porque ele sabe que você acabou de economizar $99. Dessa forma, implementando os salários de detecção de fraudes para as instituições financeiras por meio das empresas Isso melhorará a queda também para seus clientes. Agora vamos entender que tipo de dados estatísticos sobre a fraude, que tipo de fraude está acontecendo e quanto a fraude custa às empresas e aos clientes Portanto, as perdas globais por fraude, de acordo com um relatório da Association of Certified Fraud Examiners, sem ECF, é uma organização global As organizações globais perdem cerca de 5% da receita anual com a fraude Veja, as organizações globais e as grandes multinacionais estão perdendo 5% de sua receita anual, o que pode ser uma quantia muito, muito grande para as atividades gerais E isso se traduz em trilhões de dólares perdidos a cada ano. Portanto, se você implementar os cursos de detecção de fraudes usando inteligência artificial e aprendizado de máquina, poderá economizar esses trilhões de dólares para seus clientes A segunda é a fraude de cartas do Arcade. Esse relatório da Nielsen afirma que as perdas globais devido à fraude com cartão de crédito ultrapassaram $27, $27.000.000.000 em 2020, o que é uma quantia enorme, e não vale nada que classifique a fraude com cartão de crédito, um dos tipos mais comuns de fraude as perdas globais devido à fraude com cartão de crédito ultrapassaram $27, $27.000.000.000 em 2020, o que é uma quantia enorme, e não vale nada que classifique a fraude com cartão de crédito, um dos tipos mais comuns de fraude. Dada a enorme placa de atualização generalizada. Isso é um fusível. As portas para cartões comerciais têm uma tampa muito medida. E você pode ver a estatística C0, $27 bilhões em 2020. E agora estamos em 2023 Portanto, poderia ter sido dobrado com o aumento da digitalização, como a Índia nos últimos 34 anos, eles se tornando todos digitais e os gases sendo usados Então, nesse caso, também poderia ter aumentado a pegada bilhão de dólares Portanto, é muito importante implementar a detecção de cartão de crédito . O próximo é o roubo de identidade. Somente nos Estados Unidos, a Federal Trade Commission FTC receberam mais de 1,4 milhão de relatórios do tipo de identidade em 2020 Isso destaca a prevalência do impacto do roubo de identidade, que geralmente leva à fraude financeira. Então, a fraude on-line, com o aumento crescente adoção do comércio eletrônico e das transações on-line, a fraude on-line tornou-se uma preocupação significativa. O relatório LexisNexis, esta solução que contém 20 reais de custo do produto, revelou que cada $1 em transações fraudulentas custam às testemunhas $3,36 devido à compressão do estorno e à perda de Mark and Dice estorno Então esse é o impacto. Empresas perdendo $1. Não é que eles estejam perdendo $1, mas indiretamente isso lhes custará 3,3, $6, de acordo com este relatório E disseram que, devido aos estornos, às taxas e à perda de mercadorias, essas estatísticas ressaltam a urgência e a importância de implementar medidas eficazes de detecção de fraudes para mitigar as finanças e os possíveis riscos associados à fraude os E com isso, o conhecimento sobre a fraude é tipo e estrela, qual o impacto que ela tem acordo com as instituições financeiras, sobre os clientes, clientes individuais e instituições financeiras e fraquezas Agora, estamos prontos para prosseguir com nossos projetos. Então, na próxima palestra em diante, começaremos a fazer o site do projeto Excel de produtos de cartão de data A próxima palestra 89. Como lidar com o conjunto de dados desequilibrado: Portanto, antes de começar a escrever o código do projeto, vamos entender mais algumas coisas sobre a detecção de fraudes. E é importante fazer o projeto como eu tentei antes de iniciar o projeto. Incluindo a parte teórica que é muito importante para aprimorar seu aprendizado. Portanto, nesta palestra, entenderemos quais são os desafios associados aos modelos de detecção de fraudes que podemos criar e como superá-los Então, vamos começar. Desafios associados aos modelos de detecção de fraudes. Portanto, existem alguns desafios quando analisamos nossa mesa ou modelos de detecção de fraudes. E um dos mais importantes é muito, isso ocorre com muita frequência. Ou seja, conjuntos de dados desequilibrados. Portanto, conjunto de dados desequilibrado ou conjuntos de dados. Suponha que você faça a detecção de fraudes no cartão Kd e saiba que as atividades de fraude do cartão Arcade são muito menores, atividades de fraude do cartão Arcade como 0,1% ou 0,001% Há chances de que uma atividade ou transação de cartão de crédito seja fraudulenta Então, quando temos o conjunto de dados, que contém a maioria das transações de nossos quatro carros em todo o mundo. Vamos deixar que seu colega de equipe deixe alguns lagos em um lakh, 1 milhão de cartuchos x e haverá algumas centenas de transações que serão fraudulentas Portanto, quando coletarmos o conjunto de dados, a maioria dos 99% do conjunto de dados conterá as células de transação legítimas, apenas algumas delas serão a fraude Então, quando criamos um modelo, ou modelos sempre favorecerão a maioria. Portanto, nesse caso, sempre, qualquer transação que aconteça, ela será considerada legítima, porque as transações fraudulentas são muito menores, nossos modelos não aprenderão muito sobre o produto Jackson e, como 99% do conjunto de dados contém as transações legítimas, ele sempre favorecerá a transação legítima. Portanto, ele não o acionará, muito raramente desencadeará qualquer atividade fraudulenta Portanto, o conjunto de dados desequilibrado é um dos desafios associados ao nosso modelo de detecção de fraudes As transações fraudulentas são relativamente raras em comparação com transações legítimas Portanto, o conjunto de dados chocante e desequilibrado, a maioria alegada por Jackson encontrou, enquanto apenas uma pequena parte das Esse desequilíbrio de classe impõe aos colegas uma fraudulenta Portanto, esse desequilíbrio de classes representa desafios para os modelos de treinamento, pois eles podem se tornar tendenciosos para a classe majoritária, levando a um mau trabalho na detecção de instâncias de produtos Agora entendemos o que é esse E, então esse é dois. Portanto, esse dois está relacionado ao fato de que a maioria do conjunto de dados conterá as transações legítimas porque as transações fraudulentas são muito menores Então. Isso fará com que nosso modelo acredite em número suficiente de casos fraudulentos Outra são as técnicas adaptativas de fraude para que possamos evoluir constantemente suas técnicas para bifosfatar os sistemas Portanto, qualquer que seja o sistema de detecção, a forma como desenvolvemos os fraudadores está um passo à frente. Eles desenvolverão e desenvolverão suas técnicas para contornar esse Eles adotam seus métodos, tornando-os mais difíceis de identificar. Usando o tradicional baseado em regras. Nossas abordagens baseadas em padrões. Conforme acusado, os modelos de detecção de fraudes precisam ser operados regularmente para acompanhar o suporte emergente ao padrão de fraude. Você tem Deb Love em uma abordagem baseada em regras ou uma abordagem baseada em padrões E nós desenvolvemos um para sistema de detecção. E você não o está atualizando. Mas com o tempo, os manifestantes estudarão, desenvolverão técnicas, instalarão sistemas de detecção de falsos e começarão a realizar atividades fraudulentas Portanto, é muito importante adotar as técnicas e aprimorar seus modelos a cada poucos meses para que você seja líder dos manifestantes. O próximo problema é a evolução do padrão de fraude. Portanto, os padrões de fraude não são limitados. Suporte. Você tem um conjunto de dados em está desenvolvendo um modelo e há poucos padrões que você reconheceu ele desenvolveu um mecanismo para identificar e acionar um bastão fraudulento enquanto Nixon está em andamento Mas o que acontecerá é que os fraudadores se reinventarão ou continuarão inventando novos padrões que não existem no conjunto de E por causa disso, nossos modelos não são treinados nisso. Portanto, se nosso modelo não estiver ativado, ele não reconhecerá esse padrão e fará com que legal legítima e a atividade fraudulenta do Azure não sejam detectadas Então, evoluindo, padrão tenso. Outro desafio na detecção de fraudes. Os padrões de fraude mudam com o tempo, tornando difícil para os modelos de detecção de fraudes capturar técnicas de fraude novas e emergentes. Os modelos precisam ser capazes de detectar padrões de fraude desconhecidos ou inéditos sem depender apenas de dados históricos Portanto, temos que criar nosso modelo forma que ele possa detectar uma transação fraudulenta, mesmo que ela não tenha acontecido nesse pé de tangente e não tenha acontecido anteriormente, ou que não sejam dados históricos Portanto, ele também deve reconhecer o novo padrão. Então, esse é outro desafio problemático que está sendo alimentado pelos sistemas de detecção de fraudes. A escalabilidade e o processamento em tempo real são outro grande desafio na detecção de fraudes Processo do sistema financeiro em grande escala de toda a quantidade de transações em tempo real Os modelos de detecção de fraudes precisam lidar com grandes volumes de dados de forma eficiente e fornecer análises em tempo real para identificar atividades fraudulentas Isso requer uma infraestrutura robusta e algoritmos otimizados para garantir escalabilidade e processamento em tempo real Portanto, esse é outro desafio muito importante e muito grande, escalabilidade e o processamento em tempo real São solicitados os dados. Se quisermos detectar uma transação fraudulenta e você quiser acioná-la em apenas alguns segundos, haverá de seis a 8 segundos para detectar, acionar e identificar a transação fraudulenta Se você perder esse período de tempo, seis a 8 s, ele passará. Portanto, o processamento cronometrado em tempo real é muito, muito importante e deve ser muito rápido Então isso é outra coisa. Então, a engenharia de recursos, que atua no desenvolvimento modelo de sistema eficaz e de detecção de fraudes requer experiência e engenharia de recursos Identificação de recursos relevantes que capturam a detecção de fraudes. Fraude ou padrões elétricos são cruciais para uma detecção precisa. No entanto, selecionar o conjunto certo de recursos e criar representações significativas de dados pode ser desafiador exigir conhecimento de domínio e ser realmente ativo Tentei experimentar a privacidade, a fraude constante, detectar, envolvi o processamento de dados confidenciais de clientes leitura de questões de privacidade É essencial garantir a conformidade com os regulamentos e manter a segurança dos dados durante todo o processo de detecção de fraudes. próxima célula desse falso positivo e falso negativo, encontre o equilíbrio certo entre a minimização de falsos positivos, o sinalizador de transação legítima, a combinação de transações fraudulentas e falso-negativas fraudulentas A próxima célula desse falso positivo e falso negativo, encontre o equilíbrio certo entre a minimização de falsos positivos, o sinalizador de transação legítima, a combinação de transações fraudulentas e falso-negativas fraudulentas. E o acionado como uma transação legítima é um desafio. Uma alta taxa de falsos positivos pode incomodar o cliente, enquanto uma alta taxa de falsos negativos pode levar a perdas financeiras Ajustando os parâmetros do modelo. E é sempre necessário otimizar o desempenho. Então, o que é falso positivo? Falso positivo significa que transações legítimas são sinalizadas como fraudulentas Então, o que acontecerá nesse caso? Suporte ao usuário que estava usando seu próprio cartão de crédito e fazendo alguma transação Seu modelo acionará o Azure de forma fraudulenta E você liga imediatamente para esse cliente e diz que está fazendo em seu cartão de crédito alguns projetos de pátria e está sendo concluído Então, o que acontecerá se o próprio cliente estiver fazendo isso, transação e ficar irritado porque está tangente e foi parado Portanto, nesse caso, os falsos positivos criarão muitos inconvenientes para o cliente E se isso acontecer repetidamente, isso irritará muito o cliente Da mesma forma, os pontos positivos e os falsos negativos também podem levar ao financiamento Se uma transação fraudulenta for perdida e estiver passando pelo sistema , Gordon causará A diretoria, temos que equilibrar o falso negativo e o falso positivo de forma que ambos os casos ocorram muito pouco. Capacidade e explicabilidade inter, inter irritáveis. Técnicas modernas de aprendizado de máquina, como aprendizado profundo, podem fornecer modelos de detecção de fraudes altamente precisos. No entanto, eles geralmente carecem de interpretabilidade, tornando difícil explicar as razões por trás das decisões do modelo A capacidade de interpretar e explicar a saída do modelo é crucial para ganhar a confiança e a aceitação das partes interessadas E enfrentar esses desafios requer uma combinação de técnicas avançadas de modelagem, experiência contínua no domínio de monitoramento, colaboração entre cientistas de dados, Unleashed e especialistas do domínio para criar uma fraude robusta e adaptável para detectar depósitos de peixe-lua colaboração entre cientistas de dados, Unleashed e especialistas do domínio para criar uma fraude robusta e adaptável para detectar depósitos uma fraude robusta e adaptável Ok, agora, discutiremos algumas técnicas com as quais lidamos com o conjunto de dados desequilibrado Porque em nosso projeto vamos usar um conjunto de dados ou transações de cartão de crédito que são de natureza desequilibrada , porque a maioria das transações é de cerca de 98.99%, a excelência da Tange é tão legítima quanto 1% e os exons estão lá, o que desencadeará o tratamento fraudulento de um conjunto de fraudulento Lidar com um conjunto de dados desequilibrado é uma etapa crucial no desenvolvimento de modelos eficazes de detecção de fraudes Aqui estão várias técnicas comumente usadas para enfrentar os desafios impostos pelo conjunto de dados desequilibrado A primeira técnica é essa técnica de amostragem de reamostragem com água. Vamos amostrar dados, temos, temos dois. Precisamos reamostrar isso para que desequilíbrio no conjunto de dados possa ser gerenciado E também existem algumas técnicas de reamostragem que podemos aplicar O primeiro é subamostragem. As técnicas de subamostragem envolvem jogadas aleatórias removendo instâncias da classe majoritária para equilibrar o Isso reduz o domínio da classe majoritária, mas pode resultar na perda de informações valiosas Portanto, se continuarmos removendo aleatoriamente a classe majoritária, isso também pode resultar na perda de informações valiosas, mas isso também está sendo feito. Ok? próxima é a superamostragem dessas listas de verificação e envolve criação de instâncias sintéticas da classe minoritária para equilibrar o conjunto de para Nesse caso, o que fazemos, preenchemos o conjunto de dados com a classe minoritária Isso pode ser obtido por meio de técnicas como aleatória ou técnica de sobreamostragem minoritária de modelo sintético inteligente A sobreamostragem inteligente aumenta as representações da classe minoritária, mas pode Então, isso levou ao problema de sobreajuste. Modelo híbrido. Esses modelos combinaram técnicas de sobreamostragem e subamostragem para equilibrar técnicas de sobreamostragem e subamostragem o conjunto de dados de forma eficaz. A próxima são as técnicas algorítmicas . O primeiro é o aprendizado sensível ao custo do que n. Em seguida, em ambos os métodos, detecção de anomalias é outra técnica, métricas de avaliação e, em cada um deles, essas são técnicas com as quais lidaremos com o conjunto de dados desequilibrado Portanto, em nosso projeto, vamos lidar com esse conjunto de dados desequilibrado com amostragem total, na qual sobreamostraremos nosso conjunto de dados com na qual sobreamostraremos uma nuvem dopaminérgica que é uma atividade fraudulenta com esse conjunto de dados desequilibrado com amostragem total, na qual sobreamostraremos nosso conjunto de dados com uma nuvem dopaminérgica que é uma atividade fraudulenta. Então nos vemos na próxima palestra. 90. Detecção de fraude sem modelo: Olá e bem-vindo de volta. Então, vamos começar com o projeto. Então, aqui estou usando um arquivo csv de ponto de cartão de crédito, que contém os detalhes das transações do cartão de crédito Ok, então nós, o primeiro passo é ler esse arquivo CSV. Então, para fazer isso, para fazer isso, o que eu perco, eu perco a função CSV de porta e passo o caminho para o arquivo CSV e o nome do arquivo TSV Então, o mais sujo, vamos girá-lo e depois vou guardá-lo Variável do cartão de notas. Tão importante que sim, é assim, pois você sabe disso? Muito bem. Até agora, o passo é executar isso. Agora temos os detalhes do cartão de notas neste cartão de notas, ok, nesta variável. Então, quando você clica nisso, agora você pode ver aqui que há algumas colunas vezes V1, V2, V3 E esse V1, V2, V3 vai ler 20º E então a coluna é quantidade e depois outra é vidro. Então você quer ter 28 anos e depois a data e a hora e depois a coluna de quantidade e a coluna de classe Então, quais são essas colunas? Timess, timestamp e este V1, V2 até V 28, V2 até V 28, cartão Arthur Jackson E por que é assim, porque essas não são transações reais para a região da secularidade E para manter as informações das enormes informações do cartão Arcade seguras e protegidas Usando o PCM. Nós temos. Essas colunas são a versão reduzida dos dados reais para manter o setor de informações do usuário. E para isso, usamos o BCM e usamos modalidade de diamante para reduzi-la a este formulário, de forma que as informações do juiz rejeitem sua. Há uma quantia e, em seguida , há uma classe de classes para euros, as transações contábeis do apresentador e uma representa transações fraudulentas a modalidade de diamante para reduzi-la a este formulário, de forma que as informações do juiz rejeitem sua. Há uma quantia e, em seguida , há uma classe de classes para euros, as transações contábeis do apresentador e uma representa transações fraudulentas. Então, esta é a reabilitação do conjunto de dados, e vamos analisar esse conjunto de dados Então, a próxima coisa é que veremos a estrutura do conjunto de dados. E para isso usamos a função STR e passamos essa variável do cartão E quando executarmos isso, nós daremos, daremos a eles, isso dará o resultado. Ainda em execução. Comece a analisar a estrutura dos dados. Ok? A próxima coisa é que essa é a estrutura do carimbo de data/hora do conjunto de dados. Então, aqui você pode ver que todas as colunas são numéricas. E entre esses numéricos e o vidro aqui, que está aqui, está o numérico GTO um Mas, na verdade, isso não é numérico, mas que assim seja, é um dado categórico Porque é, o fator determinante para o euro é para os legítimos e mais 1” Uma é para transações fraudulentas , como essa no formato categórico Então, o que precisamos fazer é transformar isso em fator. Precisamos converter esse número inteiro em fator. E para isso, o que eu vou fazer e usar o dólar do cartão de crédito, colegas de classe em dólares, vamos usar essa classe Ok? Essa coluna. Ok, então você pode ler que Dollar Call Class nos levará a essa cor. E então usaremos a função fatorial para converter isso no fator. E aqui, novamente, daremos a classe em dólares do cartão de crédito e depois os níveis de vírgula Você pode ver 01. Então, estamos atribuindo fatores do G21. Isso para isso. Então, dessa forma, ele será convertido em, converta-o em fatores. Então, anteriormente, era Integer Agora, se vemos a estrutura do conjunto de dados, se eu executar isso novamente, agora você pode ver aqui que todas as outras colunas são nômades e o vidro não é um fator de dois níveis Ok? Agora, convertemos com sucesso a coluna de vidro em dois fatores valiosos. Ok? Agora, novamente, veremos a estrutura do conjunto de dados e o fator óculos de aviso. O próximo passo é verificar o valor que falta. Então, sempre que obtemos nosso conjunto de dados, a primeira coisa que verificamos é se há valores nulos Se não houver valores, precisamos enfrentá-los. Precisamos lidar com os valores nulos colocando alguns perdedores, removendo as colunas, os pisos, que contêm mais números de valores nulos Portanto, existem algumas técnicas que seguimos para lidar com os valores ausentes. E aqui para verificar se os valores faltantes que usamos escuros e analisamos o conjunto de dados E o polegar de fora é que um a nos dará o número total de valores faltantes no conjunto de dados Parte disso é NA escuro e, em seguida, a variável do conjunto de dados aqui passará Então, vamos, deixe-me fazer isso. Agora está chegando a zero. Isso significa que nosso conjunto de dados não contém valores faltantes, então ignore os valores ausentes Portanto, não precisamos nos preocupar com isso. Não precisamos fazer nada para isso. próximo passo é obter a distribuição de fraudes e transações legítimas no conjunto de dados Agora, para isso, usaremos a função de tabela e passaremos a coluna de vidro porque a coluna classe é o fator de distribuição que dirá qual é fraudulenta e qual é transação legítima Então, cartão de crédito, dólar, classe e mesas. Então, isso nos dará o número de transações e o número de transações fraudulentas. Portanto, zero é 28.004 a 84 vezes três que obtemos é a transação contábil um elevador 492 ou as transações 492 Então, aqui nesta semana, saiba que esse é o conjunto de dados desequilibrado porque a maior parte do conjunto de dados, cada um com saiba que esse é suas tangentes e transações legítimas ágeis, e a suas tangentes e transações legítimas ágeis, e solitária de duas pernas, 34.300.492, é uma transação fraudulenta, o que é muito menor em comparação com 34.300.492 a transação contábil. Portanto, esse é um tipo de conjunto de dados desequilibrado. Agora veremos qual é a porcentagem de transações legítimas e fraudulentas para o conjunto de dados de Berlim transações legítimas e fraudulentas Então, para fazer isso, usaremos a função prop dot table E passaremos por essa tabela e passaremos por essa classe de coluna. Ok? Então, deixe-me ver. Seus 99,8% são a fraudulenta, desculpe, mais tarde Angie , Excelente 0,017% são as transações fraudulentas . Então, a próxima coisa é, deixe-me colocar isso nos gráficos circulares. Então, para criar um gráfico circular, o que faremos primeiro é criar uma lógica e produzir dois vetores aqui E então vamos atribuí-lo a níveis e, em seguida, criaremos outro nível E usaremos a função de colar com base nesses rótulos. Então, vamos pegar os níveis, esses legítimos, e depois usaremos a centena redonda na mesa de adereços. Isso nos dará a porcentagem da porcentagem das transações legítimas e fraudulentas E aqui a vírgula dois e nós fomos porque eu quero isso aqui, é muitos dígitos depois Quero restringi-lo ao dígito e depois aos níveis, níveis e porcentagem E então usaremos a função pipe. Aqui. Eles passarão a tabela K mais nome da coluna na qual eu quero traçar a tabela ICE e seguida, rotulá-la de legítima e fraudulenta E então a coluna A colapsa ou cada cor tem um Android verde. A parte esverdeada, os léptons excelentes, leia mais, fraudulentos e Esse será o título do nosso gráfico circular. Então, deixe-me fazer tudo isso junto. E ele realmente tinha feito pelo gráfico aqui, transação legítima em 99,83 e fraudulenta e vinho 17 Vamos executar isso novamente. Aqui. O gráfico circular é sua clínica contábil e seus 99,83 e são três, tudo está ficando verde tudo E o vermelho está para apenas 0,17% pronto a menos. Portanto, esse é um conjunto de dados verdadeiramente desequilibrado. Agora, o que vou fazer, vou tentar prever com o modelo normal. A previsão não usará nenhum algoritmo de aprendizado de máquina e religiosas tentarão prever sem uma garrafa Então, para esses rótulos x e y e ainda assim uma grande repetição ou função, eles são trazidos para o GTO Então, o que vou fazer e pagar o cartão de crédito. Portanto, em nosso conjunto de dados para todas as linhas e o ROI, forneceremos esse número que se aproxima do conjunto de dados do cartão Kate E apesar de tudo, o foguete repetirá zero, ele preencherá zeros. Então, todo o projeto se tornará uma transação contábil E então usaremos o fator senso de previsão e os níveis G, linha um. E então deixe-me fazer isso. Ok? E se eu colocar senso de previsão, Ok, e previsões, ok, e então eu vou usar a biblioteca de caracteres aqui Porque eu vou usar a matriz de confusão. A matriz de confusão e um chefe, esses dados, como você chama de previsão, este e fazem referência à classe de dólares do cartão de notas E se eu executar essa métrica de confusão, veja se ela está carregada de previsões. Veja que a precisão deste modelo é 99,83. Portanto, todas as transações foram classificadas corretamente como legítimas. Todas as transações contábeis são classificadas corretamente como legítimas E essa doença, os aditivos e isso é negativo Então, isso para 92 ou as transações fraudulentas que não são classificadas como transações fraudulentas Portanto, todas as transações no conjunto de dados foram classificadas como Leggett e exons, mesmo isso por 92 tan x e mesmo isso por 92 tan x Nosso modelo de previsão não foi considerado uma transação fraudulenta que foi transferida para a transação contábil Então, como esse é um conjunto de dados realmente desequilibrado, nosso modelo de previsão está prevendo tudo como nosso modelo de previsão está prevendo tudo como legítimo porque não está sendo treinado com base em dados fraudulentos porque são muito menores e é por isso que tudo está Portanto, essa é a previsão baseada na previsão do modelo normal Não usamos nenhum modelo e algoritmo de aprendizado de máquina Então, na próxima aula, usaremos um algoritmo de aprendizado de máquina para lidar com esse conjunto de dados desequilibrado E tentaremos prever de uma maneira melhor. Nos vemos na próxima palestra. 91. Como criar a amostra de dados de treinamento e teste: Olá e bem-vindo de volta. Então, nesta palestra, vamos avançar em nosso projeto E o que eu vou fazer aqui, eu vou pegar a coisa. O que faremos é pegar os dados de amostra dos dados atuais do portão que temos. Então, o que faremos é pegar os dez por cento dos dados do conjunto de dados existente na amostra E sobre isso, tentaremos criar um modelo. E então, quando estiver fornecendo previsões corretas, aplicaremos esse modelo ao conjunto de dados Então, para fazer isso, quais são as coisas que podemos fazer? Vou usar uma biblioteca em D flat. Então você acabou de baixá-lo. Se não estiver, baixe-o. E então você fez a biblioteca, vamos usar e depois definir a semente. Um, esse relatório, porque quando eu pego 10% desse conjunto de dados de cartão de crédito. Portanto, se você não definir o pool de sementes , o que acontecerá toda vez ele retirará aleatoriamente os dez por cento de todo o conjunto de dados e cada vez, será diferente, dez por cento Então, por esse motivo, queremos a mesma configuração, 10% toda vez que executamos esse código. Até agora eu perco um. Ok, então vamos executar isso. E depois Cape Cod. Ok, eu o atualizei. Então, deixe-me tentar executar todo o código novamente. Ok, então veja agora que pegamos os dez por cento deste cartão. Este é todo o conjunto de dados, estou pegando uma amostra, sublinhado, essa função que estou usando e estou fornecendo 0,1, 0,1 min, 10% de todo o conjunto de Então, estou pegando o fluxo de 10% entre eles do conjunto de dados e atribuindo-o a esse protetor Valioso. Ok? E então, quando eu executo isso, você pode ver que agora fizemos a mesma configuração, linhas e colunas. Ok? Então eu vou usar a tabela, e eu vou usar essa classe. Então, deixe-me fazer isso. Agora. Temos o beneficiário aqui alternando para frente e para trás Então, 10% disso. Ok, e aqui o legítimo é 28.000 e nenhum protestante e Ok, agora pegamos os dez por cento de todo o conjunto de dados. Quais são as coisas? Agora vou usar o gráfico GG apenas para usar isso. E se não for baixado, você o baixa, instala e depois o usa. Ok? E aqui, o que vou fazer, vou tentar dispersar o terreno aqui E neste ano, porém, essa pessoa morta que acabamos de criar, anestesia pode usar os eixos x e y. Fazemos colunas e cores e, novamente, fabricamos em sala de aula zero ou um de última Um ponto legítimo na frente do comprimento, ok? Geom points, não, não alugue em preto e branco. Junte seu gráfico. Então, isso ficará em preto e branco. E o manual de cores da escala aqui em azul e preto. Azul e vermelho, desculpe, não preto, azul e vermelho. Cor azulada. O euro e a guerra por uma transação contábil vermelha e azul e vermelha pelas transações fraudulentas Então deixe-me executar essa ferramenta Ok, então veja aqui, agora temos esse gráfico de dispersão A classe que representa 0,1 representa, mas ainda está desequilibrada Há tantos Jackson que poucos deles falam sobre o fraudulento Ok, agora temos os 10% dos dados e os plotamos Em seguida, precisamos criar o conjunto de treinamento e teste para a criação do modelo de detecção de fraudes. Ok, para isso, vou ver ferramentas. Se você não instalou isso, você pode instalar usando install.packages. E você pode ver no back-end que deseja instalar a biblioteca Todos eles usam a biblioteca. E compra esse nome de Seattle. E eu fiz isso, então vou usar isso para semear 123. E então eu vou pegar a amostra de dados. E o que vou fazer, vou dividir esses dados de amostra que coletamos em 10%. Agora, esse conjunto de dados de 10% é dividido em 80.2080 para o treinamento e Bronte para No entanto, darei a amostra para dividir classe do cartão de crédito com base nisso, você sabe, e um o classificador e, em seguida, dividirei a corrida para você, darei 80% pontiagudos para treinar e 20% compraram o tracejado Ok, e a próxima coisa são dados treinados. E pegue o subconjunto dessa amostra de dados e subconjunto de amostra de dados, uso funcional e cartão de notas E fiz uma amostra chamada de tos 2 min. Deixe-me fazer isso primeiro e depois eu vou te dizer por que você não entendeu verdadeiro e falso. Ok? Então, quando executamos essa amostra de dados, isso não policia o conteúdo de verdadeiro falso, verdadeiro, falso, verdadeiro, falso. Verdadeiro é para transações contábeis e falso para transações fraudulentas Ok, agora temos a amostra aqui. Então, o que vou fazer, vou pegar as duas ALU e obterei os valores falsos aqui Então, deixe-me executar esses dados de tendência e esses serão os dados do teste. Então, conjunto de dados de treinamento e esse conjunto de dados. Agora, se quisermos conhecer o sentido diamantado desse conjunto de dados de treinamento e treinamento e do conjunto de dados, você pode usar um nome de função escuro, treinar dados de sublinhado 22.007, 85 linhas e 31 colunas. E para theta 5.696,31 colunas, as linhas e as Dessa forma, podemos obter o conjunto de dados de trem e teste. Na próxima palestra, avançaremos na criação do modelo preditivo 92. Métodos de amostragem aleatória sobre e em baixo da amostra: Agora temos os dados do teste e os dados de treinamento. Vamos lidar com o conjunto de dados desequilibrado. Portanto, há duas, três abordagens que veremos neste projeto. A primeira é a sobreamostragem aleatória. E então veremos a subamostragem aleatória e, em seguida, veremos os dois juntos. Ok? Então, deixe-me começar com a sobreamostragem aleatória Então, o que é sobreamostragem aleatória? A sobreamostragem aleatória significa que precisamos colocar 50, 50 por cento dos casos legítimos e de fraude . Ok. Então, para isso, o que vou fazer, vou usar os dados do trem e sobre esta mesa de vidro. E deixe-me fazer isso. Então, veja aqui agora que temos a rosa legítima, 22.007, 50 e, para nosso Ok, então isso está desequilibrado, então precisamos fazer uma sobreamostragem aleatória desse conjunto A sobreamostragem aleatória significa que precisamos colocar os dois de acordo com os acordos dos alunos Precisamos fazer com que os dois sejam iguais. Então, para essa análise, o número de transações é chamado de colágeno, Ashley 22.007 E o que eu quero fazer de novo e, muitas vezes, legítimo, é como, o que eu quero 50% Ok, agora vou coletar o número novo e total, novo e total de linhas necessárias em nosso novo conjunto de dados sobre o conjunto de dados de amostra Então, aqui está o que vou fazer vou ser alérgico legítimo a este dividido pela fração de portas lógicas que queremos, para que façamos e obtenhamos um novo número Ok, então deixe-me fazer isso. Portanto, são 45.500 linhas. Precisamos de um ônibus para isso, ok? Então, agora vou usar o pacote Roche aqui. Então, se você não instalou, basta instalá-lo. Caso contrário. Simplesmente enorme. É bastante sólido instalado aqui e cria uma sobreamostragem valiosa, chamada de jarra E ele tinha um grande método de amostragem de pontos benéficos. E aqui vou dar a classe como uma variável, variável independente. E esse ponto de sinal fornecerá todas as outras variáveis disponíveis nos conjuntos de dados. E então vírgula e depois dados são iguais a, estamos usando os dados do trem, os dados do sublinhado do treinamento que criamos E então o método é a sobreamostragem. E n número de rosas, novas e um total que está chegando a 45.500 E a semente que estou usando aqui, para que sempre tenha o mesmo resultado. Então, deixe-me fazer isso. Então, agora está executado. Agora, se olharmos para isso ou para a sobreamostragem aleatória, eles cobram, você pode ver aqui Clique aqui e você pode ver que agora, se você quiser ver os dados, temos que usar a sobreamostragem, que é chamada de dados do sinal de dólar do resultado Então, ele nos dará o conjunto de dados. Ok? olharmos para esta tabela do conjunto de dados, a sobreamostragem, crédito verá 45.500 linhas e os casos com pernas em 22.017, 50 e os casos fraudulentos Agora, se olharmos para esta tabela do conjunto de dados, a sobreamostragem, o crédito verá 45.500 linhas e os casos com pernas em 22.017, 50 e os casos fraudulentos também são um tutorial impresso. Certo? Agora, o que vou fazer, vou traçar isso com a ajuda do GG plot Então, aqui, teta é igual a, vou pegar essa sobreamostragem de grandes Por quê? Nós classificamos cor, classe, classe e ponto geométrico e azul fino, a mesma coisa que fizemos anteriormente Então, deixe-me traçar isso e ver como estão nossos dados. Agora, eu tenho uma sobreamostragem. Ok, porque eu clico no preço. Veja aqui agora nosso conjunto de dados novo ou de amostra em palavras está assim Este é o gráfico de dispersão e, por isso, ainda estamos vendo um número muito menor de casos de terras agrícolas conforme lidos A maioria deles está em azul apenas por causa de cada caso fraudulento. Criamos entradas duplicadas durante a sobreamostragem E é por isso que cada um deles conterá mais valores duplicados É por isso que, por trás disso, há mais pontos. Ok? Então, para ver, para traçar melhor, podemos usar o teste t. O teste t lhe dará mais visibilidade sobre isso. Então, deixe-me te contar aqui. ponto geométrico para Giussani é a posição quadrúpede O ponto geométrico para Giussani é a posição quadrúpede, o detalhe sublinhado e a largura. Podemos colocar 0,2 ou eu posso colocar até 0,5. E deixe-me fazer isso. Agora, esses pontos serão detalhes um pouco maiores. Então, isso saberá que há mais pontos. Não apenas esse ponto, porque, ao sobreamostrar, não duplicar, ele criará a duplicata dos dados existentes. ele criará a duplicata dos dados existentes. Podia ver aqui. Agora você pode ver que há mais pontos, pontos maiores. Então isso é, isso é por causa das coisas duplicadas. Ok? Agora entendemos o que é sobreamostragem e como podemos fazer isso Ok, a sobreamostragem é que há um problema com algo em que podemos criar os Agora veremos a subamostragem aleatória. Para subamostragem, use também o mesmo. Em seguida, sublinhe os dados. E aqui, há um número de linhas fraudulentas aqui Comece se eu escrever N, fraude será 35. Sabia o que eu queria. Eu quero 50 por cento do conjunto total de dados. E o novo e o total não serão fraudes divididos por 0,5. Então, isso nos dará o número total de estradas necessárias para a subamostragem aleatória. Agora estamos falando sobre isso. total novo será de 70. Portanto, haverá uma lista, 70 funções necessárias. Se fizermos uma amostragem insuficiente, isso é muito baixo e isso levará à perda da versão beta Ok, novamente, para outros candidatos, então vou usar o pacote Então, aqui vou criar uma amostra de subamostragem, sublinhado, adulto e própria. A mesma coisa que vou usar. Tudo será o mesmo, exceto que esse metalúrgico até o submétodo estará sob E aqui vamos passar o novo total e o assento. E deixe-me fazer isso. Agora, fizemos os dados abaixo da amostra. Agora você quer ver o conjunto de dados, USDA, amostragem dos dados e subamostragem, o grande escritor Nós administramos isso. Agora temos essa subamostragem O que Lisa Monday lança por aí. E metade deles são legítimos e metade deles são fraudulentos Mas isso nos levará à perda de dados se você traçar a mesma coisa. Vamos ver. Aqui. Os casos legged e fraudulentos são Mas aqui perdemos quase 22.700 linhas. Isso não é bom para nenhuma análise ou dados de previsão. Então, na próxima aula, combinaremos essas duas subamostragem e sobreamostragem e tentaremos prever 93. Como usar ROS e RUS para balanceamento de dados: Olá e bem-vindo de volta. Então, agora vimos como podemos trabalhar com o ROS de sobreamostragem aleatória E então vimos como podemos trabalhar com essa subamostragem aleatória, sobreamostragem e subamostragem sobreamostragem e subamostragem Mas ambos têm algumas desvantagens, pois a sobreamostragem também causa feridas e a subamostragem causa a suavização ou exclusão da maioria das linhas, o que pode afetar a tomada de decisão na previsão e nossos modelos não serão ou exclusão da maioria das linhas, o que pode afetar a tomada de decisão na previsão e nossos precisos Ok? Portanto, abordagens que usam ambas juntas significam que a sobreamostragem aleatória e a subamostragem, ambas Então, esse método é chamado de placa. Então, tudo será o mesmo aqui. O que faremos, eu usarei um novo e Andrew, o número de linhas no conjunto de dados de treinamento. Então, será o 785 para 12.000 bolsistas de estudo. Ok. Então, aqui podemos colocar o comando e a nova inteligência 785 Agora, fraude e fraude, novo, o que queremos fazer é encontrar 5%, 0,5 Metade disso seriam transações fraudulentas e metade das transações contábeis da fonte de dados Agora, vamos fazer a amostragem, então vou usar a amostra de pontos e a mesma coisa que usamos o parâmetro de subclasse E então todos os outros criarão esse ponto, resolva outras colunas, na verdade, venha , depois, o treinamento de dados sublinhe o método de dados Aqui. Anteriormente , usamos o método repetidamente. Agora vamos usar os dois. Portanto, isso fará tanto a amostragem inferior quanto a excessiva. E você pode sublinhar um novo e ser igual a flexionar e sublinhar que a fraude ou a má conduta conheciam Então ainda somos sementes. Então, isso obterá o mesmo retargeting. Em seguida, vamos executar isso. E se você quiser ver a amostra do conjunto de dados de crianças onde elas irão alquilar e amostrar, a amostragem sublinha os dados em dólares. Então, isso dará sua amostra porque eles pularam. Então, esses são os dados. Ok? Agora vamos criar nossa tabela. Então nos vemos agora. 11.004, 31 é menor ou igual a cinco. Então, quase o mesmo número de casos legítimos e fraudulentos. Então, isso é meio que um pouco de equilíbrio. Certo? Agora vamos criar a tabela de adereços. E aqui você pode ver a porcentagem de tão legítimas e trágicas que quase não são pessoas apropriadas E 49% são as transações da pátria. Agora, se plotarmos essa distribuição, usaremos a mesma parte do exame, essa ou esse conjunto de dados. E queremos refazer x e y. E cores frias são feitas no vidro e no ponto geométrico G e 0,3 Ok, vamos executar isso. Então C, mas este é o gráfico de dispersão. E vejo que os pontos azuis ainda estão, você pode ver que está vindo de mais, mas na verdade não é aquela coisa porque temos uma amostra robusta e outra amostra ou amostra dela Portanto, os casos com pernas com menos no conjunto de dados duplicados dos criados pelo administrador e é aí que eles se Portanto, vermelho e azul são quase iguais, mas as taxas estão se sobrepondo Um à direita parece menos um, mas dá para ver. Eu usei os detalhes aqui. Então, essa característica está ficando um pouco nervosa. Ok? Então, agora vimos como podemos fazer a sobreamostragem, a subamostragem e o subamostragem e Em seguida, usaremos a técnica de sobreamostragem minoritária sintética para equilibrar os dados Isso é chamado de técnica inteligente. E para isso, também usaremos a biblioteca da família Smart. E na próxima palestra, aprenderemos mais sobre esporte e depois escreveremos o código da técnica inteligente para sobreamostragem de minorias sintéticas Ok, então nos vemos na próxima palestra. 94. Vantagens e desvantagens de SMOTE: Nesta palestra, aprenderemos sobre a sobreamostragem de pequenas minorias sintéticas, que é uma técnica muito popular de sobreamostragem, usada para resolver o problema do desequilíbrio de classes no aprendizado de máquina classes Ele funciona criando amostras sintéticas de classes minoritárias que são semelhantes às amostras de classes minoritárias existentes. Isso ajuda a equilibrar a distribuição de classes e melhorar o desempenho dos modelos de aprendizado de máquina em conjuntos de dados desbalanceados Então, isso realmente resolverá o problema que enfrentamos nos métodos de sobreamostragem e subamostragem É por isso que são chamadas sobreamostragem minoritária sintética Então, essa transação, que é minoritária, superamostrará essa classe minoritária, mas em uma semana muito sintética Ainda assim, essa também é apenas uma técnica de sobreamostragem , mas Então, veremos como isso é feito. Aqui estão algumas das vantagens da técnica inteligente e inteligente. É uma técnica muito simples e fácil de implementar. Ele pode ser usado em vários algoritmos de aprendizado de máquina. Ele pode ser eficaz para melhorar o desempenho de modelos de aprendizado de máquina em conjuntos de dados desbalanceados Então, a primeira coisa é que é muito simples e fácil de implementar. E também pode ser usado com uma variedade de algoritmos de aprendizado de máquina E isso melhorará o desempenho dos modelos de aprendizado de máquina. Em um conjunto de dados desequilibrado. Também existem algumas desvantagens do smart. Ele pode criar amostras sintéticas que são muito semelhantes às amostras de classe magnética existentes, o que pode levar ao sobreajuste Portanto, isso pode levar ao sobreajuste, pois sobreamostrará o banco de dados nas amostras de classes obrigatórias existentes Portanto, isso pode levar ao conjunto de dados de tal forma que ele possa se ajustar demais ao modelo e nosso modelo não preveja o resultado correto Isso pode aumentar o ruído no conjunto de dados, que também pode levar ao sobreajuste Pode ser computacionalmente caro, especialmente para grandes conjuntos de dados, já que estamos fazendo uma sobreamostragem E se o conjunto de dados já for grande, ou seja, será mais demorado e computacional E as despesas serão muito altas porque levará mais tempo para fazer cálculos para aplicar qualquer método a esse respeito Portanto, no geral, mais sintética de sobreamostragem minoritária é uma técnica poderosa que pode ser eficaz para melhorar o desempenho de modelos de aprendizado de máquina em conjuntos de dados uma técnica mais sintética de sobreamostragem minoritária é uma técnica poderosa que pode ser eficaz para melhorar o desempenho de modelos de aprendizado de máquina em conjuntos de dados desbalanceados. No entanto, é importante estar ciente de suas limitações e usá-lo com cuidado. Então, agora vamos ver quais são as desvantagens e vantagens , primeiro, a técnica inteligente. Mais uma vez, as vantagens do EEG e a simplicidade de implementação e as desvantagens que ele pode criar ou sobreajustar podem ser usadas em uma variedade de algoritmos de aprendizado de máquina podem aumentar Eles disseram que era um teste. E podemos considerar a melhoria do desempenho dos modelos de desempenho da bomba de aprendizado de e, computacionalmente, isso será caro Portanto, agora temos o conhecimento básico de inteligência e como, e quais são as vantagens e desvantagens que são exploradas Na próxima palestra, implementaremos a técnica inteligente em nosso projeto 95. Como aplicar a técnica SMOTE no conjunto de dados de treinamento: Olá e bem-vindo de volta. Nesta palestra, vamos escrever nosso código mais detalhadamente. Técnica inteligente, técnica sobreamostragem minoritária sintética para balancear o conjunto de dados ou a técnica usada no conjunto de dados do GitHub Então, aqui precisamos instalar o backend install.packages Então, vou usar a família Smart aqui. Portanto, se não estiver instalado, basta instalá-lo executando este comando e, em seguida, usar a família spot de bibliotecas. Ok. Então, a primeira coisa que precisamos fazer é executar isso. Ok, o próximo é usar os dados do trem no vidro. Então veja aqui agora, este é o nosso oriental, nossos dados de treinamento. Portanto, 22.007, 50 é o número de casos, 35 são os casos em terras amplas Agora, definiremos o número de fraudes e deixaremos que ele faça suposições A pessoa desejada disciplinou os gases medicinais. Ok. Portanto, o número de suposições está na arte, os dados de treinamento originais e os casos predominantes em 35 E o que queremos do nosso giroscópio, eu dei 0,6. O que isso significa? Isso significa que eu quero o, nosso novo conjunto de dados. Depois dessa técnica inteligente. Eu quero que sejam cerca de 60% das suposições legítimas e 40 por cento dos casos fraudulentos, ok, então 60, 40 este ano eu quero cinzear, estou dando, mas Arg2 é igual a 0,6 min, 60% dos casos, e 40% das suposições da linha de frente serão as do nosso novo conjunto 40 por cento dos casos fraudulentos, ok, então 60, 40 este ano eu quero cinzear, estou dando, mas Arg2 é igual a 0,6 min, 60% dos casos, e 40% das suposições da linha de frente serão as do nosso novo conjunto de dados. Então, como calcular os principais sites? Então, quando nós, se você olhar para esta função de modo, de forma sintética, você pode colocar F1 e você pode ver essa técnica de sobreamostragem minoritária sintética aqui Então, isso é por meio de dendrito, pincel sintético para instâncias, instâncias usando algoritmo inteligente E quais são os parâmetros? Tx, dx, dx, esse é o nosso conjunto de dados. Alvo, é que a coluna na qual queremos direcionar, como no nosso caso, é o vidro. E então k. E então temos os tamanhos dub, dub, dub. Número de vezes c de x é o DataFrame do conjunto de dados numérico atribuído Target é um vetor da classe alvo correspondente ao que ele faz se dx k, número de vizinhos mais próximos durante o processo de amostragem e, em seguida, o tamanho do sublinhado duplo for o número ou o vetor que representa o dígito multiplicado instâncias minoritárias sintéticas sobre o número original de instâncias majoritárias o número original Ok? Então, quantas vezes você quer essa técnica inteligente seja executada , precisamos decidir e como podemos decidir. Podemos decidir usando essa fórmula. Aqui, estou usando a fórmula um -0/0 em n dividido por n, n1, e isso colocará menos Ok? Então essa é a fórmula. Essa fórmula fornecerá n vezes que serão lixões iguais ao estágio de dublagem Então, vamos calcular isso. Vamos executar isso e deixe-me ver quanto. 422 vezes ele precisa ser executado. Ok, 432 abertos, 334433. Ok, então agora também temos o palco de dub. Então, agora vamos usar a variável de saída de sublinhado inteligente para armazenar os dados que serão obtidos daqui Então, usaremos uma função suave e, em seguida, x, x será nosso treinamento de conjunto de dados de treinamento e , portanto, coordenador E aqui estou usando uma vírgula em branco e depois vou fazer menos c uma vírgula um Por que estou fazendo isso? Porque em nosso conjunto de dados, em nosso conjunto de dados de treinamento, em nosso conjunto de dados de treinamento Se você olhar aqui. Então, v1 para a primeira coluna de cada carimbo de data/hora que não precisamos. É por isso que estou movendo essa primeira coluna, timestamp e depois temos outra. A turma. Então, classe, também estou removendo o Chrome. Sim, então está certo, 1,31 primeira e na última coluna que estou nivelando Em seguida, o objetivo é treinar dados de sublinhado coluna de destino é uma classe conhecida como classe Estou dando cinco e aumentei o tamanho é igual a n vezes. Então, deixe-me fazer isso. Ok, agora, se executarmos isso e você quiser ver os dados, será nos dados que eles querem ou nos dados em dólares. E vamos executar isso para analisar os dados, pode ver aqui. Agora, o novo conjunto de dados inteligente tem V1, V2, V3, até ler 28 e depois a quantidade e depois a classe, ok, então agora a classe aqui é c minúsculo. Anteriormente, usamos que estava na capital. Então, para remover a confusão, vamos mudar isso para maiúsculas C. Então, para fazer isso, precisamos usar a função de comprimento, que pegará o nome do conjunto de dados e, pegará o nome do conjunto de dados em seguida, o número da coluna E então você pode dar o nome que quiser para o nome da coluna que estou dando à sua classe. E quando eu executar isso, ele será alterado. E se eu clicar novamente, agora a classe está em maiúsculas, ok Agora, se você quiser ver a porcentagem de perturbação, a sobreamostragem ou amostragem foi feita por S2 por Você não está. Então, usaremos a tabela de adereços que usamos anteriormente E aqui passaremos o crédito sublinhado, pequenos conjuntos de dados, a coluna de classe, e executaremos isso Veja, agora d rho é 60% e um é quase 40%. Então, agora nosso conjunto de dados é distribuído em torno de 60% dos casos e a porcentagem desejada são os casos fraudulentos Agora, vamos comparar com o gráfico de dispersão original. seja, esse é o gráfico de dispersão original que fizemos no conjunto de dados de treinamento Então, deixe-me mostrar como estava. Veja como está assim. Eu não sabia a distribuição dos dados. Os casos de fraude foram muito pequenos. E agora vou traçar o novo, correto. E isso porque aplicamos uma técnica inteligente e inteligente. Agora você pode ver que nosso conjunto de dados está mais equilibrado. E esse campo de gás mais técnico, porém, acontece com o maior número de suposições fraudulentas E esses não são os valores sobrepostos ou duplicados. Esses são os pontos sintéticos que foram preenchidos com a técnica inteligente. Agora temos o conjunto de dados, conjunto de dados de desequilíbrio. Em seguida, precisamos criar uma árvore de decisão e prever os casos fraudulentos que faremos na próxima 96. Como prever casos de transações com cartão de crédito com o modelo: Olá e bem-vindo de volta. Portanto, agora estamos prontos para prever casos de fraude com base no conjunto de dados que criamos nesse modo. Então, vamos prever o valor com base em nosso modelo. Então, para isso, vamos usar os pacotes rpart e rpart plot Portanto, se não tiver instalado, você não o instalou executando esses dois comandos. E então a biblioteca rpart e a biblioteca nosso diagrama de pontos. Ok? E aqui eu geralmente sou o modelo de guarda como uma variável. E aqui, o que vou fazer, vou usar a função rpart Se quisermos saber o que é a função rpart, você pode colocar rpart F1 e ela fornecerá a árvore recursiva de particionamento e regressão recursiva nossos parceiros Então, se quisermos saber mais sobre isso, você pode ler a documentação e quais são as coisas necessárias a fórmula apresentada com o índice x e nossas falhas de peça e modelo e todas essas Ok? Então, se você quiser ler em detalhes, pode ir e lê-lo. Ok? Então, a próxima coisa é latir, e então damos a eles as colunas ou a variável dependente. Então, no nosso caso, cada classe e , em seguida, sinal e ponto significam todas as variáveis independentes. Então, dot pegará todas as outras variáveis independentes. E aqui usaremos o conjunto de dados. Ótimo curso de honras. Mais dados. Nós temos, nós fizemos aplicando a inteligência no mercado. Então, vamos executar isso. Agora você pode ver que o modelo GARCH está aqui. E tudo bem, a próxima coisa, precisamos usar o R. Agora, eu vou fazer a árvore de decisão para isso. Então, vamos ver como nosso modelo prevê, classifica as coisas nelas. Casos legítimos e o problema diz, então fica com a lesão. Então, nosso gráfico, nossa parte diagrama de pontos e depois passaremos isso. E então extra é igual a integral do tipo zero da fibra. E rápido 1.2. Ok, então vamos executar isso e ver, sim, esta é a árvore de decisão. Isso 1,1, 0,2, vai ferver essa coisa. Ok? Então essa é a árvore de decisão, e é assim que nosso modelo decidirá qual é. Então, suponha que isso seja antes. Se o valor for maior ou igual a -2,5, ele será aplicado como um caso legítimo e produzir menos de 0,5 a 2,5, será como convidado fraudulento Então esta é a árvore de decisão que ela seguirá, ok? E então, se você quiser ver os valores previstos, podemos usar a previsão e, em seguida, passaremos o modelo GARCH. Em seguida, dados do Daesh sobre dados que predirão sua classe de tipo Ele classificará zero ou um. Então, vamos executar esse modelo em nossos dados de teste e ver como ele está prevendo. Então, vamos executar isso. Ok? Agora, se olharmos, podemos ver aqui, agora, para uma jogada, que ela previu que para a quarta linha, assim, 0,1, ela foi classificada Agora, se quisermos ver qual é o nível de precisão até agora, podemos criar uma matriz de confusão usando a biblioteca Keras Uma cenoura enorme e então ele conhecia as métricas convergentes. E vou passar esse valor previsto aqui e aqui. Dados sobre a variável dependente e dependente do vidro. Ok? Então, vamos executar isso e ver aqui a matriz de confusão. Portanto, do nosso total de nove casos fraudulentos em que houve 97, sete casos predominantes foram classificados corretamente e o uso não foi classificado corretamente Da mesma forma, para os casos vermelhos da legenda, quase todos os casos foram classificados corretamente. Portanto, a precisão desse modelo é 98, quase 99%. Dessa forma, implementamos o modelo de detecção de fraudes com cartões de notas usando nossa programação. E aprendemos muitas coisas, como lidar com dados desequilibrados e quais são os algoritmos que podemos aplicar Quais são as técnicas de balanceamento da melancia no conjunto Então, espero que você tenha entendido, se tivermos alguma dúvida, você pode perguntar em sala de aula comentando ou fazendo uma pergunta. Obrigada 97. Introdução ao ggplot2: Olá e bem-vindo de volta. Nesta série de palestras. Nas próximas palestras, aprenderemos sobre o enredo do GG. Temos usado o gráfico GG muitas vezes em nossas palestras Mas o que eu escolho é que muitos de nós reutilizamos gráficos como gráfico de barras, gráfico circular E há muitos potes ou as bibliotecas do braço direito são Como as turnês GG Plot, GG plot. Mas esquecemos de saber o básico por trás disso. E deveríamos saber disso. Mantendo isso em mente. Estou criando algumas palestras sobre os fundamentos do gráfico 2 do GG. Da mesma forma, criarei mais palestras cobrindo todos os outros tópicos, o básico de todas essas coisas, para que possamos ter uma compreensão clara das Portanto, o DJ ggplot2 é um pacote R para Foi desenvolvido por Hadley Wickham, tem uma implementação de gramática de gráficos Verá o que é gramática de gráficos, que fornece uma abordagem estruturada para criar gráficos personalizados. O pacote é construído com base no princípio de permitir estética, mapeamentos e permitir que os usuários criem gráficos altamente personalizáveis e com personalizáveis Então, GG plot to Deb adorava criar chaves públicas e gráficos 3D Então, antes disso, costumamos criar gráficos, mas não estamos prontos para publicação. Então, se você quiser criar uma unidade gráfica 3D pública, não é melhor usar ferramentas como Power BI ou Tableau, alguma outra ferramenta gráfica Mas o GG plot two tem a capacidade de criar gráficos com qualidade de publicação E é muito personalizável. Portanto, quaisquer camadas que você queira adicionar os usuários podem adicionar com base em suas necessidades. Ele segue uma abordagem gramatical gráfica que é muito, muito importante e é por isso que tem tantos recursos para criar uma aparência incrível em gráficos e tabelas Ok, então vamos entender algumas das características e características do gráfico GG para plotar dois segue a gramática dos gráficos GG plot two Como eu disse anteriormente, problemas a gramática da estrutura gráfica, o que significa que os gráficos são construídos combinando diferentes componentes de camadas, como dados, estética, objetos geométricos problemas a gramática da estrutura gráfica, o que significa que os gráficos são construídos combinando diferentes componentes de camadas, como dados, estética, objetos geométricos e transformações estatísticas. Portanto, ele não apenas plota os dados, mas também cuida dos dados, da estética, objetos geométricos e das transformações estatísticas Estatísticas, estética e mapeamentos. Gráfico Gg para permitir que você mapeie variáveis em seus dados para diferentes estéticas, atributos como coordenadas x e y, cor, forma, tamanho e Os mapeamentos definiram como os dados serão apresentados visualmente no gráfico O próximo recurso é a estratificação. O primeiro é a gramática dos gráficos, e depois temos a estética e o mapeamento. E então temos a terceira chave, características e características. Isso é camadas. lotes no gráfico 2 do GG são construídos adicionando camadas de elementos gráficos , como cada camada representa um componente diferente de fluidos, como pontos, linhas, barras Por isso, é construído adicionando camadas, uma sobre a outra. E as camadas têm componentes diferentes, como plotagem, componentes dos gráficos, como pontos, como ponto geométrico, para usar Reutilização da linha Geom. Então, as barras que usamos em nossa camada de texto também estarão lá. As camadas podem ser adicionadas e personalizadas de forma independente, permitindo uma visualização complexa e em camadas Transformadores estatísticos e gráficos GG para fornecer uma ampla gama de transformações estatísticas que podem ser aplicadas aos dados antes de visualizá-los Essas transformações incluem agregar dados, calcular o resumo das estatísticas, suavizar os dados. O mínimo e altamente personalizável gráfico 2 de GG mínimo e altamente personalizável oferece um alto nível de opções de personalização, permitindo que você modifique quase todos os aspectos do enredo, incluindo acesso, rótulos, títulos, legiões, cores calcular o resumo das estatísticas, suavizar os dados. O gráfico 2 de GG mínimo e altamente personalizável oferece um alto nível de opções de personalização, permitindo que você modifique quase todos os aspectos do enredo, incluindo acesso, rótulos, títulos, legiões, cores e temas. Portanto, ele não apenas permite que você goste de uma equipe, mas também pode personalizar itens como eixos, rótulos, títulos, legendas, cores e tem muitos temas que você pode aplicar Essa flexibilidade permite criar gráficos que atendam a requisitos específicos que correspondam ao seu estilo visual preferido Suporte para facetagem, o gráfico GG two suporta facetagem, o que permite criar vários gráficos ou painéis, licitar, cantar em uma ou mais variáveis em Isso é útil para explorar e comparar diferentes subconjuntos ou categorias em seu conjunto de dados Integração com nosso gráfico GG para se integrar perfeitamente aos nossos pacotes e ferramentas de manipulação de dados Você pode combinar facilmente o gráfico GG two com bibliotecas de manipulação de dados, como playa e tidy R para pré-processar e transformar seus Portanto, no geral, o gráfico GG fornece uma estrutura poderosa e intuitiva para criar uma ampla variedade de medulas de Jason, desde simples gráficos de dispersão até gráficos uma estrutura poderosa e intuitiva para criar uma ampla variedade de medulas de Jason, desde simples gráficos de dispersão até gráficos facetados complexos de vários painéis. Ele se tornou um dos pacotes de visualização de dados mais populares e amplamente usados em R devido à sua flexibilidade, estética e ênfase em bons Então, agora também temos o conhecimento básico do gráfico GG. Vamos mergulhar nessa gravação e criar alguns gráficos básicos usando o gráfico 2 do GG Então, eu criei um arquivo de script R de dois pontos do gráfico GG. E aqui tentaremos usar o gráfico GG para criar um gráfico e um gráfico básicos, e tentaremos entender as diferentes camadas adicionadas a ele A primeira coisa que precisamos fazer é instalar o pacote ggplot2 Portanto, se ele não estiver instalado em seu RStudio, você pode fazer isso executando o script install.packages e dar ao pacote o nome GG Depois de instalar os pacotes, você pode usá-los escrevendo a biblioteca e, em seguida, fornecendo o nome do pacote aqui. Então, isso permitirá que você use o pacote GG plot. Então, o primeiro passo é carregar o pacote, instalar e carregar os pacotes. A segunda etapa é criar um gráfico de dispersão básico. Então, para isso, o que vou fazer, primeiro criarei um DataFrame Então, para criar um DataFrame, criarei uma variável E então vou usar data.frame para criar um DataFrame. E aqui vou fornecer os pontos x, o vetor x, o vetor c12, 345 e y e o eixo y para o eixo y e presentes, consulte 246810 Portanto, 12.243.648,5 dez serão as coordenadas do nosso. Então, dessa forma, criarei um DataFrame. Agora. Vou criar um gráfico de dispersão usando o gráfico 2 do GG é Usaremos a função de gráfico GG aqui, gráfico GG. E então forneceremos os dados, aquele DataFrame que criamos Os dados nos quais você deseja criar o gráfico. Então, os dados fornecerão, então a próxima coisa é estética A estética fornecerá os eixos x e y nos quais você deseja traçar os pontos Então, x é igual a x e y é igual a y. Então, daqui vai pegar, e depois daremos o gráfico, desculpe, mais o ponto geométrico Então, ponto geométrico, traçaremos os pontos. Ele pegará os pontos do gráfico de urina. Então, deixe-me fazer isso. Então veja aqui agora nosso gráfico de dispersão está pronto. Veja, o primeiro ponto é um-dois, eixo x e eixo y Então 242,4 a quatro são plotados aqui, depois 36 e depois 4,5 décimos Portanto, esses pontos foram plotados corretamente usando o gráfico GG dois Então, deixe-me explicar um pouco mais sobre essas coisas. Então, criamos um DataFrame chamado data com duas colunas, x e y. A função de plotagem Gg inicializa um objeto de plotagem GG que envia texto para o DataFrame em seu primeiro argumento o E então a função estética aqui que usamos, para tomar a função , especifica o mapeamento estético do eixo X para o X e do eixo Y para o eixo Y. Então, aqui estamos mapeando o eixo x para os eixos x e y. Por quê? E então o ponto geométrico fornece fontes e adiciona os pontos ao gráfico Então, a função de ponto geométrico, o que ela fará, pegará os pontos dela e plotará os pontos no gráfico Agora, o próximo passo é tentar personalizar o enredo. Então, o que faremos é tentar personalizar o enredo pela aparência. Portanto, personalize a aparência do enredo. Então, aqui vamos usar a função de plotagem GG. A estética dos dados será E depois mais ponto geométrico. E depois do ponto geométrico, o que faremos, daremos uma infiltração igual a 21. E a cor de preenchimento será azul e a cor será preta E sites, estou te dando três. Em seguida, usaremos a função labs para criar um título. Portanto, o título do gráfico será o gráfico de dispersão. E então qual eixo x, daremos o nome de eixo x e o eixo y dará a eles eixo y. Então, novamente, mais. E então usaremos, usaremos o tema aqui e usaremos o sublinhado do tema, coisa mínima, mínima que vamos usar, sim Então, deixe-me primeiro executar isso e depois explicar ao usuário vários pontos. Agora nosso gráfico de dispersão está pronto e você pode ver Uma vez que eu fui plotado aqui, mas este é o, já que aqui temos aqui em azul, os pontos são preenchidos com o azul e a parte externa Então, aqui nós demos preto. Se eu colocar laranja, e se eu usar. Agora, altere as festas em laranja. Então, deixe-me fazer um pouco maior para nove. O IP e a porta concedidos e o tamanho e 31, desculpe. Agora você pode ver aqui que o tamanho foi aumentado. Ok. Então esta é a calça YuJa See que eu acho que é azul se você a deixar amarela Então, isso ficará amarelo. Ok? Dessa forma, podemos personalizar e você pode fazê-lo funcionar. E veja que este é o gráfico de dispersão vindo aqui embaixo, e os eixos x e y estão no próximo E a equipe que estamos usando o mínimo. Então, deixe-me executar isso novamente. Então, o tamanho ficará bem. A próxima coisa é a fonte geom point, alguns textos que não são argumentos para personalizar a aparência dos pontos Aqui dissemos que o beneficiário é um círculo completo e uma cor de preenchimento em azul, contorno de cor em preto e tamanho Então isso foi o mais cedo. Agora mudamos nível dos dois lados chamado cor externa é laranja, cor de preenchimento é amarela. Ok. Você pode colocar F1 selecionando ponto geométrico e ele fornecerá a descrição do ponto geométrico, do Algoma e do mapeamento Algoma e do mapeamento Ok? Se você quiser saber mais, você pode ir e aprender mais sobre o ponto geométrico com você Salvar. Você pode ver aqui se quiser saber mais sobre o CEP, você pode vir aqui e aprender sobre aqueles seguros A estética segura pode ser especificada com um número inteiro 0225 ou um único caractere, que usa os caracteres no símbolo de plotagem para secar o menor retângulo visível em cerca de um pixel E não traçará nada mapeado para uma variável discreta. Então, se colocarmos aqui 25, vamos ver o que está sendo plotado O outro triângulo foi traçado se colocarmos dois. Então, como você vê, o triângulo sem preenchimento, ok, então um será o retângulo Um é o círculo cinco. Se você colocar cinco diferentes, diga esse retângulo novamente. Então, para oito, vamos ver o que está sendo plotado aqui. Ok, linhas 11. Então você pode ver, então você pode explorar e você pode usar outras coisas, ok? Depois, temos os laboratórios que adicionarão o título ao eixo x, ao eixo y e ao Então Tim minimal é a função que se aplica ao tema minimalista da trama Podemos usar outro tema que seja preto e branco. Então, a seguir, o que faremos, aprenderemos como adicionar várias camadas e anotações ao nosso gráfico Então, aqui tudo será o mesmo ponto geométrico. Nessas coisas haverá a mesma linha geométrica. Adicionaremos uma linha geométrica para que uma linha seja desenhada e, em seguida, escreveremos algum texto aqui Portanto, os decks do eNodeB x é igual a três, y igual a zero, e os laboratórios de nível 999 intitulados darão o mesmo e a equipe os usará o mínimo Então, vamos executar isso. Então, veja aqui agora, uma linha do genoma foi desenhada juntando os pontos E veja aqui, por 3,6, 3,6 pontos, nós escrevemos textos, então o alinhamento do texto está escrito aqui, rotulado como linha Você pode alterá-lo para qualquer coisa. Suponha, suponha que você queira escrever qualquer coisa aqui e apenas executar isso Agora está escrito qualquer coisa. Então você pode colocar qualquer coisa aqui. Então, linha. Então, vamos executar isso novamente. O que quer que você escreva, virá aqui. Então, aqui por 3,6, o eixo x três e as ondas são seis Nós o anotamos sem textos e fornecemos os textos e o nome do nível como Ok, e equipe, estamos usando o mínimo. Ok, o próximo passo é que geom da linha Sonata até os gráficos anote uma vez e reutilize para adicionar notação Aqui, o texto especificado a ser exibido , bem como as coordenadas x e y. E você pode modificar os níveis x e y aumentados pela função de anotação Ok, em seguida, abandone a configuração rápida e os temas. Portanto, podemos usar facetas para adicionar vários gráficos a um lote. Para isso, usaremos o data.frame criar uma faceta variável de sublinhado de dados, data.frame Os pontos X e y darão e depois agruparão. Aqui estou criando um grupo cada ponto será anexado a um grupo E, a, B e C. Então agora temos grupos aqui. Agora vamos executar isso. E agora crie nosso gráfico de dispersão facetado. Então, primeiro deixe-me criar os gráficos de dispersão. Agora temos os pontos. E então outras categorias ou grupos da ABC estão lá. Então, Geom Point, tudo menos rap. E aqui vamos fornecer ao grupo, ok, esse signo e o grupo pegará o grupo daqui e ele se facetará Agora temos grupos ABC e todo o resto é a mesma coisa Estamos usando o mínimo, novamente, função facet underscore wrapper é usada para criar um gráfico facetado com base na coluna do grupo, cada grupo Harris Agora, vamos mudar o tema para preto e branco. O tema sublinha v, w. Usaremos e veremos o que ele vai ver aqui Agora, o tema foi alterado e agora está mostrando um claro, opa, ABC Tem que o ponto B até que o ponto C tenha um ponto. Ok. Então, sua música punk com tema muda o enredo, ele para preto e branco E esse segundo enredo do GG tem vários temas embutidos, como sublinhado mínimo, tema sublinhado clássico e tema sublinhado Então, deixe-me copiar isso e tentar usar o cinza sublinhado t. Agora está em cinza. E então a equipe ressaltou o clássico. O clássico é como dois grupos aqui e depois pontos. Ok, então vamos fazer isso hoje. Ok? Portanto, este é o básico do gráfico de GG para I. Suponho que você aprenda e eu o encorajo a praticar mais criando alguns pontos e traçando vários E jogando com os pontos geométricos, adicionando os laboratórios, acho que o mesmo jogar com os mesmos segmentos de perna Me perguntei 25. Então você pode colocar várias formas e secar o que os números significam para o mesmo, ok? Então, essas são as coisas que você pode fazer 98. Trama de dispersão e enredo com jittered: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre outra coisa importante de plotagem que é o gráfico de dispersão e o gráfico Então, deixe-me dizer que vamos ver alguns exemplos. E para isso vou usar o conjunto de dados embutido, que é o conjunto de dados Iris, que está disponível com o R. Ok? Então, deixe-me dizer brevemente que gráfico de dispersão você deve ser, sabendo o que é gráfico de dispersão. Mas para refrescar sua memória, estou dizendo que os gráficos de dispersão são semelhantes aos gráficos de linha, que geralmente são O gráfico de dispersão armazena o quanto uma variável está relacionada a A relação entre as variáveis é chamada de correlação, que geralmente é usada em métodos estatísticos Ok? Então essa é a definição de gráfico de dispersão. E para essa aposta, para esta palestra, eu sou um acordo escrito à mão E aqui estou usando o conjunto de dados da íris, que é um conjunto de dados muito conhecido que contém medidas de sua impressão, flores da íris, flores da íris sépala e comprimento da pétala e todo Então, para isso, precisamos do conjunto de dados da íris que está embutido com os dados do nosso pacote e, em seguida, precisamos gráfico GG que já baixamos E se não for baixado, você pode usar install.packages e o nome do pacote GG E ele será reinstalado, baixado e instalado no seu RStudio E então, para usar o gráfico 2 do GG, precisamos usar a biblioteca e, em seguida, passar o nome do back-end Portanto, a biblioteca GG plota para realmente nos permitir usar as funções do gráfico GG E então, para carregar o conjunto de dados da íris, simplesmente precisamos gravar E então precisamos passar o nome do conjunto de dados. O tipo de dados é a íris Ele carregará o conjunto de dados da íris. E quando você clica nesse conjunto de dados da íris, você pode ver aqui que ele contém o olho, a cauda da Flórida que tem comprimento da sépala, largura da sépala, comprimento da pétala , largura da pétala espécie Portanto, existem espécies. Ok? Portanto, neste conjunto de dados estão os objetos de uma propriedade e os rótulos privados, um por p linhas e cinco colunas. Ok, então deixe-me voltar ao código. Então, agora, o que vamos fazer , vamos criar um gráfico de dispersão Então, para criar um gráfico de dispersão, usaremos a função de gráfico GG e usaremos o nome do conjunto de dados Isso é conjunto de dados para conjunto de dados Iris. Então, para estética, para o eixo X, traçaremos o comprimento da sépala e Traçaremos a largura da sépala. E então usamos a função de ponto de sublinhado do genoma para traçar esses É bem simples. Função de plotagem Gg, em seguida, nome do conjunto de dados e não estética. Precisamos passar as coordenadas x e y. Então, barra x, coordenada X usará o comprimento da sépala. E para a coordenada y usaremos largura da sépala e a função de ponto geométrico para traçar esses pontos, pontos Então, quando executamos isso, obtemos esse gráfico de dispersão aqui. Então, agora todos os pontos no comprimento e largura da sépala foram plotados Agora usamos a função de plotagem GG para qualquer objeto de plotagem GG deslizante e especificamos É isso que fazemos aqui. Então, a função estética aqui, estamos perdendo a função estética. Dentro do gráfico GG, defina os mapeamentos estéticos com O que estamos fazendo aqui é mapear o comprimento e a largura da sépala O comprimento da sépala é mapeado no eixo x e a largura da sépala é mapeada E a função geom point adiciona pontos ao gráfico. E assim obtemos o gráfico de dispersão para que você distorça. Então, estamos usando a função de plotagem GG dentro da qual estamos passando o nome do conjunto de dados. Em seguida, alergenamos a função estética para atribuir as coordenadas Porém, mapeie, nome da coluna ou para os x's. Portanto, x é igual às chamadas saídas e à largura do ponto sépalo do eixo y. E então estamos usando a função de ponto geométrico Jin para traçar os pontos no gráfico de dispersão. Então, estamos recebendo esse enredo. A próxima coisa é que agora vamos personalizar o gráfico de dispersão. Então, a personalização passará novamente. Usaremos o gráfico GG. Primeiro, desenhamos o enredo. Então, para esse gráfico GG, então o conjunto de dados nomeia essa estética Aqui, estética, a mesma coisa que estamos lendo. E o que estamos personalizando. Estamos personalizando adicionando uma cor a ela. Portanto, a cor é igual à espécie. Portanto, todas as espécies serão uma espécie específica, o comprimento específico comprimento da sépala e largura da sépala serão coloridos Portanto, para cada espécie, haverá uma cor atribuída. Então, a cor é chamada de espécie. Então, estamos usando o ponto geométrico. E aqui, e aqui, acabamos de plotar fontes geom point. Estou usando a função de ponto geométrico aqui que personalizaremos adicionando argumentos a ela, como psi é igual a três e alfa é igual a Em seguida, laboratórios aqui com a função labs, atribuímos o título, então, título do gráfico de dispersão, forneceremos um gráfico de dispersão para o forneceremos um largura da sépala para o eixo X dará o nome de comprimento da sépala e o eixo y fornecerá E então o tema aqui usaremos o, usaremos o tema t match, o tema mínimo, e isso é chamado de função mínima. Temos que usar o tema minimalista e minimalista. Então, vamos traçar isso e depois discutiremos mais. Então agora você pode ver aqui, já que fornecemos as espécies ecológicas. Então, todas essas espécies, existem três espécies e três cores foram atribuídas. Olhando para isso, podemos dizer que o verde é para versicolor, o rosa é para setosa Virginica é azul escuro. Ok, agora vamos entender um pouco mais. Então, adicionamos cores que você chama de argumento de dois espaços dentro função estética para colorir os pontos com base nessa precisão do olho. Esses gráficos que já discutimos, o argumento dos lados no ponto de sublinhado geom, define o tamanho do ponto Então agora são três. Se eu fizer com que suporte nossos 15 , o que acontecerá? Assim, os pontos serão maiores insights. Se você quiser ver, veja aqui agora a dorsal maior em tamanho Então, conforme a exigência, você pode, se você colocar um ou cinco, vai ficar assim, ok? Agora, há outra coisa, alfa igual a 0,7. Então, o que é esse argumento alfa, alfa controla essa transparência. Então, se eu colocar, se eu aumentar para um, o que vai acontecer? Vamos ver. Veja que é mais escuro, certo? Se eu colocar vento, um, veja que não está tão escuro. E se eu colocar 0,8 , ficará mais escuro. Martin, mais sombrio. Ok? Então, vou disparar esse amperímetro controlar a transparência dos pontos Ok. Em seguida, a função esquerda é usada para definir o título dos rótulos do título e do eixo. Portanto, para os níveis de acesso, o eixo x temos o comprimento da sépala, o eixo y, fornecemos a largura da sépala E o título do gráfico de dispersão, temos um determinado gráfico de dispersão da amostra versus comprimento da sépala versus largura da sépala E o tema ressalta pontos mínimos e coisas minimalistas Mas a trama. Se pudermos colocar aqui, se eu repetir isso e se eu usar o tema sublinhado, seja VW preto e branco uma vez e então o que acontecerá Vamos ver. Nada mudou muito. Agora vamos entrar no gráfico de instabilidade. Então, que trama de instabilidade? Os gráficos de dados incluem efeitos especiais com os gráficos de dispersão que podem ser representados Um especialista em efeitos com os quais os gráficos de dispersão podem ser representados. Então, ele adicionará o efeito especial ao gráfico de dispersão. O detalhe nada mais é do que um valor aleatório atribuído aos pontos para separá-los. Ok? Assim, você pode ver se seu conjunto de dados contém os valores duplicados e, ao traçar o gráfico de dispersão, os pontos se sobreporão Então, nesses casos, se você quiser saber quais são os pontos duplicados, você pode usar essa função instável para destacar os pontos que têm as Ok? jitter nada mais é do que um valor aleatório que atribuímos aos pontos para Ok? Então, agora a função de plotagem GG, estética do nome do conjunto de dados, o sublinhado geom, tremulação e a largura darão 0,2, altura fornecerá zero alfa 0,7 e todas as outras coisas são quase iguais e sua equipe usará preto e branco Ok? Então, vamos executar isso. Veja aqui. Agora, os pontos foram separados. Ok? Então esse é o terceiro enredo. Então, modificamos o eixo x, uma espécie, e escrevemos o acesso para mapear o comprimento da pétala e o retorno do genoma de um ponto instável para o gráfico O argumento da largura. Controle a largura dos argumentos de tremulação e altura e a altura da altura definida como zero Essa coisa regional, o dinheiro vertical instável. E eu vou controlar a transparência, como acontece com esse culto e todos os outros que já discutimos Ok? Então, é assim que podemos criar um gráfico de dispersão normal e podemos usar um jittered para criar um 99. Lote de barras e Hostogram: Olá e bem-vindo de volta. Então, nesta palestra, aprenderemos sobre mais duas tramas importantes As coisas são como um gráfico de barras e depois veremos o histograma Portanto, essas são duas técnicas de roteamento importantes , tipos de gráficos Então, deixe-me primeiro dizer o que é barplot. gráfico de barras também é conhecido como gráfico e também é conhecido como gráfico de colunas porque não é uma coluna Ok? E é um tipo de visualização que representa dados categóricos Você faz uma barra retangular. Cada barra corresponde a uma categoria específica. E a altura ou o comprimento da barra representam a frequência, contagem ou proporção dessa categoria. Os gráficos de barras são comumente usados para comparar diferentes categorias ou mostrar concretamente como a Arábia Saudita exibiu esses dados de grupo Portanto, um gráfico de barras é usado basicamente para os dados categóricos Ok, então deixe-me dizer como podemos fazer esse pacote de plotagem GD que usaremos Nós já o instalamos. Se você não tiver instalado, instale-o usando install.packages. E então não funcionou. E então tem sido uma enorme biblioteca de TI, ggplot2. E nós simplesmente executaremos isso. Desculpe. Ok, então, para este exercício, vamos usar o conjunto de dados de diamantes Ok? Portanto, este é um conjunto de dados embutido no gráfico GG para carregar dados. Para carregar esses dados nesse conjunto de dados, precisamos usar dados e, em seguida, o nome do conjunto de dados, ou seja, diamantes Então, ao clicar nesse conjunto de dados de diamantes, você pode ver a cenoura do diamante e depois cortar, depois cor, clareza, profundidade, preço de tabela, x, y, z. Essas são as colunas no conjunto de dados. Essas são as colunas no Existem 53.009.40 entradas neste conjunto de dados e um total de dez Então esse é um grande Deus, ele faz isso. E agora o segundo passo é criar um gráfico de barras, desenhar. Então, para criar um gráfico de barras, usaremos apenas a função de gráfico GG e aqui daremos a eles, qual é o nome do conjunto de dados ao diamante e, em seguida, o x estético é igual ao corte Você pode ver aqui que a coluna é a coluna no eixo x. E então o genoma e a função Escobar serão usados para criar um gráfico de barras Então, vamos executar isso e ver o resultado. Agora você pode ver aqui no eixo x a fita lá em cima, e no eixo y, automaticamente a contagem de números desse corte virá aqui Tão justo, bom, muito bom. Tipo de produto premium e ideal disponível em nosso conjunto de dados. Você pode ver aqui no conjunto de dados, mas ideal premium, bom prêmio, muito Feira Mundial, muito bom Premium ideal. Eu não gostei disso. Ok, agora podemos ver que nosso gráfico de barras está pronto. Então, para criar um gráfico de barras, lidaremos com essa função Genome Atlas Group, barra no gráfico GG e estética, religião x é igual a corte, religião x é igual a corte, então ele usará o Usamos o gráfico GG do objeto de gráfico GG do controle deslizante de imagem central e especificamos Não tem esses diamantes. E função estética. Inside GG plot definiu o mapeamento estético com mapa intestinal para o eixo x e a barra de sublinhado geom funciona como barras para o gráfico, criando o gráfico de barras o mapeamento estético com mapa intestinal para o eixo x e a barra de sublinhado geom funciona como barras para o gráfico, criando o gráfico de barras. Ok, a próxima coisa é que podemos personalizar esse gráfico de barras ou gráfico de barras usando a função barra geométrica interna podemos passar os quatro diesel iguais ao enchimento, para que ele seja reabastecido E aqui x é igual a cortar e o preenchimento será preenchido com a clareza. Então, usaremos o eixo x para traçar o tipo de corte de Deus e encheremos a garrafa com a clareza. Então, quanto mais clareza, ela removerá amigos ou cores. Ok? E então geom underscore bar para dissidência. E depois laboratórios. Isso dará o título de todo o gráfico de barras, gráfico barras de frequência de corte de diamante e eixo x, daremos o nome de corte e, para o eixo y, forneceremos proporção E então, equipe, você perde o mínimo. Ok, então vamos executar isso. Agora você pode ver aqui que está cheio de clareza de pato. A clareza é assim. A clareza foi dada com cores escuras, amarelo, verde, verde claro, azul, azul. Ok. Assim, adicionamos um argumento de clareza de campo dentro da função estética para preencher as barras feitas com a clareza do diamante. O pobre, decente e prolongado, entrou na barra geométrica, apertou a parte inferior, facilitando a comparação das proporções Então esse é um acima, que é o enorme fora do campo. Ok. Você está enviando pessoas para preencher. E então os laboratórios funcionam. Adicionaremos o título do gráfico de barras e os níveis de acesso e, no mínimo, criaremos uma equipe minimalista sombria para o Agora vem o histograma. Portanto, o histograma é uma representação gráfica da distribuição de dados numéricos contínuos Agora, vimos o gráfico de barras com cada um para os dados categóricos. E o histograma é para dados contínuos ou numéricos. Consiste em barras Topsy Regia, em que cada barra representa um intervalo específico ou um conjunto de valores . E a altura da barra indica a frequência ou a contagem dos pontos de dados de Pauling que estão dentro dessa faixa histograma fornece uma visão sobre a tendência central e distribui os dados, alinhando a análise visual da Então, tudo isso tem a ver com histograma. Vamos criar um. Para criar um histograma, usaremos o gráfico GG a partir do pecado e dos diamantes do conjunto de dados Estética x é igual ao preço. Então, no eixo X, traçaremos o preço e seguida, sublinharemos a função de histograma geom Dentro do lote GG. O histograma. O histograma da largura do compartimento fornecerá 500 e, em seguida, os laboratórios para fornecer os rótulos e a barra de título, a barra, nosso título mais longe, mas infelizmente o E então a equipe usará preto e branco. Ok, então vamos executar isso. Esse é o histograma. Você pode ver o preço no eixo x e a frequência aqui, preços extras de diamantes brutos. Então, aqui modificamos o eixo x por esse preço. E Yom sublinha a função de histograma, adicione o lote ao sangue criando o histograma sem ferimento, controle os compartimentos de dados de largura no Então, se colocarmos isso como 100, vamos ver as mudanças. A largura está sendo reduzida. Se eu fizer um Tao Qian , o vermelho aumentará Então relatou 400. Ok. É assim que criamos um gráfico de barras e elevadores de histograma para entender um pouco mais sobre gráficos de barras As principais diferenças entre os gráficos de barras e os histogramas serão compreendidas em termos de sangue que comprei, posicionamento, modelo, apresentação e Portanto, em termos de tipo de dados, gráficos de barras são adequados para dados categóricos, em que cada barra representa a categoria ou o grupo, enquanto os histogramas são aprovados os gráficos de barras são adequados para dados categóricos, em que cada barra representa a categoria ou o grupo, enquanto os histogramas são aprovados para dados numéricos contínuos. Portanto, essa já é uma diferença fundamental porque o tipo de dados, os gráficos de barras do tipo de dados para dados categóricos e para dados numéricos ou dados numéricos contínuos, podemos usar o histograma. As barras do histograma representam esses intervalos ou intervalos de Já na barra, no gráfico, barra representa a categoria ou o grupo. Em termos de posicionamento de barras no gráfico de barras, as barras normalmente são baseadas uniformemente ao longo do eixo x, com uma lacuna entre cada barra para representar categorias diferentes No histograma, as barras que são distintas adolescente e se tocam , pois representam intervalos contínuos ou intervalos de valores Beta ao longo do Então, essa é outra diferença muito clara. Se você puder ver a barra, os gráficos, as barras que estão ao longo do eixo x e há uma lacuna entre cada barra e que representam categorias diferentes Ok, e ele gerenciava programas, índices traçados em dados contínuos, dados numéricos Não haverá espaço entre as barras e elas ficarão adjacentes uma à outra. Como os outros intervalos brilhantes e contínuos em depósitos de representação de dados em um gráfico de barras, a altura ou o comprimento de cada barra representam específica proporcional do contador de frequência Enquanto estiver no histograma, a altura de cada barra indica que a frequência ou a contagem Os pontos de dados que estão dentro do intervalo específico estão verdes Então, isso fala sobre histograma, fala sobre o número de contagens que estão caindo em um determinado intervalo Já o gráfico de barras fala sobre o número de contagens em uma categoria específica E a grande suposição, que está muito clara agora, de que gráficos de barras são comumente usados para comparar diferentes categorias, exibir dados concretos, discretos, desculpe, exibir dados discretos ou ilustrar a relação entre variáveis categóricas e variáveis categóricas Já os histogramas são frequentemente usados para visualizar a distribuição ou identificar padrões, tendência central e disseminação de dados numéricos contínuos Então, essas são as principais diferenças entre o gráfico de barras e um histograma Espero que isso o ajude a entender e você saiba que devemos usar o gráfico de barras e onde usar o histograma 100. Gráfico de pizza com ggplot2: Olá e bem-vindo. Então, nesta palestra, vamos fazer algo incomum, que não fazemos Gg ploy demais, isso seria muito interessante de fazer Então, o que vou fazer aqui, vou criar um gráfico circular usando o gráfico GG E antes de fazer isso, deixe-me contar. Gg plot two foi projetado principalmente para criar gráficos em camadas e gramática de gráficos. Os gráficos baseados em bits não têm uma geometria embutida Portanto, o gráfico GG não suporta bicarbonato. No entanto, ainda podemos criar um gráfico circular usando o gráfico g, g dois manipulando os dados e utilizando outros Então, vamos ver o exemplo. Então, primeiro passo, carregue os pacotes e crie uma amostra de dados. Então, aqui vamos usar o download bloqueado que não fizemos. E então usamos a biblioteca. Você planejou dois? E então criamos uma amostra de dados. Para isso, usaremos a categoria data.frame e as categorias ReLU ABCD e o valor é esse vetor C, 13º, 20º, 20, sendo Ok, então vamos computar os dados da amostra. Isso é um dado categórico, ok? Agora pise brinquedos e manipule os dados para criar um gráfico circular Então, aqui, o que faremos, calcularemos a proporção para cada categoria. Então, dados, quando você cria uma variável que dialoga em amarelo e depois transforma os dados. E os dados passarão para a transformação novamente, calcularemos a proporção ok, valor dividido pela soma. Bem, ok, então vamos fazer isso. E agora você pode ver aqui que os dados são assim. Agora, proposta de valor da categoria, criamos uma proporção, criamos uma proporção adequada Nós criamos, ok? Agora, classifique os dados em ordem decrescente , aumentando as proporções deles. Então, para isso, usaremos a ordem dos dados, os dados. O lucro em dólares será. Queremos classificar pelo suporte do YouTube porque esses são os únicos dados numéricos. Então, para esse fim, diminua o valor verdadeiro. Ok? Estará na ordem decrescente. Então, vamos fazer isso. Agora, se olharmos os dados, tudo bem, essa é uma nova ordem. Agora, o terceiro passo é criar o gráfico circular, gráfico de barras empilhadas Ok? Então, GG traça dois, depois passaremos os dados Então, estética, usaremos x, não usaremos nada. Por quê? Vamos usar adereços e preencher a categoria, ok? Por categoria. E então a barra geométrica, função humana de Escobar, dará que a estatística é igual à identidade e a largura dará Então, qual polar dará Y começando em zero. E então você tem que realmente manter esse título. Meu gráfico e preencha com a categoria. A equipe usará o tema em todo o sublinhado. Então, vamos ver. Você sabe, temos um gráfico de barras mostrando a categoria e esses são os leads. Esse gráfico circular, o gráfico circular é isso. Eles são desenhados com a ajuda da proporção que criamos. Ok? Então, deixe-me explicar um pouco mais para que isso aconteça, eu lhe darei mais clareza. Então, nessa abordagem, uma semana e transforme o gráfico circular em um gráfico de barras empilhadas Ao manipular os dados, calculamos a proporção dividindo cada valor pela soma de todos os A função da barra de sublinhado geom com as estatísticas é igual à identidade Crie as barras empilhadas com o, com a maior proporção de produto correspondente Ok? E então o quadrilátero sublinhou a função polar. função What it will do converte o gráfico de barras em uma forma circular para imitar o gráfico circular Ok, e então os laboratórios fornecerão as fontes das palavras de sublinhado do título e da legenda e do tema e removerão o fundo desnecessário e humano, proporcionando uma aparência limpa Então é assim que criamos um gráfico circular usando esses dois. E eu vou te dar um aviso aqui. Como eu disse anteriormente, o gráfico GG não é por gráfico circular não é suportado porque ele é feito no chão com gráficos Portanto, você deve observar que gráficos circulares geralmente não são recomendados para dados. Aprendemos um pouco devido à dificuldade em perceber com precisão as diferenças nos ângulos das áreas das fatias Ou que tipos de gráfico, como gráfico de barras ou gráficos de barras empilhadas, geralmente são mais eficazes para representar os dados verticais Portanto, sempre que existem dados categóricos, não podemos usar, embora não tenhamos usado o gráfico circular de ônibus Em vez disso, podemos usar os potes de bugs ou os gráficos de barras empilhadas Ok? Então, espero que isso agregue algum valor ao aprendizado deles. 101. Lotes de linha usando o ggplot2: Olá e bem-vindo de volta. Nesta palestra, vamos explorar como criar gráficos de linha usando o gráfico GG em Portanto, os gráficos de linha são úteis para visualizar tendências e padronizar dados contínuos, anexar dados de séries temporais contínuos E aprenderemos como criar gráficos de linhas básicos, plotar várias linhas no mesmo gráfico e personalizar a aparência das linhas Então, o que basicamente vamos aprender, aprenda sobre a linha Plots. Gráficos de linha, por que usamos, usamos para visualizar tendências e padrões em dados contínuos Gráficos de linha, não podemos nem mesmo pagar os dados categóricos. Podemos usá-lo ainda mais. Dados contínuos, dados numéricos ou o que é um intervalo contínuo O alcance também deve ser contínuo. E o melhor exemplo são os dados de séries temporais. E também aprenderemos como criar gráficos de linhas básicos. E também veremos, também veremos a criação de um gráfico básico de linhas. Como podemos traçar várias linhas no mesmo gráfico. E como podemos personalizar a aparência das luzes de polegar Há três linhas no mesmo gráfico, como podemos ir em linha reta , mas em algumas linhas, como cores ou gênero, agora, ok, então vamos começar. Então, a primeira coisa é criar um gráfico básico de linhas. Então, para criar gráficos de linha básicos, temos um conjunto de dados com duas variáveis contínuas Normalmente, eles apresentam saídas. Essa será a variável independente e o eixo y, que serão as variáveis dependentes Ok? Então, quais são as duas coisas de que precisamos? Precisamos desse conjunto de dados. Obviamente, precisamos de um conjunto de dados. E os conjuntos de dados teriam pelo menos duas variáveis contínuas E normalmente, o eixo x será a variável independente e eixo Y representará as variáveis dependentes Ok? Portanto, nosso conjunto de dados com duas variáveis contínuas, uma para gênero, dados independentes, valiosos e outra, será dependente Tão independente, brilhante no eixo y. Então, para isso, o que vou usar, vou criar um gráfico simples de uma linha que representará a curva senoidal Ok, até agora vamos dar um exemplo de líder que estou criando que dependesse do eixo x, definitivamente com a variável independente Então, aqui está o que vou fazer, vou explicar. Bem, vou criar com nossa sequência Fontan. E ele tinha a sequência, eu darei zero vírgula dois em pi e à esquerda ou filha, eu darei cem hóquei Então, isso criará a variável aleatória de poeira X, que vai estourar a sequência e depois Y, que é a variável dependente, que dependerá do eixo x. E como você não quer ir para o Canadá, mesma calçada, a função senoidal é você e a variável X aqui Então, para cada expiração, então, para cada Excel, será atribuída a curva, aquela álgebra e no Então, X, estou usando a função de sequência, e aqui estou passando a vírgula zero 2,2 pi e, alongada ou duvida, estou dando cem e esse valor X quando estou passando a função de dois Então isso levou ao pecado, Deus. E desta vez, seja o que for, ela virá com base no X. Então X é a variável independente e as variáveis dependentes porque, por que o valor agregado depende do X que estamos passando para a função seno Então, por que a variável dependente e X é uma variável independente? Então, desta forma, obteremos o X e o Y. Agora, a linha básica da biblioteca Plots ggplot2, então já a instalamos Então, deixe-me primeiro dar a você, execute esta linha, duas linhas para que Ok. Ok. Então, grite se tentarmos imprimir os valores X, então veja o valor X dos dados que temos na tentativa renal com a ajuda da função de sequência E se eu imprimir Y, então será o valor Y dependendo do valor X. Então, com a ajuda desse seno de X, obteremos o valor y, que é na próxima sexta-feira Bem, agora temos os E temos os pontos de referência Ok, então o próximo passo é usar a biblioteca GG plot two. E então, o que vou fazer, vou tentar configurar gráficos de linha Pode qualquer linha, sem falar na função de plotagem GG. Ambos os dados. Você vai para data.frame. E ele havia passado que as coordenadas X e Y são valores X e Y. Os anéis são a função estética. E saída igual a X e Y é igual a Y. E mais eu aqui vou usar o alil tentado para traçar uma linha, então vou usar a linha de sublinhado geom Então, deixe-me levar isso para C. C. , e agora estou recebendo a designação de golfe. Então, na combinação de cem do eixo x, agora, plotando as explorações e Y e Y. Dessa forma , obtemos mesma curva feita em X e Y. Então X é o independente credível e Y o dependente. Então X é o independente credível e Y o Para cada X, há um valor y. Portanto, essa é a mesma curva que estamos obtendo. A maneira como podemos simplesmente lotar gráficos de linha. Gráficos de linhas simples e básicos para transformar em cosseno, por exemplo. Então. Se quiser, você pode acessar a explicação mais uma vez. Portanto, data.frame X comma Y criará um DataFrame Então, as variáveis X e Y que criamos aqui usando a sequência de pulmões e a reabertura e os valores X e meu passageiro adiciona a função senoidal Temos os valores Y e X e Y. Nós me vimos adicionar água. E então usamos a biblioteca de peças DD e você não obteve Plot and Data is equal to data frame X vírgula Y. Isso criará um DataFrame com E então função estética, X é igual a XY. Basta fazer isso, o que isso vai fazer, esse mapeamento estético real Portanto, X macro o X e Y mapeia o eixo y. Em seguida, revise a função de linha de sublinhado geom para adicionar a linha aos gráficos Ok? Então, isso será feito de forma linear. Ok, então esta é a explicação para criar essa linha simples Plots UG, X e Y, aquela amostra que criamos posteriormente Agora veremos como podemos traçar várias linhas no mesmo bloco. Ok? Então, para esta palestra, tudo bem. Ok, agora podemos adicionar várias linhas ao gráfico fornecendo diferentes conjuntos de dados agrupando os dados usando a variável de agrupamento Agora, vamos traçar as curvas de seno e cosseno no mesmo Então, aqui vou traçar as curvas de seno e cosseno no mesmo Então X será a mesma função de sequência, mas a mesma função de sequência, doodle, eu não vou comprar um terreno naquela interrupção chamada 100 Portanto, o valor X será o mesmo aqui. Por que o seno e o branco crochetando essas duas variáveis, alquídicas aqui e aqui, vou passar Vou obter os valores do sinal de sublinhado Y. E o custo de sublinhado Y passará para a função de custo porque de X nos dará a forma como sublinhar os valores de custo. Ok? Dessa forma, vou fazer ciclos de tempo para cada X. Então, cada X pontos terá o seno de X e o valor X da mandioca Sudbury para X, temos duas pontuações de Y, seno e cosseno. E esses dois pontos, eu vou traçar no mesmo enredo. Portanto, para criar o gráfico de linhas com várias linhas, usará a função de gráfico GG E aqui você pode ver aqui o plano de reabilitação do GG. E temos, pelos dados, data.frame X vírgula Y porque ele tinha, por que era Então, mapeamos VX é igual a X e Y ao quadrado Y. Aqui, quando você plota a função GG. Aqui, quando você plota a E usaremos o operador plus aqui. E então usaremos a função de linha de sublinhado geom. E na função de linha, passaremos os dados. Moldura. Os dados são iguais a data.frame X vírgula Y. Aqui Y será o sinal de sublinhado Y Então aqui temos até X vírgula Y simplesmente porque apenas um caminho era o único Por que estava lá? Uma vez que existem dois valores y. Então aqui vai me dar X vírgula Y, X será o mesmo Então, a gama, por que a cada trimestre, por que sublinhar o sinal e seguida, a função estética passarão X é igual a X e Y é igual a Y. E presentes laterais, sinal E então, a mesma coisa que faremos com a pergunta por que. Portanto, dados são iguais a data.frame X será o leitor de X e Y. Por que os custos do endoscópio? E o X estético é chamado de reage OH, ou o porquê. E cor É chamada de recursão. Aqui daremos o título Curvas senoidais e cossenoidais do Azure. E X é igual a X maiúsculo e Y é igual à função de cor Y maiúsculo e Tim será o mínimo. Então, deixe-me fazer isso de novo e ver o exterior. Veja aqui agora que temos a curva seno e cosseno. Este é o temp1 aqui. E então temos as linhas seno e cosseno no enredo temático Te vejo, existem duas parcelas agora. Duas linhas. Uma representa a vergonha e a outra é brilhante na mesma Dessa forma, podemos traçar várias linhas no mesmo bloco. Então, vou repetir isso novamente. Agora, aqui está o que fizemos, criamos um X usando a sequência que já usamos. Ao criar o gráfico básico de linhas. Sequência e zero vírgula dois em pi e depois ponto, ponto cem E aqui por que ressalta? Porque vamos traçar as retas seno e cosseno no mesmo Então, eu preciso de dois pontos, Y pontos para explicar por que sublinhar o pecado será o seno do sublinhado X e Y. cosseno será Y custo do sublinhado será o custo de ZR Cosseno de X. Então, esses, esses, esses podem considerar esses três X vírgula Y assinada e X vírgula Y é igual. E agora eu preciso traçar esses pontos. Portanto, para o valor dos dados, a função de gráfico GG E aqui você se levantou transferindo o dataframe para a função de gráfico GG, o operador positivo E vou usar a função de linha de sublinhado geom. No entanto, os dados do consultor são iguais aos dados. O quadro X vírgula Y é igual ao sinal de vigília e aos valores estéticos A cera é igual a X, Y é igual a branca e colorida. No entanto, a cor alérgica é igual à mesma, ok? E a cor é igual ao nosso brilho. E aqui, a mesma coisa. Somente YOLO enfraquecerá Niceia. E então o título dará aos laboratórios a função de indicar a hora. E X é igual a X e Y é igual a pesar uma função de visão lateral e o mínimo E quando corremos, recebemos esse login ou saímos envergonhados quando a Então, eu já expliquei criamos dois conjuntos de dados separados para curva de seno e cosseno usando data.frame X vírgula Y, X vírgula Havaí, sinal havaí e X vírgula Y. Y é igual a X vírgula Y. Você pode fazer por que custa, ok que criamos dois conjuntos de dados separados para a curva de seno e cosseno usando data.frame X vírgula Y, X vírgula Havaí, sinal havaí e X vírgula Y. Y é igual a X vírgula Y. Você pode fazer por que custa, ok? E então cada uma é a camada da linha Yom. Aqui estamos basicamente criando duas camadas de camadas de linhas separadas. Ok? Assim, cada linha geom, função de linha de sublinhado geom criará uma camada correspondente a uma linha separada, Ok, um sinal de Park e outra Usamos a estética das cores para distingui-las. E então, a função de laboratório que usaremos, seremos usados para definir o título e o eixo dos níveis em excesso, ok? E a equipe ressalta a aparência geral mínima e minimalista da trama Em seguida, o que faremos, tentaremos personalizar as propriedades da linha. Agora podemos personalizar as várias propriedades das linhas, como cor, linha, tipo e tamanho. Então, aqui, os dados de amostra serão a mesma sequência de San Values e recriarão X where loop E então criaremos por que o sinal de sublinhado e o sublinhado Y custam usando as funções de seno e cosseno aqui e passando a saída extra ilusória para a independente, para onde, de qualquer forma, o sinal de sublinhado e a conexão sem fio irão usando as funções de seno e cosseno aqui e passando a saída extra ilusória para a independente, para onde, de qualquer forma, o sinal de sublinhado e a conexão sem fio irão. crochê será a variável dependente porque esses valores dependem do X. E aqui criaremos um gráfico de linhas Você adiciona Plot mais linha geom aqui, DataFrames, a mesma coisa que usamos anteriormente E aqui vamos usar cores. Ele vai sinalizar que um tipo de linha é chamado de sólido e tamanho aqui e dar 1,5. Então, digite linha sólida e diga isso, mas estou usando tamanho para determinar a espessura da linha. Ok? Então, estou deixando 1,5 aqui. E a mesma coisa quando uma lavagem branca. E então todo o resto será o mesmo. Título do laboratório. X é igual a XY é igual à cor I. Então, vamos te dar isso, executar isso, e agora estamos conseguindo. Isso é pontilhado e essa é aquela espessura. Ok. Juntos, concluímos o tipo de linha como Painel, que vem como uma linha tracejada E aqui temos o seu sólido, então ele está vindo como um suporte sólido. Eles farão com que seja 111,5. E se eu executar isso novamente. Então, vamos ver o que você vê aqui. Agora. A linha tracejada está chegando. Dessa forma. Podemos aumentar ou diminuir a espessura da linha. Ok, então espero que sim, espero que esta parte esteja clara sobre como criar um gráfico de linhas no gráfico GG para a próxima 102. Visualização de dados com o ggplot2: Olá e bem-vindo de volta. Na aula anterior, vimos como criar gráficos de linhas E também vimos como podemos traçar gráficos de várias linhas e como podemos personalizar os gráficos de linha Nesta palestra, vamos fazer mais alguns dados, gráfico GG para adicionar programação Então, o que é isso, vou aquecer nosso conjunto de dados, que terá nome, alguns nomes e sexo, masculino, feminino, e depois sua idade e a pontuação do teste A pontuação será repetida em 100 e, claro, tudo bem, então, com base nisso, tentamos visualizar esses dados, que incluem nome, idade, sexo e pontuação no teste E tentaremos visualizar esse conjunto de dados com a ajuda de gráficos de raio ou viver em um gráfico GG para, e tentaremos fazer personalizações nele, e tentaremos fazer personalizações nele esse conjunto de dados com a ajuda de gráficos de raio ou viver em um gráfico GG para, e tentaremos fazer personalizações nele, como gráficos realmente facetados. E tentaremos usar várias coisas nesses conjuntos de dados simples Então, estou usando um conjunto de dados simples para que cada um possa entender Antes disso, deixe-me esclarecer isso. Então, vamos começar a visualização de dados com ggplot2. E com esse conjunto de dados simples, tentaremos entender melhor o que aprendemos até agora na Guiné ggplot2 Portanto, isso obviamente carregará as bibliotecas necessárias, ou seja, o gráfico dois do GG Então, biblioteca e passaremos a biblioteca de nomes do bucket chamada GG plot A próxima coisa é dendritar o conjunto de dados de amostra que normalmente continuamos neste exercício continuamos Ok, então aqui vou usar o set seed um-two-three. E isso é para a reprodutibilidade. Reprodutibilidade da semente. Porque veja, vamos usar a amostra usando a função de amostra. E terá entre 18 e 25 anos. Ele se moverá de 18 a 25. Então esse será o gerador aleatório. Então, o que eu quero fazer sempre que quiser usar esse exemplo de dados, se eu usar set.seed, o fará, os dados não serão regenerados Será que, uma vez gerado para este exercício, realmente terá o mesmo significado. Portanto, ele reproduzirá os mesmos valores aleatórios de configuração. Ok, até agora. Então set.seed reproduzirá os mesmos valores mesmo que estejamos atingindo a função de amostra Caso contrário, se você não usar set.seed todas as vezes, ele criará novos valores aleatórios, novos valores Ok? Então, agora, primeiro usaremos set.seed e depois criaremos nossas variáveis students E aqui você usa data.frame. E aqui o quadro criará a variável de nome e armazenará esse vetor que conterá os nomes Alice, Bob, Charlie, David, Eva, rank, Frank, Grace, Hannah, Yan e Jack Ok. E então criaremos outro fator que armazenará o gênero e o gênero usará o vetor sim, masculino e feminino. Ok, e parte dez por dez, ok? Dez a dez e substitua verdadeiro. Em seguida, para Angel, use a amostra 18 a 25. E quantos eu quero, eu quero valores finais que acabei lendo para quantificar e pontuação do teste até 210 Discord, eu quero gerar usando a função de amostra Assim, obteremos os conjuntos de dados de amostra de dados. Então, deixe-me fazer isso. Então, agora temos o conjunto de dados de amostra criado. Ok? Então veja aqui agora, se imprimirmos o aluno, podemos ver seu nome, sexo e Tesco Então ele tinha o nome, nós demos nomes. E o gênero foi gerado aleatoriamente usando a função de amostra Ok? Pagamentos masculinos, femininos e masculinos na prática, certo Masculino, feminino, masculino, feminino. Portanto, o gerador aleatório de litros, os maridos de 18 a 25 anos atribuídos aleatoriamente a esses nomes e resultados dos testes também foram gerados de Dessa forma, podemos criar um conjunto de dados de amostra. Em seguida, o que eu, o que eu quero fazer, eu quero criar um gráfico de dispersão entre essa era e a Tesco Quero ver como a pontuação do teste está se desgastando com base no que cada uma delas eu quero traçar ou gráfico de dispersão que fornecerá a pontuação para a idade correspondente Então, para isso, o que eu estou confundindo é gráfico de dispersão, idade versus pontuação do teste Então, para isso alude, criarei um gráfico de dispersão variável. E aqui vou usar a função e passar o conjunto de dados do aluno aqui. Ok, estudantes. E então eu vou ter um enorme eixo x estético e X é igual aos eixos H Pontuação. E ponto de neodímio, vou usar a função de ponto geométrico para traçar os pontos nos E no seu laboratório, X é igual a is e por isso é chamado de r2. Pontuação. E o título da trama será o gráfico de dispersão, idade versus discórdia E então vou imprimir esse gráfico de dispersão usando a função rand para exibir aqui embaixo. Então, deixe-me mantê-lo aqui. E tudo bem. Então veja aqui, agora temos um gráfico de dispersão aqui, que está nas páginas 18 a 25, e o eixo y e destruindo a pontuação, a pontuação do teste Então, para 18, é algo em torno de 85. Então, para 18, se você estiver bem aqui. Que identidade aos quatro? Então veja aqui timidina ou em 400 e faça um gráfico. Dessa forma. Podemos traçar um gráfico de dispersão usando o ggplot2. Então, aqui, na camada estética, fornecemos os eixos X e Y, passamos na pontuação do teste. E usamos a função de ponto geométrico para traçar esses pontos no gráfico e sua função de laboratório, temos X é igual a H. E por que ela é chamada para testar a pontuação E mais apertado, gráfico de dispersão versus gráfico de dispersão, idade versus lenço Então, desta forma, podemos fazer um gráfico ou gráfico de dispersão. Ok, a próxima coisa é o que eu quero fazer. Quero a mesma explicação escrevi aqui e deixar os dados ficarem arquivados, você pode examiná-la. E se você quiser, vou explicar novamente. Então, aqui vamos começar carregando a biblioteca GG plot pull. Em seguida, criaremos o conjunto de dados de amostra usando data.frame que criamos aqui, data.frame e nome, idade, sexo e , sexo E então usaremos a função de gráfico GG para iniciar o lote e fornecer os dados Estudantes e estética. função estética X é igual à graduação da Tesco, que mapeia a variável para o eixo x. Portanto, o eixo x será mapeado no eixo x e a variável de pontuação será mapeada A função geom point é usada para adicionar pontos ao gráfico Esses pontos serão adicionados ao gráfico usando ponto geom, função de ponto geom sublinhado para cada ponto de dados para criar um E, finalmente, personalizamos os rótulos e título do gráfico usando a função labs. Então, aqui a função Lab será usada para personalizar os rótulos e o título do gráfico. E então usaremos a função de impressão. Henry, pause o gráfico de dispersão, o nome que atribuímos a esse gráfico, e o passaremos para a impressão e o gráfico de dispersão será impresso em Dessa forma, podemos criar cada um versus o conjunto de dados da amostra de pontuação que geramos A próxima coisa é que eu quero adicionar a faceta facetada a dispersão é qual é a pontuação do teste para cada gênero separadamente Ok, então esse será o primeiro bloco. Então, para isso, criarei um identificador de gráfico de primeira etapa variável, você adiciona Plot. E ele tinha um usuário. Mesmo DataFrame Conjunto de dados de estudantes. Estético, você seria X igual a X e Y igual a Tesco. E ele vai, já que eu quero muito fazer isso com base na pontuação do teste Cada versa, com base na pontuação de cada gênero separadamente. Então, aqui a cor é enorme. A cor vai para o gênero, modo que o gênero será especificado pela cor. E então geom point. Eu costumava traçar a função de pontos e laboratórios que costumávamos fornecer A seguir, a pontuação do teste e o título do Senhor. E aqui, use a função facet underscore wrap. E aqui vou embrulhar este. X1 de Mao estava na licitação. Você ainda usa o gênero quatro se eu subtrair, ok, então deixe-me executar isso e ver o resultado Ok? Agora estou pintando a tinta e veja aqui que temos o gráfico facetado, idade versus pontuação do teste por gênero Então o eixo x é, novamente, e o eixo y é o código de mortes Mas aqui, o plano de dispersão de nosso Senhor foi dividido em duas partes, feminina e masculina. Feminino ou feminino. O gênero feminino foi traçado aqui. E o para o sexo masculino foi traçado aqui. Portanto, é um corte claro. Podemos ver aquela mesa digital de alguns minutos ou feminina chamada Valores e em mim. Ok. É assim que podemos usar o gráfico de fester para usar para dados classificados por gênero Ok? E queremos saber o que dizer da explicação? Vou repetir isso novamente. Então, deixe-me descrevê-lo aqui. O que fizemos, como já fizemos antes. Usamos a função de gráfico GG para salvar o gráfico e fornecer os dados, dados dos alunos que criamos usando a função de amostra E depois a estética. As fontes estéticas e X são iguais a SY ao quadrado chamado score Temos sua agenda para mapear a variável de idade chamada agenda para mapear a variável de idade no eixo x. Tesco é valioso para o eixo y, e salve essa cor na velocidade do vento de acordo com o Portanto, a cor dos pontos será baseada na agenda. E há dois gêneros. Naturalmente, o marido bicolor usa vermelho e azul. Ok? Então, isso resultará em cores diferentes para estudantes do sexo masculino e feminino. Então, Cl para homens e mulheres nas diferentes cores foi usado. E isso é porque a gente tem uma cor enorme que se chama gênero, ok? O ponto geométrico dos anos de Sandy para criar o ponto de dispersão para cada ponto de dados que já vimos E personalizamos os níveis, o título e o enredo. Você não foi a última função que já conhecemos. Em seguida, o laboratório Facet Underscore. E aqui vamos ver que a disfunção de gênero criará painéis separados, facetas nesses dois painéis, masculino e feminino Você pode ver aqui que elas são chamadas de visitas. A faceta e o invólucro sublinhado criarão dois painéis separados que são definidos primeiro para Então, aqui passamos pelo gênero. Então, com base no gênero escalado, duas facetas são dois painéis para representar os pontos Ok? Isso significa que a parcela será dividida em duas subparcelas Ok? Se houver três gêneros, como masculino, feminino e neutro, ele será dividido em três partes, ok Subparcelas. Uma empresa Mileage to Runtime, outra estudante do sexo feminino E a função de impressão será usada para exibir o gráfico de dispersão na tela Ok, então esta é a explicação para criar um gráfico de dispersão e facilitar o bloqueio Em seguida, o que faremos, criaremos um gráfico de barras. E aqui usaremos gênero. O que queremos representar graficamente, queremos representar graficamente o gênero versus o código de teste usando o valor médio no resumo. Então, aqui vamos criar um gráfico de barras. E o bar Plot será criado com base nessas duas variáveis, gênero versus Tesco Vamos traçar um plano. E o que usaremos aqui, você usará o valor médio, o resumo. Então, vamos ver aqui alquilado onde quer que seja a barra e é E vou usar a função de plotagem GG como conjuntos de dados. estética X do aluno é igual à pontuação do teste de raiz quadrada em termos de gênero. E vou usar o operador plus. E aqui vou usar a barra de sublinhado geom para criar o gráfico de barras ou gráfico de barras E aqui, eu vou te dar que estática é igual a resumo. E a função será a função principal aqui e preencherá cada uma igual a estável. Então, ele será reconstruído com o azul de aço. E a função será feita no MDA, feita no valor médio ou médio de Alguém e a pilha será o resumo Então, resumindo, vou resumir pelos valores médios e rir: funcional, enorme, ecológico, eixo x, gênero e Y, X, X está realmente com uma pontuação média no teste na pontuação média do teste E o título estará com um gráfico de barras, gênero era a pontuação média do teste e o gráfico da barra de impressão. Então, deixe-me executar isso e ver o resultado que você vê. E agora temos bar Plot para homens e mulheres. E aqui no eixo y mostramos a pontuação média do teste, um homem e uma mulher Até agora, a pontuação média feminina nos testes é essa. Para mim? Eu sou apenas a pontuação do teste, é essa. Dessa forma, podemos criar a barra Plot. Então, aqui, se você ver a explicação semanalmente, nós lhe diremos. Então, usaremos a função de plotagem GG para iniciar o gráfico. Estética. X é igual ao sexo ou à pontuação do teste ao quadrado y, mapeie a variável de gênero para o eixo x e a variável de pontuação do teste para E a função Escobar é criar um gráfico de barras. E nos sentamos. Stat é chamado de resumo de dois e phon é igual a significa que duas funções principais serão calculadas e A pontuação de cada cúpula. média da pontuação deles será exibida e o campo que restringirá a cola será a cor do pelo no Barstow Azul, a cor das barras. E personalizamos os níveis usando a última função que já conhecemos. E então faremos a função de impressão para imprimir o gráfico na tela. O próximo passo é criar um boxplot. Gênero versus discurso, a mesma coisa. Então, aqui, o gráfico GG, a função, o ativo encalhado, estética X é igual ao gênero de distância na pontuação do teste do eixo y e é preenchido E usaremos a função geom underscore boxplot para criar o boxplot e a função latch será usada para dar o título da barra e a nomenclatura dos eixos x e y e simplesmente a imprimirá boxplot para criar o boxplot e a função latch será usada para dar o título da barra e a nomenclatura dos eixos x e y e simplesmente a imprimirá. Então, vamos executar isso. Agora temos um boxplot, gênero versus pontuação do teste O eixo x é o gênero e a pontuação do teste do eixo y. E este é o boxplot para homens e mulheres. Então você pode ver, ok. Então, com base nisso, você pode fazer uma análise adicional, ok? O que quer que você faça com eles, boxplot, primeiro quartil e todas essas coisas, você pode relaxar A mesma explicação: Górgias, gráfico DG para iniciar a estética do gráfico para mapear os ventos e a jovem função boxplot usada para criar o boxplot E personalizamos usando a última função de impressão. Ok? E aqui você pode ver as duas caixas, uma para cada sexo, masculina e feminina. As caixas Entropy na faixa interquartil que eu já A linha dentro da caixa representando a média, o valor mediano e os bigodes externos aos valores mínimo e máximo dentro de um quartil do FY15, intervalo interquartil interquartil E ressalta que os bigodes são considerados último ponto fora desse risco porque quando gritamos menos, essas são as análises que você pode fazer para encontrar valores discrepantes e, se estiverem, esse conjunto de dados não é Lá. Esse conjunto de dados não é suficiente para analisar a classe de cães. E tudo. Este é o conjunto de dados de amostra que criamos apenas criando os diferentes gráficos Ok, então a próxima coisa que faremos é criar um histograma E aqui usaremos a distribuição etária dos estudantes. Aqui. Vou usar o histograma Vou criar um histograma onde eles funcionarão no gráfico Year GG Vou usar o mesmo conjunto de dados e ainda assim, uma saída estética igual a H, além de usar a função geom histogram geom underscore Hostogram geom E aqui, binwidth, eu darei um. Vou preencher com esta tabela, a cor para branco, a cor para branco, e vou usar a função esquerda para dar o nome do gráfico e dos eixos X e Y e, em seguida, simplesmente imprimir o Aqui, este é o histograma. Nós os criamos dizendo, ok, então este é o histograma para a distribuição etária dos alunos Ok. Vou rapidamente retomar a explicação. Então, aqui, novamente, temos aqui a função de gráfico GG para salvar o gráfico e, em seguida, o painel e os dados de deformação para o gráfico GG E usaremos a função estética e a idade porque vamos desfazer a distribuição etária dos alunos usando o histograma Portanto, X é igual a H e mapeie a história valiosa para o eixo x. Geom sublinha os valores da função do histograma para criar o histograma quando cada barra representa a frequência, conte até a faixa etária específica conte até Então, aqui, o que estou tentando dizer é que cada barra representa a frequência de aluguel de peixes em uma faixa etária específica. Ok? Então, nessa frequência da tensão de 20 a frequência disso vai alugar quantas fitas existem que você pode ver? Você vê aqui problemas para a idade. Aos 24 anos, não há estudantes, então não mostrou nenhuma barreira. E o branco usando argumentos coloridos, uma barra que é branca, a lacuna entre esses brancos, então esse peso colateral não pode vê-la delineada, não vê-la delineada, Em seguida, personalize usando a função esquerda. E a impressora que usa a função de impressão é um eixo x. E o presidente, as diferentes faixas etárias e, por acidente, marcas que não frequentam, mas eu pesquei aluguel em cada grupo Então, o que é 181 concorrer para 20, há estudantes, então eu sou crítico ou para o conjunto de dados CF1 18, apenas um é E para 2.012,3 fios, tudo bem. Se você olhar aqui, para 23 estudantes, o que são 25? Isso é Nostradamus. Então, quando olhamos para os dados, a Parte D está totalmente bem com eles depois de 24 anos, depois Nostradamus Ok? Então, dessa forma, podemos criar várias licenças médias líquidas usando o gráfico GG 103. Adicione estética de cores: Olá e bem-vindo de volta. Na palestra anterior, vimos como podemos obter vários gráficos usando ggplot2 em nossa reabilitação manual, criando esse conjunto de dados simples que contém nome, gênero e discórdia vimos como podemos obter vários gráficos usando ggplot2 em nossa reabilitação manual, criando esse conjunto de dados simples que contém nome, gênero e discórdia. E com isso, vimos como podemos traçar um gráfico de dispersão, que representará cada palavra, diz Tesco E então vimos como podemos usar fontes geom point e como podemos usar a função labs. E vimos todas as explicações. Vimos como podemos criar um enredo facetado que o fará. Portanto, os logins são duas partes, como idade e pontuação do teste. Com base no gênero. Será classificado de acordo com o gênero. Também acontecerá nas duas partes, masculina e feminina. Ok? Então, todas essas coisas que vimos assim, não seriam tão rápidas entre homens e mulheres. Então, nesse fascinante lote de enredo, também um gráfico de dispersão, vimos como podemos fazer isso Então, vimos como colocar a barra Plot. E entre idade e sexo e discórdia. Discord que também vimos. E então vimos como podemos colocar seu chefe, mesquita, lote, boxplot e entre gênero e código de teste e, como podemos, também vimos a explicação de como podemos analisar os valores discrepantes, mas na faixa interquartil e em todas essas Portanto, nem tudo é distinto, então vimos o histograma. Muitas outras coisas que você pode fazer com base em suas necessidades. A seguir, o que vou contar sobre adicionar estética aos enredos Então, deixe-me supor que você assistiu, nós criamos esse gráfico, gráfico de dispersão aqui Então, quando vemos o gráfico de dispersão, esse é o gráfico de dispersão como Ok? Agora, o que eu quero fazer adicionar cor mais tarde na agenda desta trama. Então, a mesma coisa acontecerá com a biblioteca U-Dub e adicionará ggplot2. E aqui está o motivo pelo qual eu queria modificar essa estética desse Porque, olhando para eles, não sei qual é esse ponto masculino ou feminino. Feito nele. Fizemos em cada mesa de agente, poderíamos ter planejado, mas não sabemos, sou eu Essa pontuação é masculina ou feminina. Ok. Eu quero colocar os pontos em uma cor para que possamos ver o gráfico. Eu posso saber que, ok, esse ser pertence à mulher e o azul é para mim. Então, esse tipo de coisa que podemos fazer com a mudança estética adicionando a cor. Então, o que vamos fazer é adicionar estética de cores aos gráficos para diferenciar entre estudantes do sexo masculino Ok, então aqui está o mesmo exemplo de configuração que os dados criarão. Então, primeiro precisamos executar a biblioteca e depois fui esse conjunto de dados que já criamos. E então criaremos um vetor aqui que conterá o macho, atribuirá uma cor azul para a memória atribuirá a cor rosa E esse reitor atribuirá à variável de cor. Ok, então agora, na mesma semana, o que criamos aqui, gráfico de dispersão, da mesma forma ficará escuro O gráfico de dispersão aqui fornecerá uma variável chamada gráfico de dispersão para você a função de gráfico GG Nós passaremos o conjunto de dados como estudantes. Este que criamos, então usaremos a função estética. No entanto, X é igual a H e Y é igual à pontuação do teste será a mesma. A única coisa é que vamos atribuir outro parâmetro aqui, colorir cada chamada de acordo com o gênero Então, vamos atribuir a cor com base na agenda. E essa cor virá desse vetor de cores aqui que criamos. E então usaremos o ponto de sublinhado geom para traçar o ponto no E então usaremos a cor do sublinhado da escala na segunda Portanto, essa função será usada para colorir os pontos apresentados na agenda Portanto, a cor vai para o gênero. E aqui estamos passando, essas fontes e a escala de cores sublinham a cor sublinham o manual Os valores são iguais à cor Os valores são iguais à Portanto, esse valor virá desse vetor. Masculino e feminino. O macho será azul e verde. Quando estamos fazendo um loop A partir daqui, ele escolherá a cor e será plotada e funcionará em laboratório Agora já sabemos. Então, deixe-me fazer isso e ver aqui. Agora temos o gráfico de dispersão que criamos. Agora vamos simplesmente imprimir no gráfico de dispersão aqui. Agora, o gráfico de dispersão tem rosa e azul. Os pontos que estavam anteriormente em Leap black. Está sendo mostrado em azul e rosa. Os ventos cor-de-rosa pertenciam às fêmeas e os azuis aos machos Dessa forma, podemos personalizar o gráfico de dispersão adicionando estética de cores Então, deixe-me explicar isso novamente. Criamos esse conjunto de dados de amostra. As pessoas que têm esse conjunto de dados de desconto na tabela são o nome, sexo, idade e pontuação do teste de Eric sexo, idade e pontuação do teste de E aqui queremos adicionar uma estética de cores. Então, criamos nossa cor, vetorizamos, onde atribuímos um azul às cores masculina e feminina. Nesta cor, tocamos as barras na escala, sublinhado, função manual de sublinhado Essa função fornecerá valores desse vetor de cores. E, na verdade, ele atribuirá com base na agenda, pois se atribuir a pois se atribuir cor azul e se for NDA livre em miliequivalentes, eu acho, ok, então traçamos Coisa semelhante que podemos fazer com a barra Plot, boxplot e histogram Então, vamos fazer isso também. Então, aqui estou criando um valioso botão de barra, faz gráfico de dispersão, função de gráfico GG, estou usando estética X para estudantes do Dataset é igual ao gênero Por que é chamado de pontuação. E vou preencher com gênero. E então eu vou usar a barra de sublinhado geom, Plot, clique em Stat Summary e, e plotar com o resumo com o valor médio E então eu vou usar a escala, escala de sublinhado, manual de sublinhado Então, aqui temos a escala da cor do sublinhado, e isso é chamado de manual para a barra Plot Manual de habilidade, sublinhado, sublinhado. E passaremos o valor agregado da cor. E então o laboratório que Swanson pegará as sebes. Então, deixe-me fazer isso. E agora vou imprimir a barra Plot. Veja aqui agora, a fêmea está conspirada. Boxplot, PMM em caixas trazem e caixas de correio. Correio azul. Dessa forma, podemos colorir a estética. Bach, bar de praia Plot, desculpe. Em seguida, boxplot. Usarei o mesmo conjunto de dados estético X é igual ao gênero, por isso é chamado de mesa ou gênero feminino. E então barra geométrica, caixa de sublinhado geom para traçar os pontos e, em seguida, escalar sublinhado, manual de sublinhado e seus valores quando colorimos e Por que Deus ama o gráfico ? Os testes de resistência ao gênero do boxplot E vamos executar isso. E então um boxplot aleatório. O enredo da caixa O boxplot também tem as cores rosa ou feminino e azul para a refeição Ok. A próxima coisa é fazer com o histograma. Portanto, a mesma função de plotagem GG dos alunos estética X do conjunto de dados X é igual ao campo H. É chamado de agenda e, em seguida, histograma de sublinhado geom E ele deu a largura de banda um homem em cada chamada para um e colorirá cada cor para branco E depois escale. Escale o campo de sublinhado e seu comando. Vamos passar os valores como as cores. Então, esse branco será a cor da borda, e isso será feito. Cores do histograma com base no gênero. Ok? E a última função é o histograma de Israel e a distribuição dos alunos. Isso e, em seguida, imprima o histograma. O histograma é que eu não tenho. A cor rosa e azul e a cor da borda escura são brancas. As linhas adjacentes são brancas. Se você quiser fazer com que seja verde. Vamos executar esse programa. O Nauta, mais ou menos grau. Ok? Portanto, essa cor é para o limite e esse valor para as cores que estamos escolhendo desse vetor de coluna que criamos sendo feminina e crescendo formil, você pode dar qualquer cor que quiser para dar vazão à sua Ok? Dessa forma, podemos adicionar a estética aos gráficos em ggplot2 Então, espero ter explicado claramente. E você pode andar sobre isso. Você pode começar a brincar com os dados da função de raio. Você pode cavar outro conjunto de dados e começar a explorar as coisas e começar a expandir, explodir as coisas e começar a experimentar coisas A cor diferente, a estética diferente. Ok, então nos vemos na próxima palestra. 104. Estética de sintonia fina: Olá e bem-vindo de volta. Então, na palestra anterior, vimos como podemos adicionar estética de cores Vimos como podemos adicionar cores aos gráficos, gráfico de dispersão, barra, gráfico, gráfico caixa e armazená-los Agora, o que eu tento é ajustar os gráficos usando funções de escala e escala Então, ajuste fino do que está bem também. As descobertas realmente tentam tornar um pouco mais atraente, tudo bem, ajustar o gráfico, a estética e o ggplot2, podemos usar a função estética, a função aes para mapear variáveis para a estética e a função variáveis A escala de sublinhado começou com, há várias funções abaixo dela. Assim, podemos usar as funções de habilidade para personalizar a aparência dos elementos do gráfico de raio Simplicidade, eles podem aprimorar a estética, podem escalar funções para ajustar a estética do gráfico Então, por último, vamos carregar a biblioteca. Em seguida, criaremos o mesmo conjunto de dados de amostra que criamos nas aulas anteriores E então faremos o ajuste fino de um gráfico de dispersão. Então, a mesma coisa que faremos, idade versus pontuação no teste. A mesma coisa. Aqui. Vamos ajustar o lote usando funções estéticas e de habilidade. O valioso gráfico de dispersão a função de plotagem usará passará o conjunto de dados Então, a função estética quando X é igual a H de Y é igual à pontuação do teste e à cor feita no gênero do gel. E aqui usaremos outro parâmetro chamado Salvar. E economize. O que podemos associar à Save decidirá com base no gênero. E aqui, usaremos função de ponto geométrico para traçar os pontos Mas aqui os lados do ponto realmente especificam. Então, anteriormente, não especificamos nenhum tamanho de ponto, aqui especificaremos três. Então, geom aponta lados iguais a três. Esse parâmetro passará. E então usaremos a escala sublinhado, sublinhado E ele tinha valores para a cor que daria C. Rector aqui azul e rosa E então, para o CEP, também usará sublinhados. Manuel sublinhado aqui fornecerá os valores. Tem 16, 17. Então, isso criará várias dicas seguras que você pode criar e, em seguida, usaremos a função de laboratório. E deixe-me executar isso de forma simples. Quando eu executar isso, o gráfico de dispersão será criado. Vamos trazer o gráfico de dispersão. Então agora você pode ver aqui, agora o gráfico de dispersão que o criará, mas veja que o tema dos pontos para homens e mulheres é indiferente Veja que os pontos são um pouco maiores porque não especificamos o tamanho igual a três. Se eu fizer tartan, o que acontecerá? Vamos ver. O tamanho aumentará e ele se moverá, imprima novamente. Agora, o tamanho dos pontos é maior porque temos um tamanho especificado igual a 13. E a cor que demos aqui, azul e rosa. Então, cores azul e rosa, parte azulada, feminina e masculina Nós demos rosa. Então aqui está. Appoggiatura Agora podemos corrigir simplesmente. Ok. Portanto, isso não é preciso ou , na verdade, é para que você possa calcular a letra C. Agora os pontos são maiores. Então, com base neste lado é igual a 30 e a cor vem daqui e veja se está vindo dessa pilha Sejam quais forem os valores que estamos transmitindo aqui. Se eu fizer 117, vamos ver. Você pode simplesmente brincar com os números e ver agora esse mesmo. Então é só um círculo. E se eu colocar uma letra como suporte da equipe do processo de recozimento, colocarei 88 E vamos ver qual é o segredo que está escondendo agora. Observe que está vindo assim. Então, com base nessas coisas, você pode ver, se eu colocar 18, quais seriam os mesmos dados também, você pode ver que me deixa copiar isso. Dividir. Isso, por favor, veja, e agora está entrando nessa fita laminada e isso é um triângulo Se eu conseguir. Isso também com o que virá da mesma forma, digamos, se eu fizer 28, 28 não é nada parecido com isso. Nós podemos fazer isso direito. Ok. Então, com base nos números do cofre, mudará. Então, é assim que podemos ajustar os gráficos. Em seguida, ajustaremos a barra Plot. No entanto, a pontuação do teste de gênero inverso geralmente significa o valor médio do resumo. Vamos traçar o que já traçamos aqui. O mesmo conjunto de dados. Estética do aluno, gênero, por que pontuação do teste e preenchimento por gênero. E então geom sublinha a função Bar. função Geom Underscore Bar iniciará o resumo e o telefone será sensível à média e à escala do O manual do sublinhado verá azul e rosa. E isso é simples, será só isso e colará aqui. Da mesma forma, podemos fazer a mesma coisa com o boxplot. Isso para boxplot. Ok? Então, CEO, agora, uma linha de pontos está chegando aqui para que tenhamos um biggênero fluido de gênero não binário E aqui. Da mesma forma, podemos fazer esse histograma. É assim que podemos ajustar os gráficos usando funções estéticas e de escala Os alunos gostam da próxima palestra 105. Modifique temas, rótulos, títulos e machados usando a função tema: Olá e bem-vindo de volta. Nesta palestra, vamos modificar temas, rótulos, títulos e eixos usando a função do tema para modificar temas, rótulos, títulos No gráfico 2 do GG, podemos usar a função do tema junto com vários elementos do tema para personalizar a aparência de nossos gráficos Então, vamos começar com um exemplo e ver como podemos usar a função do tema para modificar temas, rótulos, títulos e eixos. Então, uma coisa muito rápida é que vamos carregar a biblioteca como está relativamente plotada. O próximo passo é criar esse conjunto de dados de amostra que já fizemos Então, deixe-me executar isso por enquanto. Agora, a próxima coisa é modificar temas, rótulos, títulos, grande coisa, Banza Então, para recriarmos o barplot. Então, primeiro criaremos o gráfico de dispersão entre idade e código extra que já fizemos Mas aqui vamos tentar modificar os níveis, títulos e eixos do tema usando a função do tema Portanto, o jejum é bom se as variáveis forem representadas como de costume, então usaremos a função de gráfico GG Vamos passar o conjunto de dados e, em seguida, usaremos a função estética E aqui, X igual a H, Y será a pontuação do teste Cor mencionada na agenda e, digamos, construir na agenda. Então, já fizemos isso. A próxima coisa é a função geom underscore point Sij igual Isso representará graficamente os pontos do lote. O tamanho será dimensionado, os lados do ponto serão três. Então, aqui usaremos as funções escaled underscore color e DashCon E aqui forneceremos os valores para as cores azul e rosa e seguros para a amostra. Os vetores 16, 17, para as cores azul e rosa e seguros para a amostra. Os vetores 16, 17, que já vimos no slide anterior, na aula anterior, como as formas dos pontos ou pontos mudarão com base nos valores que passamos Ok? Então, a próxima coisa é laboratório que Swanson usará para dar o título do gráfico e o nome dos eixos x e y. E então usamos o tema Underscore Minimal Function. E então essa é a principal coisa que vamos aprender nesta palestra. Esse é o tema Function. Então, dentro do tema Função, o que muito perderemos, o título do ponto, daremos. E aqui o elemento sublinha X, seja, essa função será usada para fornecer os lados do título Ok? Escolha lados do título. Como se um gráfico de dispersão com a idade fosse um Tesco. Esse título virá dos gráficos cujo tamanho de texto podemos alterar a partir daqui usando o elemento imposto de sublinhado e o parâmetro de tamanho que faremos E então vamos dizer que a face é igual a negrito. Aqui podemos mudar o estilo da fonte. estilo de fonte que podemos mudar se você não enfrentou, se você chamar dois volts de itálico como quiser e agir apenas fornecerá 0,5 e existe ponto para o título do eixo x e y, usaremos lados do texto sublinhado do elemento fornecerão o que você quiser ouvir. Estou dando 12 E depois face bowl. E então, para acesso, os textos fornecerão o elemento sublinhado função sexual e o tamanho fornecerá dez E, em seguida, legenda, título do ponto, usaremos o elemento. E isso é chamado de função em branco. E textos do LoginData. Usaremos o elemento abaixo de certos textos e os lados fornecerão dez e a posição da legenda aparecerá na parte inferior. Então, vamos dar o fundo aqui. Então, vamos executar esse gráfico de dispersão. Antes disso, deixe-me copiar esse gráfico de dispersão, dispersão impressa E vou dizer, basta nos ver naquele terreno de dispersão plantado e ao mesmo tempo Então, deixe-me fazer isso. Até agora, estamos obtendo o gráfico de dispersão aqui. E veja, este é título do nosso enredo tecnológico que fornecemos em uma tigela aqui. se eu mudar isso para 14 para 24, isso será, quanto maior, os textos serão maiores em tamanho. Então, deixe-me fazer isso. Agora é ômega, certo? Da mesma forma para o título do eixo, se eu o atribuísse a 22. Se eu executar isso. Veja agora a pontuação do teste NAs ou em números maiores. Ok? Então, a maneira como podemos modificar os títulos, níveis e eixos. Ok, então deixe-me fazer isso e 14, parecendo importar Este gráfico de dispersão de cada percurso Ok, em seguida, faremos a mesma coisa com o bar Plot. Portanto, para bar Plot também usará o mesmo conjunto de dados. E criaremos uma variável de plotagem de barra aqui e, em seguida, o conjunto de dados da função de plotagem DD X é igual ao gênero. Por que é chamado de mesa ou gênero. A mesma coisa que fizemos anteriormente ao levantar é vamos usar este tema Function extra year plot dot title. A mesma coisa que também estamos usando para a barra Plot. Então, eu não vou passar o tempo explicando a mesma coisa repetidamente. Vou apenas copiar isso. E é melhor acabar com isso em um adulto. Ok? Ok. Então veja aqui que essa é a trama ruim. Da mesma forma, também faremos o boxplot. Então, essas são as coisas que já fizemos. A única coisa extra que estamos fazendo aqui é o tema. A mesma coisa, Elementos e discurso. Eu sou a mesma coisa. Também estamos fazendo mais boxplot. E eu vou até isso e colá-lo aqui. E execute isso para boxplot. Para ver o boxplot. No boxplot, tudo foi alterado de acordo. Ok, a próxima coisa é realmente fazer o quê? O histograma é, Obstruentes de distribuição aqui também, tivemos esse tema Modificando o tamanho do baralho do tamanho do lote. Então, deixe-me fazer isso. Então é assim que podemos modificar esses temas, rótulos, títulos e eixos. Muito usado em ggplot2. Em cada tema do gráfico, a função é usada para modificar os vários elementos do tema, como título do ponto do gráfico, eixos, título do ponto existia ou legenda do texto, título do ponto, legenda, texto do ponto e posição do ponto ligante O tema ou a função de texto sublinhado do elemento é usado para definir o site, fonte e a justificativa para o próximo Usamos um tema sublinha a função mínima para começar com o tema minimalista, onde todos os gráficos e, em seguida personalizamos ainda mais a aparência com o Esses exemplos demonstram como modificar temas, rótulos, títulos e eixos com o tema Função no ggplot2 Agora, você pode explorar elementos temáticos adicionais e personalizar ainda mais a aparência de seus gráficos para corresponder à sua visualização e necessidades específicas pois cada projeto terá sua própria visualização. Precisa ser feita para que você possa usar essas funções e 106. Projeto 6: Olá e bem-vindo de volta. Nisso, vamos fazer um projeto simples. E com isso, caminhará em um conjunto de dados do mundo real para criar uma regionalização de insights Por isso, estamos trabalhando com um conjunto de dados do mundo real para criar licenças perspicazes e aspectos importantes da análise de dados, da ciência de dados e da narrativa licenças perspicazes e aspectos importantes da análise de dados, da ciência de dados e da narrativa de nossos projetos. Vamos ver um exemplo usando um dados do mundo real para criar visualizações perspicazes usando ggplot2 perspicazes Neste exemplo, usaremos o famoso conjunto de dados Iris, que está prontamente disponível com o pacote R por padrão. O IDT contém as informações sobre diferentes espécies de flores de íris, IDT contém as informações sobre incluindo comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala e a espécie da flor incluindo comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala e que está prontamente disponível com o pacote R por padrão. O IDT contém as informações sobre diferentes espécies de flores de íris, incluindo comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala e a espécie da flor. Ok, então este é o projeto simples que confia e tenta criar algumas visualizações, visualizações Então, primeiro, perdemos essa biblioteca, ggplot2. Em seguida, carregaremos o conjunto de dados da íris escrevendo a função de dados, a função Data transmitindo o nome do conjunto de dados Portanto, esses dois são a etapa essencial para carregar a biblioteca de necessidades carregar o conjunto de dados irlandês e explorar a estrutura do conjunto de dados Usaremos a função STR e passaremos o nome do conjunto de dados. Então, vamos ver a estrutura do conjunto de dados. Então você pode ver aqui que há um objeto por funcionário ou cinco variáveis. Cinco variáveis são comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala Ok? E então os valores são fornecidos aqui. Ok, então a próxima coisa é que veremos o resumo do conjunto de dados, que nos fornecerá as estatísticas As cinco colunas, comprimento da sépala, sépala, comprimento, largura da pétala e uma espécie E seus valores mínimos, quartil esmagado, mediana, valores médios Terceiro, valores de quartil e máximo para cada uma das variáveis. Ok? Então, desta forma, podemos ver a análise, ok, a próxima coisa é recarregar Essa é a estatística que obtemos ao obter o resumo do conjunto de dados. Agora, o que eu quero fazer é criar um gráfico de dispersão para esse Então, para isso, o que vou fazer, vou criar uma variável de gráfico de dispersão sublinhada E vou usar a função de plotagem GG para criar o gráfico, atribuirei essa variável e depois a imprimirei Então, função de plotagem GG, vou passar o conjunto de dados, conjunto de dados Iris Da mesma forma, como nas palestras anteriores, usamos a função estética aqui também deixa a função estética aqui também sai da função estética usamos a função estética aqui também deixa a função estética aqui também sai da função estética. E ele tinha XXS para o comprimento da sépala e a saída do eixo y. Largura e cor simples do ponto. Coloque a função de ponto de sublinhado de espécies e geom que usarei para traçar os pontos no gráfico e uma função grande, funcional, enorme para manter o título do eixo x, eixo y e o título do E aqui vou usar a função mínima sublinhada pela equipe E então vou imprimir esses gráficos de dispersão. Então, vamos fazer isso e ver como o sangue que sobe se dispersa Então, vamos torná-lo maior. Este é o gráfico de dispersão que estamos obtendo depois de executar isso Então veja aqui, comprimento da sépala no eixo x, largura simples no eixo y e cor com base na espécie Portanto, existem duas dosa, versicolor e virginica. Então veja, todas as espécies são plotadas aqui com base no comprimento e na largura da sépala Portanto, esse é o mesmo gráfico de dispersão do passado que criamos próxima coisa é que o conjunto de dados Iris tem para variáveis numéricas, comprimento da sépala, sépala, comprimento da pétala, largura da pétala e uma variável categórica que é a espécie A próxima coisa é que o conjunto de dados Iris tem para variáveis numéricas, comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala e uma variável categórica que é a espécie. Portanto, essa espécie é a variável categórica. Agora, vamos criar uma visualização perspicaz De repente, você bloqueou Então, o primeiro é o gráfico de dispersão, nossos dados que já criamos Então, deixe-me executar isso novamente. Você recebe o mesmo. Agora vamos criar um boxplot. Então boxplot, a mesma coisa, boxplot GG plot to will you it, then E aqui X, X é, vou colocar essas peças e o eixo y vou colocar o hotel, coloco o comprimento da pétala Então, as espécies e o comprimento de suas pétalas e preencheremos com espécies escuras E então geom underscore boxplot. Vou usar para desenhar o boxplot e depois a função Laugh chamada title and all E depois vou imprimir. Então, deixe-me fazer isso. Veja aqui este é o diagrama da caixa, comprimento da pétala por espécie Então, cada um para setosa, este é para este boxplot é para versicolor, isso é para assistir. Da mesma forma, isso é para assistir eu quero criar E o histograma que criarei com base na distribuição da largura das pétalas Então, para este histograma, a variável de gráfico Gram sublinhado DG, a função ggplot2 faz, ela passará íris que estamos usando a largura estética da pétala X. E vou preencher esta peça com suas espécies e, em seguida, histograma, uso funcional do histograma e largura do binário, darei 0,1 cor, darei cor branca suas espécies e, em seguida, histograma, uso funcional do histograma e largura do binário, darei 0,1 cor, darei cor branca . Essa é a cor de supressão entre os compartimentos. E darei 0,7 e uso funcional aos laboratórios para dar os títulos e tudo E então o tema mínimo que estou usando aqui. Então, vamos executar isso e ver, sim, essa é a largura da pétala no eixo x e no eixo y. Nós temos a frequência. E este é o primeiro conjunto de peças de tamanho. Esverdeado para o versicolor e virginica. Virgínia. Azul para a virginica. Ok. Dessa forma, podemos criar esse histograma A próxima é criar um gráfico de dispersão facetado. E aí eu quero mostrar o comprimento da pétala versus a largura da pétala para cada espécie Então, para isso, estou usando o eixo x, estou usando o comprimento da pétala, o eixo y, estou usando a largura e a cor da pétala que estou fornecendo melhor do que a velocidade da espécie e o tamanho do ponto geométrico Recebi três e todas as outras coisas no mesmo ano, amizade para sublinhar a função de embalagem darei a conhecer esta espécie Ok, então esta função predefinida de empacotamento de sublinhado fornecerá o gráfico de dispersão feito pelo professor Vamos executar isso e ver a saída. Agora, estamos vendo o gráfico de dispersão facetária. Aqui, o conjunto de tamanhos. Possivelmente, é melhor aterrissar no eixo x e a largura da pétala no Isso é para a setosa, esse verde para a versicolor e azul para a e azul para Então esse é o gráfico de dispersão facetado. E aqui também você pode ver o bloqueio setosa, versicolor Essa é uma categorização clara. Ok? Em seguida, o que projetamos é que, ao utilizar esses conjuntos de dados do mundo real, como o conjunto de dados Iris, podemos obter informações sobre relacionamentos e a distribuição de variáveis, identificar os padrões e identificar os padrões podemos obter informações sobre os relacionamentos e a distribuição de variáveis, identificar os padrões e fazer interpretações perspicazes. Ok, agora você está livre para explorar mais gráficos, digitar e personalizar a estética que fizemos anteriormente exemplo, você pode modificar os rótulos do tema, os títulos, todas as coisas que aprendemos na aula anterior, que você aplica a isso e cria seu próprio projeto Em seguida, experimente os diferentes conjuntos de dados. Além disso, para praticar e desenvolver suas próprias habilidades de aula de DWT Portanto, este é o projeto simples baseado no conjunto de dados da íris para criar um histograma de gráfico de dispersão, diagrama de dispersão, diagrama de caixa e todas essas criar um histograma de gráfico de dispersão, diagrama de dispersão, diagrama de caixa e todas essas coisas. Espero que você tenha uma ideia de como você pode usar o conjunto de dados do mundo real. Você pode acessar o conjunto de dados do mundo real. Obrigada 107. Gerenciando dados de data e hora no ggplot2: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre como lidar com dados de data e hora no ggplot2 Portanto, lidar com a data e a hora em que o gráfico T2 é invocado, inserindo esses dados, é reconhecido corretamente como armazenamento de objetos de data e hora esse gráfico GG pode formatar adequadamente rótulos dos eixos e criar as habilidades O que significa isso? Significa que se você passar os dados, dados data e hora em um formato correto, você plotará dois, cuidará dos vegetais, das coisas por meio de plotagem e eles não coletarão Então, April ensina objetos de data e hora clinicamente reconhecidos gráfico Gg pode formatar adequadamente rótulos dos eixos e criar as habilidades apropriadas Em nossa data e hora podem ser representadas usando várias classes, como lógica de cidade e auditorias e funções LD Ok, então veremos o projeto City e os projetos LTE mais tarde. Por enquanto, basta saber que os dados podem ser representados usando várias classes, como cidade lógica e projetos como, ok, então vamos dar um exemplo simples usando um conjunto de dados com dados de data e hora para demonstrar como lidar com data e hora no ggplot2 Então, a primeira coisa que precisamos ggplot2 e da biblioteca é até que ponto esses exemplos carregarão essas E então, o que eu quero fazer criar um conjunto de dados de amostra que tenha um valor temporal. Então, aqui vamos criar um conjunto de dados que terá a data e os valores correspondentes a cada dia. Então, para isso, use set.seed 123, para que eu sempre obtenha os mesmos dados de amostra de configuração Quando eu executo o programa. Então, para Data, criarei datas valiosas e, quatro dias, perderei uma função de sequência para criar os decks para mim Então, os insights sequenciam a funcionalidade de adicionar escuridão para seis cidades, adicionar escuro quatro DX DT E aqui vou dar a data como 23 de geração, primeiro, primeiro de janeiro de 2023 Então essa é a origem da data. Então, a partir dessa diminuição , começaremos, ok, aqui, estou usando por um dia. Então, um dia será a diferença entre cada data de tempo e lynda dot dot será 30 30. Eu queria criar 30 dias. Nesses 34, 30 dias eu quero criar, ok. Eu uso a sequência Ronson e para valores usando a função pnorm ímpar, a função pnorm Aqui vou deixar o número de valores que eu quero criar. Então, eu quero obter 30 valores. O que são esses 30 dias? E então eu quero usar a média igual a 50 e desvio padrão ou dez, ok? E quatro dias eu tenho função de sequência de união e a função de sequência interna que estou usando é igual a Ag ponto Cp. Estou dando a data de início. E por um, por cada dia que eu vivo. Em títulos serão criados a partir de 30 dias, serão criados a partir da primeira geração, continuarão impressos três E então estou criando um DataFrame, data.frame. Cada chamada até a data ou data. Estou usando esses testes Valores e, para Valores, estou usando esse valor. Ok? Então, vamos executar isso e ver o que está acontecendo. Agora, execute, vamos trazer para o dataframe df8 Então veja aqui. Agora tenho duas colunas, data e valores. Os dados começam na primeira geração de 2023 e vão da primeira geração até o terceiro dia. E para cada dia, temos valores diferentes associados a isso. Agora temos dados simples, conjunto de dados de amostra, data e dados correspondentes Qual foi o valor? Pode ser algo como o custo de um item específico ou algo assim. Portanto, temos a coluna de data e revisão. Agora podemos tentar plotá-los usando ggplot2. Então, neste exemplo, criamos um conjunto de dados com duas colunas, dados representando dados temporais e valor representando alguns valores numéricos Ok, então, primeiro, o que eu quero criar um gráfico de linha simples com data no eixo x para esse gráfico de sublinhado de linha valiosa alquilada e aludir ao gráfico GG, para criar o gráfico de o que eu quero criar um gráfico de linha simples com data no eixo x para esse gráfico de sublinhado de linha valiosa alquilada e aludir ao gráfico GG, para criar o gráfico de linha. Então ggplot2 e conjunto de dados, vou passar o dF Só saiba que o anestésico X existe. Eu queria colocar a data e o eixo y Eu quero colocar valores, então X é igual à data e por que o valor? E então eu vou usar a linha geom underscore Human, que é chamada de função de linha para traçar esses pontos no E a última função é dar nomes como para o estado do eixo X, valor do eixo y e banco de dados, porém, o gráfico é a linha, o valor do gráfico ao longo do tempo e o tema, mínimo Então T menos quatro milimoles, e então eu imprimirei Então, vamos executar isso e ver qual é a saída que vem aqui. Este é o comando de plotagem de linha. A linha traça o valor ao longo do tempo. Então, para 1º de janeiro, dia e valores Como plotamos aqui, por exemplo, existem nove densidades como essa, ok Portanto, valorize ao longo do tempo, com isso, você pode simplesmente visualizar que está produzindo a segunda parte do gráfico desse tempo de dados Ggplot2 é o simples. No eixo x, os valores do eixo Y de dados e o resto das coisas quando estamos retirando ggplot2 neste amplo gráfico GG para reconhecer que o conteúdo da coluna de data, os dados de data e hora e os agricultores acessam automaticamente esses níveis de acordo o ggplot2 neste amplo gráfico GG para reconhecer que o conteúdo da coluna de data, os dados de data e hora e os agricultores acessam automaticamente esses níveis de acordo. Ok. Então, rótulos aqui. Bem, ao criar isso, não fornecemos nenhum, como se o formato fosse 01012323 aqui, não recebemos assim, mas o GG plot o reconheceu como uma data, hora e deu mas o GG plot o reconheceu como uma data, hora automaticamente os rótulos que Jan to Gemini in Genesis se juntou a essa Jan to Gemini in Genesis se juntou a Ok, então isso foi feito automaticamente, pelo gráfico DG. Para saber a próxima coisa que faremos, tentaremos traçar o gráfico da área com data e hora no eixo x. Portanto, gráfico de área, gráfico GG, Alport data y eixo y sobre ALU e preenchido Usando a função de área de sublinhado geom, usarei para criar um gráfico de área e saída dos laboratórios, sair do estado do valor do eixo y e área do título Valor do gráfico ao longo do tempo, tema mínimo e imprimir e imprimir Então, vamos executar isso e ver. Agora você pode ver aqui valor de Arial Black chegou ao longo do tempo e aqui também é idiota e aqui também as coisas que foram cuidadas E esta é a área Plot criada por you ggplot2. No eixo x está apenas mostrando as datas de janeiro a 9 de janeiro, homens necessitados que sejam beneficiários e depois 30. E para cada data e valores ao longo do tempo com desespero e assim por diante pela área coberta Neste gráfico, temos sua área sublinhada para criar um gráfico de área E o gráfico GG polímero automaticamente os níveis do eixo x com as informações de data Então você pode ver aqui. Agora, a próxima coisa é criar um gráfico de barras, data no eixo x. Então, agregue dados por dia, crie um gráfico de barras Então, aqui está o que eu quero fazer, eu quero ler um gráfico de barras com o balanço, os dados de cada dia. Para dúctil, a LLC cria um DataFrame e nosso DF diário de sublinhado e ele tem o LDF um DataFrame e nosso DF diário de sublinhado e ele tem o LDF, o operador de tubulação aqui. E eu agrupei por data, adicionei a data do ponto e eles ultrapassarão a data e resumirão por valor médio Essa será a média do valor. Então, dessa forma, obteremos o sublinhado diário DF, ok? Então, se eu vejo aqui, este é o DF diário Data e valor médio. Descreva-os assim, ok. Aquele drone mais duas fileiras. Ok? Então, agora vou colocá-lo na barra Plot. Então bar Plot, anti-D ggplot2 bar. Desta vez, adoro passar pelo DF e passar isso para o SQL DB que acabamos de criar E para o passe funcional estético, X é igual à data e Y é igual ao valor médio. Portanto, a data virá dessa data e o valor médio que virá do medo. E veja sua data. O tipo é data e valor médio W. Ok? Então, vou usar a função de coluna de sublinhado geom para criar um gráfico de barras E na função de trava, darei X é igual à data, Y é igual ao valor médio e à barra mais estreita. Valor médio do gráfico Parte D e T Quilometragem mínima e o tema existe ponto X ponto X elemento sublinha o ângulo fiscal 45 em Gire o acesso aos níveis de TI para obter melhor visibilidade. Ok. Então, eu estou girando os níveis de excesso em 45 graus para melhor visibilidade sobre D. Ok, e então imprimo Então, deixe-me fazer isso. Então, veja aqui, é assim que nos inclinamos. Sees que Ajahn para Jenae foi inclinado em 45 graus. Portanto, não conseguimos usar a função de imposto sublinhado do elemento e passar o ângulo é igual a 45 Se eu colocar o ângulo de cada chamada em nosso 75. E se eu tentar executar isso, então isso estará no 75 regularmente. Se eu apoiar Albert, 90, 30 graus, ele será inclinado em 30 graus C. E 45 Isso está parecendo melhor. Ok? Agora temos o valor médio por dia. Então, embora esteja apenas traçando 1º de janeiro, gênero me disse três e quatro assim por 30 dias, valor médio Parte D, podemos ver o que fizemos nesta Agregamos o dia a dia e usamos a coluna de sublinhado geom para criar um Também giramos o nível do eixo x para melhor visibilidade, o que fizemos aqui com o ângulo de 45 dígitos Demonstre como lidar com dados de data e hora no ggplot2 inserindo o gráfico GG no formato apropriado para lidar automaticamente com o excesso de nivelamento e dimensionamento, facilitando a criação de regulamentos criteriosos e virtualmente iguais ao longo gráfico GG no formato apropriado para lidar automaticamente com o excesso de nivelamento e dimensionamento, facilitando a do facilitando ggplot2 inserindo o gráfico GG no formato apropriado para lidar automaticamente com o excesso de nivelamento e dimensionamento, facilitando a criação de regulamentos criteriosos e virtualmente iguais ao longo do tempo. Então, a única coisa que precisamos é passar o valor de data e hora correto para ggplot2 em stop the thing GG plot para entender como lidar com 108. POSIXct e POSIXlt funcionam com exemplo: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre as funções do LT da cidade e dos projetos, que é muito comum ver agora, programar para lidar com os dados de data e hora Portanto, você não vê as classes LTE do endpoint judaico até os dados atuais, data e hora Ambas as aulas fazem parte do nosso pacote. Você deseja lidar com valores de data e hora. Mas eles têm diferenças em sua representação e comportamento internos. Obviamente, se há duas classes de objetos, então deve haver uma diferença em seu comportamento. E assim por diante. Vamos entender como o LTE funciona para a cidade e os projetos. Então, primeiro, entenderemos como o projeto de caminhadas urbanas precárias City significa perícia, hora do calendário Portanto, a hora do calendário CT, calendário C4 T para projetos de tempo é 4,6, 0,6 e representa a data e a hora como o número de segundos desde o início do único Isso é 1º de janeiro de 1.970. Portanto, projete o horário do calendário para começar em 9 de janeiro e sob soberania Mas você não conhece o sistema unix. Ok? Então, e a partir desse momento, contará o número de segundos desde o início do tempo a partir do início da correspondência temporal do projeto City 1971. Ok, então é assim que funciona. E é a classe mais comum para lidar com dados de data e hora em nossa simplicidade e eficiência neutralizadas. O anterior começou a falar Portanto, é muito eficiente e forte que Rita e Israeli Simple também entendam projetos com qualquer Jump Box. Então, suponha que eu queira criar nosso objeto de cidade. Então, para isso, vou dar um nome e a data e a hora que cruza a cidade e você adiciona o projeto de pontos Cidade. E ele tinha data alcena. E dará luz ao escuro Grundy 3722. Isso significa 20 segundos para mentir para três. E aqui, Algol, um bar quase real de 30 minutos, 45 s. E esta é a data e a hora E ele e eu daremos o tempo, John. Obrigada E eu posso dar o que eu quiser. Ok. Então, estou fazendo isso de forma menos precisa, UPC e depois vou tentar prever Ok, então vamos ver aqui agora que é 22 de julho de 2023, Dynavox está doendo quando eu 45 é perguntado sobre o horário UTC, John. Ok. Agora temos que o tipo é um tempo desenhado. Agora eu quero acessar os componentes individuais em operação e a hora que é ano, mês, dia. Nosso ponteiro de minutos, ponteiro de segundos, que podemos fazer com muita facilidade. Se eu quiser. O ouvido sonda a data, posso usar o formato e depois passarei a data O tempo sublinha a cidade, esse é o objeto do dia. E então eu vou ceder a porcentagem e isso me dará um ano. Ele vai caber aqui a partir deste objeto. Então, vejo você, artista. Ok. Da mesma forma , ele enfrentou meses. Você pode usar a data e hora, sublinhar a cidade, apresentar a eles o que eles fizeram, a hora ZT e você pode chegar a apresentar um resumo de apresentar a eles o que eles fizeram, hora ZT e você pode chegar D ou Não foi? M por um minuto e S4 segundo M e S, minuto ímpar e segundo filho, também foram os juros do capital. Ok, então deixe-me executar isso e agora trazer todos esses componentes. Então, eu vou ter uma base enorme. Sim. Ele e ressalta o CPD por mês, mês e perda de capacidade por data e escassez E por um segundo, vou usar a mesma coisa, ok? E então vou tentar imprimir isso. Então, quando eu imprimo um ano, esse produto para vender 23 meses tem sete quadrados A segunda chance são 20 artistas que não fizeram minutos e 45 s de projetos City object. O próximo é para a toxina LT ou LD Stanford para seis horas locais e representa dados de data e hora que adiciona uma lista de componentes Então aqui estava parando à medida que alguns segundos se misturavam E aqui ele o armazenará como uma lista. Ok? Portanto, os projetos LT usarão Stanford ou horário local e representarão dados de data e hora como um nicho. Os principais componentes do ano, mês, dia, minuto ímpar e segundo serão armazenados como uma lista no fuso horário local Então, por padrão, ele irá para o tipo local. É mais flexível do que o Project City, pois permite acesso direto aos novos componentes de força que eu sou John manipulando. Ok, então aqui está um exemplo de política. Tenente, criarei um objeto de data e hora, pia, adicionarei projetos de pontos, LTE, MLK, Martin, 20 segundos, julho Os retornos de chamada são diferentes, 45 s, e vou tentar imprimi-los Então, você sabe, aqui que não especificamos o Tango. E quando estou imprimindo, obtenho colisões de 20 segundos, ozônio, três Grundy, bem acima de 30 mi 45 s com o horário padrão 30 mi 45 s com O horário John, meu perigo local, é o horário padrão da Índia. Está chegando ou está fixado neste objeto tóxico. Portanto, agora é comum, com o horário local , você só janela ou Lias em Project City, especificamos o cronograma, Martin projeta LT. Não precisamos especificar a hora desenhada aqui. Ele tomará automaticamente a hora local, john, porque significa a hora local dos projetos. Ok. E se quisermos acessar o minuto e o segundo mensais, podemos simplesmente fazer até Eugene, data, hora sublinhada LT, aquele objeto que criamos por esse dólar, mais Então, o que ele fará quando você colocar o LTE armazenado como ano, desde 1.904 meses, data e hora, sublinhe LT, dólar M1 mês mais um projeto LT, comece Então, Data mais €1 para janeiro às 11:47. Da mesma forma, por padrão, eles usarão o MD mês, dia. E os valores ímpares são para um minuto, a média do minuto e 4 s. Então, vamos executar isso e acessar com itens reais e depois imprimi-lo Chega aqui no total e Randy, três meses, sete dias e 20 anos mais ou menos. A mesma coisa que estamos recebendo e projetamos um litro real de LTL A apresentação é uma diferença mas projeta a hora local e o componente armazenado foram lançados para onde ele se A hora do calendário representa data e hora, enquanto o número de segundos desde o início do Unix é igual ao tempo a partir de janeiro de 197 Ok, então isso é algo que podemos lidar com dados, dados data e hora ou ímpares. E há duas maneiras: projeto Cidade e projetos vazios. E nós entendemos os dois 109. Projeto 7 transformação de dados: Olá e bem-vindo de volta. Então, neste caso, faremos outro projeto simples no qual aplicaremos técnicas de transformação e resumo de dados em dados do mundo real Portanto, para aplicar a técnica de transformação e resumo de dados em dados do mundo real, usaremos o conjunto de dados MPG, que também está disponível Portanto, esse conjunto de dados MPG está prontamente disponível em nosso pacote. Portanto, não precisamos baixar o conjunto de dados separadamente. Ele já está disponível no pacote R. O conjunto de dados MPG contém informações sobre vários modelos de carros e sua eficiência de combustível Então, vamos usar o gráfico GG ao aplicar a transformação de dados e resumir algumas técnicas para obter informações do conjunto de dados MPG, que é o conjunto de dados sobre os vários modelos de cartão e Então, a primeira coisa que vamos carregar é a biblioteca ggplot2. Senhor, o conjunto de dados que é o conjunto de dados MPG. Então, deixaremos a função de dados e passaremos o nome do conjunto de dados que já está disponível no pacote R. Faça os dados e passe o nome do conjunto de dados. Ok, então esse conjunto de dados será carregado. E então, para explorar a estrutura do conjunto de dados, usamos a função chamada função STR e passamos o nome do conjunto de dados Então, quando executamos isso, obtemos a estrutura do Dataset, esse conjunto de dados MPG Então, aqui você pode ver modelos do fabricante, cilindrada, anos, número de transmissão de pontos épsilon, cidade , rodovia Então, todas essas variáveis estão lá. Ok? A próxima coisa é que você verá o resumo do conjunto de dados. Então, vamos executar o resumo e depois passar o nome do conjunto de dados. Sim, então isso lhe dará melhor compreensão de como, quantos anos existe, que tipo de leitura: fabricante, modelo, cilindrada, ano, cilindrada, ano, transmissão de cilindros e rodovia urbana, e o preenchimento e depois a classe Para tudo, é dado o valor mínimo. Primeiro quartil, mediana, máximo do terceiro quartil, todos esses valores estatísticos desse conjunto de Ok? Então, a próxima coisa é que o conjunto de dados MPG tem várias variáveis, incluindo fabricante, modelo e deslocamento E então o número de cilindros e, em seguida, as transições para algum tipo Dre é do tipo Dr. e BYU city MPG e WY é rodovia MPG. Portanto, essa é a quilometragem média da cidade, e esse é o IMC alto, menos do carro Agora vamos aplicar essas técnicas de transformação e resumo de dados usando o gráfico GG Então, a primeira coisa que faremos será usar a barra de grupo Plot. E nisso, o que faremos, faremos a compressão de cada cidade. Cilindro numérico baseado em Mpg Mileage. Então, usaremos o conjunto de dados MPG e usaremos o operador pipe. E aqui, grupo por cilindro. E então esse agrupamento por cilindro. Em seguida, passamos para a função de resumo. Portanto, cada média da cidade sublinha a cidade é chamada de média da média da cidade E então vamos passar isso para a função de gráfico GG, função estética Usaremos o que x é como.factor e fatoraremos cilindro de rejeição e por que vamos preencher com o número de cilindros, o cilindro de fatores IJ, ok E então o jamboard usará para passar a partida igual à identidade E então calcula o número de cilindros no eixo x. O eixo X fornecerá o número épsilon, os títulos do eixo y de cada cidade, milha, BD e veja milha, BD e veja fornecerão todas as cidades e VD pelo E a equipe usará o mínimo. E então imprimiremos a barra de grupo Plot. Então, vamos executar isso e ver, deixe-me maximizar o espaço para que possamos ver o gráfico. Ok? Sim, comprando alguns que você vê fumando. Mali, apesar disso, ok, então isso quer dizer porque temos a biblioteca Nocturia DPLYR ok, então isso quer dizer porque temos a biblioteca Nocturia Então, deixe-me saber que os gráficos Ok, se rodarmos agora, vejo que hoje em dia você está correto, porque a função by vem do pacote dplyr que você não carregou está correto, porque a função by vem do pacote dplyr que você não Então, naturalmente, foi arremessador, então agora você pode ver evidências do DMB D pelo número de Então, número de cilindros no eixo x. E cada cidade em Mileage está no eixo y, então o número da data do cilindro e a mielina são exibidos aqui Mas, na verdade, insira quatro e diversifique as coisas de Mileage aqui para, na verdade, coisas de Mileage Dessa forma, podemos analisar como vários cilindros em um modelo de carro estão afetando cada quilometragem da cidade Em seguida, desenharemos o boxplot e o diretor da caixa de cores são realmente a mesma coisa e beleza, saída estética, seca, rodovia, MPG por tipo, tipo, tipo, tipo eixo Y. Comportaremos e favoreceremos o tipo de tipo e como essas coisas que conhecemos já fizeram esse boxplot highway MPG Então, estamos chegando aqui. O próximo é três. Vamos criar um gráfico de dispersão que fornecerá o MPG da cidade versus a cilindrada do motor por transmissão. Tipos do que isso representará um gráfico Portanto, a função de gráfico GG, a estética do conjunto de dados MPG, o deslocamento X, o eixo y serão a cidade y E então a cor é a transmissão e o ponto geométrico para traçar os pontos E então eixo x, eixo y, eixo x, então eixo y de deslocamento, um amortecedor E vamos executar isso e ver a saída. O gráfico de dispersão por MPG da cidade versus a cilindrada do motor por colegas de classe Isso é para automático, automático e manual. Todas essas coisas que podemos ver. A seguir, vou até mesmo colocar a distribuição MPG da cidade do histograma facetado para Então, aqui, a mesma coisa, cidade XXS e o tipo derivado e o histograma de sublinhado geom no qual darão ao título branco, cor dos olhos branca e tema mínimo e apodrecido E aqui relata o tipo de tipo e, em seguida, executaremos e imprimiremos o I'm time. Vai vir assim. Então, este é um histograma festivo, distribuição de MPG da cidade, MPG da cidade Tubo seco. Esta é a Mileage da cidade e esta é a frequência E é por isso que o cachimbo seco, certo? Ok. Então, o que temos há muito tempo neste pequeno projeto, nesses exemplos, aplicamos os dados de formação de pedras e resumimos algumas técnicas, como calcular a cidade de evidências MPG por número de cilindros e usar agrupamentos aplicamos os dados de formação de pedras e resumimos algumas técnicas, como calcular a cidade de evidências MPG por número de cilindros e usar agrupamentos para criar uma percepção perspicaz. E também aplicamos para resumir e usar boxplot e medula Distribution Absolutely MPG para cada tipo de driver que está interessado no cada tipo de driver Ao aplicar isso , ele não se forma. Tecnicamente, não se ressentir de alguém não é possível descobrir padrões, tendências e adolescentes nos dados e facilitar a obtenção de informações significativas de um conjunto de dados do Do conjunto de dados do mundo real. Lembre-se de que o ggplot2 oferece várias funções e flexibilidade para realizar uma mais determinada a cada aula Portanto, você está livre para explorar e personalizar o plasmídeo de acordo com sua necessidade de análise Portanto, este é um projeto simples de encanadores e, em seguida, algumas técnicas sobre dados do mundo real que são um conjunto de dados MPG Para que tenhamos visto 110. Projeto 7 parte 2 Filtragem de dados e escalas de cores: Olá e bem-vindo de volta. Nesta palestra, usaremos declarações condicionais e filtragem de dados no Ok, então ggplot2, podemos usar declarações condicionais e nosso primeiro link de dados para personalizar nossos gráficos com base nessa condição específica Qualquer que seja o requisito baseado nisso, você pode fazer isso. Isso permite que você crie visualizações mais dinâmicas e perspicazes. Então, também nesta palestra, continuaremos com o conjunto de dados MPG, que é o conjunto de cartões, modelos e sua quilometragem e outras coisas que é o conjunto de cartões, modelos e sua quilometragem e outras Ok, então eu estou pregando que não é para demonstrar como usar declarações condicionais e filtragem de dados Então, a primeira coisa que escrevemos é o ggplot2. Ok? E então carregamos esse conjunto de dados, que é o conjunto de dados MPG Fez o conjunto de dados MPG. E então criaremos nosso gráfico de dispersão, urbano versus MPG rodoviário com cores feitas no Então, sim, isso criará nossa variável. Esse é o gráfico de sublinhado de dispersão. E aqui vou usar o dígito ggplot2. E aqui o conjunto de dados é MPD, é estética, fontes, e vou passar o CD e por que Highway and Color foram feitos Ok. E então aponte geom funcionalmente ou para desenhar o ponto no E então os laboratórios funcionam para dar os nomes dos projetos existentes, MPD, eixo y, rodovia, MPG, título da NBA Vamos usar gráficos de dispersão para TMP versus MPG rodoviário com a cor vermelha no Em seguida, usaremos o tema mínimo e imprimiremos o gráfico de dispersão Então, deixe-me falar sobre isso. Agora estamos obtendo um gráfico de dispersão que nos mostra o CT versus MPG da rodovia com base no tipo seco Então, esses são o eixo x real com a cidade MPG, o eixo y é a rodovia MPG eixo y é E as quilometragens de costura com base no tubo seco. Então, essa cor, as cores estão balançando o tubo seco. Ok, então este é o gráfico de dispersão que desenhamos. Agora, o que fazemos a seguir neste gráfico de dispersão básico, todos os pontos de dados ou vemos alguém com cores diferentes, mas sob papel seco Agora, vamos adicionar alguma declaração condicional e filtragem de dados para personalizar ainda mais o gráfico Então, agora esse gráfico são pontos de dados com as diferentes cores enterrados no tempo de condução. Agora usaremos nossas declarações condicionais e a filtragem de dados para personalizar o gráfico Em primeiro lugar, o que vamos fazer é o que vamos fazer criar um gráfico de dispersão com pontos condicionalmente coloridos dentro do limite de MPG da cidade Então, aqui vamos definir a velocidade limite de quilometragem. Essa é a embriogênese sublinhada da cidade chamada limiar. Este é o lema ou qualquer outro que a ANA testa todos os valores que estou nos dando 20 Então, agora gráfico de dispersão com ponto colorido condicional. Quando nossa cidade MPG toca tudo o que estamos definindo aqui como 20 Então, gráfico GG, a função estética do conjunto de dados. A mesma coisa. Acessando DY é oi Rick and Color aqui está o CD. E o real, dando o teste ou menos, maior que o beneficiário do que esses pontos, só queria que o ponto D tivesse maior densidade e densidade E isso vai prever que tudo o que atualmente é um distrito de origem é maior do que a quantidade. Ok? E então a função de ponto geométrico, e então estamos lendo a escala dois pontos, sublinhado, função manual E aqui estamos fornecendo os valores para as cores vermelho e azul e os rótulos que recebemos abaixo do limite e acima do limite Portanto, se for maior que, em relação a , estará acima do limite e menor que 20, estará abaixo do limite E então a função Laugh que estamos usando para dar um nome completo para o gráfico e tudo mais. Ok, então deixe-me fazer isso. Ok, estamos recebendo algumas cartas. Aqui. Estamos recebendo algum erro. Problema ao computar a estética. Adicione uma primeira camada de jardim chamada YLL objects city and sold Não quero agosto, desculpe, eu não executei essa variável. Então agora temos. Então, deixe-me novamente. Então, veja aqui que estamos obtendo este gráfico de dispersão com vento de cor condicional baseado no City Portanto, esses pontos azuis estão acima do limite, ou seja, atualmente E os pontos vermelhos estão abaixo do teste neste MPG da cidade, menor que 20 Ótimo. Então, agora a cidade do eixo x MPG, eixo y é de maior energia. Os pontos azuis representam o valor limite acima que atualmente é beneficiário do MPG da cidade Então, acima do valor limite, loop limpa e milo nosso swing como um, ok, então essa é uma condição que aplicamos A seguir, o que faremos nesse ligamento que expliquei um pouco mais Neste gráfico, usamos a função estética para mapear a velocidade estética da cor maior que o valor limite de MPG da cidade que é maior que Bronte, condição lógica rígida cuja evolução é verdadeira ou falsa com base no fato de o MPG da cidade estar acima ou abaixo desse limite é especificada para mapear a velocidade estética da cor maior que o valor limite de MPG da cidade que é maior que Bronte, condição lógica rígida cuja evolução é verdadeira ou falsa com base no fato de o MPG da cidade estar acima ou abaixo desse limite é especificada. A cor, a escala, a mesa ou a colonoscopia funcionam mal aqui para servir as cores personalizadas aos pontos acima e abaixo do pterossauro Em seguida, vamos usar essa filtragem de dados para criar um gráfico de dispersão com a filtragem de dados respeitando Os dados do filtro para um tipo específico do Dr. Fred. Por exemplo, F4, tração dianteira. Ok, então aqui eu preciso de uma variável e a atribuo como F, ou seja, com uma tração dianteira distante Para que eu jogue com tração dianteira e livremente, Deus, parcela dispersa neste valioso alquilato E vou usar a função de gráfico GG e um consultor de dados, MPG E aqui vou dar MPG e dipolo-dipolo definidos como um tubo seco dipolo-dipolo definidos como um tubo seco com tração dianteira. Aqui, passaremos o conjunto de dados para a função de plotagem GG. Estou especificando isso a partir desse conjunto de dados que está incorporado, como se eu quisesse obter dipolo-dipolo Eles processam dados que têm o tubo seco como tração dianteira para Dollar DRE é igual ao tipo de tração, que será a tração dianteira E então a função estética passará X igual a CT. E por que eu testei cores com base no tempo de viagem e em todas as outras coisas? Geom sublinha o ponto de algum lugar solto para a função Plot, lote e laboratórios E então vamos tentar executar isso e ver como os gráficos podem ver esse gráfico de dispersão, MPG da cidade era essa rodovia, MPG MPG Então esse é o gráfico de dispersão do CD. E eu coloco meu pequeno carro que está com tração dianteira Ok, então agora você pode comparar, ok. Portanto, neste gráfico, para usar o arquivo de dados no gráfico de dispersão de pilha Procreate apenas para um tipo específico de tipo que tração dianteira, substituindo o conjunto de dados MPG, onde fizemos a substituição aqui, os dados são iguais a MPG, dólar MPG, dr. gráfico de dispersão de pilha Procreate apenas para um tipo específico de tipo que tem tração dianteira, substituindo o conjunto de dados MPG, onde fizemos a substituição aqui, os dados são iguais a MPG, dólar MPG, dr. V é igual à preparação seca Então, aqui pegamos o subconjunto do conjunto de dados do conjunto de dados MPG E isso é um subsídio de projeto baseado no tipo seco que tem tração dianteira Então, pegamos os dados de veículos danificados por veículos dodge, que têm veículos danificados por veículos dodge, tração dianteira e, em seguida, para modelos de carros dolt com tração dianteira, comparamos a cidade my ligand hybrid Mileage usando a Mileage modelos de carros dolt com tração dianteira, comparamos a cidade my ligand hybrid Mileage usando a condição MPG dollar, dr. V é igual ao jumper do tipo mergulho Demonstre como usar a declaração condicional e a filtragem de dados no ggplot2 para criar mais A próxima coisa que faremos será usar a cor, personalizando escalas de cores e legendas Personalizar escalas de cores e legendas no ggplot2 permite que você melhore as representações visuais dos dados e torne seu gráfico mais informativo e torne seu gráfico mais Você pode personalizar cores, rótulos, quebras e outros aspectos da cor, escala e legenda para combinar com sua visualização e lista específicas Vamos continuar usando o gráfico GG. Como personalizar escalas de cores legendas e tramas instáveis Então, usaremos a biblioteca de plotagem GG aqui. Então, vamos executar isso. Usaremos os dados Data, conjuntos de dados MPG para carregar o conjunto de dados que é o conjunto de dados MPG Em seguida, criaremos um gráfico de dispersão, cidade, MPG, rodovia. Mpg. Mpg significa MPG. Ok. Espero que você saiba, expliquei anteriormente também com cores baseadas em tipo, tipo. Ok. Então, seu plano de GG para MPG é que isso não desculpa estética de alguém projetar rodovia direta e cor e dirigir a estética de alguém projetar rodovia direta e cor e dirigir. E a mesma coisa que fizemos anteriormente. Então, vamos executar isso. Este é o gráfico de dispersão que estamos entendendo Ok. Portanto, a tração nas quatro rodas amiga da cortina real para tração nas quatro rodas é a vermelha, azul é a tração traseira e a verde é para tração dianteira e a verde Ok. Agora, nesse gráfico de dispersão básico, todos os pontos de dados são juramentados com cores diferentes com base no tipo seco No gráfico GG para atribuir cores automaticamente e criar uma Agora, cores e legendas personalizadas tentarão fornecer cores personalizadas para criar uma variável. O cliente sublinha as cores e cria um vetor. Aqui. Criará um vetor e o amarelo dará o que F dará. Azul para nosso atribuirá leitura e para quatro atribuirá orla marítima do Queens dirigirá, será azul, com tração traseira, será vermelha e a pobre desviará, será verde. E então criaremos o gráfico de dispersão com Deus. Vamos usar a lenda de Galeno, então aqui chamada de sublinhado personalizado, cor sublinha dispersão e isso Neste gráfico de dispersão, vamos criar um gráfico GG, o mesmo conjunto de dados, e sair E aqui a cor é baseada na unidade. E então a função de ponto geométrico será enorme para traçar os pontos E então usaremos a cor de sublinhado Gayle e, em seguida, usaremos manualmente para atribuir a cor que criamos aqui manualmente para atribuir a cor que criamos E daremos que Valores são iguais às cores personalizadas. E então criaremos o gráfico de dispersão. Então, vamos executar isso. Agora. Nosso gráfico de dispersão com as cores personalizadas que definimos está saindo aqui Então, verde é para a tração nas quatro rodas, azul para a tração dianteira e raio para a tração real e A próxima coisa é, ou o que fizemos em, deixe-me resumir. Neste gráfico, usamos a escala de cores, sublinhado, dois pontos faz a função de comando para definir a cor personalizada para cada Definimos cores personalizadas de sublinhado como um vetor nomeado em que os nomes que representam os tipos de acionamento, o forefront impulsionarão a RPA madura no mundo real e a tração nas um vetor nomeado em que os nomes que representam os tipos de acionamento, o forefront impulsionarão a RPA madura no mundo real e a tração nas rodas 444. E os valores representam as cores correspondentes. A escala e a escala. A cor do sublinhado vem. A função manual nos permite mapear as cores personalizadas de acordo com a estética das cores no gráfico Em seguida, tentaremos adicionar legendas e rótulos personalizados. Níveis de legenda personalizados com direito a serem proibidos. Portanto, faça um gráfico de dispersão com a legenda e o nível personalizados que vamos criar Então, aqui está a função de plotagem GG, MPD, saída estética TY, Por que rodovia e elabore o tipo, tipo, ponto geométrico para traçar o ponto, a escala, a cor do sublinhado, o manual do sublinhado para fornecer as cores personalizadas cor do sublinhado, o manual do sublinhado para fornecer as Então, alergistas ligam para ver. Agora que já fizemos. Então, aqui adicionaremos etiquetas e ele ou C criarão tração dianteira, tração cotovelos e Então, aqui nos é dado. F será substituído pela roda dianteira, será real e quatro serão E então daremos o tipo de Dr.. E então a função Laugh será usada para manter os nomes. Ok, então deixe-me fazer isso. Nos vemos hoje em dia, o giro se seguiu para o F, ímpar e 40 destruindo a mão de obra direta, pois a roda dianteira terminará Então, dessa forma, podemos personalizar as lendas, ok? Então, neste gráfico, usamos o argumento dos níveis aprendido. A pontuação é a escala, a cor do sublinhado e a função rus por minuto para salvar os níveis do traje, pois os Landry também usam o argumento do nome para fornecer nosso título personalizado para a lenda Portanto, esse é o argumento do nome que usamos para dar o nome personalizado à legenda. Então aí está chegando, tipo certo. Ok. Então, espero que você tenha entendido como podemos usar a declaração condicional e filtragem de dados e como podemos personalizar as habilidades e legendas de cores 111. Criando tramas interativas com plotly e ggplotly: Olá e bem-vindo de volta. Nesta palestra, vamos criar tramas interativas com plotly e ggplotly Então, usaremos as bibliotecas plotly e ggplotly para criar gráficos interativos usaremos Ok, então o que é ggplotly? O Ggplotly nos permitirá fazer ggplotly uma função que nos permitirá converter o lote que criamos Nós chamamos de maneira interativa. Portanto, qualquer gráfico criado com ggplot2 pode ser convertido em gráficos interativos usando plotly e ggplotly usando Gplotly. Ok? gráficos interativos com plotly e ggplotly em nosso permite que você aprimore suas visualizações com o Interactive Planning Portanto, criar gráficos interativos com plotly e ggplotly em nosso permite que você aprimore suas visualizações com o Interactive Planning. E muitos outros recursos. Plotly é um pacote R que converte ggplotly em gráficos em visualizações interativas baseadas na web . Ok? Então, o Plotly é outro pacote que vamos para você. Então você pode instalar o enredo. Ok, então, para instalar, você pode acessar as ferramentas e clicar em Instalar pacotes. E aqui você é só pesquisar por Plotly, clicar, selecionar isso e clicar em Instalar, e ele será Eu já instalei, então não vou fazer isso novamente. E para verificar isso, instale diferentes densidades. Ok? Então, estou cancelando. Você pode clicar em Instalar se ainda não estiver instalado. Ok. Então, vamos para a biblioteca UGG ggplot2 e plotly neste pacote, ok, aqui . Então, o que eu vou fazer, o que eu vou fazer. Vou te dar um guia passo a passo para criar tramas interativas com plotly e ggplotly. com Ok, então o primeiro temperate instala e carrega as bibliotecas necessárias Como já sabemos, vimos como podemos instalar. Então, deixe-me carregá-los para aproveitar isso primeiro. Então, uma vez carregadas essas duas bibliotecas, próximo passo é um bom gráfico GG de dados, você plot2 Ok, então vamos começar criando um gráfico GG básico para plotar usando MPG aquele conjunto de dados mtcars que já vimos Ok, então carregue o conjunto de dados MPG, mas você não recebeu uma função. Carregar. E então criaremos um gráfico de dispersão, um gráfico de dispersão simples para criar uma dispersão de sublinhado do gráfico GG variável E eu vou usar o ggplotly. Wong Sun usou o conjunto de dados MPG. E então usaremos a função estética, eixo x, sprint e eixo y e traçaremos a quilometragem da rodovia e depois coloriremos vermelho na classe da função de ponto geométrico de Reagan que usaremos para traçar os pontos e lagoas de laboratório e usaremos para dar o nome ao eixo x neles. O desembolso L e Y existem rodovia MPG e o rodovia MPG depois coloriremos vermelho na classe da função de ponto geométrico de Reagan que usaremos para traçar os pontos e lagoas de laboratório e usaremos para dar o nome ao eixo x neles. O desembolso L e Y existem rodovia MPG e o título do gráfico de dispersão será gráfico de dispersão, E então, ainda assim, usaremos o tema mínimo. E depois imprimiremos o gráfico de dispersão. Então, vamos imprimir esse gráfico de dispersão simples que você não fez no ggplot2 Veja, veja aqui que este é o gráfico vertiginoso simples, aqueles gráficos de dispersão desenhados entre a cilindrada do motor e o MPG entre a cilindrada do motor Por que classe de veículo? Então, classes radicais aqui: compacto de dois lugares, médio, eu, minivan, pickup, subcompacto, um Então, essas são as cores diferentes para cada classe. E aqui no eixo X estamos lançando o deslocamento, ok? E então, no eixo y, estamos vendo a rodovia MPG. Então esse é o gráfico de dispersão simples. Isso não é interativo, certo? Agora. Quero fazer esse gráfico, tornar esse gráfico de dispersão interativo ao passar o mouse sobre ele Então, alguma coisa, ok. Assim, os Valores, cada ponto e em todas as coisas em que posso clicar em junho, posso gerenciar todas as coisas que quero adicionar à nossa dispersão, tornam-se mais interativos para que possamos interagir com o gráfico de dispersão Então, para fazer isso, usaremos, converteremos esse gráfico GG Plotly. E para fazer isso, tornaremos o ggplotly interativo usando a função ggplotly. Essa função é muito importante para converter qualquer gráfico GG, gráfico DG em função, desculpe, plotar DG em função, desculpe, plotar tornaremos o ggplotly interativo usando a função ggplotly. Essa função é muito importante para converter qualquer gráfico GG, gráfico DG em função, desculpe, plotar em gráficos interativos. Então, você funcionará ggplotly a partir do pacote Plotly, ok, e então converterá gráfico digital em um gráfico O que vou fazer é criar uma variável aqui, simples interagir para sublinhar o gráfico Qualquer nome que você possa dar aqui e depois descarregar a função ggplotly Aqui temos o gráfico UGG. Agora, você vai fazer o ggplotly. E vou deixar de lado o gráfico de dispersão, os dados que criamos usando o gráfico GG Portanto, a menos que seja passivo à função ggplotly. E então vou imprimir esses gráficos interativos. Então, apenas passando para esse ggplotly, esse gráfico de dispersão simples será convertido Funciona, convertido em um enredo interativo. Então, vamos ver se isso está acontecendo ou não. Agora você pode ver aqui este gráfico de dispersão: deslocamento em den versus rodovia MPG O enredo é tema, mas sempre que estou passando o mouse sobre qualquer ponto, ele mostra os valores correspondentes a esse Por exemplo, neste ponto, deslocamento é 1,8 rodovia, MPG é 36 E classe da lista subcompacta. Se eu vier aqui, cilindrada 1.837, classe compacta. E se eu for para o rosa, esses cilindros 2.5 híbridos 27 e classes SUV para Ok, então veja aqui, é muito legal que agora o simples gráfico de dispersão, apenas contornando esse gráfico apenas contornando esse gráfico para os fundos e aposentadoria do ggplotly, converta em um lindo terreno interativo. Aqui. Aqui podemos escolher o C. Quando estou clicando em C, não adianta ser sonya Porque eu selecionei isso, desmarquei Então, vou selecionar dois lugares. Então, embora sejam ferrovias de dois lugares serão Sônia, se eu quiser adicionar Então eu vou voltar, clicar em compactar e compactar. Os pontos excluídos estarão acessíveis. Agora, se eu clicar em tamanho médio e for a minivan Missing Card Scheme, sabíamos que eu corri pode se tornar a forma que você quiser analisar, você pode adicionar, se quiser remover isso, até mesmo desmarcar Portanto, esse é o elemento interativo que foi adicionado simplesmente passando o gráfico de dispersão para o ggplotly E é bem simples e muito frio, aqui você pode ver o download do gráfico em PNG. Essa opção também chegou aqui. Então temos a Duma. Muitas vezes, podemos clicar e fazer isso. Você vê aqui que várias opções estão chegando aqui para banir, banir, banir assim. E você pode analisar que essa é a banda punctum. Em seguida, selecionamos a caixa. Podemos selecionar ventos específicos aqui e você pode analisar os pontos coletados que serão destacados. A próxima coisa é que podemos Lasso Select Você pode selecionar desta forma da maneira que quiser selecioná-la e selecionar se quiser selecionar apenas uma coisa específica que você pode selecionar aqui. Então, essas coisas interativas foram adicionadas, acho que foram adicionadas apenas passando a função Plotly de cores do gráfico de dispersão Nós podemos apagar isso. E podemos colocar Jermaine. E então eles disseram Texas. E então temos a subtrama. Ok? Dessa forma, ok, agora somos anestros, mas simplesmente passando gráfico de dispersão para a função ggplotly, agora somos anestros, mas simplesmente passando o gráfico de dispersão para a função ggplotly, ele criará um Interativo. Agora, o gráfico GG para gráfico de dispersão foi convertido em um gráfico interativo com plotly. E você pode interagir com ele usando o mouse e a aposta holandesa. Você pode passar o mouse sobre o ponto de dados que já vimos e ver o humor ou tom Tips e Jermaine e sua banda bucal Plot e muitas outras coisas que já fizemos Agora, vamos colocar mais miosina em cache neste gráfico. Então, novamente, ok, então esse é o enredo, o enredo interativo que criamos. Agora faremos a personalização adicional. Então, agora podemos personalizar ainda mais os gráficos interativos usando a função Plodly Por exemplo, podemos modificar o imposto de Harvard apenas com a cor e adicionar mais anotações a ele. Então, vamos fazer isso. Então nós, o que vamos fazer, vamos personalizar o enredo interativo. Até agora, isso criará um gráfico de sublinhado interativo variável, sublinhado personalizado Este é o nome dos lotes interativos do cliente que você pode dar. E aqui, vou usar o Interativo para traçar o que temos aqui. E usamos o layout sun. E dentro do layout, o que podemos dar, podemos personalizar o título. gráfico interativo será o título, o título do eixo x fornecerá cilindrada do motor entre colchetes. Sim. Desculpe. E o eixo y colocará a lista de saída da legenda MPG da rodovia E será a classe do veículo e o corredor e o modo serão os melhores Então, deixe-me executar isso e isso criará o enredo do fim da Interactive, e vamos imprimi-lo Agora você pode ver aqui o eixo x, ele pode prever a queda do meu gráfico interativo E aqui você pode ver os pontos sendo uma música. Podemos nos unir assim. Você pode selecionar a caixa de seleção. Quer dizer sua boca. Todas essas coisas que podemos fazer. Neste exemplo, dividimos os eixos e níveis do título e o título da legenda Ok? Portanto, usando a função plotly e ggplotly, pacote Plodly e o ggplotly calculam onde você pode criar e eliminar facilmente a cobertura que está na pode Gg plot to Plots, facilitando a exploração e a compreensão de seus dados Então, espero que você tenha entendido os alunos na próxima aula. 112. Introdução a características plotly e principais: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre o Plotly, e ele é gratuito Só. Portanto, o Plotly é uma biblioteca de código aberto que permite aos usuários criar linguagens de programação interativas, de alta qualidade, carregadas e práticas ritualizadas, não apenas no meu Plotly, que está disponível em disponível em Então, Python e diga-nos Control para que você possa usar plotly. E aqui. Além disso, aprenderemos sobre o Plotly Plotly oferece uma ampla variedade de tipos de gráficos, desde gráficos de dispersão básicos até tipos de gráficos, desde gráficos de dispersão básicos essências 3D complexas, e veja como agora podemos regionalizar e 3D Anna, O Plotly oferece uma ampla variedade de tipos de gráficos, desde gráficos de dispersão básicos até essências 3D complexas, e veja como agora podemos regionalizar e 3D Anna, como podemos mapear brócolis. Então, vamos analisar as interrupções e aprimorar o Plotly e os A primeira coisa é a interação da visualização do trator. Então, o Plotly nos permite continuar. Aula interativa, recursos interativos não ferrosos. Ele permite que os usuários interajam. Vamos fazer um gráfico e dois, entrar e sair do ventilador ou pontos de dados para ver os detalhes e ativar e desativar a Série de Dados Portanto, esses são os principais recursos que oferecem uma interatividade pontual com os gráficos e coisas do Interagindo com os gráficos. Mostre-me sua boca. Proibindo a cobrança, passando o mouse sobre o ponto de dados para ver os detalhes do problema, ligando o ponto de dados para ver os detalhes do problema, o CDJ de dados Essas interações facilitam a exploração e a análise de dados de forma intuitiva. Então, essa é a melhor coisa sobre a trama, pois faz com que a vida do gráfico esteja em sintonia com o acordo Então, a próxima coisa é fácil de usar. O Apa ou CLI fornece um APA simples que qualquer UCR usa para criar o que é sua licença Com algumas linhas de código. Você pode gerar um Josh complexo e interativo, tornando-o o favorito entre cientistas e analistas de dados Então, já que é muito simples de usar, é muito popular entre as táticas de aula de ciência de dados Portanto, como traçar o nível do laser em nosso telescópio e, por Thomas, várias linguagens de programação bastante populares, essa é outra característica fundamental do plotly O Plotly suporta várias linguagens de programação, incluindo Python Isso permite trabalhar com o idioma do relatório e alternar facilmente entre eles. Para tarefas diferentes. Chart Plotly suporta uma ampla variedade de tipos de gráficos, como gráficos de linhas, gráficos de dispersão, gráfico de barras, histograma de Josh, provavelmente gráficos 3D, coropletos O Chart Plotly suporta uma ampla variedade de tipos de gráficos, como gráficos de linhas, gráficos de dispersão, gráfico de barras, histograma de Josh, provavelmente gráficos 3D, coropletos, mapas e muitos outros. Ele oferece flexibilidade e versatilidade na ritualização de tipos de radônio de raio. Em seguida, o Plotly também fornece visualização baseada na web. Plotly, baseado na web, o que significa que você pode facilmente interativar gráficos e painéis on-line e incorporá-los Poros úteis. Então, o Plotly realmente oferece a opção integrar seus gráficos e painéis do Plotly. Agora, incorporamos isso aos relatórios. Isso é mais do que um aplicativo web com o Plotly dash, você só pode criar aplicativos web interativos e isso é Clique na visualização de dados. Tornando-o uma ferramenta poderosa para criar aplicativos orientados por dados para quem quer que seja Existem poucas substâncias econômicas. Na verdade, em parte, em parte, em parte, oferecem uma ampla gama de opções ao cliente para personalizar a aparência da cobrança de acordo com um requisito específico Você só poderá personalizar cores, rótulos, fontes, estilos, regressão e muito mais Animation e ggplotly suportam animações e transições suaves. O Wechat é muito útil para visualizar dados coloridos Ao explorar diferentes estados de maior exportação, o agricultor ggplotly percebe que pode ser exportado para vários formatos, como PNG, JPEG, SVG, PDF e até mesmo GIFs animados, criando ggplotly percebe que pode ser exportado para vários formatos, como PNG, JPEG, SVG, PDF e até mesmo GIFs animados, criando. Você não podia usar ótimas apresentações e documentos. integração com outra biblioteca, também possível em parte, o Plotly pode ser facilmente integrada com outras bibliotecas de aulas de Análise de Dados e Teoria como pandas na minha língua, RTT ggplot2 em R. Isso permite que você combine a força de diferentes ferramentas Portanto, essas são as principais características do NADPH religioso interativo da Plotly Várias linguagens de programação oferecem suporte cada tipo de dados para aplicativos baseados na web Apoie-a da melhor maneira. Isso é esportes e aplicativos da web. Minhas animações e transições. Plotly é amplamente utilizado em ciência de dados, inteligência de negócios, recursos científicos e vários outros domínios Troclear, intuitivamente atraente e interage para substituir o vermelho. Ok, então, na próxima aula, começaremos a fazer o bloqueio na prática começaremos a fazer o bloqueio na prática. A próxima palestra. 113. Trabalhando com Plotly: Olá e bem-vindo de volta. Então, nesta palestra, vamos falar sobre plotly, criaremos gráficos usando Plotly Na palestra anterior, vimos a introdução ao Plotly vimos quais são as características, quais são os gráficos que podemos fazer usando o Plotly Então, nesta palestra, faremos o trabalho prático. Então, eu escrevi um código para você e vou explicar e vou executar o código até morrer , e então veremos quais são as coisas que podemos fazer com o Plotly Algumas coisas como criarão esses gráficos 3D usando o Plotly Então, isso é muito interessante e eu digo como podemos traçar esses três gráficos de dispersão 3D Ok, então essas são as poucas coisas que vamos fazer nesta palestra. Ok, então vamos começar esta palestra. E coisas foram retiradas do site rStudio rpubs.com e Então, vamos começar. O Plotly é uma ótima ferramenta para criar lindos enredos interativos Isso pode ser plotado usando o pacote Plotly, bem como usando o TD ggplot2 Portanto, podemos fazer coisas que só podemos traçar com o enredo, ou também podemos usar o gráfico GG junto com o Plotly ou também podemos usar o gráfico GG junto com o Para isso, precisamos das bibliotecas Plolly e DD ggplot2. Então, eu já instalei, então você acabou de executá-lo. E aqui vou usar o conjunto de dados do Centro-Oeste que está prontamente disponível com o pacote RStudio Então, deixe-me mostrar como isso parece. Então, deixe-me colocar Control Enter. Veja, sim, este é o conjunto de dados que vamos para o enorme Centro-Oeste, Ok Portanto, há um PID, então país, estado, área, população, população total, densidade populacional, população ampla, preto, meridiano pop, pop, antigo, Mas por que preto? Portanto, embora cada coluna esteja lá junto com D, cada coluna adiciona mais variáveis e elas estão todas em variáveis em inglês. Nós seremos os enredos, ok? Então esse é o conjunto de dados. Então, como um país, uma área estadual, população total, todas essas variáveis estão bem? As pessoas disseram isso. Ok. Agora reutilizamos esses dados para representar graficamente. Então, a primeira coisa que vou fazer, vou usar a função Plotly, plotar sublinhado E por que a função Plotly para criar um gráfico para esse LPA, passar esse conjunto de dados centro-oeste e eixo x, eu vou grande parte da classe, mas a classe é um conjunto de dados, coluna de dados aqui, variável. Mas Clark College, ok? E pinte e use o estado oculto e a caixa Tipos. Vou criar um boxplot aqui. Lote por cento de ensino universitário, apressado , por cento educado pelo estado Para traçar isso. Então veja aqui que este é o boxplot porque o tipo que fornecemos aqui como caixa aqui Ao clicar aqui, você pode ver o primeiro quartil mínimo, mediana, terceiro quartil, E você pode ver o valor máximo, essas coisas. Dessa forma, podemos criar rapidamente um boxplot, 4% com ensino superior por etapa Por meio de quantas pessoas estão sendo educadas? Faculdade? Diga que este é o boxplot, ok? Agora vamos tentar colocar alguns gráficos básicos usando o Plotly. Para isso. O que eu quero fazer, o que eu quero é criar um gráfico básico diretamente usando plotly ou também podemos plotar UGG dois Então, aqui, UGG ggplot2 também. Então, aqui vou usar o conjunto de dados irlandês que já vimos Então, se você quiser ver como isso neste conjunto de dados você pode colocar a íris da cabeça Então, deixe-me primeiro carregar isso. Então, acabei de criar um conjunto de dados onde você pode ver o comprimento da sépala, a largura da sépala, o comprimento da pétala, a largura da pétala Essas são as colunas ou variáveis que têm um nível neste conjunto de dados irlandês Ok? Então, se você quiser executar isso, você pode ver, sim, tudo bem. A próxima coisa é que vou usar a função plot underscore LY novamente, e o conjunto de dados será itis Portanto, os dados são iguais à íris, Xe, eixo x e comprimento da sépala e comprimento da pétala no eixo Ok? Então, vamos desenhar esse gráfico melhor de que está surgindo assim. Ok? Portanto, no eixo x, comprimento de ponto simples, e no eixo y, comprimento da pétala, comprimento da sépala e comprimento da pétala E esses pontos foram desenhados. Então, para este comprimento de sépala e comprimento de pétala, o marido traçou Agora, com ggplot2, o mesmo gráfico também pode ser criado no ggplot2 Em seguida, o gráfico pode fazer, pode ser feito em versão interativa ggplotly, Observe que nem todos os recursos funcionarão ao usar o ggplotly Então, às vezes, tenho que fazer algumas tentativas e erros. Ok? Então, aqui, o mesmo gráfico de dispersão que tentarei traçar usando o gráfico GG e o gráfico que criarei uma figura onde o armazena na figura a figura, para armazenar na figura dois Então, vamos executar isso agora. E eu aludi ggplotly a planejar isso. Figura dois. Ok, então deixe-me fazer isso. Então veja aqui, agora, chegando assim, ok? A mesma coisa com a ajuda de e ggplotly. Nós planejamos. Ao ser capaz de traçar, você pode plotar para. Você pode personalizar o gráfico da mesma forma que você pode com ggplotly Veja os nomes comuns das colunas. Então, se você quiser promover o nome da coluna para o conjunto de dados Iris, você pode simplesmente executá-lo Veja os nomes das colunas que já vimos, certo? Existem cinco pontos de coluna por espécie. Então, aqui estão os dados, a íris, a estética, as fontes, e usaremos X, comprimento da sépala, comprimento da pétala e a cor é multiespécie Então, vamos colorir os pontos por espécie. E então eu vou usar a função de ponto de sublinhado geom para traçar esses E então esse número que estamos obtendo do TG Plot, vou tentar traçar com o ggplotly Ok, então simplesmente imprima isso e veja aqui, agora temos o gráfico de dispersão colorido e onde está esse rosa que é esverdeado para versicolor Dessa forma, podemos determinar a cor. Agora você também pode ver que as espécies aparecem na caixa de texto quando você passa o mouse sobre elas. Agora está mostrando que você passa o mouse sobre eles. Agora está costurando o comprimento da sépala, o comprimento da pétala e é precedido Assim como no ggplotly, você também pode personalizar o eixo, o título e a cor, um setor Então ele tem um gráfico GG. Tudo o que podemos fazer no gráfico GG é o que fazemos aqui. E então passaremos o cálculo do valor da variável de plotagem para o ggplotly Este objeto figura dois no ggplotly e ele traçará, ok, então aqui o eixo X do diário e depois os pontos geom Dentro da função de ponto de sublinhado geom, a estética e a cor do mundo real, a cada trimestre estão os preços e o relatório de salvamento Ok. E então o comprimento da sépala xlab, o comprimento da pétala e o título GG serão o comprimento da sépala, o comprimento da pétala. Ok? Então, vamos executar isso. Agora. Você pode ver aqui. Agora, os pontos também são muitos. E para esse versicolor está vindo em triângulo, e para esse cara, os pontos estão vindo ao quadrado da mesma forma Isso ocorre porque usamos espécies separadas dentro da função humana de pontos Netskope Dessa forma, também podemos personalizar o eixo, o título e a cor. Agora vamos criar um gráfico de barras básico. Então, para criar um gráfico de barras básico, usaremos o data.frame. E aqui vou criar um conjunto de dados de amostra aqui. Para este conjunto de dados, haverá três colunas na próxima vez e a fatura total. Portanto, macho fêmea serão o sexo desse vetor do fator Alcatel, e então a hora será o almoço e o jantar Nada que não esteja bem. Os níveis serão almoço e jantar, e o total manterá algumas contas aleatórias por aqui. Então, deixe-me criar esses dados, ativar esse DataFrame primeiro Agora vou criar um gráfico de barras. Tempo no eixo x Color Fill, agrupado por sexo e enorme produzindo a função de esquiva de sublinhado Então, GG traça para obter dados enormes à medida que você avança para este, aquele objeto que temos, alguns dados de treinamento que criamos E então a função estética no eixo X, colocaremos o eixo y do tempo, colocarei Crotonville e preencherei com a barra de sublinhado de sexo e geometria Vou usar identidade e policiamento empilhados e colocados, a polícia e sublinhar a E então eu criarei outro objeto, a figura quatro, e vou estourar o gráfico de barras G de Boston, ggplotly, ggplotly a, B, e então imprimirei a figura e então imprimirei a figura para C. Você vê aqui. Agora, esse é o gráfico de barras simples. Ok, então ele almoçou e jantou. Existem duas coisas este sistema para mulheres e este é para homens ou mulheres, a conta total por refeição no almoço. E isso é a mesma coisa para o jantar. Então, se você quiser analisar como no almoço de uma mulher, interface total será abstrata. Total. Adoramos rúpias sustentadas e, para o jantar, mulheres que amamos cisteína e MATLAB Então, podemos analisar que no almoço, homens e mulheres, os gastos com almoços são bem diferentes Homem, gaste mais no almoço para o jantar. Até mesmo homens e mulheres. Assim, podemos concluir que, para o jantar que eles compraram as despesas são quase as mesmas. Dia do homem e da mulher. Bem gasto com quase a mesma quantia de dinheiro no jantar. Mas quando vêm para o almoço, as mulheres gastam menos com o almoço. E eles gastarão mais no almoço? Isso é o que podemos concluir com base neste gráfico de barras. Em seguida, usaremos o SF básico. Para isso, usaremos a própria biblioteca. E para isso, usaremos o objeto NCDs, SF, dois pontos, sublinhado, leitura A função de arquivo ponto do sistema será sua e ainda revisaremos SIP slash NC dot SHP e o pacote será SF e SHP e o pacote será SF e SF e o pacote será SF e bastante igual a verdadeiro. E então criaremos um objeto figura três. E ggplotly, muito grande e ggplotly. E vamos passar por esse NCO. Oponha-se ao ggplotly plus geom underscore safe. Você sublinha fontes e resenhas de SF? E ele tinha formas estéticas e religiões como essa. E vamos preenchê-lo por área. Então, vamos traçar esse gráfico de superfície simples aqui. Então, agora estamos obtendo essa área de superfície. Você pode ver aqui no eixo x e no eixo y. Então, na graduação. E você pode ver a etiqueta em repouso de maneiras diferentes. Então, dessa forma, podemos aproveitar para traçar. A próxima coisa é que também podemos colocar os mapas para isso. Sou sua Zynga. Isso é tudo para fevereiro, nós e o trânsito. Ok. Portanto, esses dados retirados deste site se readaptam diretamente. Estamos criando a partir deste E esses dados são parte 21 de fevereiro, arquivo CSV de pontos do tráfego aéreo dos EUA Então, vamos armazenar isso nesse DataFrame. E então usaremos o comando will try to upload desse tráfego aéreo no mapa. Até agora, esse valor que você está estilizando. Então, vou criar um objeto G. G e o escopo são os EUA O escopo deste mapa são nossos projetos e essas listas digitam projetos e são do tipo lista. Albert nos EUA. Terra por terra será nosso filho. A cor da terra será RGB e usaremos cinza 95. E a cor da subunidade será de cinco países, a cor será ótima em cinco países com 0,5 e a subunidade com azul Então, desta forma, podemos usar isso. Ok? E então usaremos a função plot underscore GO para traçar isso no mapa Até agora, eles passaram do conjunto de dados como dF, este, CSV do entalhe de tráfego do aeroporto que colocaremos aqui. Então, a latitude colocará a latitude e a longitude colocará toda a bagagem Essas são as duas coisas que virão desse conjunto de dados completo É muito grosso? Adicione marcadores e textos que colocarão aeroporto, cidade, estado e chegada E então cores muito ricas, símbolos, tamanho quadrado. Eu passo o mouse para ver os textos. Ok, então deixe-me executar essa ferramenta e depois esquecer o valor da cor em grandes voos de entrada E para o layout e use o título, a função de layout para fazer o layout. E então tente ser o maior tráfego que os EUA estão bloqueados. E depois leiam sobre isso juntos. Então, realmente tente colocar alguma coisa. Agora está chegando, pois maioria do tráfego adiciona o porto Hauer ao aeroporto Então, aqui, quando vemos aquele copo, mas as chegadas internacionais de Buck são 90, então você recebe chegadas ou 100 para esse amigo que eu quero Assim, você pode passar o mouse sobre o mapa e encontrar a Austrália Central Remington está na 26ª chegada deste 292648 regional de Eagle Country em 1998 Dessa forma, você pode encontrar o aeroporto mais movimentado. Flua-nos. A próxima coisa é que podemos traçar o que o ator racional cria. A próxima coisa é que podemos traçar o raster trash talk, criando o mapa de calor colorido com duas variáveis atuando como as coordenadas X E terceira variável mapeando a cor. Para isso, usaremos a etapa dois e o Plotly. Para isso, usaremos a função mágica e a usaremos enquanto não pudermos. Ok, então agora o gráfico GG para este conjunto de dados e o valor estético1, valor2 e geom Rushton, preenchimento estético que os valores para este conjunto de dados e o valor estético1, valor2 e geom Rushton, preenchimento estético que os valores podem preencher. O Distiller usará esta escala de função e a sensação de Oscar. O pellet terá a direção espectral um. E essa função de atraso fornecerá o eixo x de oeste para leste e eixo y de norte a sul, título E então vamos tentar traçar isso. Então, vamos fazer isso e ver se depois de ter sido filha, um mapa de elevação da doença para Mongo enquanto E isso é criado com base nisso. Ok. Agora, a próxima coisa é tentar fazer um gráfico de dispersão 3D do ducto renal Então, gráfico de dispersão 3D para isso, vou fazer os carros vazios Ok? Então, carros vazios, um carro vazio, M igual a zero e M igual a um. Isso é chamado de automático. Manual. E aqui estão os carros vazios, fator de borda, as cartas vazias e, em seguida, tente traçar usando o gráfico, sublinhe apenas o conjunto de dados de carros vazios que está embutido na área Realmente use X bar, WT, borda de ponto de acesso Wi-Fi para você, projeto de borda de ponto de acesso Wi-Fi doente para você, cor doente com base na AM e na Definiremos aqui também. Isso é para cores e as cores darão cor a essa palestra. E então, para o layout, usará exit, tie await e y, a potência cruzada do eixo y e os eixos de obtenção serão 141 Então, vamos desenhar esse gráfico 3D. Então, PODE saber que este é o gráfico 3D, o gráfico de dispersão que fizemos Então, para isso, você pode ver então nosso eixo x, eixo y. O eixo Y é para potência bruta. E o terceiro exon, minha vez. Então, quando você passa o mouse sobre o ponto, você pode ver que 3,78 Y é um em e Então, desta forma, podemos traçar os gráficos 3D e tudo mais. Então, esse é o eixo x, o eixo y, e esse cartão excede seus Então, empacote o Plotly em outro maior para criar gráficos e mapas interativos altamente personalizáveis, porque ele já está pronto para ser integrado ao gráfico GG, a gráficos e mapas interativos altamente personalizáveis, porque ele já está pronto para ser integrado ao gráfico GG, a possibilidade e menos. Ok, então você pode fazer mais exercícios sobre isso e praticar e criar gráficos 3D muito mais interativos, mapas e tudo Gráficos 3D, mapas e tudo mais, ok. Então isso está em um barco, Plotly 114. Criando lotes 3D em R: Olá e bem-vindo de volta. Nesta palestra, vamos criar gráficos 3D em arte. Então, vou dar a todos alguns exemplos diferentes dos quais podemos criar gráficos 3D Ok, então primeiro, vou usar o Plotly e para esta biblioteca de usuário Então você não instalou, você pode instalá-lo. Então, primeiro adorei a biblioteca plotly e , em seguida, criarei uma amostra de dados usando uma Então x, y, z, você sabe, 100, 100 e o projeto existe e use quadrado mais y ao quadrado. Está bem? Então, mas isso resultará em três. Isso acontece mais tarde? Agora, quero traçar esses três pontos usando um gráfico de dispersão 3D Usando o Plotly. Para isso, usarei uma função de onda amplamente não reivindicada , sublinhado sempre chamada x, obtenho x ao quadrado, eixo y x e y e , em seguida, x tipo será o modo 3D disperso, serão os marcadores e gaitas e um tamanho enorme de lista, darei três cores, receberei o pagamento no eixo y e na escala de cores e pronto Depois do layout, usarei a cena e, para a lista, fornecerei uma lista que conterá o eixo x, o eixo y e o eixo jato E para isso, darei o Título X, Y acabou. Se quiser, você pode colocar a existência no eixo x, no eixo y, e esse x está Então, esses três títulos que eu vou dar e vou tentar, deixe-me rodar isso. Então veja aqui, este é o gráfico 3D bloqueado. Temos gráfico de dispersão 3D, temos gráfico de dispersão 3D Estamos chegando aqui, ok? Agora você pode ver seu eixo x, eixo y, e este é o eixo do jato, maneira que quiser Então C e agora o eixo x, eixo y e esse x é, esses são os pontos que criamos usando nosso número que foi traçado em um Então, eixo x, eixo y e esse eixo. Então, o que quer que queiramos analisar, dessa forma, podemos criar um gráfico de dispersão 3D usando Plotly Então, deixe-me revisar novamente. Eu criei uma amostra de dados usando nossa função normal, ponto do eixo x. Eu criei nossa norma de 100. O eixo Y não tem mais de 400 e x morto são os valores de x e y. E essa fórmula para obter os pontos para o gráfico de dispersão 3D eu usei Plotly e a função de onda quadrada para a indexação do produto X ponto Y do eixo Y do produto AB E então temos essas coisas, layout e marcadores. E então, quando executamos isso, obtemos esse gráfico de dispersão 3D O próximo passo é que SP, função SP mais ligações B. E você pode ver em nossa programação, então sintaxes BER SP, este é o nome de uma função e precisamos escrever que 3,4 eixos x, y e mortos neste ponto, precisamos escrever como um parâmetro importante dessa função, pois parâmetros diferentes separados, x, y e z com x e y são vetores que definem a localização ao longo dos eixos precisamos escrever como um parâmetro importante dessa função, pois um parâmetro importante parâmetros diferentes separados, x, y e z com x x e y. definem a localização ao longo dos E o eixo morto será a altura da superfície na superfície do jato da matriz. Então essa altura ainda será a matriz, ok? Portanto, o valor de retorno para essa função SP será a transformação alada das métricas do projeto em coordenadas 3D x, y no plano usando coordenadas homogêneas, que serão x, y, z e t. Então, vamos ver o exemplo de usar essa exceto a função SP Você pode dizer patrocinador. Então, o que você quiser, você pode chamar, eu chamo de SP, ser patrocinador Ok, então aqui eu quero desenhar nosso cone circular reto simples. Então, para ilustrar um cone circular reto simples, eu crio um objeto aqui chamado e para essa função E então passe a função, função em Boston que eu usarei essa função de raiz quadrada, x ao quadrado mais y ao quadrado. Está bem? Portanto, esta é a função para x, os valores x e y são sequência solta de menos um para um, com retardo mental E o jato será o x externo, y e frio. Então, esse será o eixo da rede e, em seguida, trarei a superfície 3D , usarei a função de análise x, y, e esses três pontos, passarei para isso Ok, então vamos Como está indo? Te vejo? Agora, este é o cone circular reto 3D que podemos criar usando isso. Então, aqui, a sequência de funções do código de esforço é pré-gerar o vetor de números igualmente espaçados e a função externa para aplicar a função corn em cada combinação de x e y. Então esse é o cone circular reto que Agora. Agora veja mais um exemplo aqui. O que eu quero fazer adicionar os títulos e nivelar o acesso ao enredo até o ponto em que o tema desta conferência, então esse também será o mesmo Agora, eu planto a superfície 3D e agora vamos jogar plotando a superfície 3D usando a função e passando os pontos x, y, z E depois disso, vou usar o CTO gerenciado, gráfico de perspectiva de um cone Está bem? Ok, então, gráfico em perspectiva de um cone. E então git lab, darei a altura para o eixo do jato, darei o nome de altura e Theta party ALX1, E então phi é propileno e a cor é laranja. E veja qual 0,4. Ok, então vamos executar isso e ver qual saída estamos obtendo. Estamos obtendo esse gráfico em perspectiva do gráfico ativo de um cone. Então, aqui o elevador morto do X Lab 11 pode ser usado até o nível, o nível para nivelar os três eixos. E theta e phi são a direção de visualização. Theta e phi outros Windex e isso estamos vendo. Então, temos você na quinta e sexta-feira, 1.245,15. Vamos ver o que muda. Veja hoje em dia. O ângulo de vitória foi alterado, certo? Você pode fazer isso. Vamos ver como está se saindo. O ângulo de visão está mudando, ok? Então, qualquer ângulo que você queira ver que você possa dar em teta e phi, se eu fizer 4.560,45, vamos ver como isso acontece e ver esse tipo de Aqui é T. Então virá assim. Está bem? Tome uma decisão. Ok. Agora, vou usar, vou dizer, para visualizar o modelo digital simples de elevação deles. Ok, até agora serão dois em um vulcão e um genuíno, com dez em uma coluna e uma fileira de 10 m voltada para o sul para o norte E por que você será transformado em um em álcool e frio. E ele pegará o jato e Danton se dispersará de leste Está bem? Agora, uma grande parte será a função de grau e perspectiva. Vou usar X, Y, w1, 35 e lutar contra todos esses outros ângulos Cor marrom, a pele cai, Theta um menos um Isso é para definir uma borda e, em seguida, falso. Então, vamos ver como isso vai acontecer. Então, veja aqui, este é apenas um modelo de elevação digital Alpha. Está bem? em R. Então, vimos como podemos fazer com a função de onda não descrita do gráfico Plotly Então, é assim que podemos criar gráficos 3D em R. Então, vimos como podemos fazer com a função de onda não descrita do gráfico Plotly. Então, vimos como podemos usar a função to mais b a função de perspectiva funcional, você quiser, você pode chamá-la. É assim que podemos criar TV 115. Criando lotes interativos com Highcharts: Olá e bem-vindo de volta. Nesta palestra, vamos criar gráficos interativos com Highcharts Então, vimos como podemos fazer isso com as outras bibliotecas. E agora vamos fazer os Highcharts. A parte de trás está aqui. E para isso, fizemos o download do Highcharts. Então, basta acessar os pacotes instalados e, como ele tinha gráfico alto, como pode ficar em pó e baixá-los. Ok. Portanto, a biblioteca Highcharts será a origem disso Ok, então nossa linguagem de programação é amplamente usada para estatísticas, visualização e análise de dados que já conhecemos Usando a biblioteca Highcharts. dados da biblioteca Highcharts são representados graficamente no software Não apenas o significado, mas também os gráficos interativos são preparados. Ok, então vamos ver que tipo de gráficos podemos preparar. Gráficos interativos que podemos preparar com Highcharts, gráfico de colunas, gráfico de barras, gráfico circular e gráfico de dispersão Esses são os quatro tipos de gráficos que você pode criar com os Highcharts Então, Highcharts no Texas, é bem simples. Usaremos a Carta X e , em seguida, passaremos o objeto de dados, digitaremos e, em seguida, em Casos, os pontos X e Y e depois a cor. Portanto, objeto para representar o tipo de objeto de dados é o tipo de gráfico que você deseja criar. Ele consiste em X e Y apreender os Xs para representar os O que é importante e a cor representam essa representação gráfica de cores, mas você não sabe o valor que fornece Então, o gráfico criará o gráfico interativo, ok? E esse gráfico de quatro colunas por barra, gráfico de barras, gráfico circular e gráfico dispersão, não funcionou Essa é uma sintaxe bem simples de high chart. No gráfico, seu gráfico é a função. E passaremos o tipo de objeto de dados da carta que você deseja criar e Casos, que serão os eixos X e Y e a cor, mas o que você quiser dar cor. Ok, então primeiro criaremos com o gráfico de colunas do documento, ou o gráfico de colunas exibe dados com categorias representadas por um retângulo, às vezes também chamado de gráfico de barras verticais E as categorias são normalmente organizadas ao longo do eixo horizontal e os valores ao longo do eixo vertical que conhecemos. Então, a primeira coisa é importar a biblioteca que eu criei, So Lamport Então, aqui está o que vou fazer, vou criar dados simples, dados de amostra para o nosso exercício. Então, aqui vou criar um vetor que conterá o nome do país, América, Índia, Indonésia, Japão , Canadá, China e Brasil. E seu PIB. Portanto, o vetor do PIB criará e fornecerá o PIB correspondente ao país. Em seguida, forneceremos os dados, data.frame, país e entrega Então esse será o DataFrame. Ok? Então, o próximo passo é traçar o gráfico de barras de colunas ou o gráfico de colunas. Para isso. Armazene isso no objeto P1 e gráfico de borda funcional use um objeto, tudo bem, dados de pontos, que conterão o país e o PIB E então digite, eu quero fazer um gráfico de colunas. Então, vou dar uma coluna aqui. Em Cases, darei X. X é o país e eixos y são chamados de PIB e Cor Eu quero colocar uma taxa de imposto sobre você. Se você quiser fazer outra coisa , você também pode dar verde. Ok, então deixe-me fazer isso e dar uma olhada aqui. Veja como é o hello Interactive, este gráfico de colunas. Então, deixe-me removê-los e, novamente, quando eu clico em ver como estão aparecendo e desaparecendo de uma maneira muito interativa. Então é assim que podemos fazer um gráfico de barras, desculpe, gráfico de colunas. Usando o gráfico de colunas interativo, você pode sequestrar. Em seguida, criaremos um gráfico de barras ou gráfico de colunas, exibiremos dados com categorias representadas pelo retângulo, às vezes chamado de gráfico de barras horizontal Ok? Ok, então vamos criar um gráfico de barras aqui. Então, no mesmo conjunto de dados que vou estar com você. Em seguida, veja os dados da visualização. Se você quiser ver seus dados, você pode ver o país e o PIB. Ok? A próxima coisa é que eu quero traçar um gráfico de barras aqui. Então, vou usar o objeto gráfico S, tipo de dados Barra, casos extremos, país, eixo X, país e PIB do eixo y. E eu não tinha lido. Ok, então vamos executar isso. Agora. Esse é o gráfico de barras que estamos criando. Então, este é um gráfico de barras interativo usando Highcharts, ok, então veja como está aparecendo, ok? E quando você ver como isso supera isso, você verá o país e o PIB correspondentes, ok? Em seguida, cada gráfico circular, gráfico circular ou tipo de gráfico em que o círculo é dividido em grupos representam a proporção dos valores da categoria são divididos entre as várias conferências no círculo Você setoriza as marcas dessa categoria. Então, vou usar o mesmo conjunto de dados, ok? E vou tentar criar um gráfico circular. Então, aqui vou dar uma página da web igual a pi. Tudo, todo o resto é mesmo tipo que estamos mudando aqui. E a cor, se você quiser dar alguma outra cor que você possa dar, eu lhe darei o gráfico circular. Então, veja como o gráfico circular interativo surgiu aqui. Então, vou abordar isso novamente, ver como está aparecendo. E para cada país, quando você passar o mouse, ele será destacado China, Japão, Indonésia, América. Assim. Sim. Então é assim que podemos criar por gráfico. Em seguida, eu queria entrar no gráfico de dispersão. Gráfico de dispersão, também conhecido como gráfico de dispersão. Você acabou de chegar aos valores atuais. O que é diferente os gráficos de dispersão de variáveis médicas costumavam ver, escutei entre as variáveis, como uma variável é afetada por outra variável Podemos visualizar facilmente? Então, eu vou usar da mesma forma, usa isso, e aquele país e o PIB realmente opinativos E ele usou a tabela S e a fralda, vou dar uma dispersão. É isso mesmo. Ok. Carla, suponha que eu queira nos dar amarelo. Ok, então vamos entrar no gráfico de dispersão aqui e ver como está Você vê os pontos. Então, deixe-me falar de novo, Boxer da CIA vindo aqui. Então, deixe-me colocar isso em alguma outra cor. Faça com que seja rosa. Rosa. O rosa também não é muito viável e torna visível. Ok? Então veja, você sabe, esta é a raiz quadrada do bloco, ok? Dessa forma, podemos usar a biblioteca high charter, high Highcharts e fornecer gráficos interativos 116. Projeto 8 como visualizar dados Airbnb em Nova York: Olá e bem-vindo de volta. Então, nesta palestra, vamos fazer outro projeto pequeno, muito pequeno E neste estudo, faremos um estudo de caso de visualização de dados do Airbnb para a cidade de Nova York usando o gráfico GG Então, Airbnb, hospedando pessoas em sua casa. Então, veremos como as pessoas estão se aninhando e qual é o custo ou quais são as tendências do bairro . Então, basicamente, estaremos dentro dos dados da cidade de Nova York. Portanto, os dados serão fornecidos aqui. Então, anúncio ou CSP que eu baixei do Airbnb. Portanto, ele conterá os dados da cidade de Nova York os dados do Airbnb da cidade de Nova York Então, o objetivo do que esse pequeno projeto estuda é visualizar o jogo, visualizar e obter insights a partir dos dados da bola amarela a e B do Airbnb na cidade de Nova York. Uma grande entidade usará o gráfico GG e, grande entidade usará o gráfico GG para tentar visualizá-los, obtenha os insights dos dados do mundo real do Ok, vamos explorar diferentes aspectos dos dados, como distribuição anterior. Eles eram do setor, ok? Então, conjunto de dados para este estudo ou para este projeto, usamos o arquivo CSV de pontos de listagem daqui quando fizemos uma sessão para a cidade de Nova York O conjunto de dados contém informações sobre vários anúncios, incluindo arroz, incluindo arroz, disponibilidade da vizinhança e outros detalhes relevantes Portanto, a primeira etapa é a preparação dos dados. Para isso, carregará a biblioteca necessária. Então, vou usar a camada profunda. Se você ainda não iniciou o plano, pode acessar os pacotes de ferramentas instaladas, onde coloco o alicate e clico em Instalar, ele será instalado e você poderá usar o passivo Está bem? Então, GG traça e aplique isso em nossa biblioteca que vamos anotar para este projeto E veremos a estrutura do conjunto de dados. E pegaremos um termo (valores ausentes e converteremos o DateTime, se necessário Ok, então me diga as bibliotecas ativas necessárias. E o próximo passo é listar um grande arquivo CSV que temos na minha máquina local. Então eu escrevi isso. Então, vou usar essa função csv de cada ponto e passar o caminho do arquivo CSV com o nome do arquivo E vou armazenar na variável de dados de sublinhado a e B e B. Então, vamos executar isso. Ok, então esses dados têm 48.008, 95, 95 objetos e 16 variáveis Está bem? Então, deixe-me explorar a estrutura do conjunto de dados. Estou usando a função STR e passamos esses dados do AirBnB e do Discord Deixe-nos isso. Então, deixe-me mostrar a estrutura para isso. Vamos ver. Então, 48.008 95 objetos e diz duas variáveis. Faz isso com meu nome e nome de identificação. Religião para lidar com ID de custo, nome do anfitrião, bairro, grupo, bairro. Deixe isso em voz alta. O preço de curto prazo O mínimo agora é o número de avaliações. Maior, rico em leucina, que obteve listas de anfitriões calculadas por mês, contagem, disponibilidade e pesquisa Então, todas essas variáveis estão lá e seu tipo de dados também está Então, agora vamos pegar todos os valores que faltam. Portanto, podemos verificar os valores ausentes usando Não é uma função f. E passamos esse conjunto de dados e o número de valores faltantes e alguns monges e, para obter a soma dos valores faltantes, ok, número de prótons dos valores faltantes Então, imprimimos o número de valores faltantes e conjunto de dados imprimindo esse valor simples. Está bem? Portanto, há dez valores faltantes preparatórios pentatônicos de 48 Está bem? próximo passo é que, se a conexão, se seu conjunto de dados não estiver funcionando, você poderá convertê-los. Ei, dados do Airbnb, última avaliação, data, a data que você não adicionou de volta em algum sentido Vou ver que seu conteúdo não está lá. Está bem? O próximo passo é que queremos visualizar os dados ou o licenciamento. Para fazer isso, usamos o gráfico GG para criar uma visualização perspicaz embutida no alienígena. Então, a primeira coisa que veremos é uma distribuição precipitada. Até agora, aqui. Vou criar um histograma para que os escritores identifiquem pessoalmente o bloco d e Ele tinha dados de sublinhado B&B, que é o conjunto de dados que armazenamos acessando o arquivo Csv. arquivo Csv Ok, então para a função estética do eixo x, nosso eixo x, usaremos o preço E então usaremos o histograma de sublinhado geom para traçar a largura do compartimento do histograma para traçar a largura do compartimento do histograma E Phil sentirá que, com o loop e a borda do Skype, a cor será branca E, nos laboratórios, o eixo x será o preço, o preço, a diversidade e a frequência do eixo y, e o título será a distribuição de preços do Airbnb A listagem e a equipe usarão o mínimo. Em seguida, imprimiremos o programa de sublinhado de preços que estamos criando aqui. Deixe-me executar isso. Veja aqui. Isso é um gráfico. No eixo x está o preço em dólares americanos e no eixo y está a frequência Ouvindo. Está bem? Então, essa é a Fresh Tissue Vision que oferece anúncios do Airbnb. Ok. Então veremos a vizinhança. Então, para isso, criaremos um lote de bar, número de anúncios em cada bairro. Para isso, criaremos uma variável chamada sublinhado da vizinhança. Gráfico de sublinhados Os mesmos dados. Sublinhe os dados. Usaremos o operador pipe para seguir até o grupo por sublinhado Essa é a única variável no conjunto de dados. E então resumir por contagem é igual a n. E então deixamos o gráfico GG e o eixo x será ordenado pelo grupo de vizinhança, e usaremos a contagem menos a coluna Dessa forma, seu acesso será chamado e nós o preencheremos com uma barra geom de dentro que passará a identidade E os últimos punks e a vizinhança do eixo x, eixo y, o número de cores da pele, o título e o número aqui em cima não são realistas em cada não Último ano, o mínimo e a equipe. Elemento de texto com pontos Xis. Você pode fazer o elemento sob o ângulo de proteção 45. Então esse será o nome no eixo x. Eu quero propulsioná-lo até 45. E então vamos colocar o gráfico de barras nisso. Sobre isso. Então é assim que Manhattan e Brooklyn, Queens, o bairro do delta, têm uma inclinação de 45 graus E esse é o bairro e esse é o número de testes para cada bairro. Cidade de Nova York, você está destruindo o número de anúncios. Vizinho do grupo, Bronx, Brooklyn, Manhattan, Queens, Staten Island. Ok. Então é assim que podemos usar um gráfico de barras. Como fazer isso, aumente o número de levantamentos de pesos. E então, o que entendemos ao fazer isso é que podemos obter o seguinte IR, a resposta mais silenciosa ou a mais listada abaixo nosso dólar alvo e com alguma classe antiga por esse preço Então, aquela coisa que podemos ver neste histograma, ver a maioria dos 10.000 e alguns dos valores estão aumentando a produção, o que podemos considerar como Eau Claire Então, apenas a maioria deles. E, em seguida, faça um gráfico de barras do número de listagens em cada grupo. A distribuição que adicionei entre os pais e eu emprestamos, fornecendo informações sobre as áreas mais populares para acomodação Então, dessa forma, podemos ver se você quiser. Você pode licenciar de forma mais regular, simplesmente analisar os dados e criar um modelo de instância mais vigilante, diferente e específico Obrigada 117. Projeto 9 COVID 19 Análise e visualização de dados: Olá e bem-vindo de volta. Então, neste projeto, vamos analisar os dados da COVID-19. Então, COVID-19, uma das coisas muito ruins que aconteceram à humanidade, à humanidade ou ao vírus mortal que estava causando sofrimento a muitos veterinários e pessoas em todo o mundo Portanto, hoje analisaremos os dados da COVID-19 e tentaremos fazer a análise exploratória de dados no conjunto de dados da COVID-19 e Quando fazemos ADA, obtemos informações valiosas. Então, vamos começar carregando os dados e depois prosseguir com a análise para encontrar os dez principais países com o número máximo de casos de COVID-19. Também faremos mais algumas coisas, mas vamos começar com o mínimo. Então, baixei o conjunto de dados, o conjunto de dados e o conjunto de dados da rede nacional, aquele arquivo CSV que fornecerei arquivo CSV que fornecerei Então, se você quiser ir ao banheiro e baixar este aplicativo do site da OMS. Para isso, precisamos da biblioteca. Portanto, se não tivermos instalado, você pode acessar as ferramentas e os pacotes instalados e colocar o plano. Ok. E então você pode baixá-lo e instalar. Não foi possível baixá-lo e instalá-lo no seu computador. Ok, então a próxima coisa é o que eu quero fazer. Então, essa parte, você terá que substituir qualquer coisa sua. Eu declaro que você tem o caminho do seu diretório local. Ok? Então, deixe-me em paz. Agora, este CSV arquivará os dados mais recentes por país e os armazenará em um sublinhado do COVID Ok? Então, vou usar o ponto CSV para ler esse arquivo CSV. E então vamos ver o resumo desse código, não é? Então eu coloquei o resumo. Você pode ver aqui. Agora temos a região do país, o prompt, esse registro. Você beija novos dados, novos para cobrir dívidas, centenas de suposições e, em seguida, casos recuperados ou não direcionados que eles colocaram Quantos casos, o esquema e retenção de éxons aumentaram a região da OMS Ok. Então, assim, existem essas colunas aqui. Ele lida com essas colunas neste conjunto de dados entregues ou médios mínimos do primeiro quartil Então, a próxima coisa é, agora eu quero descobrir se você quiser, você pode fazer mais uma coisa. Você pode verificar a estrutura do conjunto de dados usando a função STR. E agora temos essas muitas colunas aqui, 197 objetos e variáveis Portanto, a variável país e região confirmam isso. Então, esse é o tipo de coluna, você pode ver as colunas e o tipo de dados também o faz aqui. Então, deixe-me descobrir que o plano superior contém o número máximo de casos de COVID Isso criará uma variável de países com maior sublinhado e sublinhado E eles usarão o arquivo CSV do conjunto de dados e armazenarão todos esses dados de sublinhado do COVID Então eu vou usar os dados de sublinhado e usar o operador pipe E adicionarei em ordem decrescente por casos confirmados e confirmados e cabeça Eu quero ver os dez melhores. Então, vou colocar heptano. Portanto, ele fornecerá os dez principais desiguais aleatórios. Nós somos então de lá, eles me enviaram outro. Então, esses são os países com o número máximo de casos de COVID Então, quem é a região desses países, na verdade? Então, América. E é nosso trabalho No registro, primeiro carregamos a biblioteca necessária e depois lemos o COVID-19. Será que vai pela coordenada ao quadrado, Theta. Em seguida, DataFrame, exibimos o resumo básico do conjunto de dados para obter uma visão geral dos Finalmente, descobrimos que o pino superior contém o número máximo de casos de COVID-19 e a função de verificação da bomba de sangue, considerada uma falha, conterá os dez principais países com o maior número de COVID confirmados E cada meta representará o país e cada coluna conterá o vírus nos dados de cada país. Agora eu quero fazer uma visualização de dados sobre isso. Então, para visualizar os dez principais países em casos de números de carbono, use o gráfico circular e usaremos o pacote ggplot2 Então, faça um gráfico circular e faça o gráfico GG para você, os dez principais países daqui que obtivemos de você Ok? E então a função estética dos eixos x, y se contrairá e preenchida com a região do país barra Geom, a função Yeoman Escobar usará e o status igual à identidade fornecerá fornecerá Começaremos com o Jira Labs. Eu darei o líder do título e os países, x-naught, y-zero e o contrário , e a equipe estará conectada para esse gráfico circular para isso Então veja aqui. Agora temos o gráfico circular mostra os dez principais países com o sistema COVID-19 máximo de cosseno COVID-19 Você pode ver o maior número de casos de COVID e o maior número de casos de COVID Depois, Reino Unido. Então, gradualmente, é o primeiro reino, depois o Brasil. E então temos um meio que é a Índia. Então esse, depois esse azul, esse é o CR. Então, a partir disso, podemos descobrir que EUA, Brasil, Índia e Rússia, onde os quatro principais países, EUA, Brasil no endósteo, os principais países pobres, têm o número máximo de casos de COVID-19 e nós somos os Ok, então esse código criará a carga de bytes. Portanto, na proporção dos casos confirmados de COVID-19 em cada país. Agora, podemos adicionar textos mais densos e personalizar as cores do gráfico circular para torná-lo mais interativo, informativo e visualmente atraente Ok, então esse código criará o gráfico circular. Agora, queremos adicionar mais coisas. Então, vou criar um gráfico circular com níveis de personalização de cores. Então, por favor, faça a mesma coisa. Aqui estão os polares e que já usamos. E anos depois, essa função de toda a equipe fará a mesma função novamente E ele não tinha colocado Legend Dot Partisan no fundo, mais preto no E o título do lote de pontos dará lados, mas nós o daremos. Justiça. Frank Pipe, o tamanho é 16, e a França estará em negrito e textos. A função e o tamanho do texto sublinhado do elemento receberão uma legenda O tamanho do texto será 12. E o sábio para este título serão sites para título ou 14. E seria a força de ponto único da placa e da caixa. Ok, então usaremos o gráfico circular. E para isso, vou usar escala, campo de sublinhado e fazer manualmente E aqui os valores serão obtidos manualmente. As muitas cores parecem um jogo, ok, então qualquer código de cores que você queira fornecer, você pode obter. E então criaremos um gráfico circular com níveis. Então, pego esse gráfico circular e depois chamarei de X e funcionalidade estética, qual virei para uma região country e de onde virá o punk, certo? Quando você é filho? Pilha. E então eu vou fazer tudo isso juntos. E C, e agora estamos obtendo gráfico circular melhor com ligantes e cores diferentes Ok? Então agora está contando as lendas. Você disse que existiu porque seu reino foi gradualmente. E também aqui você pode ver este quadro, ok, então, desta forma, podemos criar um texto personalizado de bicicleta e legenda. Agora, quero encontrar os dez principais países eliminados e o país que tem um número máximo registrado que encontrar os dez principais países que registraram o número máximo de casos adicionados da parte do conjunto de dados da COVID-19 Podemos usar uma abordagem semelhante à Classificaremos o conjunto de dados com base na coluna do deck e, em seguida, selecionaremos os dez principais países Ok, até agora esse valor. E então usaremos o COVID. Vou ler este conjunto de dados e os dez principais países usarão organizados usando essa coluna E então vamos ficar entre os dez primeiros Ok, esse já temos. Então CFTC, os dez principais países com o número máximo de bits. Ok? A próxima coisa é que eu quero criar um gráfico de barras, mas o número máximo de mortes dos dez países porque você é o gráfico de barras e a barra geométrica, as coisas têm seus cinco angulares, traço um só Agora temos o gráfico de barras e os países no máximo da noite para o dia e todas essas coisas estão chegando. Este é o gráfico circular. Aqui é Sunda. Nós latimos. Ok. Portanto, este gráfico de 1 barra e um gráfico circular. Bem, o mesmo. Ok? Agora quero calcular a porcentagem de recuperação de cada país. Então, parte dessa recuperação da COVID-19, se você cobriu o departamento de pós-graduação 200. E eu sei que estamos nos recuperando e passando para a recuperação. Ok. Dados do país. Então foi assim que um país e aquele cobriram a porcentagem de recuperação. Então, calculamos essas vilosidades a última, ok. Agora calcule os percentis que você pode definir para cada país na parte superior, que indica esses países iniciais e, em seguida, crie um Este é o gráfico de viés, o percentual de recuperação e os países adotados. Ok? Então, a recuperação dos EUA, Ivana é o máximo. México. A Índia também está se divertindo um pouco com a comédia e depois com o México. E então eu quero que os dez principais países sejam cobertos com giz. Essa é a pessoa que se opõe aos personagens da doutrina na primeira frase Por Chuck. A maioria dos casos ativos provenientes do país que nos encontrará é o país que tem o maior número de casos ativos. Os dez países com os casos mais ativos, tão difíceis que ele morrerá. casos ativos confirmados de dívidas menores menos os casos ativos vêm de menos isso, menos os recuperados, nos darão o maior número de casos ativos e, em seguida, adicionaremos essas duas vantagens. Ok? Assim, você pode ver os EUA, Brasil e a Índia no vetor do número simulado Essa é a porcentagem de países ativos de doutrina do curso e crie um gráfico circular. Isso nos mostrará o maior número de casos ativos. porcentagem de países que usam a doutrina do cosseno vetorial aqui será de 7,73% dela O que contrai a frequência máxima das suposições. suposições usarão essa frequência porque vai resumir Em seguida, passamos a nos ver como a frequência disso, qual país experimenta a frequência máxima da cavidade porque esse produto recuperou parte disso. E, portanto, o Brasil está tendo a maior frequência de processos judiciais. Ok? Dessa forma, se quisermos analisar mais, você condiciona a combinação, sua maneira de pensar e você pode esclarecer os dados Ok. Então, isso é tudo sobre análise de dados da COVID-19 118. Projeto 10 Desenhando flores usando matemática em R: Olá e bem-vindo de volta. Então, nesta palestra, vamos falar sobre o projeto. E neste projeto vamos fazer uma enorme programação de matemática e arte para desenhar algumas flores. Então, secar flores usando matemática em nossa programação. Esse é o objetivo de qualquer um dos objetivos deste projeto. Todos nós sabemos que quando você olha para a natureza em tudo o que a natureza cria, você pode encontrar um bastão nela, mesmo que veja uma borboleta que se fechou, volta para Dawn nossa corda e parece falsa Então, a natureza tem muita criatividade. E podem ser muitos criadores de Baton Under nas flores, nas árvores e até mesmo nos humanos Então nós somos, somos todos humanos com as mesmas características, como olhos, nariz, boca, aqui, mãos, pernas. Mas cada pessoa parece diferente. Certo? Além dos gêmeos. Até os Queen's têm CSS diferentes. E esse é o poder da natureza. Então, o que faremos nesta palestra, neste projeto, tentaremos desenhar alguns bastões, o que será Então, vamos tentar desenhar um padrão de flores. Você faz matemática usando nossa programação. Então, vamos começar. Então, a recarga para ver aqui, o mandato tentará entender todas essas coisas, ok A questão são padrões na natureza, são muitos exemplos de fatos e bastões naturais que podem ser descritos em termos matemáticos Bons exemplos, digamos, flocos de neve de Bob, a geometria fractal da escola, brócolis ou a geometria fractal da escola, brócolis No crescimento das parcelas. Odd é uma ferramenta para fazer análises sérias, mas nem tudo na vida é. Como sabemos. A vida também é engraçada e a arte pode ser usada para se divertir e fazer coisas bonitas. Também podemos fazer muitas coisas criativas, Eugene, é isso que o objetivo deste projeto faz Troy, estamos fazendo esse projeto, essa atividade, Newton, arte e matemática nesta aula Portanto, seu poder gráfico pode ser usado para fornecer imagens artísticas. veremos como podemos desenhar todas aquelas ilustrações que veremos quando desenharmos, quando executarmos o código, que é inspirado em como as plantas são folhas mortas. Esse fato, é chamado de filotóxico e vamos resolver como base para este projeto Está bem? Então, usaremos o gráfico GG de dois pacotes Como sempre, em toda a vigília existente na arte, usamos principalmente GG plot to package Então, aqui também usamos o gráfico GG para empacotar. Além de nos divertirmos, aprenderemos muitas características importantes. E isso será útil não apenas para fazer arte, mas também para os dados atuais e os problemas da vida real. Então, não vamos atrasar mais os problemas. Não vamos demorar mais. Vamos começar carregando a biblioteca. Então, na primeira parte do código aqui, eu estou usando o notebook AAD Portanto, a vantagem de usar nosso notebook são os dados. Podemos escrever um trecho de código simplesmente pressionando Alt Control. Control, Alt, Control Alt I. Quando você coloca, você pode escrever código dentro desta seção, ok, então você pode escrever as explicações e então você pode escrever seu código como fazemos agora Colab do Google. Então, aquela coisa que podemos fazer no adulto, então você precisa ir ao File, New e jantar. Estávamos criando nosso script vez em quando, então, você pode começar a rastrear. Então, eu encorajo você a escrever o código sozinho seguindo a palestra, porque isso lhe dará a experiência prática Se você simplesmente baixar o arquivo e executá-lo, não obterá muitos benefícios com a palestra. Está bem? Então, sugiro que comece a escrever, ok? Eu não estou escrevendo aqui. Eu já escrevi isso. Porque se eu começar a digitar todas essas sintaxes, levará muito tempo E isso não será benéfico porque levará horas. Se eu começar a digitar e explicar as coisas. Para economizar nosso tempo com o propósito de aprendizado, quero fazer isso e vou explicar para você. Está bem? Então, a primeira coisa é que vamos descarregar a biblioteca de gráficos GG E aqui vamos dizer as imagens do gráfico com um bom gosto para que eu possa funcionar e, para um gráfico brilhante de pontos, pontos, largura e altura serão quatro. Está bem? E depois recarregue. Então, vamos executar isso. Então, aqui você pode ver as duas opções, três opções. Uma é a opsina do bloco modificada, a próxima é executar todas as partes acima Acima deles, todos os termos serão R1, R2. Você pode ver essa opção aqui que é um fragmento atual aleatório Então, vamos usar esse lixo de execução por enquanto. Ok, então vamos executar isso. Pronto, então a biblioteca de gráficos GG foi carregada. O próximo passo é que a segunda etapa deste projeto é diluir e secar os pontos em um círculo. Então, nesta atividade, o que faremos é tentar desenhar os pontos do círculo. Desenhe os pontos ao redor do círculo, ok? Então, míticamente, tentarei desenhar um círculo aqui com a ajuda de pontos Portanto, há muitas maneiras de representar dados no gráfico GG dois, desde gráficos de dispersão simples até gráficos mais complexos, como gráficos de violino As funções que começam com geom underscore definem como a trama é pedra Assim definido o sublinhado geom, mostraremos como será a trama em breve Neste caderno, queremos trabalhar apenas com o ponto de sublinhado geom, que distorce os pontos do gráfico Só precisamos de um conjunto de dados com duas variáveis. Vamos chamá-los de x e y. Então, precisamos de duas variáveis, x e y para o eixo x e o eixo y. Agora, quero desenhar dois pontos em um círculo de raio, um em cada ponto x e y. Em cada ponto x e y. B no círculo unitário, segue-se que x ao quadrado mais y ao quadrado é igual a Podemos obter isso usando a super famosa identidade trigonométrica pitagórica, que é que seno ao quadrado Theta mais cos ao quadrado Theta é igual a um para qualquer número real zero a super famosa identidade trigonométrica pitagórica, que é que seno ao quadrado Theta mais cos ao quadrado Theta é igual a um para qualquer número real zero . Então, essa é a matemática básica que já conhecemos. Tudo bem, então deixe-me abrir esse código. Então, aqui o que estou fazendo, estou criando uma sequência de números. Sequência de números. Então, para isso, vou usar t como uma variável para armazenar esses pontos. E eu vou colocar, use a função de sequência para gerar. E eu vou começar com 0,2 de comprimento será, será 52. O total de pontos será gerado. Aqui. X para o ponto x é o ponto do eixo x. Vou usar seno t. seno de t. Na verdade, esses serão os ângulos, ok Portanto, D é o ângulo em que essa sequência se regenera. Os ângulos que usamos para encontrar nossos x e y x são seno Theta e cos Theta Então aqui, desde t e depois y ou y, vamos usar o custo, ok? Então você diz que um DataFrame, data.frame B será o ângulo e então x, y x vírgula y, x será seno de t e y será o seno cos de t, seno de t cos data.frame B será o ângulo e então x, y x vírgula y, x será seno de t e y será o seno cos de t, seno de t cos para cima. Então, com esses dois pontos, tentaremos fazer um gráfico de dispersão usando o gráfico GG para o gráfico GG Esse é esse, esse DataFrame, o DataFrame que acabamos que acabamos E então vou usar a função estética para a estética da trama Os pontos x vírgula y. Então eu vou usar o p mais o ponto geomático. Então, isso os bloqueará. Ok, então vamos fazer isso e ver, ver, e agora estamos sendo plotados em um círculo, ok, pontos desenhados O próximo passo é torná-lo harmonioso Ok, vamos mostrar o código. Torne-o harmonioso com Colin Angle. Então, loiras adicionando as folhas nessa espiral. Se você olhar para as folhas de qualquer planta, será o suficiente. Na forma final, experimentei a medula espinhal I, que parte da origem e se afasta de sua ponta. Então, quando você olha para uma espiral, ela começa com um ponto específico e vai ficar assim Está bem? Então, será assim para começar a formular o ponto e depois será assim Está bem? Vamos revigorar, ok Então, ele começa da origem, se afasta desse ponto, adjunto gira em torno Na trama. Acima, todos os nossos pontos são os mesmos. Distância da origem. Ou uma maneira simples de organizá-los em espiral é multiplicar x e y por um fator que a rotina atinge cada ponto Poderíamos usar o Azure AD para que esse fator, poderíamos usar o Azure se esse vetor atendesse a essa condição. Mas faremos algo mais harmonioso, usaremos o ângulo dourado Golden, qual é a fórmula do ângulo dourado? É phi em três menos abaixo da raiz cinco. E esse número é inspirado na proporção áurea. Um dos números mais famosos da história da matemática. Tanto a proporção áurea quanto o ângulo de Gordon apareceram em lugares inesperados da natureza, além de flores, pétalas e folhas de plantas, onde você os encontrará. Semeie cabeças, amarre ouro, sementes de girassol, vendas, galáxias espirais, furacões, etc Ok, então é hora de finalizá-lo. Ok, então vamos dar uma olhada no código. Aqui. Definiremos o número de pontos que você mistura. Definiremos como uma torta em três menos a raiz quadrada de cinco E então seremos: seremos aquele do vento com raiva, multiplicaremos o ângulo em 0,500 pontos e, em seguida, o expoente será o seno de t e y será o custo de T. E então usaremos o DataFrame para criar um DataFrame E então faremos o gráfico de dispersão usando o gráfico GG. E adicionaremos o ponto geomático. Ok, vamos executar isso, a saída. Agora você pode ver como criamos uma espiral usando cada ponto O próximo passo é que removeremos tudo o que for desnecessário. Além dos dados, aplaud inclui muitos outros componentes que o fazem Este gráfico contém um amigo de fundo com uma grade cinza de linhas horizontais e verticais no fundo. Truques ao longo do eixo, título no eixo x, o extra ao longo do eixo e dos níveis Então, todas essas coisas que faremos executando esse código definirão o DataFrame Estou contornando esse lado, o x e o y, para a função DataFrame e pontos do gráfico de dispersão Então, o gráfico do RDD. E vamos chamar isso de 100 A-frame. E então valores estéticos, x em boo, desculpe, x em d, y em d. Ok? E então atribuiremos esse ponto. Em seguida, usaremos as fontes da equipe aqui e dentro das fontes dos elementos da grade de pontos do painel funcional do tema . E aqui e dentro do console, os elementos da grade de pontos do painel sublinhados em branco, xis dot txt sublinhado em branco e o elemento título sublinhado em branco e o elemento título Na verdade, eles não querem que as vacas preparem um parquinho. O fundo sólido será o painel. Esse elemento de fundo e sublinhado foram destruídos e parecem muito grandes Então, vamos virar e ver a saída. Isso é o que estamos recebendo. Se pudermos, esse branco também. Vamos ver o que está acontecendo. Está bem? Agora, o fundo está em vermelho. Então, com isso, podemos criar um plano de fundo. E se eu executar isso, o plano de fundo seria o público. Está bem? Então ele estava limpo. Então veja agora como essa espiral aponta e parece um padrão. Está bem? A próxima coisa é um pouco melhor, Maquiagem. A maquiagem tentará decorá-la. Se a cor e a transparência estiverem secando, começarão a parecer uma planta, mas não podemos fazer muito melhor alterando a transparência da cor, também chamada de transparência alfa tamanho alfa mais escuro da imagem se tornará mais atraente Então, vamos dar uma olhada no código. Aqui. Um novo gráfico GG, Wong Sun e os dados obtêm entalpia e entropia x. E então Dionne Point, da região central dos EUA, e tamanho fornecerá uma determinada cor, verde escuro e tema, e o tema, o que temos no bloco anterior Então, vamos executar isso e ver a coluna de hoje em dia, se eu faço com que ela suporte cinza. E veja como o fundo e o mar ficam subitamente verdes, mas o fundo fica cinza O próximo passo é brincar com a estética. Do que Dalian até agora, todos os pontos do tema de seus insights, cor, forma e Às vezes, você deseja tornar o ponto central uma variável dependente em seu conjunto de dados. Agora vamos tornar o tamanho variável. Também mudaremos o tema dos pontos. Embora não possamos falar sobre isso, eles não acham que o investidor esteja eles não acham que o investidor lembrando você do que é Dan Dalian Então, deixe-me mostrar o núcleo do ponto geômico do bloco d no tempo com a função estética que os lados são iguais a, será o t alfa 0,5, digamos que, para mim, para oito e para a coluna, estou dando um fundo preto, enquanto estou dando branco Vamos executar isso. Agora. Isso está chegando assim. Está bem? Então, se eu trocar o CFE ou apoiar o mar, mas chega o ponto em que não pode ser assim, ok? Então, o que você quiser, você pode colocar o cofre aqui e ele será criado nessa fita, ok? Nessa fita, tudo bem. Agora, juntaremos tudo o que fizemos até agora e tentaremos criar esse enredo. Então, a primeira linha é a mesma. Então enrole aqui, o tamanho estético é igual a 4,5. E saboreie a realidade da região 17 e o documento de camisola em cor verde ou azul Ok, vamos ver. Implante o código. Limpo. E veja que isso está parecendo bom. Este manômetro escuro, fundo magenta. Próxima coisa. E se modificarmos o ângulo? Então, vamos ver se modificarmos o ângulo, o que acontecerá? Os padrões de drenagem são muito centrais para o ângulo entre os pontos que estão na coluna vertebral. Pequenas mudanças no ângulo podem gerar muita dificuldade para a religião, digamos, 1.704,5 ângulo em que recebemos dois pontos, estamos pontuando Então, vamos ver agora como está linda. A partir daqui, chegamos a essa conclusão. A próxima coisa é completa. Agora. E agora vamos criar as técnicas imaginárias de flores você viu. O token permite que você crie em um número finito de padrões inspirados na natureza que o único limite é seu padrão inspirado pela natureza que o único limite é sua Mas fazer arte também tem sido uma desculpa divertida para aprender a fazer o enredo GG, certo Aprendemos muitas coisas. E isso é muito interessante. Espero que todos gostem do projeto. E essa palestra. Todos os textos que vimos em um longo ano também servem para traçar os dados reais Então, vamos encontrar essa imagem à esquerda. Um pouco de vermelho, que é ilegível da flor anterior, é visto algo muito parecido com as duas primeiras que, vamos ver como esse padrão está lindo Então, a partir daqui, quando chegamos ao oeste, começamos com o vento circular, depois o tornamos pequeno usando o ângulo dourado. Em seguida, recebemos a cor de fundo, depois compramos recentemente a cor, tamanho e a transparência e, em seguida, o SIP E então isso, e então finalmente chegamos a esse e esse lindo padrão de flores que desenhamos aqui. Se eu mudar o estado para fazer isso, para ver o que vai acontecer. Veja, esta é uma base triangular. Ensine uma coluna. Isso prevê que D venha como algum outro padrão. No final do verão, no banheiro. OK. Eu coloquei um 17. Está vindo assim. OK. Então, eu vou fazer isso também. Então. Essa é a gordura mais bonita que criamos. Assim, você também pode brincar com diferentes ângulos alfa, tamanhos diferentes, combinações de cores diferentes e tentar criar seu próprio padrão de flores. Flor usando matemática e quente. Espero que você goste desse projeto divertido. E você também está fazendo o projeto e enviando sua Flórida para o juiz da Flórida, na seção de projetos desta classe. E todos nós podemos ver 119. Projeto 11 Analisando e visualizando os vencedores do Prêmio Nobel usando R: Olá e bem-vindo de volta. Nesta palestra vamos fazer outra essência de Análise e Visualização E isso também é um tipo de projeto. E nisso, o que vou fazer, vou analisar os dados dos ganhadores do Prêmio Nobel Então, nossos ganhadores do Prêmio Nobel todos os anos. Alguém receberá o Prêmio Nobel em uma categoria específica. Qual categoria está relacionada à Ciência da Arte, trabalho social nessas coisas, certo? Então, tentaremos analisar em diferentes bitters e resolveremos Também visualizaremos os dados. Então, analisei algumas coisas que Nika analisei e mostrarei como você pode fazer isso Então, a maioria dos prêmios Nobel, e então vamos focar no Prêmio Nobel Esses são os critérios que discutiremos. Então. Agora, veremos como ele está se apresentando e como ou quantos prêmios Nobel que o USS recebi dominam o cenário do Prêmio Nobel Em seguida, visualizaremos o domínio dos EUA. Então veremos o mal e mulheres e homens receberão o Prêmio Nobel E depois veremos quem é a primeira mulher a ganhar o Prêmio Nobel Então, todas essas coisas e muitas outras estão aí para tentar fazer isso. Pobre, continuamos. Deixe-me explicar o conjunto de dados. Então, estamos usando esse arquivo CSV de pontos Nobel, que contém a orelha na qual o Prêmio Nobel foi concedido As categorias, diferentes categorias nas quais o Prêmio Nobel recebeu o nome de preço, o próprio Prêmio Nobel Então, sexta-feira será o Prêmio Nobel de química, Prêmio Nobel de literatura em fisiologia . Todas essas coisas. Ok, então esse é o nome. A categoria será química. A polícia de Rachel Madison prevê todas essas coisas. Ok, então existem diferentes categorias nas quais eles dão o Prêmio Nobel, ok? E então a motivação, qual é a motivação por trás? Dando o Prêmio Nobel a essa parte específica e o preço eles custam um por um ou um por dois, há mais de uma pessoa recebendo o Prêmio Nobel da mesma forma Gashes está em algum lugar um a dois. Serão duas pessoas. Lá. Eram duas pessoas na mesma categoria cada Então, o Prêmio Nobel será dividido pela metade. Ok? Então essa é a bandeja um por dois. Então, em algum lugar, você pode ver um por quatro. Ok, então esse é o preço aí. Então, quantas pessoas estão na mesma categoria, mesmo preço. Então, Laura arrumou, todos que receberam o Prêmio Nobel receberão muitos E então o tipo de loteria, será individual ou organizacional Será que, se fizesse uma organização ganhando tudo, será organização. E se for uma porção individual , será individual. Então, basicamente, existem dois tipos de pessoas que têm um indivíduo e uma organização. Em seguida, nome completo da parte da organização, ao receber o Prêmio Nobel do que o Bar hoje custa mais do que o bar até o momento Em seguida, a cidade dessa parte específica, o país de nascimento e depois o sexo, masculino, feminino ou qualquer outra coisa. E depois o nome da organização. Lave o Parson ou venda é o nome da organização do que é. Você apaga isso. Madison se destaca, bem arrumada e nomeia e organiza uma cidade de um país majestoso data em que essa pessoa expirou e aquela cidade e país Então, todas essas colunas estão nesse novo arquivo CSV de pontos Vamos analisar. Ok, então vamos começar. Então, deixe-me falar sobre frutas sobre o Prêmio Nobel. Portanto, os prêmios Nobel, mas têm o prêmio científico mais conhecido do mundo, exceto pela honra, prestígio e substancial O destinatário tem menos de 33 a 896 que estabeleceu o preço das ações. Todos os anos. É dado aos cientistas e estudiosos nas categorias química, literatura, física, Fisiologia ou Medicina, Economia e Paz Esta é a categoria na qual o Prêmio Nobel será concedido e concedido nas últimas décadas O cargo de Prêmio Nobel foi entregue em 1.901. Então, o Prêmio Nobel foi iniciado em 1.901. E naquela época o Prêmio era realmente eurocêntrico e com foco masculino, mas hoje em dia não é tendencioso de forma alguma Então essa é a história por trás do Prêmio Nobel. E agora vamos descobrir que a Fundação do Prêmio Nobel tem um conjunto de dados disponível para todos os vencedores do prêmio Então esse é o conjunto de dados do Nobel disponível para todos os vencedores do prêmio Então esse é o Nobel CSP, 1901-2016. Então, primeiro, precisamos carregar o conjunto de dados. Portanto, o nome do conjunto de dados é novo ou CSP. Então, usaremos o CSP de leitura sublinhado e leremos isso e, em seguida, veremos que a cabeça passará Esses são conjuntos de dados para a nova função de cabeçalho de fontes. E veremos quantos, o quê, como são esses dados. Para isso, vamos até a biblioteca de versos organizada, então também anotaremos essa biblioteca Quando executamos isso, podemos obter o conjunto de dados Clips Up. Então, até o fim. Já vimos no arquivo CSV aqui, o preço da categoria e depois a coluna de motivação Então, o preço aqui, Laura arrumada, tipo Laura, nome completo, direito de nascimento, mas data, mas cidade, quais países Organização sexual. Então, todas essas informações estão lá. Então, após o carregamento, também podemos acessar essas informações por meio de nosso. Em seguida, o que fizermos descobrirá quem acaba de orar. Só de olhar para os dois primeiros ganhadores do Prêmio Nobel reforçados, como os também chamados, já vemos que uma celebridade terá Conrad Rontgen, já vemos que uma celebridade terá Conrad E, na verdade, vemos que todos morreram. Todos os vencedores da In Nitrogen caras que vieram da Europa, desde que começou na Europa. Então, todo o suor amino, que veio dos EUA, mas isso foi em 1.901 Analisando todos os vencedores, o conjunto de dados de 1.901 a 1966 e os países ricos são os mais É isso que vamos encerrar. O país do vencedor, por ser um país pequeno não se aplica a todos os preços estabelecidos por nós. Ok? Portanto, contar o número de prêmios Nobel entregues em 1901-2016 será Usaremos o conjunto de dados Nobel e usaremos o operador pipe e contaremos usaremos a função de contagem Ok? E depois contando o número de preços, um pelos destinatários masculinos e femininos Portanto, usaremos o romance e, em seguida, contaremos com base nesses seis a contagem de sexos de homens e mulheres separadamente . Em seguida, contabilizaremos o número de prêmios de diferentes nacionalidades e, aqui, contabilizaremos o país comprado pelo ajudante E então adicionaremos os feridos pela ordem decrescente. E veremos o primeiro termo T. Ok, então vamos executar isso. Veja o país. Estados Unidos para nove pessoas, Reino Unido, 85, França, Alemanha, como T1, França para P13, aquela 29 E este país não especificou 26, Japão Grundy para o Canadá em, na lente geralmente E então podemos ver a proporção entre homens e mulheres aqui. Então, um elevador 49 mulheres até agora, até 2.016,8. 39 podem ter ganhado o Prêmio Nobel e 26, o gênero é desconhecido Ok? Em seguida, você pode ver um número total de 911 pessoas que receberam o Prêmio Nobel Na medida em que 36, o homem e 49 ou a mulher, e 2067 ou divulgaram seu Ok. Nós pelo preço, talvez o mais comum agora alerta. Você faz 1.901 a duas vezes 15 era um homem nascido nos Estados Unidos da América Mas ao todo, em uma risada, onde o pão europeu chegou, os EUA começam Então, antes de começarmos o Prêmio Nobel, todos os vencedores eram da Europa, mas lentamente, você diz que os Estados Unidos assumiram o controle Eles dominaram as paradas do Prêmio Nobel. Então, vamos ver. Então, aqui vamos calcular a proporção de vencedores do US One por década. Até agora, isso criará esse adereço sublinhado, sublinhado conosco E usaremos o conjunto de dados Nobel, até mesmo o operador de tubo e mutará vencedor nascido nos EUA é igual ao E aqui vamos nos orgulhar do controle de natalidade como Estados Unidos da América. E eles a usarão dividida por dez em cem. E usaremos a célula encolhida no chão. Então, frequentando 200 e usaremos o grupo funcional de piso por década, usaremos para obter o e, em seguida, resumir Proporção igual à média dos títulos dos EUA não será. E um dado que é igual a verdadeiro. Então, vamos executar isso. Veja o seu em 19091900, proporção de nós diz que ganhar é 0,07 em 19 e depois aumentou 2,078 1920, 0,70, 741.932,25% de dados e 40,32, 92,299, 290,14 mais dentistas. E no total, na frente 4321 EGN, você ensina 1030. Agora. E então usaremos o gráfico GG graficamente a proporção dos que estavam nos salvando. E para isso, usaremos o diafragma e o passaremos para o DD Plot e a estética para revisão estética, x não morrerá por uma década e o eixo y indicará E perdemos a função geom underscore de nove linhas para desenhar os Os humanos podiam apontar para desenhar os pontos. sublinhado da escala por meio de níveis contínuos é igual a Escalas Coluna, limite percentual da coluna X1, X1 zero, menor que isso E veja aqui, agora você pode ver uma partícula. Como estão as coisas. A seguir, qual é o gênero do Prêmio Nobel típico? A seguir, qual é o sexo do típico ganhador do Prêmio Nobel Para isso, o que faremos é calcular a proporção de mulheres laureadas por produto de década Usamos um suporte para decodificar e sublinhar o vencedor a partir da variável aqui e partir da variável aqui e E usaremos a função de mutação. Vencedora do sublinhado feminino. Você chama dois sexos de iguais ao feminino. E o andar de cima será dividido por dez em dez. E fecharemos o operador de tubulação e, em seguida, subiremos por década, categorias e resumiremos Ao passar, a proporção é igual à média do vencedor principal e aos dados de dois. E então traçaremos essa proporção Freeman lauric previu para isso ultrapassará isso D, D solte o sublinhado. sublinhado não fará o gráfico fácil pois alguma estética usará X, X ao quadrado Y. X é quatro. O número de vencedores e cor serão a categoria com base na categoria. Então, vamos executar isso e ver. Agora você pode ver aqui no eixo x que os gatos foram desenhados e, no eixo y, a química, a economia ou a categoria E agora veremos quantos outros vencedores ou repetidos até agora, deixe-me mostrar isso. Aqui, usaremos o romance sobre Data Frame. E isso acontece e usaremos a contagem igual ao nome completo e ao filtro Se N for maior que um, número par de ocorrências maior que um, então contaremos, contaremos Entenda isso. Há pelo menos seis pessoas que receberam o Prêmio Nobel mais de duas ou duas ou duas ou mais de duas vezes. Então, tudo bem. Hora da consulta de Maddie e Lena pegou pólen duas vezes. Comitê de direito internacional, comunidade internacional da Cruz Vermelha, ou três vezes. Agora, quantos anos você tem quando recebe o Prêmio Nobel e o levante repete o conteúdo dos Vencedores em algumas ilustrações, nome, encontramos novamente Marty Query Madame Curie, que ganhou o Prêmio Nobel de Física por descobrir a radiação e a química para isolar meio e o Prêmio Nobel e o levante repete o conteúdo dos Vencedores em algumas ilustrações, nome, encontramos novamente Marty Query Madame Curie, que ganhou o Prêmio Nobel de Física por descobrir a radiação e a química para isolar meio e polônio. John colocou duas vezes na geladeira transistores de exportação e supercondutividade. Frederick Sanger Sanger conseguiu duas vezes na química. Linus Pauling ficou em primeiro lugar em química e letreiro por cada trabalho na promoção dessa roupa, desse homem e desse E também aprendemos que a organização também preços subordinados e que você ainda não entendeu o preço Então, deixe-me te mostrar. Use o lubrificante. Lubrificar. Desculpe, não lubrificar é o pacote de lubrificação aqui E aqui estamos calculando o E dos ganhadores do Prêmio Nobel Então, romance e depois mutação é igual a menos era. Mas então traçaremos a análise desse DataFrame e a estética usará Export As e usará Export As e E com o ponto geométrico e os geômetros, pequenos até mesmo planejam esta lição que estamos recebendo que estamos O próximo passo é a diferença entre as categorias de preço. Então, a trama já viu muito isso. Vemos que pessoas que costumavam ficar em torno de quatro a cinco dias sentam-se eretas Hoje em dia a média é clara para 65, mas há uma grande difusão nos cinemas nos mais adequados, além de alguém muito jovem E você também vê que naquela época as nomeações do City são muito mais altas hoje em dia do que no início dos anos 90 hoje em dia, muitas mais altas hoje em dia do que no início dos anos 90, muitos mais preços são definidos, então há muitos mais vencedores Também vemos a interrupção em nosso preço por volta da segunda lavagem, Segunda Guerra Mundial de 1939 a 1943 O romance do Nobel ressalta a idade e a estética X, Y. E vamos transformar Veja como a categoria é diferente, como as idades afetam a química, a economia, o direito. Eles tentam que a criança possa receber fundos, taxas e previsões, remédios, paz e previsões ou menos do que o vencedor mais jovem Então, tentamos descobrir que o buraco era o mais antigo e o mais novo. Então, vamos usar aqui o escritório como preço abdominal categoria por categoria. Então você pode ver a química e isso é para a economia, para a literatura, para a medicina e a física. Então, são menores que os do Angular para qualquer gráfico com muitas ciclinas em andamento Vemos que a enfermagem, a química e a medicina de Boltzmann envelheceram com o tempo A tendência é mais forte , enquanto prevê que tenha 50 anos de diabetes E agora a literatura e a economia, ou mais ainda, a Tabela. E também vemos essa economia em uma categoria mais nova, mas com base em um projeto dez enfermeiras veteranas estão ficando mais jovens A categoria de obesos, nós também essa categoria que também não éramos por volta de 2010, que parecia exercer é quase jovem Isso levanta a questão por volta das duas e mesma coisa, exceto jovens fedorentos, isso levanta a questão: Quem são as pessoas mais jovens ou menos do que as pessoas mais jovens de todos os a mesma coisa, exceto jovens fedorentos, isso levanta a questão: Quem são as pessoas mais jovens ou menos do que as pessoas mais jovens de todos os tempos com o Prêmio Nobel. Então, para isso, usaremos a nova variável idade do sublinhado, mas no topo o sublinhado N fornecerá uma e depois fornecerá E então, para o sublinhado superior N1, de forma decrescente. Ok, então vamos executar isso. vejo. Na categoria peça 2014. O Prêmio Nobel foi dado ao Prêmio Nobel foi dado a você. Então, Malala. Malala tem dois anos J e C tinham apenas 17 anos quando ele foi dado para ver que tinha apenas sete anos. Supressão de crianças e jovens pelo direito de todas as crianças à educação E CSIA, o preço com eles, um. Veja como Data Partition foi em julho de 1997 e tinha 17 anos. Então C é o mais novo, e aqui está nossa lista1 no total e sete economias O Prêmio de Economia do banco de poupança assina um total de sete por ter estabelecido a base sobre o mecanismo, que, em teoria, e ele disse os outros três grupos para outras pessoas. E o nome dela era Leonardo Harvest e ele era o único Prêmio Nobel por E aos 90 anos ele recebeu Nobel Dahmer e era E Malala Yousafzai era do Paquistão. Dessa forma, não gostamos nem menos do que do Paquistão. Então, dessa forma, não gostamos nem menos do que o mais jovem ganhador do Prêmio Nobel Você pode oferecer o ganhador do Prêmio Nobel. Você pode encontrar mais alguns pontos e analisar isso. Espero que você tenha entendido como podemos visualizar e depois Mais tarde. Obrigada. 120. Project 12 Encontrando a força da palavra passada usando R: Olá e bem-vindo de volta. Nesta palestra, faremos outro projeto no qual encontraremos a Força da Senha usando ímpar Então, como sabemos, linguagem de programação bastante popular projeto de linguagem de programação bastante popular e isso é estranho. Às vezes, também precisamos medir a força da senha. Nesse caso, você pode usar este exercício. Então, vamos ver. Portanto, neste projeto, abordaremos as funções da publicação especial 863 be reach do NIST O que chuta o verificador secundário responsável por armazenar e beber corretamente o lote de senhas conhecido como gordura corporal aqui Ele funciona para garantir que você não escolha uma senha incorreta. Analisaremos as senhas dos usuários. O que é corrigido por uma pequena empresa e use nosso para sinalizar que você está apenas com uma senha incorreta. Mas ser capaz de fazer isso já significa que a empresa de sinal fixo lançará 800. Eu consistentemente. Mas se eu adicionar armazenamento de celular memorizado, forma sagrada, isso é dez aos ataques offline Memorize a Christelle a ser iniciada e obtida usando a função de derivação de chave unidirecional da Tabela Isso nunca é salvar sua senha apenas em textos simples, sempre criptografar as senhas Tendo isso em mente para a próxima vez pretendemos o Sistema de Gerenciamento de Senhas. Vamos carregar esses dados. A lista de Senhas e o banco de dados fixo ou limitado. Tanto o conteúdo quanto o link de senha real do site real. Essa senha não foi filtrada de nenhuma forma e nem nos dados de exfiltração de dados do CloudWatch Work Europe E isso é só por querer. Ok, então vamos carregar o arquivo CSV aqui. Vamos usar a biblioteca de versos organizada aqui. Então deixe-me apenas, ok. Então, primeiro, carregaremos a biblioteca, a biblioteca e, em seguida, precisaremos ler o arquivo CSV onde todos os seus dados foram armazenados Estamos usando você para iniciar o arquivo CSV. Sim. E estamos armazenando seu valor. Contando quantos você acabou de se reabilitar a partir de agora usaremos a função Endrew e passaremos o E então imprimiremos a primeira pré-impressão. Vamos ver os dados. Portanto, este é o ID do ano, nome de usuário e senha. Portanto, esse é o banco de dados de arquivos que contém o ID do usuário, nome de usuário e senha. Ok? Então há 982 Raj, ok, duas linhas não editadas ou o Então, agora vamos verificar se a senha não deve ser. Para resolver. Essa é uma regra. Portanto, se dermos uma olhada nos primeiros usuários de pré-impressão, já vemos uma senha incorreta Essa senha é ruim, essa senha é ruim. Essa senha também está de volta. Quase todas as senhas nessas funções são ruins, certo? Mas não vamos nos precipitar. Pode começar a sinalizar a senha manualmente. Qual é a primeira coisa que classificamos de acordo com a publicação especial do NIST, 800 C3b, quando você solicita um celular pela primeira vez Suzanne, memorize o segredo com pelo menos oito caracteres Ok, então a senha dos usuários não deve ser classificada. Então, vamos começar verificando isso. Então, o que faremos é verificar o tamanho da senha. Primeira coisa. Então, para isso, o que vou fazer criar um tamanho enorme, uma variável, e aqui vou usar o comprimento uma variável, e aqui vou do sublinhado STR Verifique o tamanho da senha aqui. Vou verificar a parte do comprimento em que você acabou de acessar o útero e conjunto de dados e a senha e verificar qual é o tamanho da senha Ok. Ok. Então, e isso Alice disse no, basta emprestar e então eu criarei outra variável para classificar, para classificar Ele classificou quando deveria começar, quando você acabou de alongar esse comprimento. O comprimento que calculamos a partir do campo Senha. Se for menor que oito, vamos sinalizar isso como ordenado, ok? E então imprimiremos a soma na fonte. Quantos existem? Vou resumir e imprimir. Ok, então vamos executar isso. Então veja, há 376 senhas neste banco de dados, neste conjunto de dados, que precisam classificar menos de oito caracteres e ver você classificar São mais de oito caracteres, 3368. Isso também é verdade. Então, são sete caracteres, seis caracteres. Portanto, essas senhas do WeChat com menos de oito caracteres são sinalizadas como uma ferramenta para classificar Ok, agora temos uma maneira mais rápida de sinalizar a senha que podemos ter menos de oito caracteres A próxima verificação são as senhas comuns. As pessoas apoiam muito isso. Vamos usar a lista de 10 milhões de senhas Ok, então vamos verificar com essa lista se a senha é dessa lista ou não. Ok. de regra, dois criminosos entre as primeiras 12 publicações especiais do dia seguinte, é um SSD de três V a função de que, quando você demite a venda, compare os possíveis segredos com a lista de valores conhecidos por serem comumente usados, esperados ou comprometidos pela senha inicial dos cadáveres de Então, esse exemplo de regra, dois criminosos entre as primeiras 12 publicações especiais do dia seguinte, é um SSD de três V a função de que, quando você demite a venda, compare os possíveis segredos com a lista de valores conhecidos por serem comumente usados, esperados ou comprometidos pela senha inicial dos cadáveres de violação anteriores. Ok. Então, essa é a parte deja, a senha comum que as pessoas usam, a que vazou Então, as palavras do dicionário se repetem em segundos. Os personagens podem acessar palavras específicas, como nome do serviço, nome de usuário, derivado Ok, tudo isso, pense nisso. Para uma senha comum. Vamos ler as linhas desse arquivo, que é um arquivo TXT de 10 milhões de pontos de lista de senhas E então veremos a lista de senhas comuns. Ok, então só nessa lista. Portanto, essas são as senhas comuns, como 123456, ou alguém poderia. A senha é igual à senha I Ok, então todos esses super-homens, todos Jada e Jennifer, robôs Jolly Então, essas são as senhas comuns que as pessoas usam. Então , vendemos muito. Eles armazenam senhas que não devem ser a senha comum. Como verificamos isso? Portanto, precisamos sinalizar todas as senhas em nosso banco de dados de usuários que estão entre as melhores, as inteligentes. A senha que você já usou é a senha comum, ok. Para isso, vou usar, vou criar uma variável chamada senhas comuns em dólares. Então, criarei um campo chamado senha comum no banco de dados do usuário. E isso acontecerá se a senha estiver dentro dessa senha comum, a senha estiver dentro dessa senha comum. Ok? Se você inserir a senha dentro da senha comum, ela será sinalizada como uma senha comum e, em seguida, veremos quantas senhas são comuns. Então, vamos ver. Então, veja suas 129 senhas em nosso banco de dados ou as senhas comuns que as pessoas usaram. Veja aqui. Estes são os comuns Password March Tom Murphy Ok, agora encontramos uma senha comum. A seguir, veremos como podemos considerar isso como uma senha ou não, porque senhas não são senhas muito comuns, certo? Até agora, criaremos uma variável pior e leremos linhas dos 10.000 textos em inglês do Google. Portanto, vale a pena o corpus de vodka premium do Google que o Google nos deu, ok, esse arquivo, e então veremos se as pessoas estão usando palavras comuns em suas senhas Ok? Então, usaremos o sublinhado STR para diminuir a função, para diminuí-la E então verificaremos se está lá ou não. Em seguida, abriremos a guia de resumo e descobriremos quantas pessoas estão usando palavras comuns. Senha. Portanto, as senhas do CR1 37 contêm palavras comuns. Ok. A próxima coisa é que a senha não seria repetida no Predicting. Então, como verificar isso? Então, primeiro vamos dividir o pior. Usaremos a divisão de sublinhado STR e dividiremos a senha, ok, e depois escolheremos o máximo de caracteres operacionais repetidos plotando cada o máximo de caracteres operacionais repetidos plotando Então, vou criar o máximo de repetições de sublinhado. E vou usar a função de aplicação aqui e passarei a senha desta lista aqui. E então, função, você dividiria senha sublinhada e max é igual a RLE, dividiria E então encontraremos o comprimento. E se muitas repetições se repetirem, opa, vou armazenar muitas repetições Se for maior que, para, maior ou igual a quatro, igual a Mais, Mais ou igual a quatro. Ok, então vamos ligá-lo. Então veja aqui. Repetição máxima até o máximo, repita uma, grau máximo 31. Ok, então agora o que vamos fazer, vou juntar tudo isso. E analisamos todas as preferências básicas por senha incorreta. Agora temos uma senha incorreta. Agora vamos ver, vamos juntar tudo. Criarei uma senha incorreta valiosa e verificarei se é para classificar nossa senha comum ou palavra comum, ou se muitas repetições são repetições demais adicionei muitas reprises duas vezes. Ok? E se, se alguma dessas condições for verdadeira, sinalize que a senha tem uma senha incorreta e, em seguida, veremos quantas senhas incorretas estamos recebendo. Então, vamos ver, agora estamos vendo essa senha incorreta e aqui poucas senhas foram sinalizadas como verdadeiras Senha incorreta, é verdade. Então esse co, isso é o normal, essa é a palavra comum, Commonwealth Portanto, eles são marcados como um sinalizador Senha incorreta de dados. Dessa forma, podemos escrever um código para encontrar a senha incorreta ou a força da senha usando odd 121. Introdução ao Machine Learning: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre aprendizado de máquina Agora, vimos como podemos usar nossa programação para visualização e análise de dados Agora, a partir de agora, aprenderemos sobre aprendizado de máquina Começaremos com os conceitos básicos do aprendizado de máquina. Veremos como o aprendizado de máquina funciona. Quais são os tipos de aprendizado de máquina, quais são as aplicações do aprendizado de máquina? Ok, então veremos quais são os processos de aprendizado de máquina, como aplicamos algoritmos, como criamos, modelamos, como avaliamos. Ok, vamos começar com uma introdução ao aprendizado de máquina, revelando o poder dos dados Vamos começar com a definição de aprendizado de máquina. Usando um mundo orientado por dados, as máquinas estão desempenhando um papel cada vez maior na compreensão da grande quantidade de informações à nossa disposição. Como você sabe, nesta era digital, estamos recebendo dados, turnos de dados a cada segundo, seja no setor de aviação, seja nas mídias sociais em todos os lugares, negócios, no comércio eletrônico, no aprendizado, na farmácia, na área médica, em todos os lugares. A cada segundo, estamos recebendo muitos dados. Esses dados não são os dados normais que você costumava armazenar nas tabelas Adim, mas são o big data Eles não estão em um formato muito estático. Eles estão em um formato muito dinâmico. Serão imagens, serão imagens. Todas essas coisas, esses dados de dados dinâmicos são muito difíceis de uma forma tradicional. O aprendizado de máquina é um subconjunto da inteligência artificial que surgiu como uma força transitiva, capacitando os computadores a aprender e se adaptar a partir dos dados, a realizar tarefas Agora, como temos muitos dados à nossa disposição, se não conseguirmos obter informações dos dados, é inútil receber milhares de comentários do cliente, do consumidor ou do nosso usuário final E se você não está trabalhando nisso, se você não sabe como trabalhar nisso, então é inútil, certo? Não melhoraremos nossos processos, nossos produtos e nossos serviços com o surgimento da ciência de dados com inteligência artificial, aprendizado de máquina e da análise de dados. O que podemos fazer é aprender com os dados, explorar os dados e obter informações relativamente boas dos dados. E podemos nos adaptar de acordo com os dados. Podemos analisar, podemos orientar decisões a partir dos dados. Nesse caso, antes costumávamos fazer isso sozinhos, mas devido ao aprendizado de máquina e à inteligência artificial, agora podemos capacitar os computadores a aprender com os dados e adotá-los para realizar tarefas sem programação acelerada Nem precisamos escrever o programa. Ele é pré-vendido e podemos treinar os modelos. E isso fará com que comecemos a trabalhar para nós, menos entenderemos aprendizado de máquina com um pouco mais de detalhes. Em essência, o aprendizado de máquina trata da criação de algoritmos que permitem que os computadores aprendam com os dados e tomem decisões ou previsões com base no conhecimento técnico Ao contrário da programação tradicional, em humanos instruem explicitamente os computadores sobre o que fazer, aprendizado de máquina permite que os sistemas melhorem seu desempenho de forma autônoma por meio Isso é obtido por meio dos seguintes componentes principais. Os algoritmos de dados, o treinamento, a avaliação e o teste do modelo e, em seguida, a implantação. Essas são as coisas que fazemos no aprendizado de máquina. Primeiro obtemos os dados, depois aplicamos algoritmos nesses dados, depois treinamos e depois avaliamos e testamos o modelo. E então, se o modelo receber os requisitos e os resultados, implantamos uma produção adequada sobre o que são dados. Os dados são a força vital do aprendizado de máquina. Se não houver dados, não há aprendizado de máquina, não há IA. Porque o aprendizado de máquina, a ciência de dados de IA, tudo depende dos dados. Muitos dados. Os dados lá, serão mais benéficos, serão aprendizado de máquina eficiente, inteligência artificial, aprendizado profundo. Todas essas coisas dependem dos dados. Os dados são o sangue do aprendizado de máquina. Se não estiver lá, o aprendizado de máquina não estará andando, algoritmo não estará andando. Os algoritmos aprendem padrões e relacionamentos a partir de dados históricos ou em tempo real, que servem como campo de treinamento para esses sistemas, algoritmos que aprendemos e aplicamos. Eles aprendem com o padrão e o relacionamento do algoritmo e o relacionamento do os dados que usamos para treinar modelos de aprendizado de máquina. Para que, quando os novos dados chegarem, eles prevejam com base nos dados históricos nos quais treinamos o sistema. A qualidade e a quantidade dos dados são fatores críticos para o sucesso do modelo de aprendizado de máquina. Os dados que estamos obtendo devem ser significativos. Se os dados não forem significativos, não forem aprimorados, forem muito claros, os modelos de aprendizado de máquina não serão muito vagos Primeiro, temos que trabalhar nos dados. Os dados devem ser muito limpos e precisos para que os modelos de aprendizado de máquina funcionem de forma eficaz. algoritmo, algoritmos de aprendizado de máquina são mecanismos matemáticos que processam dados. Na verdade , os algoritmos estão por trás da matemática. Eles trabalham nos dados e processam os dados, identificam os padrões nos dados e, com base nesses padrões fazem as previsões ou decisões Esses algoritmos podem ser categorizados em vários tipos, incluindo aprendizado supervisionado, não supervisionado e aprendizado por reforço, cada um adequado para tarefas cada um Algoritmos e, assim como eles aprendem com os dados, aprendem com os dados, eles lêem os dados, são tipos diferentes que aprenderemos enquanto observamos os diferentes tipos de aprendizado. OK. O que é o treinamento do modelo Durante o treinamento, modelo de aprendizado de máquina é exposto aos dados e aprende a reconhecer padrões Todos os dados terão algum padrão. Se você consultar os sites de aprendizado, se eles coletarem os dados, saberão que o usuário está acessando o site. Eles clicam em algo com base no fato de estarem comprando o pão que estão comprando, mas estão comprando açúcar, estão comprando o E, o modelo ou algoritmo de aprendizado de máquina. Quando atingiu os dados , alcançou os dados, verá esse padrão. Se uma pessoa compra um pão, ela também está comprando a manteiga Ao comprar o pão com manteiga é também quando ele está comprando o chá, comprando também o açúcar do leite. Esse é o padrão reconhecido pelo modelo. E então o modelo ajusta seu parâmetro para minimizar o erro ou desvio do resultado esperado Avaliação e testes. Avaliação e testes. Após o treinamento, o modelo é avaliado. Quando o modelo for treinado, ele será avaliado usando o conjunto de dados separado. Suponha que tenhamos um conjunto de dados, treinaremos nosso modelo nesse conjunto de dados específico E diremos que reconheça o padrão, como Brad, quando uma pessoa compra Brad, ela compra o. Mas temos que prever o que o usuário pode comprar em seguida. Qual será o comportamento, qual produto podemos costurar para ele. Treinamos em um conjunto de dados e depois provamos e avaliamos o modelo em outro conjunto de dados para que possamos conhecer seu desempenho e capacidade de generalização ajuste fino e a otimização geralmente são necessários para melhorar a precisão. Depois disso, ajustamos o modelo e otimizamos o modelo e os algoritmos para melhorar a precisão da implantação do modelo de aprendizado de máquina. Quando o modelo é confiável, ele pode ser implantado em aplicativos do mundo real para fazer previsões, automatizar decisões e fornecer recomendações Você teria se deparado com todas essas coisas, como no Amazon Flip Card Quando você vê quando compra um produto, o sistema começa automaticamente a recomendar novos produtos com base no seu comportamento anterior ou produto anterior que você comprou Ele recomendará que você seja novo quando assistir à Netflix. Se você assistir a um filme de comédia, na próxima vez, quando for ao Netflix. Comece a recomendar os novos filmes de comédia, certo? Ele reconheceu seu padrão de assistir em modelos de aprendizado de máquina. Por trás da Netflix, da Amazon, de todas essas coisas, eles começam a recomendar novos produtos, filmes, todas essas coisas, ok? Quais são as aplicações do aprendizado de máquina? O aprendizado de máquina encontrou aplicações em uma ampla variedade de setores e domínios, revolucionando a maneira como abordamos Aqui estão alguns saltos notáveis. Usamos o aprendizado de máquina na área da saúde. Auxílios de aprendizado de máquina , planejamento de diagnóstico, descoberta de medicamentos e medicina personalizada por meio da análise de dados médicos, imagens e sequências genômicas Em finanças, ele capacita algoritmo do sistema de detecção de fraudes, a negociação algorítmica, pontuação de crédito, a avaliação de riscos e ajuda as instituições financeiras a tomar decisões baseadas em dados Os sistemas de recomendação que eu já discuti usam o aprendizado de máquina para sugerir produtos, experiência de compra personalizada e otimizar a estratégia de preços Veículos autônomos, o aprendizado de máquina é parte integrante dos carros autônomos. Permitindo que eles percebam suas informações, momentos decisões e naveguem com segurança por meio de um exemplo. processamento de linguagem natural, PNL e LP para carros aplicativos de processamento de linguagem natural, PNL e LP para carros incluem tradução de idiomas, análise de sentimentos, fóruns de bate-papo e relação de voz, tornando a interação humano-computador mais perfeita e muito mais usada atualmente . fabricação, a manutenção preditiva e controle de qualidade são aprimorados por meio do aprendizado de máquina Reduzindo o tempo de inatividade e os defeitos nos processos de produção. Ciência ambiental e aprendizado de máquina são usados para modelagem climática, previsão de tendências ambientais e análise de dados ecológicos importância do aprendizado de máquina O aprendizado de máquina vai além de suas explicações. Ele tem potencial para acelerar a tomada de decisões, aumentar a eficiência, descobrir insights, personalizar sua experiência e inovação aprendizado de máquina promove a inovação ao abrir novas possibilidades em áreas como robótica, realidade virtual e realidade aumentada Podemos descobrir os novos insights dados usando o aprendizado de O que concluímos é que o aprendizado de máquina representa um avanço tecnológico avançado, ou seja, remodelando indústrias, promovendo a inovação e melhorando os processos de tomada de decisão em dados, e melhorando os processos de tomada de decisão continua crescendo em volume e complexidade aprendizado de máquina desempenhará um papel cada vez mais central na extração de valor e inteligência desse mundo rico em dados À medida que nos aprofundamos nesse campo, exploraremos suas várias técnicas, algoritmos e aplicativos com mais detalhes, revelando todo o potencial do aprendizado de máquina No final desta palestra, veremos mais sobre aprendizado de máquina nas próximas palestras. Obrigada. 122. O papel da aprendizagem de máquina: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre o papel do aprendizado de máquina na ciência de dados e na inteligência artificial, transformando dados em insights Já aprendemos sobre os fundamentos da ciência de dados e do aprendizado de máquina, mas entenderemos pouco como podemos visualizar os dados usando aprendizado de máquina e inteligência artificial E qual é a importância dos dados nesses campos. Ciência de dados e inteligência artificial, dois dos campos mais transformadores do cenário tecnológico moderno Nesses domínios, o aprendizado de máquina desempenha um papel fundamental na extração de insights acessíveis, na automação de processos e na capacitação de dados que Nesta palestra, exploraremos a relação intrincada entre aprendizado de máquina, relação intrincada ciência de dados e IA, e como elas contribuem coletivamente para ciência de dados é o campo interdisciplinar que combina várias técnicas e processos para extrair sites de conhecimento de dados estruturados e não estruturados Deixe-me esclarecer um pouco sobre dados estruturados e não estruturados Dados estruturados são os dados que são muito estruturados de forma que tenhamos as coisas predefinidas para armazenar os dados, como fazemos no banco de dados icicle ou no banco de dados relacional tradicional Coisas em que definimos coisas como haverá nome, haverá um, haverá endereço. Haverá o produto que ele comprou. A data, será definida e em forma de tabela. Está bem? E será um dado que será definido. Será um texto ou imagem ou o que quer que seja, certo? Mas quando analisamos essa coisa, dados não estruturados. Atualmente, dados não estruturados são muito comuns devido ao surgimento das mídias sociais, da Internet, do comércio eletrônico e do setor de aviação Em todos os lugares, temos muitos dados não estruturados. Os dados não estruturados não estão definidos. Os dados estão chegando de várias maneiras. Assim, às vezes vem em um formulário de bate-papo. No chat, estamos compartilhando o texto, estamos compartilhando as imagens, estamos compartilhando as imagens. Estamos vendendo os arquivos, compartilhando os vídeos, compartilhando as animações. Pode ser qualquer coisa. Os dados não estão definidos. Os dados são estruturados, não estruturados por natureza. Com as coisas tradicionais, é muito difícil extrair as informações dos dados, armazená-los ou obter insights significativos da parte de dados. Com o big data a ciência de dados e o aprendizado de máquina de IA, é muito fácil analisar, armazenar e obter insights desses dados não estruturados que obtemos das mídias sociais, do comércio eletrônico, dos sites e da nossa empresa Isso é muito fácil hoje em dia extrair conhecimento e insights dos dados não estruturados que fazemos com a ciência de dados Ela abrange uma ampla gama de atividades, incluindo coleta de dados, como coletamos os dados, pré-processamento de dados, como pré-processamos os dados antes de trabalhar neles e, em seguida, como fazemos a análise dos Essa é a parte da análise de dados que veremos e a visualização de dados pode visualizar os O objetivo principal da ciência de dados é transformar dados brutos em insights acessíveis e embasar decisões estratégicas de negócios. Toda empresa que tem muitos dados históricos, se não aprende com dados históricos, como se estivéssemos administrando uma empresa de roupas, site de comércio eletrônico onde vendemos roupas, não sabemos o que temos. Os dados de que parte da diretoria, os produtos não estão vendendo, alguns dos produtos são mais vendidos. Se não obtivermos essas informações dos dados anteriores, não poderemos recomendar o novo produto, novos designs aos clientes. Com a ajuda de dados históricos, tomamos as decisões e podemos tornar nossas estratégias estratégicas robustas e mais acessíveis Ok, o papel crucial do aprendizado de máquina na ciência de dados. aprendizado de máquina é o subconjunto da IA que se concentra no desenvolvimento de algoritmos e modelos que permitem que os computadores aprendam e façam previsões ou decisões sem serem programados explicitamente Veja como o aprendizado de máquina aprimora a ciência, análise e a previsão de dados Os algoritmos de aprendizado de máquina podem analisar grandes conjuntos de dados para descobrir tendências de padrões ocultos e relações fundamentais entre os dados Essa habilidade é fundamental para fazer previsões, seja na previsão de vendas, na rotatividade de clientes ou até mesmo no diagnóstico de dígitos. Na área médica, o aprendizado de máquina automatizado de pré-processamento de dados pode automatizar as tarefas de pré-processamento de dados, aprendizado de máquina automatizado de pré-processamento de dados pode automatizar as tarefas de pré-processamento como valores ausentes, imputação, detecção de valores discrepantes, escalabilidade de recursos, economizando tempo e esforço para cientistas de dados como valores ausentes, imputação, detecção de valores discrepantes, escalabilidade de recursos, economizando . engenharia de recursos pode auxiliar na seleção e engenharia de recursos, ajudando a identificar as variáveis mais relevantes para modelagem, classificação e agrupamento produtivos Modelos de aprendizado de máquina, como máquinas vetoriais de suporte a dissidentes e algoritmos de agrupamento, são usados extensivamente na ciência de dados para tarefas como segmentação de clientes e classificação de imagens. Já discutimos o sistema de recomendação Já discutimos filmes e o sistema de recomendação Esses sistemas de recomendação podem ser facilmente aprimorados com o aprendizado de máquina. colaborativos de filtragem e sistemas colaborativos de filtragem e recomendação baseados em conteúdo Os sistemas colaborativos de filtragem e recomendação baseados em conteúdo são orientados pelo aprendizado de máquina, fornecendo recomendações de personagens em comércio eletrônico e conteúdo plataformas de comércio eletrônico e conteúdo, como Netflix, linguagem natural, linguagem natural, processamento de linguagem natural Um subconjunto do aprendizado de máquina permite análise de sentimentos, classificação de texto e desenvolvimento de painéis de bate-papo Aprimoramento de dados gerando insights a partir de dados textuais e visualização de dados aprendizado de máquina pode ajudar a gerar visualizações de dados interativas e informativas, tornando os insights complexos mais acessíveis A sinergia da IA e do aprendizado de máquina. Embora a ciência de dados se concentre principalmente na extração de insights dos dados, IA amplia os recursos do aprendizado de máquina para realizar tarefas e normalmente requer inteligência humana O aprendizado de máquina é a força motriz por trás de muitos aplicativos de IA, permitindo que o aprendizado de máquina imite as funções cognitivas humanas Veja como o aprendizado de máquina preenche a lacuna entre a ciência de dados e a automação baseada em IA Os algoritmos de aprendizado de máquina automatizam várias estatísticas, várias tarefas, desde reconhecimento de imagens em veículos autônomos até tradução de idiomas em fóruns de bate-papo Tornando os aplicativos de IA mais eficientes e acessíveis com a ajuda do aprendizado de máquina nos termos dos supostos veículos autônomos, quando podemos treinar o modelo, exemplo, quando ele vê o sinal, podemos alimentar a imagem do sinal, seja ela vermelha, verde ou amarela. Com base no sinal do sinal, o carro automatizado pode parar quando vê o sinal vermelho. Ele pode se mover quando está vendo o sinal verde. Todas essas coisas que podemos treinar com a ajuda da personalização da IA O aprendizado de máquina permite que os sistemas de IA forneçam experiência personalizada, como conteúdo personalizado, recomendações de conteúdo, campanhas e campanhas de marketing personalizadas e até planos de tratamento de saúde. Análise preditiva, eu conduzi análises produtivas com base no aprendizado de máquina organização de saúde antecipa o comportamento do cliente, falha do equipamento, permitindo a tomada de decisões proativa Podemos fazer a análise preditiva e adivinhar como nossos trens estão indo, qual é o comportamento do cliente e como os clientes gostarão do novo produto tomada de decisão aprimorada algoritmos de aprendizado de máquina auxiliam o sistema de IA a tomar decisões informadas, analisando vastos conjuntos de dados em tempo real, reduzindo o erro humano, processamento e a compreensão da linguagem natural e os modelos de LP Um subconjunto do aprendizado de máquina permite que o sistema de IA entenda e responda a aplicativos que impulsionam a linguagem humana como potes virtuais para gatos Concluindo, podemos dizer que o aprendizado de máquina é o alicerce que conecta conjuntos de dados e eu, transformando dados brutos em insights E permitindo que o sistema de inteligência artificial realize tarefas antes consideradas o sonho da inteligência humana. Isso significa que o aprendizado de máquina será a parte crucial para inserir a inteligência humana nas máquinas mais cedo, coisas que eram apenas para os únicos humanos serem capazes de fazer. Agora é possível que, com o aprendizado de máquina, a ciência de dados e eu, nossas máquinas possam fazer o trabalho que os humanos podem fazer com algo muito preciso. À medida que a tecnologia continua avançando, a relação simbiótica entre ciência de dados, aprendizado de máquina e IA continuará salvando nosso cenário digital e impulsionando inovação em vários setores De pé, o papel do aprendizado de máquina é essencial para qualquer pessoa interessada no mundo dinâmico e em constante evolução de dados e inteligência artificial É por isso que a relação entre ciência de dados, aprendizado de máquina e IA deve ser entendida para obter conhecimento nesse campo. Espero que você tenha entendido qual é a sinergia entre IA e aprendizado, qual é o papel do aprendizado de máquina e da ciência de dados encontraremos na próxima palestra e discutiremos mais algumas coisas sobre aprendizado de máquina. Obrigada. 123. Tipos de aprendizagem de máquina: Olá e bem-vindo de volta. Nesta palestra, vamos aprender os tipos de aprendizado de máquina, tipos de aprendizado de máquina Vamos ver isso como uma visão geral muito abrangente. Vamos começar agora. Temos a compreensão básica do que é aprendizado de máquina, como ele está relacionado à inteligência artificial e ciência de dados, em geral. Certo, vamos revisar um pouco mais uma vez. aprendizado de máquina, um subconjunto da inteligência artificial, transformou a forma como os computadores podem processar informações e tomar decisões O que entendemos, certo? É parte da inteligência artificial. Se você observar o panorama geral, ciência de dados é o panorama geral. Abaixo disso vem a inteligência artificial e abaixo está o aprendizado de máquina. Aprendizado profundo, todas essas coisas. Ok, o aprendizado de cena é um subconjunto da inteligência artificial Isso transformou a capacidade dos computadores de prever os resultados como humanos e mais rápido que humanos. Essa é a transformação que o aprendizado de máquina trouxe para a mesa. É muito fácil tomar decisões para empresas processando seus dados. Uh, algoritmo de aprendizado de máquina fazendo modelos e depois avaliando o modelo E depois predizendo, e às vezes eles prevêem 100% de uma informação correta Ok, algoritmos de aprendizado de máquina permitem que o sistema aprenda com os dados. Os dados são a chave. Nas últimas palestras, entendemos como os dados são a força vital do aprendizado de máquina, da inteligência artificial e do ecossistema geral da ciência de dados Tudo depende dos dados. Tudo começa com o algoritmo de dados. Os algoritmos de aprendizado de máquina permitem que sistemas, computadores ou máquinas aprendam com os dados e melhorem seu desempenho ao longo do tempo. Sem programação explícita, você precisa programar sempre. Você só precisa treinar o modelo. E começará a aprender com os dados e melhorará com base no processo de aprendizado pelo qual passou. Há vários tipos de aprendizado de máquina, cada um adequado para tarefas e aplicativos específicos. Nesta palestra, exploraremos as principais categorias de aprendizado de máquina e suas características Ok, vamos começar. Existem basicamente sete tipos de aprendizado de máquina. O primeiro é o aprendizado supervisionado, depois o aprendizado não supervisionado, depois o aprendizado semisupervisionado, depois o aprendizado profundo por reforço, depois o aprendizado autosupervisionado e, em seguida, o aprendizado por transferência . Então, esses são os sete tipos de aprendizado de máquina que vamos aprender. Em primeiro lugar, começaremos com o aprendizado supervisionado. O aprendizado supervisionado é um aprendizado que podemos relacionar com o aprendizado da sala azul da turma, onde um professor supervisionou nosso aprendizado onde um professor supervisionou nosso E ele nos ensina com as imagens, com o vídeo, com o áudio, com as várias ajudas educacionais, certo, que ensinam o aprendizado supervisionado aprendizado supervisionado é um dos tipos mais comuns de aprendizado de máquina Envolve um modelo de treinamento em um conjunto de dados rotulado em que cada ponto de dados é emparelhado com o destino de saída correto O modelo aprende a mapear os dados de entrada para a saída correta, encontrando padrões e relações As principais características do aprendizado supervisionado incluem. Antes de vermos as principais características, deixe-me dizer o que isso significa? aprendizado supervisionado é o tipo mais comum de aprendizado de máquina Com isso que fazemos, suponha que queremos treinar nosso sistema para reconhecer os rostos humanos. Nesse caso, o que faremos é alimentar os dados para o algoritmo ou modelo de aprendizado de máquina com imagens como humanas. Se for uma fase humana, diremos que essa é uma fase humana. Se for outra coisa, vamos colocar que essa é a fase animal, essa é uma fase de desenho animado, ok? Vamos alimentar muitas imagens e cada imagem será marcada com um nome. Será rotulado, ok, se for um rosto humano, todos os rostos humanos serão rotulados, serão rotulados serão rotulados Todos os gatos, cães, animais rostos de elefantes serão marcados de acordo com suas especificações Ok, agora, quando alimentamos os dados por meio do modelo de aprendizado de máquina, ele verá, ok , esse é rosto humano, esse é o ritmo humano. Ele reconhecerá o padrão de um rosto humano e, com base nos padrões que vê nos rostos humanos, aprenderá que, se esse rosto aparecer, será um rosto humano. Ele também vê o padrão de outras imagens que não têm um padrão semelhante ao de Para os rostos humanos, ele reconhecerá, ok, esse padrão pertence a um gato. Esse padrão pertence ao elefante. Esse padrão pertence aos macacos. Assim, ele começará a aprender após o treinamento, quando alimentarmos uma nova imagem que não faz parte desse conjunto de dados sem um rótulo Ele executará os padrões e corresponderá ao padrão que aprendeu. Qualquer que seja o padrão correspondente, ele dirá que, ok, esse é o rosto humano Ou se for um gato, dirá que é uma cara de gato. Com base nos dados de treinamento anteriores, reconheça o padrão de uma nova imagem e ela fornecerá o resultado, seja um rosto humano ou não. É assim que o aprendizado supervisionado funciona. Tem características principais, ou seja, classificação e regressão. Esses são os dois termos muito importantes que devemos lembrar e dos quais devemos estar cientes. O primeiro é a classificação. Classificação na tarefa de classificação, o modelo prevê rótulos ou categorias discretas Por exemplo, classificar e-mails como spam ou não spam. Quando você olha para o, você pode ver o e-mail. Sempre que um e-mail chega, e-mail é automaticamente classificado como spam. Ele colocará isso na pasta de spam. Como isso funciona? Ele treinou alguns modelos de inteligência artificial ou aprendizado de máquina para enviar isso por e-mail. Se o e-mail vier desses domínios de palavras-chave, ele será classificado como spam Se não estiver na lista de contatos do destinatário , será marcado como spam. Muitos e-mails foram enviados a partir desse ID de e-mail específico em massa para pessoas desconhecidas Em seguida, ele será classificado como spam. É assim que a tarefa de classificação funciona. Ok, uma categoria específica será uma categoria específica rotulada como spam, spam norte ou spam norte Considerando a região, as outras características são tarefas regionais na região. O modelo prevê valores contínuos. Por exemplo, prever preços de casas com base em características como pé quadrado e localização Com base no metro quadrado e na localização, ele predirá o preço da casa. Quando alimentamos os dados, treinamos, os dados são alimentados para essa área específica. Essa é a taxa de localização premium será alta com base nisso. Sempre que você coloca um novo local com as novas dimensões da casa, o metro quadrado e tudo isso vai prever que, ok, essa casa deve ter esse preço. Essa é a região de onde vêm os dados numéricos contínuos, onde usamos a regressão, onde os dados de classificação vêm de categorias e, em seguida, usamos a Esses são os dois. Considere. O próximo tipo de aprendizado de máquina é o aprendizado não supervisionado. No aprendizado não supervisionado, ele lidará com os dados não rotulados aprendizado não supervisionado lida com dados não rotulados, onde os algoritmos visam encontrar estruturas de padrões, agrupamentos, dentro agrupamentos Ele é usado para tarefas como agrupamento e redução de dimensionalidade Cada característica do aprendizado não supervisionado inclui agrupamento, algoritmo de agrupamento e o que ele faz agrupa pontos de dados semelhantes com base nos aprendizado não supervisionado inclui agrupamento, algoritmo de agrupamento e o que ele faz: agrupa pontos de dados semelhantes com base nos recursos. Por exemplo, agrupar clientes com comportamento de compra semelhante para agrupamento de marketing direcionado significa supor que você tenha um Suponha que você tenha um site de e-learning em que a maioria dos clientes está comprando cursos e marketing, poucos clientes estão comprando cursos no domínio da tecnologia. Então, o que o clustering fará é agrupar todos os clientes que compraram cursos relacionados a marketing em um grupo específico Isso os agrupará e a tecnologia que criará outro cluster, teremos dois grupos de clientes. Um está interessado em cursos de marketing e outro em cursos de tecnologia interessantes. É assim que, com base nisso, quando o novo cliente apresenta algum comportamento, ele o classifica e o agrupa em um determinado grupo Depois vem a redução da dimensionalidade. Esses algoritmos reduzem o número de recursos nos dados enquanto preservam as informações essenciais Análise de componentes principais. Pca é uma técnica comum para redução de dimensionalidade. Suponha que você tenha tantos recursos em nosso conjunto de dados e isso resultará em pontos de dados desnecessários Isso reduzirá o número de recursos disponíveis no conjunto de dados e se concentrará nas principais palavras-chave e recursos, além de fazer o aprendizado, ok? Isso é chamado de Análise de Componentes Principais, que é o principal recurso do seu conjunto Qual é a principal característica que está afetando o alvo, afetando o resultado que encontraremos na Análise de Componentes Principais, PCA O próximo é o aprendizado semisupervisionado. semisupervisionado combina elementos do aprendizado supervisionado e não supervisionado Ele aproveita o conjunto de dados com uma pequena quantidade de conjunto de dados rotulado e uma grande quantidade de dados Essa abordagem é frequentemente usada quando a obtenção dados rotulados é cara e demorada Ok, então vem o aprendizado por reforço. O aprendizado por reforço consiste em treinar agentes para tomar sequências de decisões em um ambiente Para maximizar, em um ambiente, maximizar uma recompensa cumulativa É comumente usado em aplicativos como jogos, robótica e sistemas autônomos As principais características dos reforços e aprendizado por reforço incluem agente O agente interage com um ambiente e aprende recebendo feedback na forma de recompensas ou políticas de punição Essa política é a estratégia ou conjunto de regras que o agente segue para tomar decisões. O objetivo é aprender uma política opcional que maximize as recompensas de longo prazo. Aprendizado profundo. O aprendizado profundo é um subconjunto do aprendizado basal que se concentra em redes neurais com muitas camadas de redes neurais profundas Ele ganhou atenção e popularidade significativas nos últimos anos devido ao seu desempenho excepcional em tarefas como reconhecimento de imagem e fala. As principais características do aprendizado profundo incluem redes neurais, redes neurais artificiais com várias camadas de nós ou neurônios interconectados Rede convolucional profunda, rede neural CNN's. Esses são os RNNs de redes neurais recorrentes comumente usados para tarefas de reconhecimento de imagem RNNs de redes neurais recorrentes comumente usados para tarefas de reconhecimento Eles são usados para tarefas de dados sequenciais, como processamento de linguagem natural e análise de tempo Veremos em detalhes quando virmos aprendizado profundo, o aprendizado autosupervisionado aprendizado autosupervisionado é uma técnica em que um modelo aprende com dados sem rótulos fornecidos por humanos Em vez disso, ele gera rótulos a partir dos próprios dados. Aprendizagem supervisionada, ela reconhecerá um padrão. Ele rotulará os dados como fase humana ou Caha. Todas essas coisas ele rotulará por si só, geralmente criando uma tarefa substituta Ele se mostrou promissor em vários processos de linguagem natural, processamento de computador e tarefas computacionais. Depois vem o aprendizado por transferência. O aprendizado por transferência envolve treinar um modelo em uma tarefa e, em seguida, usar o conhecimento adquirido para melhorar desempenho de uma tarefa relacionada. É uma abordagem prática quando você tem dados limitados para uma tarefa específica. Agora, o aprendizado de máquina abrange uma variedade diversificada de tipos e técnicas, cada um com sua força e aplicações Compreender os tipos de dados é essencial para escolher a abordagem correta ao lidar com vários problemas do mundo real À medida que o aprendizado de máquina continua avançando seu impacto em setores como saúde, espera-se que seu impacto em setores como saúde, finanças e sistemas autônomos cresça, tornando-o um campo fascinante e dinâmico explorar e dominar. Há muitas oportunidades no mercado para aprendizado de máquina, engenheiros, cientistas de dados, engenheiros de IA e analistas de dados. Todas essas coisas se resumem a essas coisas e podemos aprender muito mais rápido. Você disse a próxima palestra. 124. Fluxo de trabalho de aprendizagem de máquina: E bem-vindo de volta. Nesta palestra, aprenderemos sobre o fluxo de trabalho de aprendizado de máquina, como lidamos com os dados, como partimos dos dados e como migramos para os insights de dados Vamos começar. O fluxo de trabalho de aprendizado de máquina é uma ferramenta poderosa para visualizar dados. Na verdade, olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre o fluxo de trabalho de aprendizado de máquina fluxo de trabalho de aprendizado de máquina consiste em obter os dados, processar os dados, aplicar os modelos de aprendizado de máquina e obter os insights dos dados. Isso é o que significa fluxo de trabalho de aprendizado de máquina quando procurado. Nesta palestra, aprenderemos detalhadamente sobre o fluxo de trabalho do aprendizado de máquina Vamos começar, o aprendizado de máquina é uma ferramenta poderosa. O aprendizado de máquina é uma ferramenta poderosa que revolucionou a forma como lidamos com dados e fazemos previsões e decisões. Foi isso que aprendemos nas palestras anteriores No entanto, aproveitar seu potencial requer uma abordagem estruturada conhecida como fluxo de trabalho de aprendizado de máquina Neste artigo ou nesta palestra, exploraremos os principais estágios desse fluxo de trabalho, destacando as etapas essenciais envolvidas na transformação de dados brutos em informações variáveis e valiosas A primeira etapa é a coleta de dados. coleta de dados é a base do aprendizado de máquina ou da ciência de dados porque tudo depende da jornada dos dados. Começa com a coleta de dados. A etapa envolve a coleta de dados relevantes de várias fontes, como bancos de dados, APIs ou sensores. Esses são os pontos de dados em que coletamos os dados. Os dados afetam significativamente o sucesso do seu projeto de aprendizado de máquina. Tornar a coleta de dados uma tarefa crítica e muitas vezes demorada. Como você sabe, a maioria dos cientistas e analistas de dados, engenheiros de aprendizado de máquina, na maioria das vezes cerca de 60% do tempo trabalham nos dados, 40% do tempo trabalham no código e criam modelos, aplicam algoritmos, avaliam o modelo, todas essas coisas, ok? Mas 60% das tarefas têm tudo a ver com trabalhar com dados e torná-los viáveis Em seguida, vem a coleta de dados. A próxima etapa é o pré-processamento de dados. pré-processamento de dados significa refinar os dados brutos e torná-los Os dados brutos raramente estão prontos para o carregamento da máquina porque, se você tiver coletado os dados das fontes, pode haver muitos problemas nos dados Haverá um problema nos dados, haverá valores ausentes, haverá valores duplicados, haverá valores errados, haverá valores ausentes Muitas impurezas estarão presentes nos dados brutos. Nunca estará pronto. Se você trabalhar com esses dados, não obterá o resultado necessário devido às informações que faltam e que estão preenchidas incorretamente nos O processamento de dados envolve limpar, transformar e estruturar os dados para torná-los adequados para análise As principais tarefas dessa fase incluem lidar com valores ausentes, remover valores discrepantes e codificar as variáveis categóricas. As próximas etapas são a análise exploratória dos dados. Em resumo, chamamos isso de EDA. Esse é um estágio muito crítico porque na EDA entendemos os dados Antes de mergulhar na modelagem, é essencial entender seus dados, entendê-los completamente. A compreensão dos dados é muito importante. Da envolve a visualização de dados, cálculo de estatísticas descritivas identificação de padrões e correlações Essa etapa fornece informações que orientam a seleção de recursos e a criação de modelos. A próxima etapa vem e é chamada de engenharia de recursos. Isso significa que criar os recursos informativos significa se algumas das coisas estiverem lá e você puder se basear nessas informações, poderá criar um novo A engenharia de recursos serve para a engenharia de recursos é o processo de seleção, criação e transformação de recursos, ou seja, variáveis de entrada que o modelo de aprendizado de máquina usará para previsões Ele está basicamente trabalhando nos dados de entrada. engenharia de recursos qualificada pode melhorar significativamente o desempenho do modelo quanto mais modelo aprimorado você obtiver. O próximo tipo é a seleção do modelo. Escolhendo o algoritmo certo. A seleção do algoritmo de aprendizado de máquina apropriado depende do tipo de problema. É classificação ou regressão. A primeira coisa que você precisa fazer é decidir que tipo de problema você tem em suas mãos. E então você pode decidir o algoritmo. Primeiro, você precisa pensar se é um problema clássico de replicação ou um problema de regressão com base nos seus dados e nas características dos Os algoritmos comuns incluem árvores de decisão, máquinas vetoriais de suporte e redes neurais. Você pode decidir usar todos esses algoritmos com base nos seus dados e na classificação do problema. Ok, o próximo vem depois da seleção do modelo. A próxima etapa é o treinamento de modelos. Aprendendo com os dados desse espaço. O modelo selecionado é treinado usando a parte dos dados. Suponha que você tenha milhares de linhas de dados. O que você faz, dados, o que você pega? 60, 40% dos dados para treinamento e 60% restantes você os manterá para o teste, a parte dos dados que coletamos e treinamos nosso modelo com base nesses dados. Em seguida, os 60 ou 40% dos dados restantes que mantivemos para o teste desses dados, testaremos o modelo. O modelo aprende a reconhecer padrões de relacionamentos e amigos presentes no conjunto de dados de treinamento Em seguida, o treinamento envolve o ajuste do parâmetro do modelo para minimizar erros ou desvios dos resultados esperados Com base no treinamento que damos ao modelo selecionado, ajustaremos o parâmetro para minimizar os erros ou desvios do resultado esperado , que é muito crítico Em seguida, passamos para a avaliação do modelo. Veremos qual desempenho ou resultado estamos obtendo, o que estamos obtendo e, em seguida, avaliaremos nosso modelo. Após o treinamento, é fundamental avaliar o desempenho do modelo. Isso é feito usando um conjunto de dados separado, ou seja, a validação ou o conjunto de dados de teste, para acessar o quão bem o modelo generaliza os dois As métricas de avaliação comuns incluem precisão, razão, recordação e pontuação F one. Essas são as métricas de avaliação, precisão, o recall de precisão e a pontuação F. A próxima etapa é ajustar os hiperparâmetros ou otimizar os parâmetros do modelo Os modelos de aprendizado de máquina geralmente têm hiperparâmetros que não são aprendidos durante o treinamento , mas devem ser definidos manualmente ajuste de hiperparâmetros envolve a busca pela melhor combinação de hiperparâmetros para otimizar o desempenho do modelo Em seguida, vem a etapa final, ou seja, a implantação do modelo na produção, na produção ou no mundo real. Depois que o modelo é considerado confiável e preciso, após o teste, ele pode ser implantado em um ambiente real para fazer previsões ou automatizar decisões Essa fase pode envolver integração do modelo em sistemas ou aplicativos existentes exemplo, suponha que você tenha um sistema bancário em que decide qual candidato concederá o empréstimo e qual rejeitar. E você desenvolveu um modelo de aprendizado de máquina que pode lhe dar a decisão de se é adequado ou não adequado para o empréstimo. Seu modelo está oferecendo até 97, 98, 99% de precisão. Durante o teste, você pode implantar no ambiente de produção e colocar os dados do usuário nele. E com base na análise de dados do usuário pela qual passou o treinamento durante o treinamento do modelo, ele pode analisar os dados, critérios financeiros, todas essas coisas. E pode decidir se podemos emitir um empréstimo ou não. Essas são as coisas que podemos fazer na implantação do modelo. Então, após a implantação do modelo, o trabalho não é 0, precisamos monitorar e manter o modelo A manutenção também é muito importante para o sucesso a longo prazo, pois pode gerar falsos negativos ou falsos positivos. Todas essas coisas que precisamos monitorar de perto para que nosso modelo de sistema seja nossos algoritmos estão funcionando bem e fornecendo resultados precisos. Os modelos de aprendizado de máquina exigem monitoramento e manutenção contínuos, a distribuição de dados muda com o tempo . Porque às vezes, quando trabalhamos no modelo, criamos o modelo, o conjunto de dados ou os critérios de suporte no setor bancário De tempos em tempos, você recebe as diretrizes do governo. Com base nessas diretrizes, os critérios podem mudar. Então, temos que continuar monitorando, uh, e temos que continuar analisando os dados e os resultados. As distribuições de dados mudam com o tempo. O desempenho do modelo pode diminuir porque os critérios foram alterados Ele pode fornecer as saídas erradas, então temos que monitorá-lo Atualizações e reciclagem regulares. Quando algo muda, precisamos retreinar o modelo nos novos dados para que ele possa funcionar nos novos critérios alterados Atualizações e reciclagem regulares podem ser necessárias para garantir a precisão contínua do modelo Então, agora entendemos como o fluxo de trabalho funciona. O fluxo de trabalho de aprendizado de máquina é uma abordagem sistemática para resolver problemas do mundo real aproveitando o poder dos dados Ele transforma dados brutos em insights acionáveis e sistemas inteligentes capazes de fazer previsões e tomar decisões Compreender e dominar esse fluxo de trabalho é essencial para cientistas de dados, analistas engenheiros que desejam aproveitar todo o potencial do Maine para aproveitar todo o potencial do aprendizado de máquina no mundo atual orientado por dados À medida que a tecnologia continua avançando, o fluxo de trabalho de aprendizado de máquina desempenhará um papel central cada vez maior em vários setores, impulsionando a inovação e a tomada de decisões informadas. Espero que tenhamos entendido como o fluxo de trabalho do aprendizado de máquina funciona, desde a coleta de dados até o processamento de dados, a análise exploratória de dados, a engenharia de recursos , a seleção de modelos, o treinamento de modelos, a avaliação do modelo, o ajuste de hiperparâmetros, a implantação do modelo, o monitoramento e a Todas essas etapas são muito cruciais para a implementação bem-sucedida de um modelo de aprendizado de máquina. Espero que você tenha entendido, nos encontraremos na próxima palestra. Obrigada 125. Princípio GIGO: Bem vindo de volta. Nesta palestra, entenderemos o conceito e o princípio muito importantes que são muito aplicáveis no aprendizado de máquina e que são muito antigos. O conceito de lixo no lixo é um princípio que está sendo usado na indústria e no software de QI Também é aplicável no aprendizado de máquina. Isso garantirá que a qualidade dos dados seja boa e isso se tornará o poder da qualidade dos dados. Vamos começar. Entrar lixo , sair lixo No reino do aprendizado de máquina, um princípio fundamental é válido, pois todos sabemos que lixo, lixo fora, é Ou seja, sendo por muitos anos lixo, lixo fora. Essa frase concisa resume um conceito profundo. A qualidade da entrada influencia profundamente a qualidade da saída produzida pelos modelos de aprendizado de máquina. O que isso significa? Isso significa que os dados, os dados que você insere nos modelos de aprendizado de máquina resultantes, se você inserir a qualidade de dados precisos e limpos, obterá o resultado preciso. Se você colocar os dados com lixo, valores ausentes, informações erradas, outras coisas, valores ausentes errados , você não obterá a boa saída necessária Os resultados que você obterá, as pausas que obterá serão muito, muito errados. Porque tudo depende dos dados que você coloca no sistema e dos quais resulta. Você entrará em uma era em que os dados reinam. suprema compreensão e apreciação do princípio de Gig são essência essencial de Ideia simples e profunda em sua essência. O Gig Principle é um lembrete de que não importa quão sofisticados sejam os algoritmos, a potência da infraestrutura de computação ou a habilidade dos cientistas de dados, o valor da produção de aprendizado de máquina está vinculado à qualidade dos dados inseridos no O que isso significa? Isso significa que, seja qual for o algoritmo, um algoritmo forte, o quanto você codifica, como você o torna sofisticado, a infraestrutura de computação atual é poderosa e o quanto são qualificados cientistas de dados, de aprendizado de máquina e engenheiros de IA. Se os dados não forem bons, tudo isso será usado porque, se os dados não forem bons, seu cientista de dados qualificado, seu cientista de dados qualificado, sua infraestrutura e seus algoritmos não funcionarão corretamente. Porque tudo depende dos dados. A base deve ser forte, base deve ser muito boa, então você pode crescer. Se a semente não for boa, de boa qualidade. Uma planta não pode crescer da mesma forma. Os dados são a semente de todas as atividades de aprendizado de máquina. Com bons dados, você obterá um bom resultado. Você vai tirar uma boa ideia disso. Você obterá bons resultados. Você obterá as previsões a partir disso. Os dados devem ser bons, então o algoritmo funcionará corretamente, a infraestrutura de conforto suportará e o cientista de dados poderá obter os melhores resultados e as previsões com base nas quais você poderá tomar boas decisões de negócios A qualidade dos dados é muito importante. Senso de chave. Imagine um carro autônomo navegando pela rua A cidade no veículo depende de sensores e câmeras para percebê-la Ao redor, como todos sabemos, carros autônomos , motoristas e menos carros basicamente trabalham nas coisas. Como eu trabalho? Eu trabalho, mas com a câmera, câmera, os olhos da do humano para o carro autônomo. E os sensores são os órgãos sensoriais dos carros autônomos Os sensores, o que ele recebeu, os sinais e a câmera, o que ele vê e o que ele traduz e combina. E isso criará um ambiente para que a placa motriz celular avance. Se ele ver algum sinal vermelho, ele deve parar. Se ele vê alguns obstáculos à frente, ele deve parar. Certo? É isso que o sinal os sensores e as câmeras fazem, certo? Se o A estiver com defeito. Suponha que você esteja colocando os sensores com defeito ou que a câmera esteja suja ou que a qualidade da câmera não seja boa Se houver um sinal vermelho e a qualidade da câmera ou se a câmera estiver suja e não estiver visual adequada, ela não parará, colidirá com o sinal e poderá causar um acidente mortal Portanto, os sensores defeituosos e a câmera, se estiverem sujos, os dados coletados por meio dos sensores e da câmera serão imprecisos ou incompletos, inconsistentes e, portanto, tomarão decisões erradas Consequentemente, o processo de tomada de decisão do carro, como detectar pedestres, reconhecer os sinais de trânsito , fica comprometido Nesse cenário, mesmo os algoritmos mais avançados não conseguem resolver a situação. É um exemplo clássico de colocar o lixo na saída do lixo. Se você colocar lixo, você vai pegar o lixo. Se você colocar os sensores certos no lugar, não colocará as câmeras boas. Se o sistema não estiver recebendo uma boa entrada por meio da câmera e dos sensores, os algoritmos e os modelos de aprendizado de máquina não conseguirão prever nada de bom. E isso causará um carro autônomo, causará um acidente. Indústrias certas. Agora, vamos entender como, se os dados inúteis forem liberados no sistema, o que isso afetará os setores em que os aplicativos de IA e aprendizado de máquina serão usados. No caso dos cuidados de saúde, no diagnóstico médico, a precisão e a integridade dos dados do paciente são fundamentais A coisa mais importante, histórico médico incorreto ou incompleto, pode levar a um diagnóstico e recomendação de tratamento incorretos No caso financeiro, as instituições financeiras confiam em dados para tomar decisões de investimento e arriscar ****** baixa qualidade dos dados pode levar a perdas financeiras e estratégias mal informadas No caso do marketing, campanhas de marketing dependem de insights baseados em dados para o público-alvo forma eficaz, perfis de clientes imprecisos ou informações desatualizadas podem resultar em campanhas ineficazes e recursos investidos Você precisa inserir os perfis corretos do cliente e os dados no perfil do cliente. Os dados do perfil do cliente devem ser muito, muito recentes para que possam ser facilmente identificados se uma pessoa tem interesse em comprar TV e esse interesse foi capturado há seis meses. E se você está ligando para aquele cliente, ok, você quer comprar, comprar uma TV TV. Então ele pode dizer que eu estava procurando uma TV há seis meses, agora eu já comprei uma TV. Sua campanha de marketing entrará, você ligará e o cliente entrará. E se você segmentar um cliente que acabou de começar a pesquisar a TV e obteve os dados muito recentemente em 23 dias, ele ainda pode estar procurando a TV certa. E quando você liga para esse cliente e o ajuda a decidir comprar uma TV nova, ele pode acabar comprando uma TV de você É assim que ocorre o impacto do lixo na saída do lixo Os dados devem ser recentes e não devem estar desatualizados, e devem ser precisos em termos de recomendações de comércio eletrônico. As plataformas baseadas no comportamento do usuário são tão boas quanto os dados adequados a elas. Dados de baixa qualidade podem levar a recomendações inadequadas de produtos e à perda de células. No caso de processamento de linguagem natural, aplicativos de PNL, como fóruns de bate-papo ou análise de sentimentos, a qualidade dos dados de treinamento afeta significativamente a capacidade do modelo entender e responder à linguagem humana Reduzindo o papel da qualidade dos dados para mitigar o efeito do Gig e garantir a integridade dos resultados do aprendizado de máquina, a organização deve priorizar a qualidade dos dados e como eles podem priorizar seguindo etapas como a coleta de dados, um processo rigoroso de coleta de dados deve estar em vigor, incluindo procedimentos de validação e limpeza de dados para mitigar o efeito do Gig e garantir a integridade dos resultados do aprendizado de máquina, a organização deve priorizar a qualidade dos dados e como eles podem priorizar seguindo etapas como a coleta de dados, um processo rigoroso de coleta de dados deve estar em vigor, incluindo procedimentos de validação e limpeza de dados. Ao coletar os dados, você não deve coletar os dados desse jeito. Deve haver um processo de coleta dos dados. Após a coleta dos dados, deve haver uma validação dos dados e os procedimentos de limpeza também devem ser seguidos. Os dados de coleta de dados de pré-processamento devem ser processados por meio de várias técnicas , como lidar com valores ausentes e encontrar valores discrepantes Muito importante em nosso processamento de dados. Então, a governança de dados, estabelecendo a estrutura de governança de dados para manter a qualidade dos dados durante todo ciclo de vida, é muito importante. A validação de dados é outra etapa muito importante para mitigar o problema, que é validar e verificar regularmente a precisão e a consistência dos dados , porque isso é Como discutimos sobre a venda perdida de TV, esses dados não foram verificados, já faz 67 meses que o cliente demonstrou interesse. Isso deve ser muito importante. Temos que validar seus dados, quão recentes são, quão desatualizados estão, como estão, quão consistentes todas essas coisas devem ser verificadas Em seguida, os ciclos de feedback implementam mecanismo para monitorar e melhorar continuamente a qualidade dos dados, relevância contínua do trabalho à medida que avançamos na área de big data e aprendizado de Como se já tivéssemos avançado muito mais e agora temos que colocar muita ênfase no princípio do Go. princípio do Gig permanece tão relevante quanto a qualidade dos dados continuará sendo a base para garantir o sucesso e a confiabilidade dos sistemas de TI em um mundo onde os dados são abundantes, mas nem Adotar o princípio do Guigo é essencial para aproveitar todo o potencial do aprendizado de máquina e, ao mesmo tempo, evitar para aproveitar todo o potencial do aprendizado de máquina e, ao mesmo tempo, evitar erros caros e consequentes. Cuidando do show, você tem que ter muito cuidado E se você cuidar do trabalho, evitará erros caros, constantes e consequentes Em conclusão, o princípio de Guigo serve como um lembrete da relação simbiótica entre a qualidade dos dados e a eficácia Ao priorizar a qualidade dos dados, as organizações podem, com o valor de seus investimentos em aprendizado de máquina, tomar decisões informadas e se manter à frente nos dados e no No mundo do aprendizado de máquina, dados de qualidade não são apenas um ativo. É a base sobre a qual os sistemas de inteligência são construídos. Isso é uma coisa muito importante de entender. Dados de qualidade não são apenas um ativo. São necessários dados de qualidade. Os dados de qualidade não são apenas um conjunto ou outro requisito. É a base sobre a qual criamos todos esses sistemas de IA, modelos de aprendizado de máquina , modelos de aprendizado profundo, sistemas de recomendação, todas as coisas nas quais vamos trabalhar e usaremos Tudo depende da qualidade dos dados. Os dados são a base e a coisa mais essencial para o ecossistema da ciência de dados. Espero que você saiba como podemos mitigar o problema e como podemos obter os dados de qualidade dos dados para nossos modelos de aprendizado de máquina e dados para nossos modelos aprendizado de máquina Obrigado na próxima palestra. 126. Algoritmos de aprendizagem supervisionados: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre o algoritmo de aprendizado supervisionado Será o caminho para as previsões inteligentes por meio do aprendizado de máquina Fazemos previsões inteligentes, certo? Vamos começar. Temos a compreensão básica do aprendizado supervisionado. Mas antes de passar para os algoritmos, vamos entender qual é o conceito fundamental de aprendizado supervisionado aprendizado supervisionado é um conceito fundamental no mundo do aprendizado de máquina É o rem, em que os computadores aprendem com dados rotulados para fazer previsões Ou é o ponto de partida das previsões, certo? Uma coisa muito básica é o aprendizado supervisionado. Ou seja, forneceremos aos modelos de aprendizado de máquina os dados rotulados e esses algoritmos de aprendizado de máquina de dados por meio do tipo de rótulo que os dados têm Então, com base nisso, quando os novos dados chegarem, ele analisará o padrão aprendido durante o treinamento e, em seguida, tomará a decisão. Está bem? E isso sustenta inúmeras aplicações em nossa vida diária Nesta palestra, examinaremos mais de perto os algoritmos de aprendizado supervisionado Explorando o que são e como funcionam e alguns dos exemplos comuns de aprendizado supervisionado O que é aprendizado supervisionado? aprendizado supervisionado é o tipo de aprendizado de máquina que já abordamos na palestra anterior Onde o algoritmo é treinado em nosso conjunto de dados rotulado. Em outras palavras, os dados de entrada são emparelhados com a saída ou destino correto, o algorgate O algoritmo aprende a mapear os dados de entrada para a saída correta, aprendendo efetivamente com os exemplos Esse processo de aprendizado permite que o algoritmo faça previsões ou decisões quando apresentado a novos dados invisíveis A mecânica do aprendizado supervisionado. aprendizado supervisionado pode ser dividido em alguns componentes principais O primeiro deles são os dados, pois os dados são a base de todos esses dados do ecossistema de ciência de dados, IA e aprendizado de máquina. O conjunto de dados do rótulo serve como um campo de treinamento para algoritmos. Inclui os dois recursos de entrada, por exemplo, variáveis de atributos, todas essas coisas. E os valores-alvo correspondentes, por exemplo, rótulos e categorias. Ok, os dados são o ponto de partida. Em seguida, vem a seleção do modelo, um algoritmo específico de aprendizado supervisionado baseado na natureza do seu problema Algoritmos comuns incluem decisão três, região linear, regressão logística, máquinas de vetores de suporte e redes neurais Todos esses são os algoritmos de aprendizado de máquina que aplicamos em um modelo. Selecionaremos com base na natureza do problema que vamos resolver. Treinamento. Durante a fase de treinamento, o algoritmo analisa os dados de entrada, aprende a reconhecer o padrão que está disponível nos dados, o relacionamento Além disso, analisará nossos limites de decisão. E quais são os limites definidos para a tomada de decisão que leva à saída correta. Ele ajusta iterativamente seu parâmetro interno para minimizar os erros de previsão Depois vem o teste e a avaliação. Após o treinamento, o modelo é avaliado em um conjunto de dados separado que não é usado durante o treinamento É por isso que dividimos o conjunto de dados inteiro em duas partes antes de prosseguirmos o treinamento, ou seja treinamento e conjunto de dados de teste em conjunto de dados de treinamento, testamos o modelo no conjunto de dados de teste Nós o testamos até ****** sua capacidade de generalizar para novos Várias métricas de desempenho, como precisão, precisão e recuperação, são usadas para o modelo de avaliação após o treinamento O teste e a avaliação são uma das etapas muito, muito importantes do aprendizado supervisionado Agora, quais são os tipos comuns de algoritmos de aprendizado supervisionado que usamos durante o aprendizado supervisionado Quando selecionamos aprendizado, quando selecionamos dados, selecionamos o modelo, selecionamos o algoritmo. Quais são esses algoritmos que usamos? Há uma grande variedade de algoritmos de aprendizado supervisionado, cada um adequado para diferentes tipos de problemas Cada algoritmo funcionará em cada problema, em cada problema. Precisaremos de uma abordagem específica para resolver um problema na vida diária. Além disso, você não pode resolver todo o problema com a mesma abordagem. Da mesma forma, no aprendizado de máquina, ao usar o aprendizado supervisionado, não podemos resolver todo o problema por meio de um problema de algoritmo cada problema específico, precisaremos de uma maneira específica de resolvê-lo, certo? Por falar nisso, existem muitos algoritmos e, com base em nossos requisitos, podemos escolher o mais adequado para o nosso problema. E às vezes podemos não ter certeza de qual algoritmo funcionará. Nesse caso, os cientistas de dados se aplicariam a três algoritmos. E eles analisarão o resultado e as previsões. E qualquer pessoa que forneça as previsões mais corretas, elas usarão esse algoritmo em teste, é a maneira mais comum de finalizar qual tipo de algoritmo devemos usar Aqui estão alguns exemplos notáveis, como a regressão linear, um dos algoritmos de aprendizado supervisionado mais populares Então, a regressão logística, a árvore de decisão é muito importante VMs aleatórias de vetores de suporte florestal são redes neurais muito importantes E os vizinhos K mais próximos. Esses são os algoritmos de aprendizado de máquina supervisionados muito populares algoritmos de aprendizado de máquina supervisionados que usamos na solução de problemas Usando o aprendizado supervisionado, qual é regulação usada para prever valores contínuos que também discutimos anteriormente Certo? Há dois tipos de valores. Valores contínuos, significam os valores numéricos e os valores categóricos, onde temos as categorias dos dados claramente definidas regulação linear é usada para prever valores contínuos Aqui. Agora, estamos bem claros de que sempre que temos valores contínuos, precisamos prever alguns preços de uma ação, preço de uma casa de coisas em que os números estão envolvidos. Podemos usar a regulação linear. Podemos pensar na regulação linear como um dos algoritmos de resolução de problemas para aprendizado de máquina usando aprendizado supervisionado Regulação linear usada para prever valores contínuos, como preços de casas, com base em características como localização em pés quadrados Ele assume uma relação linear entre o recurso de entrada e o recurso de destino No caso da previsão do preço da habitação, é uma relação bastante linear. Sempre que você estiver indo para um local premium, seus preços serão altos. Quando vamos aos locais menos econômicos, tarifa será alta. Se você estiver optando por um metro quadrado da área de construção , o preço da sua casa subirá por metro quadrado, menos preço. É uma relação linear entre o recurso de entrada e o recurso de entrada de destino. Nesse caso, uma previsão interna é um metro quadrado da localização da casa, certo? Seja um pneu, de cidade em cidade. Todos esses são o recurso de entrada e o recurso de entrada. Nossos preços vão subir e descer. Essa é uma abordagem que podemos usar, a regulação linear para valores contínuos. Os problemas logísticos e logísticos rimarilyedinaryssifbre problemas em que temos uma especificação muito clara de que existe uma situação de sim ou não em que você pode dizer sim ou não ou classificar em termos de spam de e-mail ou não spam são problemas em que temos uma especificação muito clara de que existe uma situação de sim ou não em que você pode dizer sim ou não ou classificar em termos de spam de e-mail ou não spam. Há uma classificação muito específica que queremos fazer. Ou queremos categorizar esse e-mail vindo de uma pessoa desconhecida como spam ou não Isso é chamado de classificação binária, os dois tipos de classificação que fazemos, spam ou não spam. O binário é muito claro que precisamos inserir para colocar em uma das categorias, ok? Nesse caso, é spam ou não, ok? Em caso de aprovação do empréstimo, empréstimo aprovado ou não aprovado, aprovado ou rejeitado. No problema do pedido de empréstimo, é binário. A classificação será empréstimo aprovado, empréstimo rejeitado, aprovado e rejeitado. Essa será a classificação binária. regulação logística modela a probabilidade de uma entrada pertencer a uma classe específica A aula é spam. Spam, ok, decisão. A decisão. O algoritmo versátil. Eles são muito versáteis, usados tanto para classificação quanto para regressão Região linear e região logística que somos. Então, essa região linear, região linear que podemos usar para a regressão logística de valores contínuos, podemos usar para os problemas categóricos ou Mas, às vezes, a região linear e as abordagens logísticas não são educadas o suficiente para o problema Precisamos de uma abordagem melhor. Nesse caso, a decisão Rich entra em cena. Eles são algoritmos muito versáteis e decentes podem ser usados para tarefas de classificação e região. Decisão Crie uma estrutura em forma de árvore para decisões e resultados com base no recurso de entrada. Com base no recurso de entrada, você obterá a estrutura em forma de árvore. Com base nisso, você pode prever a saída. Floresta aleatória, floresta aleatória Método de execução do Gimble que combina várias árvores de decisão para melhorar a precisão e reduzir as máquinas vetoriais, dando suporte às máquinas vetoriais Os Svms são muito eficazes para tarefas de classificação. Sbm encontra a hiperfaixa ideal que melhor separa os pontos de dados pertencentes a classes diferentes Nesse caso, classificaremos todo o conjunto de dados em classes diferentes E o SBM encontrará linha ideal de hiperplano ideal que separará os pontos de dados pertencentes a diferentes classes diferentes rede neural, o aprendizado profundo as redes neurais alimentam particularmente as redes neurais avançadas e as redes neurais convencionais. As CNNs são ferramentas poderosas para tarefas como reconhecimento de imagem e fala . Eles resolverão um problema de reconhecimento de imagem Temos que lidar com essas redes neurais em redes neurais profundas. Também temos as duas abordagens. Duas abordagens alimentam a rede neural avançada e a rede neural convolucional Isso é N. Em seguida, vêm os K vizinhos mais próximos usados para classificação e regressão. Ambos os problemas podem ser resolvidos por meio previsões não feitas com base na classe majoritária ou no valor médio do ponto de dados K mais próximo no conjunto de treinamento Ele prevê os valores com base na classe majoritária ou no valor médio do ponto de dados K mais próximo no conjunto de treinamento Alguns exemplos do mundo real, aplicações do aprendizado supervisionado em caso de diagnóstico médico, a previsão do resultado G com base em dados de pacientes, como detecção de câncer, são um dos exemplos do diagnóstico médico em que usamos o aprendizado supervisionado Com base nos dados do paciente, prevemos que, seja câncer ou não, processamento de linguagem natural e a PNL são usados para processamento de linguagem natural Usamos análise de sentimentos, classificação de texto e tradução automática Esse também é um exemplo de aprendizado supervisionado. Reconhecimento de imagem, identifique objetos, rostos e anomalias em imagens e vídeos, ou seja, reconhecimento de imagens Outro exemplo de aprendizado supervisionado, pontuação de crédito, avaliação da capacidade de crédito de indivíduos com base nos dados financeiros e pessoais Esse também é um exemplo de aprendizado supervisionado que está sendo muito usado no setor financeiro acessando dados financeiros pessoais e dados pessoais para definir sua crédito com base na pontuação de crédito Eles decidem se a pessoa é elegível para empréstimo imobiliário, empréstimo pessoal ou empréstimo comercial ou não Em seguida, os sistemas de recomendação que recomendam filmes de produtos são contidos com base na preferência do usuário Esse é o aprendizado supervisionado mais usado atualmente. Em todos os lugares, vemos o sistema de recomendação em sites de comércio eletrônico, Amazon, ebay, etc Eles recomendam produtos com base no sistema recomendado e que internamente usem o aprendizado supervisionado Depois, os filmes, Netflix, Hot Star, todas essas coisas que eles estão usando sistemas de recomendação. Depois, o conteúdo baseado na cerca, como anúncios no Facebook, Youtube, vídeos do Youtube com base em suas referências. Essas são as aplicações do aprendizado supervisionado no mundo real do aprendizado supervisionado Agora, o que podemos citar nesta palestra é que algoritmos de aprendizado supervisionado são horas de trabalho de aprendizado de máquina, possibilitando o aprendizado de computação, permitindo que os computadores aprendam com dados rotulados e façam previsões com notável precisão Os aplicativos abrangem setores, setores e domínios, tornando-os uma ferramenta essencial para extrair insights, automatizar tarefas tomar decisões baseadas em dados em nosso mundo rico em À medida que o aprendizado de máquina continua avançando, algoritmos de aprendizado supervisionado continuarão sendo a base da inovação e da solução de problemas nas áreas de inteligência artificial e ciência de Espero que você tenha conhecido os algoritmos de aprendizado superamplo de aprendizado de máquina que usamos. E veremos na próxima palestra se, na próxima. 127. Regressão linear: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre regressão linear, que é a base da modelagem preditiva Vamos começar. O que é regressão linear Antes disso, entenderemos que a regressão linear é a base da análise estatística e da modelagem preditiva, desempenhando um papel fundamental na compreensão da relação entre as variáveis e na realização relação entre Nesta palestra, entraremos no mundo da regressão linear Explorando suas principais aplicações e como ela capacita os cientistas de dados a extrair informações valiosas dos dados região linear é muito importante para o cientista de dados ou até mesmo para os engenheiros de aprendizado de máquina, porque com a região linear que podemos entender e prever, podemos assinar um modelo produtivo melhor. Ok, vamos começar de novo entendendo a região linear. Como se diz, a região linear é método estático usado para modelar a relação entre uma variável dependente chamada x, a variável dependente que geralmente é denotada por y, e mais uma variável independente, normalmente denotada x. X. Y será a variável dependente e x será a variável um método estático usado para modelar a relação entre uma variável dependente chamada x, a variável dependente que geralmente é denotada por y, e mais uma variável independente, normalmente denotada x. X. Y será a variável dependente e x será a variável independente. Ok, arion linear é o método estatístico para definir a relação entre a variável dependente x e a variável independente Y. O que significa quando mudamos o Como o Y está mudando esse relacionamento? Tentamos descobrir que essas técnicas de modelagem visam encontrar a regulação linear de melhor ajuste que descreva as variáveis relacionadas Com a regulação linear, tentamos encontrar a equação linear de melhor ajuste que pode definir a relação entre x e y quando x está mudando como Y está mudando essa relação. Você tenta definir por essa equação a equação linear. A equação de regulação é denotada por y. Queremos encontrar o y, como ele está mudando com base no x. A equação de regulação linear é beta 0 mais beta sobre e em x mais erro Ok, vamos ver o que são o beta 0 e o beta 1 e quais são os épsilons, isso na verdade é Agora, essa equação nos dará o valor y quando colocarmos X beta zero e beta um mais erro. Está bem? Aqui está o independente, Y é o dependente, independente Y é a variável dependente ou a variável alvo, ok? O valor que queremos prever com base no X, ok, é a variável dependente ou variável alvo que chamamos de variável, certo? E então beta zero é a interceptação que representa o valor de Y quando X é zero. Na próxima aula, no próximo slide, beta um é a inclinação que indica o quanto y muda para uma mudança unitária x e épsilon representa o termo de Este é o termo de erro responsável pela variabilidade em y que não é explicada pela regulação linear com x. Veja aqui, esta é a região linear, esta é a linha de regação Este é o X que é a variável independente no X, X, isso está no y. X está mudando como Y está mudando. Isso é o que queremos prever aqui, isso é o que queremos definir aqui. Esta é a variável dependente, esta é a variável independente X nesta equação, beta zero mais beta um em x. Veja aqui, o beta zero é a interceptação independente Esta é a interceptação em que ele está interceptando os y Xs. Isso é o que é o beta zero. Se você considerar esse ponto aqui , será o beta zero, esse será o beta zero. E a primeira versão beta será a inclinação. Qual é a inclinação? Para o eixo x? Está bem? Quanto x, y muda quando x1x está mudando. Quando x está mudando, quanto Y está mudando? Isso é o que? Beta 1. Está bem? Aqui, este é o ponto real e esta é a linha de degradação Nossa previsão é essa. Para x ser chamado de um, estamos obtendo y aqui. Mas o ponto real em nosso conjunto de dados que está aqui, essa distância entre esse valor previsto e o valor real é chamada de termo de erro ou erro, e denotada por esse épsilon quando adicionamos beta zero mais beta um em x mais Um termo, nós, obtemos o ponto de regeneração, ok? Você acertou. Essa é a linha de regulação e essa distância da tela é chamada de épsilon E os pontos de taxa são os pontos de dados que temos, esses pontos de dados, tentamos encontrar a melhor linha de ajuste, que é a linha de regração para definir as relações entre x e y, ok? Aplicações da região linear. regressão linear tem uma ampla gama de aplicações em vários domínios Como na economia, os economistas usam a regressão linear para analisar o impacto de variáveis como taxas de inflação, taxas juros e gastos do consumidor em indicadores econômicos, como o PIB financeiro Em finanças, a regressão linear ajuda a modelar os preços das ações, prever os retornos dos ativos e fatores de risco dos ativos que afetam o investimento Os portfólios de investimento em recursos médicos e médicos empregam regressão linear para prever o resultado do paciente com base em fatores como idade, genética Em marketing, os profissionais de marketing usam a regressão linear para avaliar a eficácia das campanhas publicitárias, analisar o comportamento do cliente, as vendas e as ciências sociais Cientistas sociais aplicam a regulação linear para estudar fenômenos como taxas de criminalidade , resultados educacionais e tendência prótica Na engenharia, os engenheiros usam a regulação linear para modelar propriedades físicas, como a relação entre a temperatura e a resistência do material. Construindo e avaliando o modelo de regulação linear. A construção de um modelo de regulação linear envolve as seguintes etapas. Coleta de dados, a primeira coisa é coleta de dados reuniu o conjunto de dados que inclui variável independente y e mais uma variável independente X, variável independente X e y, precisamos que essa seja a coleta de dados Em seguida, explore os dados, explore os dados, use estatísticas descritivas e visualizações para obter informações sobre a relação entre as variáveis Depois vem a flexão do modelo. Use software estatístico. Use software estatístico ou linguagem de programação como Python ou R para criar um software de regeneração linear, estimar o valor de beta zero e beta um que avaliação do modelo é a próxima etapa em que acessar o desempenho do modelo usando matrizes Métricas como coeficiente de determinação, médio quadrático R ou erro quadrático médio raiz, RMSC Essas métricas quantificam o quão bem o modelo se ajusta aos dados. Interpretação, interprete o coeficiente beta zero e beta um Para entender a força e a direção da relação entre a previsão das variáveis, use o modelo de tendência para fazer previsões para os novos pontos de dados Quais são os desafios dessa região linear? Embora a região linear seja uma ferramenta versátil e poderosa, ela tem limitações. Ele pressupõe que um tempo linear nem sempre seja verdadeiro em cenários do mundo real Além disso, pode não capturar relacionamentos complexos ou não relacionados. Em conclusão, a regulação linear é uma técnica fundamental no mundo da modelagem estática e preditiva Sua simplicidade, interpretabilidade e ampla variedade de aplicativos o tornam uma ferramenta essencial para extrair informações valiosas dos dados E tomar decisões informadas em diversos campos e indústrias. Embora sirva como um trampolim para avançar, avance para as técnicas avançadas de modelagem Dominar a regulação linear é uma habilidade fundamental para qualquer cientista ou analista de dados Entendemos os fundamentos da regressão linear e quais são as aplicações para a região linear, como construímos um modelo de regressão linear e quais são os desafios que ela enfrenta Na próxima palestra, tentaremos fazer a região usando nossa programação, veja dentro da próxima palestra 128. Realizando regressão linear em R: Olá e bem-vindo de volta. Na aula anterior, aprendemos sobre a regeneração linear Nós entendemos o conceito em teoria. Agora faremos um exemplo simples de regressão linear e veremos como podemos implementar a região linear usando a programação R. O R fornece uma ampla variedade de pacotes e funções para análise de regeneração linear Aqui, estou lhe dando um guia para realizar a região linear passo a passo usando a programação R. O primeiro passo deve ser a preparação dos dados. Como os dados são a base para todos os sinais de dados, aprendizado de máquina, visualizações de dados, aprendizado profundo, tudo relacionado à ciência de dados A primeira etapa é a preparação dos dados. Os dados são muito importantes. Para isso, vamos usar o arquivo CSV que conterá um conjunto de dados muito simples Está bem? O primeiro passo é preparar sua fita, preparar seus dados, carregar seus dados em R. Então, ela deve estar muito formatada, deve ter as variáveis dependentes e independentes Ok, aqui estamos usando dados, CSP que eu carrego Ao usar re file em R, todos nós carregamos. Essa é uma função que nos permite ler os dados, ok, a partir de um arquivo CSV, estou criando uma variável aqui, data E estou usando o arquivo CSV para ler os dados desse arquivo e estou armazenando o resultado nos dados Ok, vamos executar isso. Está bem? Eu fornecerei o arquivo CSV de dados para você. Você pode baixá-lo da classe e usá-lo, ok? Você precisa colocar os dados CSP no diretório do projeto para que ele leia corretamente e forneça o caminho completo para esse diretório E vai ler, ok. Caso contrário, ele dará o caminho errado. Isso lhe causará o erro. Ok, arquivo, não um, apenas todos aqueles erros que você receberá. O próximo passo é que veremos o que está dentro desses dados. Usaremos a função head head e passaremos os dados desse objeto. E então, quando executamos isso, podemos ver que o que há em nosso conjunto de dados é um conjunto de dados bem simples que tem x e y. X é a variável independente e Y é a variável dependente com base em x. Y está mudando Ok, para cada x, traçaremos y e tentaremos encontrar uma região linear. linha de regressão mostrará, o que representará essa relação entre x e y. Ela se ajustará melhor a todos esses pontos, pontos, ok Com base nisso, se você fornecer algum outro valor x que não esteja no, ele predirá o valor y, ok? O próximo passo é a construção de modelos. Para isso, vamos usar a função LM. Função L para modelo linear. Está bem? Lm significa modelo linear. função Lm é a que vamos usar para a regressão linear ou para criar o modelo linear Está bem? É escrita como função L M LM que usamos para construir um modelo de regressão linear Neste exemplo, preveremos a variável dependente y com base na variável independente x. Ok, para construir um modelo de regressão linear, criaremos um objeto de modelo aqui E então usaremos a função L M e diremos que X, Y depende de x dados que os dados fornecerão como dados, objeto de dados que criamos aqui. Está bem? Os dados são iguais aos dados e Y depende de x. Agora vamos executar isso. Isso criará nosso modelo. Agora eu quero ver o resumo do nosso modelo. Está bem? Para isso, podemos usar a função de resumo e passar esse objeto de modelo aqui. Vamos executar isso. Este é o resumo do nosso modelo. Aqui você pode ver a média residual, mediana e o primeiro quartil Terceiro quartil e valores máximos, ok? O valor máximo é 24.469 Ok. Então podemos ver o coeficiente erro padrão estimado e o valor R. Ok? Toda a interceptação, tudo que você pode ver, essas são as coisas Veremos como você simplesmente vê as coisas e como podemos determinar as coisas com base nessa letra de primeiro quartil, terceiro quartil e valores máximos Ok, a próxima etapa é a avaliação do modelo. Agora você pode avaliar o desempenho do modelo examinando a estática resumida, incluindo valores do coeficiente R A próxima etapa são as previsões. Usaremos a função de previsão para fazer previsões. Com seu modelo, você pode especificar um novo valor x que não está presente no conjunto de dados para o qual queremos Preveja o valor de y aqui. Vamos criar um, um novo objeto aqui, novos dados de sublinhado aqui Vou usar o quadro de dados aqui, x. Vou nos fornecer valores de 102030 x. Estou dando aqui três valores. Estou dando 1.020,30 Para esses três valores, quero prever para dez, qual será o y? Por 20, o que será, e por 30. Então eu vou usar as previsões. Ok, vou usar a previsão. Vou armazenar os novos valores nas previsões. E vou usar a função de predição do modelo de previsão dois, os valores y com base no valor x. Para isso, usarei nosso modelo que criamos aqui. Ok, na função alum, criamos esse modelo. Vou usar esse modelo para prever os valores. Vou passar o modelo para prever a função. E novos dados são iguais a novos dados de sublinhado. Os novos dados sublinham que estamos passando pelo vetor X. Está bem? Esse vetor passará por esses novos dados. Agora, isso nos dará os novos valores previstos. Ok, agora temos as previsões. Vamos imprimir as previsões aqui. Vamos fazer isso. Vamos ver aqui agora que podemos ver o valor de predição 22,8 para 102.035,5 e 48,5 30 Deixe-me colocar isso no pedaço para que possamos ver o resultado aqui Veja aqui. Agora estamos obtendo os três valores para y x. Quando x é dez, estamos obtendo o valor y, 22,78 Quando você olha os dados aqui, não há dez, certo? Não 2030. Mas você vê um 38. Para 38, é 56. 30 está correto, certo? Para 20, estamos recebendo 35,65. Para dez, estamos recebendo 22. Agora vamos visualizar isso traçando. Usaremos a função de gráfico e nós o x e y e daremos o título como uma região linear e Xlab e Ylab Alta Tente traçar a linha da região linear usando a Função Able. Para a função Able traçar a linha de regressão de Alec, usamos o modelo que criamos e especificaremos a cor como o regrlineilllottdlt'seeeow'etlegrelinere usamos o modelo que criamos e especificaremos a cor como o regrlineilllottdlt'seeeow'etlegrelinere, nossos modelos de regressão linear. Agora, quando você pode prever qualquer valor de x aqui para 30, esse será o valor de y para 35. Essa será a interceptação. Quando você coloca uma linha daqui até aqui e onde ela está cruzando, esse será o valor previsto, 50 para todas essas coisas. Alguns dos valores estão longe daqui, dessa linha vermelha até qual será a distância desse ponto. Isso se chama erro, certo? Epsilon que vimos em nossa parte teórica, certo? A distância entre o ponto e a linha de regressão, épsilon ou erro É assim que podemos usar a região linear para prever o valor. Agora, se você pegar qualquer valor de x e passar por aqui, encontrará o valor y nessa regressão, os valores encontrará o valor y nessa previstos Ok, agora a região linear é uma ferramenta poderosa para análise e previsão de dados , modelagem preditiva Com o R, você pode facilmente realizar operações lineares, avaliar a relação entre as variáveis e fazer previsões com base em seu modelo Nisso, vimos a introdução das informações básicas à região linear, mas há muito mais a ser explorado, incluindo o tratamento diagnóstico do modelo Monte Colinearity e técnicas avançadas a introdução das informações básicas à região linear, mas há muito mais a ser explorado, incluindo o tratamento do diagnóstico do modelo Monte Colinearity e técnicas avançadas de regressão. A regressão linear é apenas uma faceta do rico panorama da análise estatística e do aprendizado de máquina podemos fazer muito mais dessas Também veremos mais alguns exemplos de regressão linear. Espero que você saiba como podemos criar o modelo de região linear e como podemos prever os valores. Como podemos traçar uma linha de regressão aqui para prever os valores veja na próxima aula 129. Preveja a altura de uma pessoa usando regressão linear: Olá e bem-vindo de volta. Na aula anterior, vimos como podemos criar um modelo de escavação linear, ok, para prever valores de Y com base no X. Ok, aqui X era a variável independente e Y era a variável dependente Agora vamos dar um passo adiante, um pequeno passo em direção ao filho. Neste exercício, o que faremos tentar prever a altura da pessoa usando graus lineares Usando nossa programação, é claro. Ok, a primeira coisa é quando você trabalha em um projeto, você obtém o conjunto de dados real Aqui. O que estou fazendo é que não estou usando os dados do mundo real. Em vez disso, estou gerando um conjunto de dados sintético. Na maioria das vezes, obtemos os dados em tempo real. Mas, com toda a prática, não podemos trabalhar sempre em um conjunto de dados muito grande, certo? Nesse caso, o que fazemos é criar nosso próprio conjunto de dados, ok, com os valores aleatórios, e tentamos criar modelos e trabalhar nele Ok, depois implementaremos a mesma coisa usando os dados do mundo real. Neste exemplo, vou usar conjunto de dados sintéticos com valores de idade variando 18 a 65 anos. Teremos os valores de idade para pessoas de 18 anos a 65 anos Está bem? E então, o que faremos criar valores de altura correspondentes usando uma relação linear. Ok, primeiro criaremos valores de idade, 18-65. Para cada valor tentaremos criar um suporte de altura correspondente de 18 anos, pessoa terá a altura 19 anos, site como esse OK. Criaremos uma altura correspondente aleatória para a pessoa de uma determinada idade usando uma relação linear. Em seguida, adicionamos algum ruído aleatório. Todos os dados nunca serão perfeitos, certo, algum ruído nos dados. Teremos alguma irregularidade nos dados. Adicionaremos algum ruído aleatório para simular com o conjunto de dados do mundo real Porque no conjunto de dados do mundo real, nunca teremos os valores corretos, teremos o ruído no conjunto Devemos ter a ambigüidade em nosso conjunto de dados. Ok, criaremos essa ambigüidade usando o ruído aleatório para simular os dados do mundo real Criamos um quadro de dados chamado dados das variáveis H e altura Em seguida, realizaremos a gração linear usando a função LM, onde prevemos a altura H Resumimos o modelo de região usando o modelo resumido. Fizemos tudo isso no exercício anterior da mesma forma que faremos aqui, mas em uma perspectiva diferente, certo? No resumo, usaremos o resumo para resumir nosso modelo de regeneração. E passaremos esse modelo que criamos durante a função Lm e veremos os policiais e as Prevemos a altura para um novo valor H. Depois de criarmos um modelo, o que faremos é passar um novo valor de idade, supostamente de 30 anos ou 35 anos, e tentaremos prever a altura da idade. Para isso, usaremos a função de previsão. Finalmente, vamos imprimir e visualizar a regressão linear, ok Preveja a altura e visualize essa linha de regressão também Ok, vamos começar com a primeira coisa que faremos gerar um conjunto de dados sintético Para isso, estou usando o conjunto 123. O que ele fará, ele configurará o conjunto para a reprodutibilidade, ok Cada vez, ele produzirá os mesmos dados de configuração. Está bem? Aqui, levaremos do intervalo de 18 a 65. Aqui, então, ele fará um álbum de 18 a 65. Então, para a altura, vou 15150 para torná-la uma linha básica mínima As pessoas terão 150 ok. Altura, 150 centímetros. Então, teremos mais 0,5 em H aqui. Usaremos a função de norma aqui. Daremos o comprimento de H, depois usaremos a média zero e o desvio padrão cinco Isso gerará a altura sintética para cada idade. Ok, aqui estamos, passando o H aqui. Ok, vamos executar isso. Agora criamos o conjunto de dados sintético. Agora, o que vou fazer é criar um dataframe. Vou armazenar no quadro de dados que é igual a h e a altura é igual à altura. Essa altura, ok, é igual a h é igual a isso. Ok, vamos executar isso também. Agora veremos o conjunto de dados, o que criamos Execute isso, veja aqui agora por 18. A altura aleatória. Nós geramos isso há 1920 anos. Isso, ok. Agora temos o conjunto de dados em nossas mãos A próxima coisa que faremos é criar um modelo de regação linear para isso Vou usar um modelo de variável aqui e vou usar a função LM para criar nosso modelo de ação linear Aqui, darei altura, altura como o valor que você deseja prever variável dependente e como variável independente. E dados são iguais a dados. Vamos criar esse modelo executando esse trecho de código. Agora que isso foi criado, deixe-me remover isso. OK. Isso eu fiz anteriormente. Ok, agora nosso modelo está pronto. Agora nosso modelo está pronto. Agora, vamos ver o resumo do nosso modelo. Aqui você pode ver todos esses valores, coeficientes e o valor do valor da era padrão, todas essas coisas, ok Nossos valores quadrados. Ok, o que vou fazer agora, temos o modelo pronto conosco agora. Quero prever a idade de uma pessoa de 30 anos. Para isso, vou criar uma nova era variável. E vou usar a função dataframe do quadro de dados aqui. Vou passar de 30 e depois da altura prevista. Quero prever a altura dessa pessoa de 30 anos. Vou usar a função de previsão. Com base em que vou prever. Vou usar o modelo para prever a altura. Vou passar esse modelo que criamos aqui usando a função LM Está bem? E novos dados são iguais a uma nova era aqui. Vou passar a nova era como 30. Eu passo essa variável que contém o valor. Ok, vamos executar isso. Agora, o que vou fazer tentar imprimir a altura prevista. Temos a altura prevista. Se você ver aqui, a altura prevista está boa. Deixe-me correr. Essa altura prevista para uma pessoa de 30 anos é 165,29. Dessa forma, previmos a altura de uma pessoa de 30 anos Se você tiver os dados em tempo real, poderá usar esses dados aqui. Está bem? Certo. E então você pode prever, agora deixe-me colocar algum outro valor, como eu quero colocar como dados de pessoas de 49 anos. Agora é 165. Vamos ver qual será o valor para 49, para pessoa de 49 anos, a altura será 174,84 8.174,47 Então essa é a altura prevista. Dessa forma, podemos prever a altura. Agora vamos desenhar a linha de regulação aqui. Eu escrevi um trecho de código em que, se você não instalou o gráfico 2 do GG, pode escrever esse código O que isso fará se for necessário o gráfico GG, ele instalará o pacote e usará a biblioteca, ok? E se já estiver lá, tudo bem, ele vai usar isso. OK. Então, aqui vamos usar a função de plotagem G GG. Vou passar os dados. X será o H e y, x será a altura e o ponto de partida, método gomo LM, cor azul para a linha regressora e todos esses cabeçalhos, sabe, O mínimo que vimos na seção do gráfico GG. Novo é o quadro de dados igual a 30 e a altura prevista. Vou usar o modelo. Ok, então nós imprimimos. Ok, vamos executar isso. Vamos ver aqui. Aqui também estamos obtendo a altura de uma pessoa de 30, 30 anos. E veja aqui que estamos obtendo a linha de regressão. Também aqui, a regressão prediz a altura com base na idade. Essa é a idade do eixo X e essa é a altura Para cada idade, você obterá um ponto na linha de regressão Essa será a altura prevista para suporte de 52 anos. Ele virá aqui, essa será a altura, 52 anos, pessoa 62 anos. Ele virá aqui desse jeito, ok? Virá aqui assim, ok? Dessa forma, podemos prever aqui, se você quiser, você pode dar qualquer um e ele preverá. Espero que você tenha entendido a regressão linear e te veja na próxima etapa 130. Regressão logística: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre a região logística Vamos entender qual é a matemática por trás dessa matemática por trás da classificação usando a região logística Ok, então vamos começar. regulação logística é um método estatístico poderoso usado para tarefas de classificação binária, como detecção de spam Como podemos ver o e-mail, ele usa essa classificação de e-mail, por exemplo, quando você recebe o e-mail, ele o classifica como autêntico ou spam Então, todos os e-mails de spam irão para as pastas de spam, certo? Então esse é um exemplo de regulação logística ou classificação binária Diagnóstico médico, seja um ou qualquer dígito específico ou esse tipo de classificação Além disso, podemos fazer com que a classificação da largura de banda também seja a avaliação de risco ao conceder o empréstimo ou o cartão de crédito Os bancos e instituições financeiras avaliam o risco de crédito, ajustam, aprovam ou rejeitam, tudo bem, para descobrir se o credor será capaz de reembolsar o dinheiro Apesar do nome, não é uma regressão no sentido tradicional, mas um algoritmo de classificação Embora o nome seja regressão logística, na verdade, não é uma regressão no sentido tradicional, mas é um algoritmo de classificação Nesta palestra, exploraremos os fundamentos da regressão logística, matemática, fundamentos e aplicações do mundo real, e aplicações do mundo real onde todos podemos usar a regressão logística, entendendo a classificação binária regressão logística, matemática, fundamentos e aplicações do mundo real, onde todos podemos usar a regressão logística, entendendo a classificação binária. Na classificação binária, lidamos com problemas em que o objetivo é atribuir observações a uma ou duas classes ou categorias. Por exemplo, classificar e-mails como spam ou não spam, prever se um cliente abandonará ou permanecerá na empresa de telecomunicações, determinando se o resultado de um exame médico é positivo A região logística nos ajuda a resolver esses problemas modelando a probabilidade de que uma observação pertença a uma classe específica. Coisas como spam ou não spam. Exame médico, exame de sangue é uma doença específica, é positiva ou não, como no caso de covid, foi covid positivo ou covid Essa classificação binária e a regressão logística nos ajudam a resolver esses problemas modelando a probabilidade de uma observação pertencer a uma classe específica função da região logística é o coração da região logística E a chave para a regressão logística está na função logística, também conhecida como função sigmóide também conhecida como função sigmóide Essa função sigmóide é muito importante na região logística, que mapeia qualquer entrada para um valor 0-1 0,1 em 0-1 que ela A função de região logística é definida como p de y igual a um igual a um por um mais e à potência menos beta zero mais beta um em x. Você se lembra desse Beta zero mais beta um em x. Usamos isso na equação linear, mas aqui a fórmula tem uma alteração É um, y mais e elevado à potência menos beta zero mais beta um em x p de y. Qual um é a probabilidade de que a observação pertença a mais um Aqui, isso significa que isso dará a probabilidade da observação de que ela pertence à classe em e. Essa fórmula fornecerá a probabilidade beta zero interceptação que já vimos na regressão linear beta um em x representa a combinação linear dos recursos de entrada. curva de inclinação da função logística começa perto de zero e aumenta gradualmente e se aproxima sintoticamente Será como essa curva senoidal, certo? Em seguida, treinando um modelo de regressão logística. Para treinar o modelo de recreação logística, usamos um conjunto de dados com Para cada exemplo, calculamos a probabilidade de pertencer à classe um usando a função logística Em seguida, definimos uma função de perda, que é uma perda de entropia cruzada Para medir o desempenho do modelo, o objetivo é encontrar o valor de beta zero e beta um que minimize a função de perda Essa otimização geralmente é realizada usando métodos numéricos ou algoritmos de otimização, como gradiente descendente. Esse é outro termo muito importante. Veremos aplicações da região logística. regressão logística é amplamente usada em vários domínios, como já discutimos no diagnóstico médico, prevendo um suporte ao resultado de uma doença, por exemplo, diabetes Com base nos dados do paciente, como resultados de exames ou histórico médico, alimentamos os dados e eles nos dirão se é um diabetes patente, diabético ou análise de marketing e de clientes identifica possíveis riscos direcionados à publicidade e à segmentação de clientes Todas essas coisas, podemos usar a regulamentação logística em finanças Já discutimos a avaliação de risco de crédito, detecção de fraudes e inadimplência de empréstimos, processamento de linguagem natural, PNL, classificação de texto, por exemplo, uma análise de sentimentos. A detecção de spam é uma aplicação comum da PNL usando análise de imagens de regiões logísticas detecção de fraudes e inadimplência de empréstimos, processamento de linguagem natural, PNL, classificação de texto, por exemplo, uma análise de sentimentos. A detecção de spam é uma aplicação comum da PNL usando análise de imagens de regiões logísticas em um processamento de imagens. regulação logística pode ser usada para classificação binária da tarefa Se você fornecer imagens de apoio de humanos e animais com base em um determinado Ca, isso definirá se essa imagem pertence à categoria humana ou à categoria animal. Assim. interpretar os coeficientes logísticos de recreação, o beta zero eficiente e o beta um na relação logística têm beta zero eficiente e o beta Interpretar os cofficiens logísticos, interpretar os coeficientes logísticos de recreação, o beta zero eficiente e o beta um na relação logística têm uma interpretação significativa. Por exemplo, em um modelo de avaliação de risco de crédito, beta 1 pode representar o impacto da renda na probabilidade de inadimplência. Um beta positivo indica que uma renda mais alta reduz o risco de inadimplência. Qual é a conclusão? O cátion logístico é uma ferramenta volátil e interpretável para Devemos sempre lembrar que isso é para o problema de classificação binária. É uma base matemática capaz de estimar probabilidades, tornando-a um componente essencial da modelagem de previsão em ciência de dados e aprendizado de máquina Embora seja um algoritmo fundamental, suas aplicações são de longo alcance, contribuindo para uma melhor tomada de decisão em todos os setores e domínios À medida que continuamos escapando de nossas soluções baseadas em dados. regressão logística continua sendo um recurso valioso para enfrentar os desafios de classificação do mundo real. Tudo isso tem a ver com uma teoria, parte da relação logística Na próxima aula, faremos uma análise prática simples usando R e tentaremos implementar uma regressão logística Vê a próxima palestra. 131. Previsão de rotatividade de clientes usando regressão logística: Olá e bem-vindo. Nesta palestra, escreveremos nosso programa de regressão logística E tentaremos prever se um cliente sairá ou não Então, vamos ver, isso é nosso enquanto o projeto está prevendo a perda de clientes. Ok, então aqui o que fazemos criar um conjunto de dados de amostra com duas variáveis e em que John é um resultado binário que é zero ou um representando se um cliente saiu ou não Ok, então é isso que estamos tentando fazer. Está bem? Usamos GLM, GL, GL é um modelo geral Está bem? Usamos o GLM aqui, a função GLM para ajustar um modelo de ração logística, onde, modelo em função da idade, o argumento familiar é Para especificar a regressão logística. O argumento definido como lógica indica a função do link logístico Ok, exibimos um resumo do modelo de regressão logística usando função de resumo e passaremos o modelo logístico para essa função de resumo para ver os valores dos coeficientes Fazemos previsões para novos dados. E usaremos os dados 38,62 e veremos se os dois são um cliente com 38,62 qual é a probabilidade usando a função de previsão com o tipo de argumento Ok, isso retorna a probabilidade prevista de John para esses dois clientes. E depois imprimimos, ok, vamos ver aqui. Também estou criando uma amostra de dados para classificação de cores de bandas aqui. Estamos usando set seed 123 e data e eu estou usando data frame e estou criando esses dois vetores de rotatividade Na idade, estou dando o H aqui, estou dando o valor de John 01 para as faixas etárias. Está bem? A rotatividade é um resultado binário , como já discutimos E então vamos executar isso. Está bem? Agora, criamos um conjunto de dados de amostra. Está bem? Agora Lex está criando um modelo logístico para isso Usaremos a função GLM e, na função GLM, com base em que criaremos essa coisa de criação logística com base no H Aqui, os dados serão os dados e a família será a ligação binomial igual à lógica Isso significa que vamos para a regressão logística. Ok, vamos executar isso agora. Nosso modelo de regressão logística está pronto. Agora, o que faremos, passaremos esse modelo logístico para a função de resumo para ver o resumo desse modelo de regressão Aqui você pode ver os valores Copic, erros de interceptação, valor líquido e valores R. Ok, aqui você pode ver o parâmetro dessa pessoa para proibição, considerado um desvio interno e um desvio residual C. Todas essas coisas, coisas que você pode ver. A próxima coisa que quero saber é que nosso modelo logístico está pronto. Quero prever se o cliente sairá ou não Vou passar os dois H 38,62 e vou ver a probabilidade dos dados Vou criar novos dados. Vou passar os dois vetores para H para, vou armazenar os novos dados Em seguida, passarei esses novos dados para a função de previsão. Vou passar as duas coisas, modelo logístico que criamos e os novos dados que estão aqui, o passe e digitar uma resposta. Então executamos isso. Agora temos os valores previstos nesses adereços previstos, então tentaremos imprimi-los. Vamos executar isso. Veja que a probabilidade de produzir o cliente H 38 está chegando a 0,077, enquanto o cliente de 60 a 22 anos está em torno de 97%. Aqui, torno de 97% podemos dizer facilmente que o cliente com H 62 produzirá, pois 100% 97% é quase 98% 97,75%. Aqui, a probabilidade de enviar o cliente com 62 é quase 98% . Cliente com 38 é menor H 38 está chegando a 0,077, enquanto o cliente de 60 a 22 anos está em torno de 97%. Aqui, podemos dizer facilmente que o cliente com H 62 produzirá, pois 100% 97% é quase 98% 97,75%. Aqui, a probabilidade de enviar o cliente com 62 é quase 98%. Cliente com 38 é menor. OK. Aqui observamos que, com os dois dados, a probabilidade é muito menor 38. Se eu mudar para 18 e suponha que vou mudar para 52. Agora vou executá-lo novamente e veremos agora que a probabilidade de 18 é ainda reduzida. Para os 0,004 6% aqui, são 76%. O que concluímos a partir daqui, a probabilidade de o será a probabilidade de o cliente produzir resultados aqui Mesmo com 72 anos, temos quase 99% de probabilidade que um cliente com 72 ganhe 28 É quase zero obter a probabilidade, mais probabilidade para clientes menos idosos. Quanto maior a idade, maior será a probabilidade de o cliente sair. É assim que podemos usar região logística para prever se um cliente sairá ou não Espero que você tenha entendido como usar a função GLM para Los na região logística, veja na próxima palestra 132. Algoritmo KNN: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre k vizinhos mais próximos em sorteio. Chamamos isso de algoritmo simples e eficaz para classificação e regulação. Ok, nós vimos a região e depois vimos a etiqueta de regulação logística para classificação Agora veremos o non que pode ser usado tanto para classificação quanto para região, ambos problemas. Ok, vamos começar. Vizinho mais próximo ou algoritmo efetivo simples para problemas de classificação e região. No mundo do aprendizado de máquina e da ciência de dados, as navas ou algoritmos mais próximos são uma das técnicas mais simples e extremamente poderosas para resolver problemas classificação e regressão Tanto quando você tem problemas que podem ser de classificação e regressão, podemos usar ambos. É um algoritmo não paramétrico baseado em instâncias que depende da proximidade Tudo gira em torno da proximidade. Vamos ver como isso funciona. Nesta palestra, exploraremos os fundamentos da Canon e como ela funciona, suas variações e as aplicações do mundo real Como o nome sugere, em sua essência está um algoritmo simples Ele faz previsões com base na classe majoritária para classificação E a média da regressão basicamente trata de duas coisas Para problemas de classificação, as previsões são baseadas na classe majoritária para os problemas de regressão, ou seja, a base, ok, dos k pontos de dados mais próximos de uma determinada consulta O k no k NN representa o número de vizinhos mais próximos considerados ao fazer previsões Neste vizinho mais próximo, k representa o número de vizinhos mais próximos considerados ao fazer previsões para classificação, essas são as etapas A primeira é a representação de dados. Comece com um conjunto de dados rotulado em que cada ponto de dados tem um rótulo de classe e, em seguida, uma métrica de distância Escolha uma métrica de distância, por exemplo, incluindo distância ou distância padrão do homem para medir a semelhança entre os pontos de dados na previsão A próxima é a previsão. Para classificar um novo ponto de dados, calcule a distância entre o ponto de dados e todos os outros pontos no conjunto Selecione os K vizinhos mais próximos com base na menor distância do voto majoritário. Determine a classe de um novo ponto de dados obtendo o voto majoritário entre as classes, seus vizinhos mais próximos K Para representação de dados de regressão Novamente, comece com o conjunto de dados do rótulo, mas desta vez os rótulos são valores contínuos, ou seja, numéricos, ok As métricas de distância usam as mesmas métricas de distância em simetria, como vimos na classificação Essa é a distância Ec ou distância de Manhattan, para medir a semelhança entre os pontos de dados Ok, então vem a previsão. Para prever um novo valor de ponto de dados. Calcule a distância entre esse ponto e todos os outros pontos no conjunto de dados. Selecione os K vizinhos mais próximos com base na menor distância e, em seguida, o valor médio para completar a média média dos rótulos dos K vizinhos mais próximos. Então, todos os vizinhos mais próximos serão levados e, em seguida, esses serão calculados. Então, isso significa que esse valor médio, qualquer que seja o valor médio, se torna a previsão para o novo ponto de dados. Está bem? Variações de, Existem três variações de não. A primeira é a Canon ponderada, segunda é a métrica de distância e a terceira é o Fit Scaling. A Canon ponderada atribui pesos diferentes ao vizinho com base na Os vizinhos de distância e fechamento podem ter maior influência na previsão. Em seguida, a segunda é a métrica de distância. Experimente as várias métricas de distância para adaptar o algoritmo para especificar tipos de dados, tipos de dados ou domínios dimensionamento de recursos normaliza ou padroniza os recursos para garantir que nenhum recurso domine Aplicativos do mundo real de não-descobertas, aplicativos em uma ampla variedade de domínios, como sistemas de recomendação como Netflix ou Facebook, ou até mesmo os cartões Amazon e Flip. Todos esses sites de comércio eletrônico, as plataformas Ott no sistema de recomendação, produtos recomendados e filmes são contidos com base no comportamento ou nas preferências usuais Lá também podemos usar o reconhecimento de imagem e fala. Em seguida, o diagnóstico médico. Detecção de anomalias, detectando anomalias no tráfego da rede de transações financeiras tráfego da rede de transações financeiras ou nos processos industriais. Os problemas de processamento de linguagem natural da PNL também podem ser resolvidos Este cânone classifica documentos de texto, análise de sentimentos e tradução de idiomas Então, outro exemplo real é o monitoramento ambiental, previsão da qualidade do ar, a previsão do tempo e o monitoramento da poluição Todos esses problemas, podemos usar o canhão. Ok, os desafios. Embora a Canon seja um algoritmo de estilo, ela tem algumas limitações. Pode ser computacionalmente caro, especialmente com o grande conjunto de dados, pois requer o cálculo da distância de todos os pontos de dados Isso será muito caro de computar, certo? Porque para cada ponto de dados, precisamos calcular o curso da dimensionalidade. Como o recurso de número de dimensões incentiva, a eficácia do non pode diminuir devido ao curso da dimensionalidade Escolher k, selecionar o valor apropriado para K é crucial e pode impactar o desempenho do modelo. Ok, lidar com dados desequilibrados pode ter problemas com o conjunto de dados desequilibrado, em que uma classe supera significativamente Está bem? Todos esses são os desafios para quem não é da Canon. É uma adição valiosa à caixa de ferramentas de aprendizado de máquina devido à sua simplicidade e versatilidade. Mas tem algumas limitações que já entendemos. É particularmente útil ao lidar com um conjunto de dados de tamanho pequeno a moderado conjunto de dados pequeno e médio pode ser muito; se você tiver um conjunto de dados pequeno, moderadamente médio ou não tão grande , nenhum pode ser realmente útil para tarefas de recreação e classificação útil para tarefas de recreação Ao entender o princípio por trás on e seus diversos dados, cientistas e profissionais de aprendizado de máquina podem aproveitar seu poder para fazer previsões precisas e classificar dados forma eficaz em Tudo isso não tem nada a ver com teoria. tentaremos fazer as coisas práticas usando nossa programação. Veja o interior da próxima palestra. 133. Implementando kNN: E bem-vindo de volta. Na palestra anterior, vimos sobre algoritmo Nesta palestra, vamos implementar o não uso do algoritmo K de nosso vizinho mais próximo de programação para classificação Está bem? As etapas, eu vou te dizer quais são as etapas que você seguirá neste exemplo. Primeiro, carregamos o pacote de classes que fornece a função in para classificação. Usamos o popular conjunto de dados irlandês que já usamos em nossas palestras nesta No início, você deve estar ciente do conjunto de dados Iris, que está disponível em R e contém medidas de flores de íris junto com seus Dividimos o conjunto de dados em conjuntos de treinamento e teste, com 70% dos dados usados para treinar o conjunto Vamos nos dividir em conjuntos de treinamento e teste, quais 70% dos dados serão usados para o treinamento e 30% dos dados serão para fins de teste. Normalmente, no mundo real, usamos 80% dos dados para treinamento e 20% para testes, mas 70 30% também é bom. Dependendo dos requisitos do seu projeto ou dos seus dados, você pode decidir se deseja receber 60% para treinamento, 70% para treinamento e 80% para treinamento. Para que você possa decidir com base em suas necessidades e nas necessidades do negócio. Aqui definimos o número de vizinhos, ou seja, k, que determina quantos vizinhos mais próximos devem ser considerados ao fazer previsões Decidir o número de vizinhos do Uber é muito importante, enquanto fazer o nonce determina quantos vizinhos mais próximos devem ser considerados, pois isso afetará as previsões Certo? Em seguida, realizamos a classificação nove usando a função nove, na qual especificamos os dados de treinamento, testes , dados, níveis de classe e o valor de K. Neste exemplo, tomaremos k cinco, vizinho mais próximo considerado será o cinco Depois disso, avaliamos a precisão do modelo comparando as espécies previstas com espécies reais no conjunto de testes. Em seguida, criamos uma métrica de confusão para avaliar ainda mais o desempenho do modelo. OK. Ao executar esse código, você obterá a precisão do classificador canino e da matriz de confusão que mostra o quão bem o modelo classificou as diferentes espécies de flor de íris no conjunto Agora vamos começar aqui. A primeira coisa é que, se a classe não estiver instalada, ela será instalada e depois será. Está bem? Vamos executar isso e obter a carga de dados. A função de dados usará dados e passaremos o nome do conjunto de dados, que é íris Vamos executar isso também. Em seguida, dividiremos o conjunto de dados em conjuntos de treinamento e teste A primeira coisa que precisamos fazer é definir o conjunto 123. Ok, essa é uma etapa bastante essencial. Em seguida, criamos índices de sublinhado de uma amostra de variável ou objeto Aqui vamos pegar a amostra para inscrever a íris. E o tamanho será de 0,7. Isso significa que 70% do conjunto de dados Iris para dados do trem de treinamento será a íris dos índices de amostra Esses índices entrarão na íris e 70% dos dados se tornarão os dados de Os dados de treinamento serão a íris de menos os índices da amostra Está bem? É por isso que aqui estamos usando o sinal de menos Está bem? O restante será de 30%. Vamos considerar isso como o número de vizinhos, ou seja, k aqui estou definindo igual a cinco. Ok, vamos executar isso também. Agora vamos realizar a classificação nove. Aqui, criarei uma espécie de sublinhado prevista por variável ou objeto espécie de sublinhado prevista por Aqui eu vou usar a função nove aqui. Treinar é treinar dados de sublinhado de um a quatro. Teste para testar dados de sublinhado, uma a quatro classes serão as espécies de dados de sublinhado do trem, ok Com base nas espécies que vamos classificar. Está bem? Então, igual a dois k, isso se tornará cinco. Está bem? Agora vamos executar isso. E agora vamos avaliar a precisão do modelo usando alguma função. A espécie prevista é igual às espécies em dólares dos dados de teste divididas pelos dados de teste N up. Ok, vamos ver, então vamos imprimir com precisão em 200. Ok, veja aqui, agora estamos obtendo que a precisão deste modelo é 97,78. Isso é muito bom Agora vamos imprimir a matriz de confusão usando uma função de tabela realmente igual aos dados de teste da espécie P. Ok, vamos criar a matriz de confusão aqui, veja aqui. Agora, quase a matriz de confusão que você pode ver aqui para Setosa 14 foi categorizada corretamente Apenas um classificou erroneamente. Caso contrário, tudo será classificado corretamente. É assim que podemos implementar o não. 134. Árvore de decisão e florestas aleatórias: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre árvores de decisão e floresta aleatória Esses dois são melhores amigos, trabalham juntos e são incríveis para o aprendizado de máquina. Seus aplicativos são usados e são muito úteis e úteis se você estiver trabalhando em um aprendizado de máquina, especialmente no aprendizado supervisionado Ok, vamos começar a aprender sobre esses dois poderosos do aprendizado de máquina. Primeiro, entenderemos o que é disenteria e floresta aleatória no ringue do aprendizado de máquina A disenteria e a floresta aleatória são duas ferramentas formidáveis que revoltaram Esses algoritmos são amplamente usados para classificação e regressão. Tarefa: entendemos o que é tarefa certa? Classificação significa onde precisamos nos classificar em dois ou mais segmentos, como credibilidade verdadeira ou falsa, inscrição, aceitação ou É uma ameaça de spam, certo? Tarefa de regressão Fazemos isso para coisas contínuas, numéricas, certo? Esses algoritmos são amplamente usados para tarefas de classificação e regressão, tornando-os dispensáveis para várias aplicações Neste artigo, exploraremos, nesta palestra, os princípios de funcionamento e as aplicações reais da floresta dissidente Exploraremos qual é o conceito por trás dos graus e da floresta aleatória. Quais são os princípios de funcionamento por trás das árvores de decisão e da floresta aleatória? E quais são as aplicações reais árvores de decisão e da floresta aleatória? Então, vamos começar com as árvores de decisão. A árvore de decisão é uma estrutura semelhante a uma árvore , como você pode ver aqui, ok? O nó pai, depois o nó filho e depois o nó filho, ok? Vai crescer assim, certo? Uma árvore de decisão é uma estrutura semelhante a uma árvore usada para apoiar a decisão. Ok. Aqui, um exemplo simples. Se você vai comprar alguma coisa, se tiver uma confusão, você quer comprar, comprar, comprar. Agora, a decisão é duas coisas, por e-mail ou não, spam, spam desse tipo, ok? Ele divide um processo complexo de tomada de decisão em uma sequência de simulação. Cada nó na árvore representa uma decisão ou uma amostra de um atributo, cada ramificação representa um resultado, cada ramificação é um resultado. Está bem? Aqui estão os resultados, certo? O teste de decisão sobre o atributo, cada ramificação representa um resultado e cada nó da folha representa um nível de classe ou uma decisão, ok? Esses são os nós. Essas são as folhas, ok? Como os edifícios e árvores de Desiree são construídos usando uma abordagem recursiva de cima para baixo chamada particionamento recursivo, como você pode ver aqui, é uma abordagem de cima para baixo, certo? É uma recursiva que continuaria se repetindo, certo? As árvores de decisão são construídas, são construídas de cima para baixo. Uma abordagem recursiva chamada particionamento recursivo Estamos particionando recursivamente cada nó para os nós. algoritmo correto seleciona o melhor atributo em cada etapa para dividir os dados em subconjuntos Em cada etapa, o algoritmo de decisão três selecionará o melhor atributo em cada etapa. Para dividir os dados, ele dividirá os dados com base no atributo em dados homogêneos quanto possível em relação à variável alvo Mantendo a variável de destino em mente, ela dividirá os dados em um subconjunto Isso também garantirá que o subconjunto seja homogêneo, ok Isso ajudará a alcançar a variável alvo. Seleção de atributos. Vários critérios, como gini, impureza, entropia e ganho de informação, são usados para determinar o melhor atributo para O objetivo é minimizar a impureza ou maximizar o ganho de informações O terceiro é a poda. A árvore de decisão pode se tornar excessivamente complexa e se transformar em um ajuste excessivo A poda envolve a remoção de galhos que não contribuem significativamente para melhorar a precisão, resultando em um galho mais simples ou mais generalizável Podar é uma coisa simples se você continuar cultivando uma árvore, ela pode crescer em qualquer direção Mas se você quiser manter uma árvore em um cofre muito bom, precisamos cortar os galhos extras da mesma forma nas árvores de decisão. Além disso, se continuarmos crescendo, ele se tornará excessivamente complexo e propenso a se ajustar demais Então é aí que vem a poda. Podar significa remover os galhos que não contribuem significativamente Algumas filiais podem não ser úteis. Posteriormente, podaremos esses ramos, o que levará a aplicações de modelos mais simples e generalizáveis do aplicações de modelos mais simples e generalizáveis o que levará a aplicações de modelos mais simples e generalizáveis do dissidente de disenteria. Em muitos domínios, você pode encontrar aplicações de diferentes cientistas em muitos domínios, como medicina, diagnóstico da doença com base nos sintomas do paciente e no histórico médico na seção financeira, pontuação de cartões de crédito, detecção de fraudes e investimentos, como exemplo de dissidência diagnóstico da doença com base nos sintomas do paciente e no histórico médico na seção financeira, pontuação de cartões de crédito, detecção de fraudes e investimentos, investimentos Em todos esses domínios, podemos usar o marketing de disenteria, a segmentação de clientes, a segmentação e a previsão de rotatividade que podem ser feitas usando disenteria. previsão fabricação, o controle de qualidade e otimização do processo de produção podem ser feitos por meio de séries, sinais ambientais, classificação de espécies e monitoramento ambiental podem ser feitos com a ajuda da disenteria Essas são as aplicações da Árvore de Decisão que agora cobre a floresta aleatória. A floresta aleatória é como um gimble. Embora as árvores de decisão sejam poderosas, elas podem ser sensíveis a pequenas mudanças nos dados. floresta aleatória aborda essa limitação combinando várias árvores de decisão para criar um modelo de conjunto robusto e preciso Veja aqui, esta é uma árvore de decisão, mas uma combinação florestal aleatória de muitas árvores de decisão. Certo? O que ela faz, a árvore de decisão é que isso é algo muito pequeno. Ele mudará drasticamente seus resultados, processará os nós e tudo Tudo vai mudar. Se você fizer alguma alteração no conjunto de dados, tudo mudará Para superar essa limitação, floresta aleatória aborda essa limitação combinando várias árvores de decisão para criar um modelo confuso robusto e preciso Isso criará árvores de decisão semelhantes e criará uma floresta aleatória robusta. Haverá muitas árvores, e é por isso que é chamada de floresta aleatória porque muitos grupos de árvores a transformarão em floresta, certo? Como funciona a floresta aleatória? Amostragem Bootstrap. A floresta aleatória começa com a criação de várias amostras de bootstrap, amostras aleatórias para substituição dos dados de treinamento Ele começará a criar as amostras de bootstrap a partir do conjunto de dados de treinamento Seleção aleatória de recursos para cada árvore na floresta. Um subconjunto aleatório de recursos é considerado em cada nó ao decidir a melhor árvore construção de várias árvores de decisão é construída forma independente com sua própria amostra de bootstrap e seleção aleatória de recursos Depois, a votação e a média. Para tarefas de classificação, floresta aleatória usa a votação majoritária entre as árvores para a regrationaskyuseveragingeere Ele usa a votação para a média de regreationag Quais são as vantagens da floresta aleatória? Isso reduzirá o sobreajuste, que é a limitação da sentinela As florestas aleatórias são menos propensas ao sobreajuste em comparação com as doenças individuais generalizações aprimoradas e a robustez As generalizações aprimoradas e a robustez dos dados são importantes. Florestas aleatórias fornecem informações sobre a importância das características, auxiliando na seleção de características Aplicações da floresta aleatória. As florestas aleatórias são amplamente usadas em muitos domínios, como análise de imagens, finanças, ecologia, marketing e saúde Na análise, o reconhecimento de objetos, classificação de imagens e a extração de recursos podem ser feitos em finanças. Novamente, ao prever os preços das ações, possível detectar fraudes de risco de crédito. Ecologia, gostamos de modelagem de distribuição de espécies e avaliações de biodiversidade podem ser feitas em marketing, sistema de previsão e recomendação de clientes na área de saúde, prevendo o resultado do paciente e o diagnóstico G pode ser Ok, qual é a conclusão? Essas duas sentinelas dinâmicas e a floresta aleatória são dinâmicas no mundo do aprendizado de máquina Enquanto o Gentry fornece interabilitysitrandomest precisão e robustez aprimoradas à interabilitysitrandomest, entender o algoritmo das árvores e sua aplicação equipa cientistas de dados e sua aplicação equipa cientistas de dados profissionais de aprendizado de máquina com ferramentas poderosas precisão e robustez aprimoradas à interabilitysitrandomest, entender o algoritmo das árvores e sua aplicação equipa cientistas de dados e profissionais de aprendizado de máquina com ferramentas poderosas para resolver problemas do mundo real em diversos domínios. À medida que a tomada de decisão baseada em dados continua salvando o mundo do poder, a versatilidade e a eficácia das árvores de decisão e floresta aleatória garantem sua relevância duradoura no campo do aprendizado de máquina Esses dois são algoritmos de aprendizado de máquina decente e floresta aleatória muito importantes algoritmos de aprendizado de máquina decente e floresta aleatória Espero que tenhamos abordado a base desses dois, veja a palestra. 135. Apoie o algoritmo de máquinas vetoriais: Olá e bem-vindo de volta. Nesta palestra, aprenderemos sobre a máquina de vetores de suporte Ok, deixe-me bem, ignore essa. Está bem? Vamos aprender sobre o algoritmo de máquina vetorial de suporte. Máquina vetorial de suporte, ou SPM. In, como o chamamos, é um dos algoritmos de aprendizado supervisionado mais populares , usado para problemas de classificação e regressão No entanto, ele é usado principalmente para problemas de classificação em aprendizado de máquina, ele pode ser usado tanto para regressão quanto para classificação, mas principalmente o usamos apenas para classificação, ok? Portanto, na maioria das vezes que você usará para problemas de classificação, SPM pode ser usado para classificação Na maioria das vezes, 99% do tempo usarão um ou 2% dos 5%. Os casos estarão lá onde você poderá usá-lo ainda mais, estarão lá onde você poderá usá-lo ainda mais. Problemas de regressão também, mas isso é muito raro no mundo real, ok? O objetivo do algoritmo SBM é criar o melhor limite de decisão de linha que possa segregar espaço dimensional em classes para que possamos facilmente colocar o novo ponto de dados na categoria correta no futuro Esse limite de melhor decisão é chamado de hiperfaixa. É como criar uma hiper le, criar uma linha. Suponha que você esteja plotando os pontos de dados no espaço x e y u e esteja desenhando, vimos na regressão linear Estávamos desenhando uma linha que dividia os pontos de dados da mesma forma SBM Além disso, ele tentará encontrar uma linha que possa dividir o conjunto de dados. Esse é o objetivo do SPM. O limite de dicção é chamado de hiperlinha. Spm escolhe os pontos de dados ou vetores extremos que ajudam na criação da hiperlinha Casos extremos são chamados de vetores de suporte. Sbm. O algoritmo Support Vector Machine escolhe os pontos de dados extremos ou vetores que ajudam a criar a hipoglicemia Esses casos extremos são chamados de vetor de suporte. Ele encontrará primeiro os pontos ou vetores extremos e esses vetores são chamados de vetores de suporte Para criar o algoritmo de hiperlinha, use o termo máquina vetorial de suporte Ok, encontrar os vetores de suporte, é por isso que esse algoritmo é conhecido como máquina de vetores de suporte Considere o diagrama abaixo, no qual existem duas categorias diferentes que são classificadas usando limite de descida ou exagero Agora temos o X um e o X dois. E aqui você pode ver lá, esta é a linha de margem máxima. Essa linha é a linha de margem máxima e esse é o hiperlink positivo da hiperlinha de margem máxima Esses são os vetores de suporte. Esses são os vetores de suporte. Esses pontos que encontramos. Esses são os vetores de suporte. Está bem? Deste lado, isso é negativo. Hypolositiveypolineximumrgin será a hiperfaixa, margem máxima, hiperlinear, veja aqui. Agora, essa hiperfaixa está dividindo esses dois pontos de ajuste, certo? Preciso. Esses pontos são conhecidos como vetores de suporte. Ok, primeiro encontramos o vetor de suporte e com os vetores de suporte, tentaremos encontrar o hiperlink Bm pode ser entendido com o exemplo que usamos no classificador canino Suponha que vejamos um gato estranho que também tenha algumas características de cachorro. Suponha que tenhamos a foto de um gato com algumas características císticas do cachorro Além disso, se quisermos um modelo que possa identificar com precisão se é um cachorro-gato, esse modelo pode ser criado usando um algoritmo. Primeiro, treinaremos nosso modelo com muitas imagens de cães e gatos para que ele possa aprender sobre diferentes características de cães e gatos. E então nós o testamos com essa criatura estranha, que tem semelhança com gato e cachorro, mas na verdade é um gato Como o vetor de suporte cria um limite distinto entre esses dois dados, gato e cachorro escolhem casos extremos, vetores de suporte Ele verá o caso extremo de gato e cachorro com base em vetores de suporte Ele o classificará como um gato. Considere o diagrama abaixo. Veja os dados do rótulo anterior. Esses são os dados mais rápidos como este é um cachorro e este é um gato. Aqui estamos criando um modelo e treinando que essa criatura é um cachorro e essa criatura é um gato. Ele está lendo todos os recursos dessas duas imagens e nosso modelo está sendo treinado agora. Nosso modelo de previsão predirá que é um gato. Como isso vai funcionar. Suponha que estejamos dando uma imagem muito parecida com a do gato e do cachorro. Tem algumas características do cão. Além disso, ele verá as características extremas de um gato. Ele classificará as características de um gato. Ele classificará, encontrará a hiperfaixa com base nas características, nas características extremas Ele decidirá se é um gato ou um cachorro. No extremo, combinará com o gato. Ele categorizará isso como se não combinasse com as características extremas do gato Em seguida, ele categorizará isso como cachorro com o PM, mesmo com esse gato estranho, que é muito parecido com o cachorro B. Com a ajuda dos vetores de suporte e da correta de que é um gato, não um Vamos entender, por exemplo, máquinas de vetores de suporte, como aplicações de máquinas de vetores de suporte, SBM podem ser usadas para classificação de imagens Como vimos agora, SBM têm sido usados para classificação de imagens Tarefas como reconhecimento de manuscrito e detecção de objetos, como análise de sentimentos, detecção de spam e categorização de documentos biografia, a poética e os PMs são empregados para reconhecimento de dobras proteicas, classificação de genes e diagnóstico G. No setor financeiro, os PMs são usados para codificação de crédito, previsão do mercado de ações e detecção no segmento de saúde Eles têm sido usados no diagnóstico e prognóstico de DG com base em dados médicos, o processamento de linguagem natural e o LP SPM desempenham um papel no reconhecimento de entidades nomeadas e na categorização Vamos entender quais são os tipos de SPM. O Spm pode ser de dois tipos. A primeira é a regressão linear. O SPM não linear pode ser categorizado em dois tipos, SPM linear, eu disse regressão, é SBM, SPM linear e SPM não linear . O SBM linear é usado para dados linearmente separáveis. que significa que se um conjunto de dados pode ser classificado em duas classes usando uma única linha reta , esses dados são denominados linearmente. O classificador classificador de dados separável usado aqui é chamado de classificador SPM dados separável usado aqui é chamado de classificador aqui é chamado Se os dados forem uma luta de classes linearmente, podemos classificá-los com uma hiperfaixa linearmente separável, uma linha reta, e então ela é chamada de dados hiperfaixa linearmente separável, uma linha reta, e então ela é chamada E o classificador usado aqui será chamado linear SBM. SVM linear não linear é usado para dados separados não linearmente, o que significa que, se o conjunto de dados não puder ser classificado usando uma linha reta , esses dados serão denominados dados O classificador usado neste caso é conhecido como SPM não linear. Veremos como esses dois diferem. Ok, hiperfaixa e vetores de suporte. No algoritmo SPM, sabemos o que é uma hiperlinha na qual desenhamos uma hiperfaixa Pode haver várias linhas ou limites de decisão para segregar classes no espaço n dimensional, mas precisamos descobrir o melhor limite de decisão que ajude a classificar Esse melhor limite é conhecido como a hiperfaixa do SPM. As dimensões do hiperplano dependem das características presentes no conjunto de dados O que significa que se houver duas características, conforme mostrado na imagem , a hiperlinha será uma linha reta Se houver três características , a hiperlinha será o plano bidimensional Está bem? Sempre criamos uma hiperlinha com uma margem máxima, que significa que a distância máxima entre os pontos de dados Está bem? Ok. Vetor de suporte. Os pontos de dados são dados vetoriais, os mais próximos da hiperlinha, que afetam a posição da hiperlinha, que estão muito próximos da hiperlinha, afetarão a posição hialina da hipolinha de os mais próximos da hiperlinha, que afetam a posição da hiperlinha, que estão muito próximos da hiperlinha, afetarão a posição hialina da hipolinha de forma muito eficaz. Esses pontos de dados são vetores chamados de vetores de suporte, uma vez que esses vetores suportam Ok, como funciona o SPM? Primeiro, veremos o SVM linear. O funcionamento do algoritmo SPM pode ser entendido usando um exemplo Suponha que tenhamos um conjunto de dados com duas tachas, verde e azul Aqui pegamos essas duas cores marrom e marrom mais claro. Está bem? O conjunto de dados tem duas características, X um e t. Deseja classificar o par x o milho em verde ou azul Suponha que isso seja verde e azul, ok? As cores, eu escrevi um pouco erradas aqui, cinza e cinza mais claro, ok? Ok, suponha que isso seja azul e verde, ok? Agora, em dois espaços D, usando apenas uma linha reta, podemos facilmente separar essas duas classes, certo? Podemos traçar uma linha aqui. Podemos desenhar uma linha como essa. E esses dois verdes e azuis, podemos separar, mas pode haver várias linhas que podem separar cada classe. Considere-os. Podemos desenhar essa imagem, vermelha, essa também são as duas. Eu posso desenhar uma linha como essa. Também posso desenhar outra linha aqui que pode classificar isso Também posso desenhar outra linha aqui que classifique, pode haver várias linhas que podem separar essas classes Portanto, o algoritmo Pm ajuda a encontrar a melhor linha, ou se esse melhor limite é chamado de hiperlinha Agora podemos ter várias linhas, como se o objetivo fosse encontrar a melhor melhor linha para fazer. Está bem? Essa região é chamada de vetores de suporte hiperled Esses são os pontos azuis e verdes são os vetores de suporte Está bem? A distância entre os vetores e a margem hiperlinelada, veja aqui o suporte, essa distância é chamada essa distância é Está bem? Isso é chamado de distância entre o vetor de suporte e a pista hipo e é chamado de margem Para maximizar essa margem, hypolimrginlledptimhyplaneeowf, tente colocar uma linha aqui, hypolimrginlledptimhyplaneeowf, tente colocar uma linha aqui, a margem será menor. Se você colocar uma linha aqui, a margem será menor aqui. Se considerarmos essa linha, a margem daqui e daqui , será máxima. De cada ponto, a margem dos vetores de suporte até o plano será a máxima Essa é a hiperlinha ideal para encontrar, certo, a distância desses pontos entre os vetores e a margem da hiperlinha E o objetivo do SPM é maximizar essa margem. A hiperlinha com margem máxima é chamada hiperlinha ótima ótima Essa é a hipótese ideal que estamos encontrando. Agora vem o SPM não linear. Se os dados estiverem organizados linearmente , podemos separá-los usando uma linha reta Para dados não lineares, não podemos desenhar uma única linha reta. Considere o mesmo, os pontos azuis também estão aqui. Também aqui também, e mais verde aqui. Agora, não podemos desenhar uma linha reta que classifique os pontos azuis e verdes em uma região separada, certo? Alguns pontos estarão em cada uma das regiões. A classificação em linha reta não é possível aqui, certo? Nesse caso, para separar esses pontos de dados, precisamos adicionar mais uma dimensão. Para dados lineares, usamos duas dimensões, x e y. Para os dados não lineares, adicionaremos uma terceira dimensão, será calculada usando esta fórmula, igual a x ao quadrado mais q. Adicionaremos outra dimensão aqui, porque nas duas dimensões, não é possível classificar, separar, desenhar uma linha com pontos verdes e azuis separados Para os dados não lineares, adicionaremos uma terceira dimensão, que será calculada usando esta fórmula, igual a x ao quadrado mais q. Adicionaremos outra dimensão aqui, porque nas duas dimensões, não é possível classificar, separar, desenhar uma linha com pontos verdes e azuis separados, adicione outra dimensão que será a dimensão do jato. E esses pontos de jato serão considerados por essa fórmula. Chamada de jato para x ao quadrado mais y ao quadrado. Está bem? Então, para cada x e y, haverá um ponto de jato, que será calculado pelo x ao quadrado mais y ao quadrado. Está bem? Ao adicionar a terceira dimensão, o espaço amostral ficará como esta imagem aqui. Agora x y e azul azeviche aqui e verde estão agora. Podemos ver aqui, podemos ver que existem duas regiões no momento. O Sbm dividirá o conjunto de dados em classes. No conjunto em classes da seguinte maneira. Essa será a melhor hiperfaixa que podemos desenhar, e isso separará os pontos de dados, blip lane deste lado da hiperfaixa, já que estamos no espaço, portanto, parece um plano paralelo ao eixo x Se o convertermos em espaço com Gal em um , ele ficará assim. Está bem? Se considerarmos que este está no espaço, se ligarmos para um, então ficará assim, ok? Portanto, obtemos uma circunferência de raio um. No caso de dados não lineares, dessa forma podemos encontrar a melhor hiperfaixa em uma coisa circular, certo? Circunferência de uma circunferência de raio um. Veja dentro do círculo verde e fora do circuito azul dessa forma, essa hiperlinha circular que podemos obter com esses dados Ok, espero que tenhamos entendido como o SPM funciona. Veja o interior da próxima palestra. 136. Como entender a análise de regressão: Olá e bem-vindo de volta. Então, eu sou filho e estou de volta com a nova atualização desta classe. Então, nesta série de palestras que vou enviar agora, abordaremos a análise de regressão em detalhes Então, em primeiro lugar, começaremos do básico e essa série de palestras acontecerá nas próximas semanas, e você poderá ver atualizações muito regulares nesta aula sobre compartilhamento de habilidades Então, vamos começar. Então, a primeira coisa é uma visão geral da análise de regressão. Então, o que é análise de regressão. A análise de regressão é uma técnica estática usada para entender a relação entre uma variável dependente e mais uma ou mais Portanto, é simplesmente uma análise da relação entre o dependente e uma ou mais variáveis independentes. Portanto, você pode entender de tal forma que contrair um ataque cardíaco para um paciente depende de várias variáveis. Aqui, ataque cardíaco é uma variável dependente. Isso depende uma ou mais variáveis independentes, como sua idade, seu estilo de vida, seu hábito de avaliação e qualquer outra coisa, como diabetes ou histórico de problemas genéticos de ataque cardíaco em sua família Existem várias variáveis independentes que afetarão as chances de um paciente contrair um ataque cardíaco. Aqui, ataque cardíaco, ataque cardíaco são variáveis dependentes e todos os outros sintomas de saúde seu estilo de vida ou as doenças existentes são variáveis independentes Portanto, a análise de regressão é uma técnica estatística usada para entender a relação entre essas variáveis, dependentes e independentes Espero ter deixado isso bem claro. Agora, você tem a compreensão de como fazemos isso. Por isso, é amplamente empregado em vários campos, como economia, finanças, ciências sociais e saúde. Então, cuidados de saúde, por exemplo, eu já te dei. Em economia, também em finanças, você pode ver se está investindo em algumas ações e tudo mais, então seus lucros e perdas serão as variáveis dependentes, os sentimentos do mercado e todas as outras coisas Como as notícias e tudo o que afeta os preços das ações serão uma ou mais variáveis independentes Assistência médica para modelar e prever resultados com base na variável de entrada. Neste artigo, abordaremos os fundamentos da análise e tipos de regressão, saltos e Agora vamos entender de uma forma matemática. O que é análise de regressão? Portanto, em sua essência, análise de regressão visa estimar a relação entre variáveis dependentes, geralmente denotadas por y, e uma ou mais variáveis independentes, denotadas x um, x OK. A relação é normalmente representada por uma equação da forma. É uma equação linear, onde y é igual a Beta zero mais Beta um em x um mais Beta dois em x t mais Beta três em x três, e assim por diante até Beta n em x mais épsilon OK. Beta zero é interceptador, onde x um, x e y interceptarão e Beta um, Beta dois e B são os coeficientes que representam os esforços das variáveis independentes, como as variáveis independentes afetarão Esse é um termo de erro, representando a diferença entre o objeto e os valores previstos. Então, o que estamos observando e o que estamos prevendo. Qual é o valor previsto e qual é o valor do objeto? A diferença será que, é que chamamos o termo de erro. termo de erro é o que previmos e qual foi o resultado exato. Então, suponha que estamos prevendo que temos um lucro de seis 50, mas observamos que obtivemos um lucro de Então, seis 50 -501 50 será o termo de erro, no simples, se eu explicar Está bem? Então, tipo de análise de regressão, regressão linear simples que todos sabemos que envolve uma única variável independente e uma relação linear com a variável dependente Então, se você observar, será muito simples, faça gráfico de x, y e haverá uma linha passando por isso, certo? E então vem a regressão linear múltipla que lida com várias variáveis independentes e uma relação linear com a variável dependente Em seguida, vem a regressão polinomial que ajusta uma curva aos dados introduzindo termos polinomiais da polinomiais E a última é a regressão logística muito popular usada para problemas de classificação binária em que a variável dependente é Veremos como podemos conseguir tudo isso e como podemos entender e como podemos usar para decodificar toda a regressão múltipla e simples ponmial logística Agora, adaptações da análise de regressão. Para que a análise de regressão forneça resultados precisos, certos saltos devem ser feitos. O primeiro é a linearidade. Linearidade. A relação simples entre as variáveis dependentes e independentes deve ser linear. Portanto, a primeira isenção é que a relação entre as variáveis dependentes e independentes deve ser linear Então, o segundo As é independência. As observações devem ser independentes umas das outras. O próximo é Homo Sdsticity, a variância do termo de erro deve ser constante em todos os níveis das Depois vem a normalidade. O termo de erro deve seguir uma distribuição normal. Portanto, o termo de erro que vimos aqui E deve seguir a distribuição normal. Depois vem a multicolinearidade. As variáveis independentes não devem ser altamente correlacionadas entre si Então, o que farei na próxima palestra, explicarei um pouco o que é normalidade , multicolinearidade e homocd para que você possa entender de uma para que você possa Por enquanto, você só precisa acompanhar a palestra. Portanto, sem multicolinearidade, as variáveis independentes não estariam altamente Aplicações da análise de regressão. Então, como eu disse, economia para custear a demanda e analisar a elasticidade do preço. Então, em finanças, podemos usá-la para prever os preços das ações e avaliar os e avaliar Nas ciências sociais, podemos usá-lo para estudar o impacto das intervenções, analisando os dados da pesquisa. Pesquise dados para a previdência social, esse governo administra todas as coisas podemos fazer com a análise de regressão E então, na área da saúde, podemos prever os resultados dos pacientes avaliando o fator de risco para um determinado dG, como discutimos sobre o coração Escavações, quaisquer escavações que você possa prever com base nos dados. Então, agora chega a conclusão desta palestra análise de regressão é uma técnica estatística poderosa para modelar relacionamentos entre variáveis e fazer previsões Ao compreender seus fundamentos, suposições e tipos, analistas como analistas de negócios , cientistas de dados e recursos podem utilizar efetivamente a análise de regressão para obter insights dos dados e tomar decisões informadas Assim, depois de entender o conceito de análise de regressão, você pode usá-lo em qualquer domínio para obter informações dos dados e tomar decisões Então, essa é uma ferramenta muito poderosa que vamos aprender. Então, na próxima aula, aprenderemos mais algumas coisas sobre a análise de regressão. Então, S na próxima palestra. 137. Como entender o modelo de regressão linear: Olá e bem-vindo de volta. Então, nesta palestra, vamos aprender sobre o modelo de regressão linear Portanto, a regressão linear é uma das técnicas fundamentais, usada em estatística e aprendizado de máquina E isso é usado para modelar a relação entre a variável dependente e uma ou mais variáveis independentes. Aprendemos isso na aula anterior enquanto entendíamos a análise de regressão. Portanto, a regressão linear é um dos modelos de análise de regressão Nisso, vamos nos aprofundar na mecânica da regressão linear É a isenção e a forma de interpretar os parâmetros do modelo e a consideração prática Vamos começar. Entendendo a regressão linear. regressão linear visa ajustar uma relação linear entre a variável independente x e a variável dependente, y. A relação é tipicamente representada pela equação, y é igual a beta zero mais um em x mais e, onde y é variável dependente, x é variável independente Beta zero é o intermediário esse é o valor de y quando x é zero E Beta 1 é o coeficiente de inclinação, onde a mudança em y para uma mudança unitária em x, então, é o eratom que já conhecemos representando a discrepância entre o valor objetivo e os valores previstos. Agora está claro. Se eu puder desenhar, tudo bem. Não há ferramenta de desenho aqui. Deixe-me verificar se consigo desenhar aqui. Ok. Deixe-me abrir um alfinete aqui. Então, se eu puder te dizer, esse é o eixo x, e esse será o eixo y. Isso é, isso é y, e a regressão linear é encontrar uma linha de regressão como essa, onde x é igual a y é igual a. Esta linha será y é igual a, Deixe-me. Vamos colocar B zero mais B um, x mais. Então você pode entender assim, y é igual a Beta zero mais p1x Aqui, onde entenderemos aqui, Beta zero é o termo de interceptação em que y, o valor de y quando x é igual a zero Então, quando você vai aqui, x é zero, e quando você intercepta daqui desta forma Aqui x é zero e y, daqui até aqui, o site B zero ou B t zero. Tudo o que você puder. Esse será o b zero e o beta um será a mudança em y para uma unidade de mudança na inclinação x. Então, se você ver aqui, conforme você se move daqui para aqui, e depois daqui, então essa será a inclinação será essa inclinação será a inclinação B. Se o erro for tom, será o termo do erro. exemplo, suponha que prevejamos algum valor aqui e objetemos algo aqui, então a diferença será o valor. Essa é a linha de regressão. Então, deixe-me dizer que essa linha é a linha de regressão Essa linha é a linha de regressão. Ok. Esta é a equação em linha reta, y é igual a x mais c, com isso você também pode entender. Espero que isso esteja claro. O próximo salto para regressão de mídia para regressão linear para fornecer um tal confiável, vários aumentos devem ser mantidos. A primeira é a linearidade, a independência, a normalidade sádica, não a colinearidade Linearidade, já entendemos onde entre x e y deveria ser linear assim Pois quando traçamos x e y, devemos obter uma linha reta. Então isso é linearidade. Independência, as observações devem ser independentes umas das outras e homo sadicidade é a variância do termo de erro que deve ser constante em todos os níveis de Os termos de erro devem seguir uma distribuição normal e, sem uma conearidade múltipla perfeita , as variáveis independentes não devem estar perfeitamente correlacionadas entre si, ok. Então, interpretando Intercepte o Beta zero aqui, o intercepto beta zero, beta zero, representa y quando x é igual a zero, o significativo somente se estiver dentro do intervalo dos dados inclinação Beta um, a inclinação que observamos aqui, Beta um, indica a mudança em y para uma unidade de mudança em x. Então, podemos ver enquanto nos movemos, se pudermos ver esse x, então esse será o. Deixe-me mudar a cor. Para este x, para este x, este será o y. Isso é o que está dizendo, ou mudança em y, ou mudança em y, para uma mudança unitária em x, uma inclinação positiva sugere que a inclinação positiva rec negativa indica a relevância negativa eficiente da determinação r ao quadrado medida para a proporção de uma variância na variável dependente que é previsível a partir da uma variância na variável dependente Isso é o que está dizendo, ou mudança em y, para uma mudança unitária em x, uma inclinação positiva sugere que a inclinação positiva rec negativa indica a relevância negativa eficiente da determinação r ao quadrado medida para a proporção de uma variância na variável dependente que é previsível a partir da variável independente. valor de R quadrado mais alto indica melhor ajuste para o modelo Consideração prática: a avaliação do modelo acessa a qualidade do ajuste usando matrizes como média quadrada MSC, raiz média quadrada RMS e valor quadrado R. Valores discrepantes e influentes apontam e identificam e tratam os valores discrepantes que podem influenciar desproporcionalmente o resultado desproporcionalmente Verifique a colinaridade de colinaridade múltipla entre as variáveis independentes e considere abordar variáveis independentes e se é Pregent. Validação cruzada, valide o desempenho do modelo usando técnicas como a validação cruzada K fold para garantir a legibilidade geral Ok. o modelo de regressão linear fornece uma estrutura simples e poderosa para entender e modelar a relação entre as variáveis, aderindo às suas suposições, interpretando os parâmetros do modelo de forma eficaz e considerando considerações práticas. Analistas e recursos podem aproveitar a regressão linear para obter insights dos dados e fazer Agora, conclusão, o modelo de regressão linear fornece uma estrutura simples e poderosa para entender e modelar a relação entre as variáveis, aderindo às suas suposições, interpretando os parâmetros do modelo de forma eficaz e considerando considerações práticas. Analistas e recursos podem aproveitar a regressão linear para obter insights dos dados e fazer decisões informadas em vários campos. Então é isso que devemos saber sobre regressão linear. Faremos a prática também com o núcleo em nossa programação, mas esse seria o último. Por enquanto, entenderemos os fundamentos de vários modelos de análise de regressão como regressão linear , e também veremos a regressão múltipla Veja a próxima palestra. 138. Como entender a cedasticidade doméstica: Olá e bem-vindo de volta. Então, nesta palestra, vamos aprender sobre mo Cresticdy Portanto, a estatística homo, também conhecida como homo genidade da variância, é um salto de regressão linear que se refere à condição em que a variância do erro ou dos resíduos é constante em todos os níveis das erro ou dos resíduos é constante em todos os conhecida como homo genidade da variância, é um salto de regressão linear que se refere à condição em que a variância do erro ou dos resíduos é constante em todos os níveis das variáveis independentes. Em termos mais simples, isso significa que a distribuição dos resíduos deve permanecer a mesma independentemente do valor das variáveis independentes Então, o que é homosticidade É a homogeneidade da variância, e é um Amson que usamos na regressão linear, e se refere à condição em que os erros, os resíduos que armazenamos, permanecerão constantes em todos os níveis das permanecerão constantes ? É a homogeneidade da variância, e é um Amson que usamos na regressão linear, e se refere à condição em que os erros, os resíduos que armazenamos, permanecerão constantes em todos os níveis das variáveis independentes. Portanto, seja qual for o valor que você escolher para as variáveis independentes, a variância dos erros ou dos resíduos será constante Espero que você tenha sabido disso, certo? Então, qual é a importância da homodatidade? homo sexticidade é um salto importante na regressão linear porque a violação desse salto pode levar à estimativa tendenciosa dos parâmetros. A homo sexticidade é um salto importante na regressão linear porque a violação desse salto pode levar à estimativa tendenciosa dos parâmetros. Então, se simplesmente ignorarmos esse homodato, o que acontecerá? Obteremos a estimativa, mas essa será baseada em subparâmetros, e ela o levará até o teste de erros padrão incorretos e de hipóteses enganosas. Quando heterod, o projeto da homo sadicidade está presente, o modelo pode dar erros padrão incorretos teste de erros padrão incorretos e de hipóteses enganosas. Quando heterod, o projeto da homo sadicidade está presente, o muita ênfase a certas observações com mas essa será baseada em subparâmetros, e ela o levará até o teste de erros padrão incorretos e de hipóteses enganosas. Quando heterod, o projeto da homo sadicidade está presente, o modelo pode dar muita ênfase a certas observações com grandes resíduos e levar a insuficientes e estimativas não confiáveis Então, quando, se ignorarmos essa homodatidade, nos movermos em direção à heterodatidade, que se opõe à homocácia, quando essa herodostia se apresentará que se opõe à homocácia, quando essa herodostia se apresentará quando essa herodostia essa homodatidade, nos movermos em direção à heterodatidade, que se opõe à homocácia, quando essa herodostia se apresentará em nosso modelo, o que teremos? O que faremos é colocar mais ênfase na observação com os grandes resíduos, o que fará com que as estimativas eficientes não sejam confiáveis Estimativas, e isso tornará nosso modelo muito inconsistente e pouco útil Então, como identificar a homossexualidade, existem duas coisas A primeira é uma trama residual e a segunda é um teste pagão rápido Então, entenderemos o que é gráfico residual. Uma forma comum de diagnosticar a homossexualidade é traçar os resíduos em relação ao traçar Portanto, seja qual for o valor previsto que obteremos representamos graficamente os resíduos relação aos valores previstos ou às variáveis independentes em um gráfico de resíduos Se a distribuição dos resíduos parecer aproximadamente restrita em toda a faixa, os valores previstos ou as variáveis independentes, a homocdstcity No entanto, se a dispersão dos resíduos aumentar ou diminuir conforme os valores previstos, a mudança de heterogeneidade pode ser evitada mudança de heterogeneidade A segunda técnica é estimular o gosto pagão. Esse é o sabor estatístico usado para provar formalmente a homodaidade na A hipótese nula do teste brace pagan é que variância dos Embora a hipótese alternativa seja que a variância dos resíduos não é uma heterostez constante Um resultado significativo indica evidências de hereditariedade. OK. O que vai acontecer? Quais serão as consequências da violação da homossexualidade Haverá uma estimativa tendenciosa. As estimativas do coeficiente podem ser tendenciosas se a dispersão dos resíduos variar sistematicamente com valores das variáveis independentes Erros padrão incorretos, podemos concluir que os erros padrão podem estar subestimados ou superestimados, levando ao intervalo de confiança e ao teste de hipóteses incorretos. Em estimativas eficientes, a eficiência das estimativas dos parâmetros pode ser comprometida reduzindo o poder da análise de regressão detectar a verdadeira relação entre as Abordando a homossadasticidade, se a homossexualidade for violada, várias abordagens se a homossexualidade for violada, várias abordagens podem ser consideradas. A transformação de variáveis, transformando as variáveis dependentes ou independentes, pode ajudar a estabilizar a variância dos resíduos, com base na lista quadrada Usando regressão quadrada de inclinação ponderada que as observações são ponderadas com base em sua variância e podem Erros padrão robustos técnicas de erros padrão podem ser empregadas para ajustar os erros padrão de sedativos para heróis sem presumir os específicos Forma da estrutura de variância. Portanto, a homossticidade é uma isenção crucial na regressão linear que garante a validade e a confiabilidade do Detectar e lidar com violações da homossexualidade é essencial para produzir precisos e confiáveis Então, isso é o que é a homodácia e a importância de entender como identificar, existem duas maneiras e então vimos as consequências de violar a E então vimos como lidar com a homo sadasticidade Existem três formas de transformação de variáveis, quadrados ponderados e erros padrão robustos Está bem? Então, na próxima palestra, veremos o que é normalidade Então ela está na próxima palestra. 139. Como entender a normalidade: Olá e bem-vindo de volta. Então, nesta palestra, vamos entender o que é normalidade normalidade é um aumento da regressão linear que se refere à condição em que os resíduos ou erros do distribuídos Então, quando os erros ou os resíduos são normalmente distribuídos, isso é chamado de normalidade Em outras palavras, isso implica que a distribuição dos resíduos segue uma curva em forma de sino ou em forma de sino centrada em torno Com a maioria dos resíduos agrupados perto da média e menos resíduos O que isso realmente significa? Isso significa que quando os erros em nosso modelo ou os resíduos em nosso modelo de regressão são normalmente distribuídos . O que isso significa? Normalmente distribuído significa que a distribuição dos resíduos segue a curva do sino, onde o It está Está centrado. Todas as setas estão centradas em torno do zero com maioria dos resíduos agrupados Então, na maioria das vezes, se você olhar para a campainha, se você olhar para a campainha, como ela fica? Parece assim, certo? OK. Deixe-me usar uma caneta. Se você olhar para um sino , será assim, certo? Então, ele será centrado em torno desse zero, suponha. E a maioria dos valores está voltada para esse valor médio, valor médio. Ok, então é isso que significa. Deve ser como sinos, onde está a maioria dos valores. Em toda a média dos valores. Curva bem formada, centrada no braço zero, com a maioria dos vegetais agrupados perto da média e menos resíduos Então, agora, a importância da normalidade. normalidade é uma regressão de salto importante porque muitos métodos estatísticos de sabor e estimativa usados na análise de regressão A normalidade é uma regressão de salto importante porque muitos métodos estatísticos de sabor e estimativa usados na análise de regressão dependem do salto de normalidade. Quando os resíduos são normalmente distribuídos, isso indica que os erros são aleatórios e independentes e que o cocentro de regressão isso indica que os erros são aleatórios e independentes e que o cocentro de regressão é estimado de forma eficiente. Como identificar a normalidade usando o gráfico de resíduos Um método comum para avaliar a isenção de normalidade é examinar um histograma ou um gráfico QQ, gráfico Um método comum para avaliar a isenção de normalidade é examinar um histograma ou um gráfico QQ, gráfico quantílico dos resíduos. Em um gráfico Q Q, se os pontos caírem aproximadamente ao longo da linha diagonal, isso sugere que os resíduos estão normalmente distribuídos Como alternativa, um histograma do resíduo se assemelharia a um cartão de duas etapas como este. OK. O próximo método é o sabor sapiro k. Esse é o sabor estatístico usado para testar formalmente a normalidade dos resíduos. A hipótese nula do sabor do leite de sapiro é o teste de que os resíduos Um resultado significativo indica evidências contra a normalidade. OK. As consequências de violar a normalidade ao fazer a análise de regressão são as mesmas que vimos na homosseticidade, estimativa tendenciosa, ao fazer a análise de regressão são as mesmas que vimos na homosseticidade, estimativa tendenciosa, inferência incorreta. Qual é a estimativa tendenciosa? As estimativas de copicientes podem ser tendenciosas se os resíduos não forem Inferência incorreta significa que o intervalo de confiança e o teste de hipóteses com base nas distribuições t podem ser inválidos se os resíduos não forem Predições imprecisas ocorrerão se violarmos a normalidade; os intervalos de predição podem não ser confiáveis se a isenção de normalidade for Então, como lidar com a normalidade se a normalidade for violada, várias abordagens podem ser A primeira é a transformação de dados transformando os dados Ao transformar as variáveis dependentes e independentes que podem ajudar a tornar os resíduos mais normalmente distribuídos, transformação comum inclui raiz logarítmica ou quadrada ou ajudar a tornar os resíduos mais normalmente distribuídos, a transformação comum inclui raiz logarítmica ou quadrada ou a transformação boxcox. Regressão robusta, técnicas de regressão robustas, como erros padrão robustos ou estimativa, podem ser usadas para estimar o coeficiente de regressão em pregênios E então o terceiro é o boostraping. Boost strapping é uma técnica de reamostragem que pode fornecer inferência robusta na análise de regressão Portanto, o que podemos concluir que a normalidade é uma isenção da regressão linear que garante que a validade, eficiência e a confiabilidade do modelo de regressão estimadas Embora as violações da normalidade nem sempre levem a problemas significativos, é essencialmente essencial avaliar e abordar os desvios da normalidade para produzir resultados de regressão precisos OK. Então, espero que você também saiba o que é normalidade. Na próxima palestra, não entenderemos nenhuma multicolinearidade perfeita. Portanto, fique por dentro da próxima palestra. 140. Como não há multicolinearidade perfeita: R e bem-vindo de volta. Nesta palestra, aprenderemos sobre a ausência de uma multicolinearidade perfeita. Portanto, nenhuma multicolinearidade perfeita é uma exceção que tomamos na regressão linear que afirma que não deve haver uma relação linear exata é uma exceção que tomamos na regressão linear que afirma que não deve haver uma relação linear exata entre as variáveis independentes. Ok. Variáveis independentes são aquelas que também são conhecidas como preditoras As variáveis independentes são os preditores e o valor que predizemos é chamado de variáveis dependentes Em outras palavras, isso implica que uma variável independente não deve ser combinação linear perfeita de outras. Portanto, uma variável independente não deve ser uma combinação linear perfeita das outras. Portanto, não deve haver nenhuma combinação de linearidade. Importância de nenhuma multicolinaridade perfeita Sim, a multicolinaridade ocorre quando duas ou mais variáveis independentes em um modelo de regressão estão altamente correlacionadas entre si multicolinaridade ocorre quando duas ou mais variáveis independentes em um modelo de regressão . Portanto, duas ou mais variáveis independentes não devem ser correlacionadas, altamente correlacionadas entre si Embora a multicolinearidade em si não seja necessariamente um problema não multicolinearidade perfeita pode levar a problemas na estimativa do coeficiente de regressão e A multicolinearidade perfeita pode levar a problemas na estimativa do coeficiente de regressão e prejudicar a interpretação do modelo. Identificação da matriz de correlação múltipla perfeita. Um método comum para detectar a multicolinearidade é examinar a matriz de correlação de variáveis examinar a matriz de correlação de variáveis independentes. coeficiente de correlação próximo a mais um ou menos um indica uma forte relação entre O segundo método é o fator de inflação de variância VF, VF é uma medida de até que ponto a variância do coeficiente de regressão estimado aumenta devido VF é uma medida de até que ponto a variância do coeficiente de regressão estimado aumenta devido à multicolinearidade. Um alto F F significa fator de inflação de variância, valor normalmente obtido indica um nível problemático de O que acontece se violarmos a colinearidade multicolar perfeita Isso levará a estimativas de coeficientes não confiáveis. Quando existe a colinearidade multicoli perfeita, o modelo de regressão não pode estimar o coeficiente exclusivo Como resultado, as estimativas do coeficiente se tornam instáveis e Soluções infinitas. Com a multicolinearidade perfeita, há infinitas combinações de estimativas de coeficientes que se ajustam perfeitamente estimativas de coeficientes Portanto, o modelo de regressão não pode determinar exclusivamente os problemas de interpretação do coeficiente A colinaridade múltipla perfeita complica a interpretação do coeficiente individual, das estimativas, pois se torna impossível isolar o efeito das variáveis independentes das outras Como abordar a seleção perfeita de variáveis de colinearidade múltipla, remover uma ou mais altamente correlacionadas do modelo, priorizar variáveis que são mais teoricamente relevantes ou têm uma associação mais teoricamente relevantes ou remover uma ou mais variáveis altamente correlacionadas do modelo, priorizar variáveis que são mais teoricamente relevantes ou têm uma associação mais forte com a variável dependente. A transformação de dados transforma uma ou mais variáveis para reduzir a colinaridade múltipla. Por exemplo, criar termos de interação ou termos polinomiais pode ajudar a capturar relacionamentos complexos sem introduzir relacionamentos complexos sem introduzir uma colinaridade perfeita. Regressão de Ridge regressão Ridge é uma técnica de regularização que pode lidar com colinaridade múltipla adicionando um termo de penalidade Esse termo de penalidade ajuda a estabilizar as estimativas do coeficiente e mitiga o efeito da Essas são as três técnicas muito eficazes que podemos usar para lidar com a multicolinearidade perfeita. A primeira é a seleção a Podemos remover ou adicionar mais e remover uma ou mais variáveis altamente correlacionadas do modelo Em seguida, na transformação dos dados, podemos transformar uma ou mais variáveis para reduzir a frieza múltipla e a regressão da crista é uma técnica de regulação para lidar com a multicolidade adicionando Ok. Portanto, garantir que não haja uma frescura múltipla perfeita é essencial para produzir resultados confiáveis e interpretáveis na análise de regressão linear Detectar e abordar a colaridade múltipla no início processo de modelagem pode ajudar a melhorar a precisão e a estabilidade das estimativas de regressão Então, agora entendemos a homossadicidade, a normalidade e a multicolinaridade perfeita. Então, agora com esse entendimento, vamos avançar em nossa análise de regressão, compreensão Ok, então veja o interior da próxima palestra. 141. Conceitos e formulação de regressão linear simples: E bem-vindo de volta. Nesta palestra, entenderemos sobre regressão linear simples, conceitos e Portanto, a regressão linear simples, como discutimos anteriormente, também é uma técnica estatística básica usada para modelar a relação entre duas variáveis, uma variável dependente, e também a variável dependente também é conhecida como variável de resposta e uma variável independente chamada variável preditora Portanto, a variável prevista predirá uma variável dependente Aqui, aprofundaremos o conceito de formulação da regressão linear simples, explodindo os princípios fundamentais e as aplicações práticas da regressão linear simples Conceito de regressão linear simples , primeiro, entendemos Em seu código, a regressão linear simples visa capturar a relação linear entre uma única variável independente x e uma variável dependente y. A relação funciona por meio de uma equação em linha reta y igual a x mais c mais B t zero B zero é zero, já vimos na aula anterior, é o ponto de interceptação ou o intercepto x e y é a variável independente, y é a variável dependente e B um, Beta um é um coeficiente de inclinação Já discutimos isso aqui. Isso é Beta zero, isso é B um, isso, e isso é x. Ok. Agora, o termo de interceptação representa o valor de y quando x é zero que já vimos e o coeficiente de inclinação eta um indica a mudança em y associada à mudança de uma unidade em x. Então, quando você olha aqui, esse eta um, estará mudando Então, quando você olha aqui, esse eta um, estará Agora, formulação da regressão linear simples. Estimativa estimando a inclinação correspondente à zona beta. A coincidência de inclinação Beta um é estimada usando o método dos mínimos quadrados, que minimiza a soma da diferença quadrada entre os valores objetivos e previstos de y. A fórmula para estimar Beta um é Beta um é igual a Sigma de x i menos x a y menos y. Isso é previsto menos objeto os valores objetivos e previstos de y. A fórmula para estimar Beta um é Beta um é igual Sigma de x i menos x a menos previsto, dividido por Sigma desligado, e aqui está estimada usando o método dos mínimos quadrados, que minimiza a soma da diferença quadrada entre os valores objetivos e previstos de y. A fórmula para estimar Beta um é Beta um é igual a Sigma de x i menos x a y menos y. Isso é previsto menos objeto menos previsto, dividido por Sigma desligado, e aqui está I variando de igual a um dois e xi menos x. Quadrado inteiro. Onde está o número de observações, x e y são os valores individuais de x e y e x e y, esses são a média amostral da média x e y são a média de x e y. Estimando o Beta zero Uma vez estimado o coeficiente de inclinação Beta 1, o termo de interceptação beta zero pode ser calculado usando a fórmula beta zero, bar é igual a y bar menos beta 1 bar, onde x bar x bar beta um é coeficiente de inclinação e x bar y bar são as médias amostrais de x e y. Então esta é a fórmula de formulação da regressão linear simples. Então esta é a fórmula de formulação da regressão linear simples o termo de interceptação beta zero pode ser calculado usando a fórmula beta zero, bar é igual a y bar menos beta 1 bar, onde x bar x bar beta um é coeficiente de inclinação e x bar y bar são as médias amostrais de x e y. Então esta é a fórmula de formulação da regressão linear simples. Aplicação de regressão linear simples, que já conhecemos em economia, para modelar a relação entre receitas e despesas em finanças, prever preços de ações com base em dados históricos, em saúde, e Ling, a relação entre a idade do paciente e despesas médicas e em educação , considerando como prever o desempenho do aluno que já conhecemos em economia, para modelar a relação entre receitas e despesas em finanças, prever preços de ações com base em dados históricos, em saúde, e Ling, a relação entre a idade do paciente e despesas médicas e em educação, considerando como prever o desempenho do aluno com base no estudo s. Portanto, a regressão linear simples é uma ferramenta estatística poderosa para modelar e compreender as relações entre as duas variáveis, estimulando a inclinação e o coeficiente inclinação e o Os analistas podem quantificar a força e direção do relacionamento e fazer previsões com base nos dados observados Compreender o conceito e a formulação da regressão linear simples é essencial para conduzir análises precisas e significativas Em vários domínios. Então, este é um passo à frente, nós fomos e entendemos como a formulação de regressão linear simples E também entendemos o conceito. Então, veremos mais sobre essa regressão linear simples na próxima aula 142. A teoria do método Least Squares explicada: E bem-vindo de volta. Então, nesta palestra, entenderemos o que é o método dos mínimos quadrados Portanto, o método dos mínimos quadrados é uma abordagem comum usada na regressão linear Para estimar o coeficiente da equação de regeneração. objetivo é encontrar a linha que melhor se ajusta aos dados do objeto, minimizando a soma das diferenças quadradas entre o objeto e os valores previstos da variável dependente Veja como funciona o método do quadrado da lista. A primeira coisa é definir a equação de regressão. A equação de regressão para um modelo de regressão linear simples é normalmente representada como y igual a Beta zero mais Beta um e dois x mais ou épsilon, onde y Também a chamamos de variável de resposta, x é variável independente, chamamos de variável preditora Beta zero é o termo de interceptação, Beta um é suficiente e Epsilon é o termo de erro, e Epsilon é o termo de erro Beta um é suficiente e Epsilon é o termo de erro, representado por uma variação inexplicável. A segunda etapa é calcular o valor previsto usando a equação de regressão dada, calcular o valor previsto, ou seja, para cada observação no conjunto de dados Em seguida, o valor previsto y para observação é dado y y y bar mais Beta zero mais Beta um em xi, onde Beta zero e Beta um são coeficientes estimados pelo método dos mínimos quadrados Agora, a terceira etapa será calcular o resíduo. O resíduo de para cada observação é a diferença entre o valor do objeto de y e o valor previsto, y que dois pontos i é igual a dois, yi hat Para minimizar a soma dos resíduos quadrados. O objetivo do método list squa é minimizar a soma dos resíduos quadrados Matematicamente, isso pode ser expresso como essa equação. Sigma dois n, Sigma F é igual a um a n i quadrado é igual a Sigma F y menos yi aquele quadrado onde eu variarei de um a n. Ao minimizar essa soma, obtemos a linha de melhor ajuste que passa pelos pontos de dados, pois reduz a discrepância geral entre os valores observados e previstos de y. Estime discrepância geral o coeficiente, página da quinta etapa Sigma F é igual a um a n i quadrado é igual a Sigma F y menos yi aquele quadrado onde eu variarei de um a n. Ao minimizar essa soma, obtemos a linha de melhor ajuste que passa pelos pontos de dados, pois reduz a discrepância geral entre os valores observados e previstos de y. Estime o coeficiente, página da quinta etapa. Para encontrar o valor de Beta zero e Beta um que minimiza a soma do quadrado da técnica de cálculo residual, especialmente derivadas parciais As fórmulas para estimar o coeficiente são dadas como: x bar, onde x bar e ar são médias amostrais de x e y, respectivamente Depois de encontrar o valor a partir daqui, próxima etapa interprete o coeficiente Uma vez estimados os coeficientes Beta zero bar e Beta 1 bar, eles podem ser interpretados barra beta zero é o termo de interceptação que representa o y de representar o valor de y, onde x é zero e a barra beta 1 é o coeficiente de inclinação que indica a mudança em y associada a uma mudança unitária em x. Ao aplicar esse método de lista quadrada, obtemos estimativas do coeficiente que define a linha de melhor ajuste para os dados fornecidos, permitindo quantificar o A barra beta zero é o termo de interceptação que representa o y de representar o valor de y, onde x é zero e a barra beta 1 é o coeficiente de inclinação que indica a mudança em y associada a uma mudança unitária em x. Ao aplicar esse método de lista quadrada, obtemos estimativas do coeficiente que define a linha de melhor ajuste para os dados fornecidos, permitindo quantificar o relação entre as variáveis independentes e dependentes em um modelo de regressão linear simples É assim que funciona o método do quadrado quadrado, e essa é a teoria por trás do método dos quadrados da lista 143. Exemplo de método menos quadrados em regressão linear: Olá, e bem-vindo de volta. Na palestra anterior, vimos a teoria por trás do método da lista quadrada Nesta palestra, executaremos este programa simples que escrevi para explicar o método da lista quadrada na regressão linear Aqui, o que estou fazendo, estou gerando dados sintéticos. Para isso, estou usando set dot set 123. Isso definirá o conjunto para reprodutibilidade. Aqui, estou considerando X como um valor de 1 a 200. Essa é uma variável independente, então x é uma variável independente. variável dependente será o y, e sabemos que a recreação, desculpe, a fórmula da linha simples é y é igual a x mais c. Então, aqui estão os dois de x, estou pegando dois e dois x, dois x mais algum ruído aleatório que estou tomando aqui usando a fórmula, usando a função norma, 100 e, quero dizer, estou tomando zero e a adivação padrão, estou tomando dez Então, isso nos dará a variável dependente com algum ruído aleatório. Agora, o que vou fazer ajustar o modelo de regressão linear usando a lista quadrada por terço Aqui, criarei o modelo de regressão linear usando funções LM, criarei o modelo e usarei a função m, e aqui, y será a variável dependente e x será a variável independente Estou criando o modelo de regressão linear aqui. Agora, vou imprimir o modelo de regressão linear. Deixe-me correr até aqui. Veja aqui agora nós podemos ver aqui. Resíduos mínimos. mediana do primeiro quartil é esse o terceiro quartil, o máximo e o coeficiente que podemos ver Padrão residual 9,1 em 90 graus de liberdade, múltiplo R quadrado 0,0 978 R quadrado 0,0 9763 ajustado. Agora, vou traçar os dados, ajustar e encontrar a linha ajustada. Para traçar, usarei a função de plotagem x e manterei o título como título para o gráfico é regressão linear de mínimos quadrados e x x direi x e y, x p y, com a linha ab, tentarei encontrar a linha de regressão ajustada Vou usar o modelo aqui. Esse modelo de regressão linear, e eu vou usar para a linha, eu vou usar a cor vermelha Agora deixe-me executar isso. Veja agora aqui, deixe-me fazer isso. Veja agora aqui, para cada x, estamos obtendo y e C estou obtendo uma regressão linear Esta é a linha de regressão, a linha vermelha, estou chegando aqui Essa é a linha de regressão linear usando o método dos mínimos quadrados Com isso, estamos obtendo essa linha de regressão aqui. Aqui, usamos o método dos mínimos quadrados para encontrar a linha de regressão Veja o interior da próxima palestra. 144. Conclusão e trabalho de projeto: Ei pessoal, então aprendemos a arte da programação e estamos prontos para continuar com nosso conhecimento de programação. E agora podemos implementar esse conhecimento de programação artística em ciência de dados e aprendizado de máquina. Ok, então, a partir de agora, você está pronto para implementar algoritmos de ciência de dados e aprendizado de máquina usando nossa programação. Portanto, nossa programação é clara. Agora você carregou. Agora, sua próxima etapa é implementar algoritmos de ciência de dados e aprendizado de máquina em nossa programação e tentar explorar. Então, esse é o próximo passo. E agora você pode ir mais longe e começar a analisar os dados usando R e implementar algoritmos de ML, como regressão linear usando programação R. Então, essas são as coisas que você pode explorar mais depois de concluir esta aula. Então, a próxima coisa é qual é o seu projeto para essa aula? Agora você pode criar seus próprios dados, como eu criei dados de funcionários em arquivo CSV. Você também pode criar seus próprios dados em um arquivo CSV para esta classe, trabalho de projeto. E tente ler esse arquivo CSV por meio da arte. Em seguida, tente realizar algumas análises de dados sobre esses dados, sobre os dados do arquivo CSV usando arte, como fizemos em nossa classe. E tente criar algumas tabelas e gráficos com base nos dados, como a reabilitação feita para os dados de nossos funcionários. Da mesma forma, você pode pensar em um problema, pensar em um dado e realizar todas essas coisas. E depois de terminar com isso, disse, seu relatório final de análise. exemplo, quais são as coisas que você encontrará nos dados? E tente criar um relatório e tentar criar gráficos e tabelas. E tente colocar isso na seção de projetos desta aula para que todos possamos passar por isso. Aprenda com seu experimento, aprenda com seu projeto e falhe em feedback construtivo uns com os outros. Então, quando você salva seu projeto, todos os outros estudantes. E até eu posso passar por isso e até eu posso dizer esse feedback e outras pessoas também analisam e dizem o feedback umas com as outras. E com isso, podemos aprender e crescer. Então comece a configurar e publicar seu projeto. É isso para esta aula. E espero que você tenha gostado desta aula e tenha aprendido nossa programação para seus futuros projetos de ciência de dados e aprendizado de máquina. Tchau, tchau, cuide-se.