Programação em R: limpeza e transformação de dados no RStudio | Emmanuel Segui | Skillshare
Pesquisar

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Programação em R: limpeza e transformação de dados no RStudio

teacher avatar Emmanuel Segui, Data Analysis Made Easy!

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Apresentação

      2:12

    • 2.

      Selecionar grupos de observações

      7:07

    • 3.

      Transformar bagunça para limpar conjunto de dados Parte 1

      7:12

    • 4.

      Transformar bagunça para limpar conjunto de dados Parte 2

      6:29

    • 5.

      Tratar os valores em falta

      5:15

    • 6.

      Dividir e combinar células

      2:57

    • 7.

      Juntar dados a partir de tabelas diferentes

      4:27

    • 8.

      Prática 1

      1:40

    • 9.

      Prática 2

      1:56

    • 10.

      Observações de encerramento e próximos passos

      0:43

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

39

Estudantes

1

Projetos

Sobre este curso

Neste terceiro curso na série "Análise de dados com R", você aprenderá tudo o que precisa saber para limpar e transformar dados no RStudio IDE, e começará a analisar dados em R.

Aqui está o que você aprenderá para:

  • Selecionar grupos de observações e criar novos campos calculados

  • Transformar bagunça para limpar conjunto de dados com Pivot e Mutado

  • Transformar bagunça para limpar conjunto de dados com Mutado e substituição de String

  • Tratar os valores em falta em R

  • Dividir e combinar células e colunas em R

  • Juntar dados de diferentes tabelas em R

Aqui está o que você conseguirá:

> Seis (6) Vídeos instrutivos para andar você embora, passo a passo, a interface do RStudio para começar a importar seus conjuntos de dados e começar a programação em R

> Três (3) folhas cheias. Você receberá um pager para uma rápida referência para limpar e transformar dados com o RStudio

> Duas (2) atividades praticadas para melhorar suas habilidades na limpeza de dados usando o RStudio.

> TODOS os arquivos usados neste projeto

Aqui está o que fazer a seguir:

1. junte-se a mim neste curso on-line. >>

2. Concluir o projeto do curso para construir sua confiança

Conheça seu professor

Teacher Profile Image

Emmanuel Segui

Data Analysis Made Easy!

Professor

Do you like French accents? Eh ben Voilà! 

I am really excited to help the data analyst community on Skillshare. Whether you're a seasoned data analyst or aspiring to be, I hope you get what your heart desire, maybe a better lifestyle, or salary, or even learn new skills for fun! I hope to be one of your instructor in your journey.

As a data scientist and biostatistics instructor I have been involved in research studies and projects such as: 1) dashboard creation and publishing (using RStudio, Tableau, PowerBI). 2) statistical analyses and reports  (regressions, anovas, chi-square, factor analyses), 3) data warehouse and pipelines development with R and SQL Server. I also build Excel VBA applications to automate reports and save time from tedious reporting... Visualizar o perfil completo

Level: Intermediate

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Apresentação: Bem-vindo à terceira parte desta série sobre como começar a usar o RStudio. Então, a primeira parte desta série foi sobre o RStudio Cloud e como você pode usar diferentes opções para configurar sua conta na nuvem. A segunda parte abordou os dados das pesquisas. E este é sobre como limpar e transformar dados em RStudio. Então, como você pode ver aqui, há oito lições. A primeira lição, primeiro vídeo, é sobre como selecionar grupos de observações. Então, examinaremos várias funções e aprenderemos diferentes funções de ordem, especialmente a implantação de seu pacote ou o pacote tidy verse. Em seguida, vídeo 2.3 ou duas partes, na verdade, dois vídeos sobre como transformar dados confusos em dados limpos. Em primeiro lugar, vou definir o que constitui um conjunto de dados confuso e como limpá-lo. Então, dois vídeos e, claro, para limpar um conjunto de dados, você terá valores ausentes ou valores nulos. Portanto, é importante saber como lidar com valores ausentes em R. Esse é o objetivo deste vídeo. O próximo vídeo mostra como dividir e combinar células diferentes. Portanto, ele está usando algumas funções para dividir e combinar dados de string. O vídeo aqui mostra como combinar, unir ou reunir mesas diferentes. Portanto, é o equivalente à junção interna, à esquerda ou à direita ou à junção externa completa na sequência. Finalmente, você precisará praticar o vídeo para aumentar sua confiança na limpeza e transformação de dados em RStudio. Obviamente, no final, você pode ter um projeto e a descrição do projeto está abaixo deste vídeo aqui, na seção do projeto. Então, proponho que nos aprofundemos e aprendamos como limpar e transformar dados no RStudio. 2. Seleccionar grupos de observações: Bem-vindo à seção sobre transformação de dados em R. Portanto, esta seção abordará o uso de um pacote chamado tidyverse. O tidyverse é mais parecido com uma coleção de pacotes em R, muito usado por todos os nossos usuários para fazer análises de dados e também para fazer ciência de dados. O pacote específico que vamos usar neste vídeo é chamado de player. Então, primeiro, vamos preparar o cenário para esse vídeo. Vamos fazer o upload do conjunto de dados, instalar e carregar o tidyverse. E então eu vou explicar um pouco mais sobre as funções de que vamos usar um R do pacote dplyr. Primeiro, vamos fazer o upload, carregar um conjunto de dados em sua sessão R, um conjunto de dados chamado lesões. Lesões é o que eu disse que lista um total de 231 pacientes que passaram pelo pronto-socorro devido a diferentes lesões. Então, para carregar o conjunto de dados em nosso projeto, vamos para Arquivo e, em seguida, faremos o upload. Aqui, escolhemos a engenharia do conjunto de dados e clicaremos em OK. E podemos ver que aqui os ferimentos estão no Projeto Arquivos. Agora podemos carregar o conjunto de dados na sessão R. Vamos importar o conjunto de dados do Excel. A interface do importador é iniciada. E então podemos escolher nosso arquivo. Podemos ver aqui diferentes variáveis em cada uma, que é uma variável de caráter, existem várias faixas etárias aqui. E então o tipo, acidentes de veículos motorizados, etc. Essa também é uma variável de caractere e temos uma estimativa aqui. Você pode ver que o RStudio adivinhou que era uma variável de caractere, mas na verdade não está certo. Por que diz isso? A razão pela qual osteo adivinhou que era uma variável de caractere é porque, no arquivo de dados do Excel , para representar valores nulos, temos os caracteres. E no momento em port, osteo está tentando adivinhar que o tipo de dados dessa variável, como você verá, são alguns caracteres e automaticamente pensa que toda a variável é uma variável de caractere. Vamos mudar o tipo de dados para numérico. Então você pode ver aqui os caracteres NAs ou não e a, mas estão representando valores nulos. Então clicamos em importar e agora vamos instalar o pacote tidyverse. Instale um verso arrumado. Agora o tidyverse está instalado. O pacote é importante para nós aqui, é chamado de fornecedor profundo. Há muitas funções diferentes nesse pacote de camadas profundas, mas estamos interessados em funções aqui. Primeiro, a função select que nos permitirá selecionar variáveis ou selecionar campos ou colunas do conjunto de dados. Em seguida, usaremos o filtro de função que nos permitirá obter linhas com base em determinadas condições. A terceira função, pela qual vamos usar esse grupo de funções, que nos permite agrupar o conjunto de dados com base em uma variável específica. Em seguida, usaremos a função resumir, resumir a estimativa ou fazer um total da estimativa dos dados com base em alguns grupos. Então, primeiro, selecionando a função, vou mostrar duas maneiras de usar essa função. Primeiro, vamos compor a função como ela é normalmente escrita. E então vamos usar o que é chamado de operador de tubulação. Agora, o objetivo dos operadores de tubulação é ajudá-lo a escrever código de uma forma que seja mais fácil de ler e entender. É uma forma de encadear ações diferentes. Eu diria que em nosso operador de tubulação que você escreve, porcentagem maior que porcentagem. É assim que você escreve. Este operador de tubulação vem do pacote do Magrebe. Mas quando você carrega, o tidyverse carrega automaticamente esse operador de tubulação, vamos usá-lo agora mesmo. Primeiro, vou mostrar como usar a função conforme ela está escrita. Então selecione, o primeiro argumento da função de seleção é o conjunto de dados. Então, ferimentos. E então a segunda função são as colunas ou campos ou as variáveis que queremos configurar aqui. Vamos selecionar a idade. Então, para usar o tubo primeiro, você começa com o começo. Logo no começo está o conjunto de dados. Então, ferimentos. E então você insere um operador de tubulação. Você também pode selecionar várias colunas. Obviamente, nesse caso, você usa o operador pipe, seleciona um tipo de agente aqui como uma coleção de vetores e não apenas H, você quer várias colunas, então temos que colocá-las em uma coleção. Você também pode usar a coluna de índice para selecionar suas variáveis. Aqui estou selecionando a coluna um e a coluna três, então idade e lesão. Então, agora vamos usar o filtro de verbos. E o filtro é usado para filtrar o conjunto de dados com base em uma condição. Então, aqui vamos usar um exemplo. A condição será que a faixa etária seja 0 a 17 anos, certo? Então, vamos levar todos os pacientes para os quais a faixa etária é de 0 a 17 anos. Também podemos filtrar com base em várias condições. Digamos que queremos filtrar aqui com base na faixa etária zero a 17 anos e também no tipo de hospitalizações. Vou abrir um espaço aqui. E então vamos usar a terceira função, grupo de funções BY, aqui vamos agrupar por idade. Vou pressionar Enter. Você verá que primeiro o resultado é uma tabela. Mas então você pode ver nos metadados que há 11 grupos. Também podemos agrupar por variáveis diferentes. Então, aqui, por exemplo eu estou agrupando por idade primeiro e depois por tipo. Bem, há 11 grupos por idade e há três tipos. Então, vivemos em três vezes igual a 33 grupos. Agora, com base nesses grupos, faremos alguns cálculos. Aqui. Vamos resumir os dados. Então, consideramos que as lesões eram do tipo de agente de compra e, em seguida, resumimos e diremos: Ok, quero que essa coluna seja chamada de total e total igual. Então, atribuímos parte da estimativa ao total e não esquecemos de remover DNAs antes de fazer a soma. Então é isso para este vídeo. No próximo vídeo, veremos mais algumas funções da camada profunda e do pacote tidyverse para unir dados, combinar células, etc. 3. Transforme confuso para limpar conjunto de dados Parte 1: Este vídeo é sobre como transformar dados confusos organizados ou dados limpos com algumas funções do tidyverse. Então, primeiro de tudo, vamos limpar o espaço de trabalho, reiniciar R. Então, aqui você vê que não há mais variáveis ou objetos no ambiente. Vou abrir algum espaço. E agora estamos prontos para montar o cenário. Primeiro, vamos ver o pequeno versus o carregado. Aqui vamos digitar tidyverse. Clique na caixa de seleção. E agora o verso arrumado está carregado. Os dois pacotes são importantes. Aqui estão os fornecedores e arrumados. Então, vamos falar sobre dados confusos versus dados organizados. O que são dados da Macy? Há três cenários aqui para dados confusos. Em primeiro lugar, os cabeçalhos das colunas são valores e não nomes de variáveis. Então, vamos dar uma olhada no conjunto de dados aqui que está incluído no pacote de camadas profundas chamado renda relíquia, que é um dado de uma pesquisa sobre religião e renda. Então você pode ver aqui que os nomes das colunas aqui não são realmente variáveis e deveriam ser variáveis. Os nomes das colunas aqui são valores de grupos de renda. Portanto, isso é considerado um dado confuso. O segundo cenário aqui são vários valores armazenados em uma coluna. Então, eu vou te mostrar isso com um conjunto de dados chamado tuberculose da Organização Mundial da Saúde. Então, primeiro, vamos fazer o upload do conjunto de dados e você sabe como fazer isso. Agora, você importa seu conjunto de dados aqui. Clique em Procurar, selecione o conjunto de dados T, OK? E agora você importa o conjunto de dados. Então, se eu inserir TB aqui, você pode ver na terceira coluna, G TRH, temos vários valores que representam o sexo e H, M e F como mulheres e a faixa etária. Então, precisamos separar essas duas variáveis. O terceiro cenário aqui para dados confusos em que consideramos confusos, ou seja, quando as variáveis estão armazenando linhas e colunas. Então, vou mostrar outro conjunto de dados da Weather Association. Então agora você sabe o que fazer. Você carrega o conjunto de dados, seleciona-o e depois o importa para sua sessão R. Então é isso que estou fazendo agora. N1 e insira o novo objeto ou objeto que foi criado pela interface de importação. Se eu posso ver duas coisas na coluna do elemento, temos vários valores. Portanto, eles devem ser separados em variáveis diferentes e também nas colunas aqui, os nomes das colunas são na verdade dias. Eles querem ter 31 anos. E isso realmente deveria ser uma coluna chamada data. Então, agora vamos usar o ER e aplicar funções para arrumar ou limpar esse conjunto de dados. E, novamente, um pequeno conjunto de dados. O que consideramos um conjunto de dados organizado em R são três coisas. Cada coluna é uma variável, cada linha é uma observação. Em cada célula há um valor único. Por isso, estamos usando o tidy our d priorize diversas funções para limpar o conjunto de dados que atenda da melhor maneira possível. Essa definição é composta por três condições. Ok, então vamos voltar ao nosso conjunto de dados anterior, o primeiro, religião e renda. Então, emitiu o comando aqui, primeira vista, renda contínua. E eu posso ver à esquerda a visualização RStudio do conjunto de dados. Você pode ver claramente aqui as categorias de renda são representadas como colunas, que não é o que queremos. E podemos ver à direita no console que eu emiti o segundo comando, Relic Income. Então, o que vamos fazer aqui é usar uma função do pacote tidyr chamada pivot longer. Agora, esse conjunto de dados tem três variáveis, na verdade, religião, categoria de renda e o valor dentro de cada categoria de renda. Para limpar esse conjunto de dados, vamos dinamizar as colunas não variáveis. Então, todas essas categorias de renda em uma coluna chamada renda emparelhada com seu valor correspondente. Portanto, essa ação às vezes é chamada de tornar esse ativo mais amplo, mais longo ou mais alto. Vamos usar a função pivot por mais tempo, que alonga ou torna os dados mais altos, aumentando o número de linhas, como dissemos, e diminuindo o número de colunas. Agora, o oposto de pivô mais longo é girar mais largo e vamos usá-lo no próximo exercício. Então, pegamos o conjunto de dados de renda real, e depois o operador de tubulação e dizemos: Ei, eu vou pegar a renda religiosa que eu disse, e depois vou girar por mais tempo. O que eu quero girar? Bem, eu queria focar nas colunas não variáveis, o que significa todas as colunas do conjunto de dados, exceto religião. Então, aqui podemos usar menos religião ou podemos usar o ponto de exclamação para dizer não a religião da coluna, depois os nomes dos argumentos também. Vamos dividir todas essas colunas em uma nova coluna chamada, digamos, categoria de renda. E então os valores correspondentes no argumento, valores dois. E vamos chamá-lo de frack ou frequência. Você pressiona Enter e pode ver aqui que todos os nomes das colunas foram agrupados em uma coluna, uma variável chamada categoria de renda, e o valor correspondente está em outra variável chamada frequência. Para ilustrar a segunda situação de um conjunto de dados confuso, que consiste em várias variáveis armazenadas em uma coluna. Vamos usar o conjunto de dados tuberculosis e usar a função separada para separar uma variável em várias variáveis com expressões regulares ou localizações numéricas. Aqui vamos usar localizações numéricas. Então, voltando ao RStudio aqui, vamos ver a tuberculose que está situada aqui à esquerda. E o segundo comando que vamos ver é definido no console. Podemos ver que a terceira coluna, GDR H, é realmente composta por duas variáveis, uma variável de gênero, um caractere N ou F e, em seguida, uma faixa etária de zero a 14, 15 a 24, 25 a 34, etc. Vamos usar uma função separada para separar essa coluna em duas colunas diferentes, sexo e faixa etária TB, e depois o operador de tubo. E então chamaremos a função de separada em qual coluna está a coluna G, D RH, e estamos separando essas colunas GDR 8022. Então C para coleta e depois faça duas colunas, sexo e faixa etária. E estamos dizendo que eu quero manter o primeiro caractere da primeira coluna para pressionar Enter. E separamos com sucesso a coluna H da RDA em duas colunas, sexo e faixa etária. No terceiro vídeo, mostrarei o que fazer em nossa terceira situação de um conjunto de dados confuso quando as variáveis são armazenadas em linhas e colunas. 4. Transforme confuso para limpar conjunto de dados Parte 2: Bem-vindo à segunda parte deste vídeo em nossa terceira situação de um conjunto de dados confuso quando as variáveis são armazenadas em linhas e colunas. E em um vídeo anterior, analisamos funções mais longas e separadas. Agora vamos analisar todas as funções. A função muda do fornecedor, depois se expande a partir do título ER e, em seguida, uma função que lida com cadeias de caracteres, sub STR da string ou de um pacote. Novamente, todas essas funções estão dentro do universo organizado. Então, novamente, se olharmos para a primeira coluna, o elemento da coluna, podemos ver que há vários valores e até mesmo variáveis nessa coluna específica. Então, o que teremos que fazer é separar essa coluna em várias colunas, onde os primeiros caracteres do elemento são o id. Os outros quatro caracteres estão presentes no ano, os próximos dois caracteres representam o mês e os próximos quatro caracteres são, na verdade agrupamento variável T máximo e PRC P para temperatura máxima, temperatura mínima e precipitação. Mas primeiro, vamos usar pivot longer novamente para reunir todos os dias em uma variável, dia e todos os valores em uma nova coluna chamada temp. Portanto, seja conjunto de dados , operador de tubulação e controle enter para colocar o cursor na próxima linha sem pedir ao RStudio que avalie o comando. Então, estamos direcionando tudo, exceto os nomes dos elementos, para o dia da chamada. Estamos reunindo todas essas colunas em uma coluna chamada dia. E, em seguida, os valores associados na coluna amortecida. Você pode ver aqui o resultado ao apresentar. E isso foi dito anteriormente no elemento da coluna Há diferentes variáveis e valores diferentes que teremos que separar. Então, vamos usar essa função separada do pacote tidyr. Estamos separando o elemento da coluna ou separando essa coluna em quatro colunas: ID, ano, mês e elemento. Portanto, o terceiro argumento não é a localização. Portanto, os primeiros caracteres do elefante são o ID da segunda coluna. Quais são os próximos quatro personagens? Então, até o 15º caractere do ano, e depois 16, 17 para o mês. E então prenda e coloque o L 21 no elemento da coluna, chamando-o de elemento novamente. Então, vamos criar uma sala com a seta para cima do Control L para abrir o comando anterior. E agora vamos usar uma nova função do pacote de camadas profundas chamada mutate. Mutate cria uma nova coluna em nosso conjunto de dados. Agora, nesse caso específico, estamos criando uma nova coluna no lugar desse elemento de coluna. E estamos chamando esse novo elemento de coluna. É como uma instalação em Python. Então, dizemos mutate element, o nome da nova coluna é igual a inferior. Então, vamos colocar em minúsculas todos os valores dessa coluna. E pressionaremos Enter. E você pode ver aqui que cada valor no elemento da coluna está em letras minúsculas. Agora vamos usar mutate novamente para alterar a data da coluna. Então, novamente, altere, crie outra coluna, mas vamos fazer uma configuração implícita, se você quiser, mutate day, vamos chamá-la de data com o mesmo nome. E o objetivo aqui é substituir os valores D1, D2, D3, D4 pelo dia correspondente de 1234, e alterar o tipo de dados também da coluna em vez das características. Veja aqui, queremos um número inteiro. Vamos usar uma função da string ou pacote CTR underscore sub, que é usada para extrair e substituir cadeias de caracteres de um vetor de caracteres. Então, STR sub e o que nos preocupa aqui é o dia da coluna. Agora, os próximos dois argumentos são o início e o fim da string que queremos preservar. Então, a estrela é duas e o n é menos um. Então, como dissemos, queremos converter essa coluna em colunas inteiras. Então, adicionamos um número inteiro antes da célula STR e, em seguida, pressionaremos Enter. Podemos ver aqui que a coluna Dia é um tipo de dados inteiro e substituímos os valores D1, D2, D3 por apenas 1234. Agora vamos usar o pivô mais amplo. Agora, falamos anteriormente sobre o elemento da coluna com agrupamento e precipitação de Tmax , que são realmente variáveis, então deveriam ser colunas. Então, para isso, vamos usar a função pivot wider para pegar essa coluna e criar três colunas com os valores do elemento da coluna. Portanto, as três novas colunas serão T max, T min e precipitação PR, CP. E os valores correspondentes serão retirados da coluna temp. Portanto, controle l para abrir espaço na seta para cima para abrir o comando anterior. Então, aqui estamos usando o pivot wide. Portanto, pegue os valores distintos do elemento da coluna e crie novas variáveis para as colunas. Em seguida, os valores correspondentes são da coluna temp. Nós pressionamos Enter. E podemos ver aqui três novas colunas, TMax, demean e PRPP. Portanto, esse conjunto de dados está em um formato organizado, em que cada coluna é uma variável, cada linha é uma observação e cada célula é um valor único. Agora você pode querer reordenar as colunas ou ler a coluna id. Então, o que você faz agora é selecionar a coluna que deseja na ordem em que deseja. Aqui, selecione e veja a coleção. E vamos dizer que eu quero primeiro o ano e depois o mês e o dia. E então os homens da equipe, TMax, NPR, CP. Então, aqui concluímos a organização desse conjunto de dados em que as variáveis são armazenadas em colunas e linhas. 5. Tratando valores em falta: Este vídeo é sobre dados perdidos. Portanto, em nossos valores ausentes, os dados ausentes são representados pelo símbolo N, o que significa não disponível. Agora, há uma diferença entre um a e um NaN. Você vai ver algumas vezes. E NAM significa não um número. Portanto, esses são valores impossíveis, por exemplo, eles não podem ser divididos por zero. E você vai ter valores ausentes em seu conjunto de dados, isso é inevitável. Então, aqui neste vídeo, vamos fazer quatro coisas. Primeiro, vamos testar os valores ausentes com a função is a. Em seguida, vamos recodificar valores para dados ausentes. Então, em nosso exemplo, vamos dizer que todos os valores, ou seja, 99, substitua-os por NA. Em seguida, vamos usar a função drop NA do fornecedor. E então vamos substituir todos esses ns pela mediana, função replace a e f do tidyverse. E para isso aqui, vamos usar o conjunto de dados de lesões, como você pode ver à esquerda aqui em uma estimativa de coluna, você vê dois NAs à direita ou no console. Na estimativa da coluna, você pode ver um NA aqui em vermelho. Isso significa que não há valores. Então, a primeira função que vamos usar é delta N é uma função? E essa função retorna um valor verdadeiro e falso para cada valor em um conjunto de dados. Portanto, se o valor for NA, a função retornará o valor verdadeiro. Caso contrário, ele retornará o valor de false. Nesse caso específico, quero ver se a estimativa da coluna tem tantos valores. Para acessar uma coluna específica no conjunto de dados em R, usamos o cifrão, então lesões, estimativa do cifrão, pressionamos enter. Então, podemos ver aqui que temos alguns valores verdadeiros. Portanto, alguns valores de NA em conjunto com a função são N-A. Vamos usar a função any para ver se há algum valor nulo na estimativa da coluna. Portanto, essa é outra maneira de verificar rapidamente se há algum valor nulo em uma coluna específica. Agora, quero saber quantos valores nulos nas estimativas desta coluna. Então, vou somar ou contar o número de valores internos. E podemos ver que há 11 aqui. Não é incomum encontrar um conjunto de dados em que todos os valores, como desconhecido ou um número específico como 999, representem quaisquer valores ou valores nulos. Portanto, nessa estimativa de coluna específica, não temos um determinado número ou caractere que represente valores de NA. Então, vamos imaginar que temos um monte de 58, 30 como aqui que representam quaisquer valores. Então, o que você faz quando deseja substituir esse número por valores N A? Então, pegamos nosso conjunto de dados de lesões e, em seguida, vamos mutar no local. E vamos dizer que a estimativa é igual a substituir a estimativa da coluna. E na estimativa da economia, quando a estimativa é igual a 58, 30. Basta usar NA ou substituí-lo por NA. Você pressiona Enter e vê isso na estimativa da coluna onde havia 58, 30. Agora há NA. Portanto, todos os valores de 58 30 na estimativa da coluna foram substituídos por um a. Agora vamos usar uma função para eliminar os valores faltantes. Vamos usar a função drop NA do tidy para remover todas as linhas que contêm valores faltantes. Então, se você se lembra havia 11 e seus valores em uma estimativa de coluna e ano, se você observar os metadados das lesões do conjunto de dados, poderá ver que é uma tabela de 231 linhas. Então, se eliminarmos as linhas que contêm valores faltantes, acabaremos com 220 linhas. Então, para isso, é muito simples. Apenas pegamos nossos ferimentos no conjunto de dados e, em seguida, eliminamos os NAs ou pressionamos Enter. E podemos ver nos metadados ainda é uma tabela, é claro, um conjunto de dados, mas agora é uma tabela de 220 rosas e, claro, quatro colunas. Então, no nosso último exemplo, vamos usar uma função chamada replace ANA do pacote tidyr. E vamos substituir os NAs pela média, ou você também pode substituí-los pela mediana. Então, primeiro de tudo, vamos fazer é calcular a média. Então, média das lesões na roseta, cifrão para acessar a coluna, a estimativa da coluna aqui. E podemos esquecer aqui que precisamos remover o NA antes de fazer uma média ou alguma média, precisamos remover os NAs. E o que vamos fazer aqui é atribuir a média a uma variável chamada média. Como você pode ver aqui no ambiente global. E nosso objeto foi criado chamado de média. Agora vamos usar esse meio para substituir todos os DNAs pela média. Então, pegamos as lesões e , em seguida, alteramos a estimativa local igual à substituição da estimativa da coluna. E substituímos os NAs por uma média. Vamos pressionar Enter e podemos ver aqui que o NA foi substituído por uma média. Então é isso aí para este vídeo sobre como lidar com dados perdidos NR 6. Dividir e combinar células: Este vídeo é sobre como dividir e combinar células e colunas em R. Então, já usamos o verbo separar do Tidyverse para separar duas colunas ou duas dividir duas colunas. O que vamos fazer é primeiro combinar duas colunas. E para isso vamos usar o verbo ou a função unir. Eu fiz o upload de um arquivo do Excel aqui. Você pode ver as notas dos alunos, ponto XLS, que contém notas de cerca de 100 alunos em matemática e física. Então, eu fiz o upload e também importei o conjunto de dados que chamei de SD. Você pode ver aqui que há 100 observações ou 100 estudantes e três variáveis. A ideia do aluno, o sobrenome e o primeiro nome. Agora, se eu digitar o objeto R S T, podemos ver aqui que na coluna Sobrenome e nome, há um espaço em branco após cada nome. Agora, dependendo do formato da coluna resultante, terá que cortar todos os nomes aqui. Então, livre-se do espaço em branco. E em vez de usar o corte STR do tigre no sobrenome e depois na coluna FirstName, vamos usar uma função chamada across. E o que vamos dizer é que eu quero cortar todos os nomes nessas duas colunas. Então, vamos mudar de posição nessas duas colunas aqui. Então, o conjunto de dados S, t e, em seguida, vou silenciá-lo em duas colunas e, em seguida, coletar as colunas que você deseja. Então, sobrenome e primeiro nome. Então, a função que queremos aplicar é STR trim. Assim, podemos ver que nos treinamos com sucesso em colunas. Agora vamos combinar essas duas colunas com um separador. Agora estamos usando a função unite que combina essas duas colunas. Vamos chamar essa nova coluna de nome e depois de colunas que queremos combinar. Então veja sobrenome, nome, o espaço separador de vírgulas. E então estamos dizendo que não quero remover a coluna sobrenome e nome. Então, aqui combinamos com sucesso nome e o sobrenome em um novo nome de coluna. E, claro, podemos usar as funções separadas, que dividem o nome da coluna de acordo com um separador. Então, traga o comando anterior e eu adiciono separadamente, separe o nome da coluna em duas colunas. Por último, primeiro. Agora diga Não remova o nome da coluna. Então, neste vídeo, usamos várias funções mutação em diferentes colunas. Cortamos algumas colunas e temos colunas unidas ou combinadas, colunas separadas ou divididas. No próximo vídeo, usaremos as diferentes juntas que estão disponíveis no pacote dplyr. 7. Junte-se a dados em diferentes tabelas: Portanto, neste último vídeo desta seção, transformando dados em R, examinaremos as diferentes juntas disponíveis em, se as diferentes juntas fazem parte do pacote do fornecedor. Dentro do Tidyverse. Aqui à esquerda você tem todas as funções, aqui você pode ver junção interna, esquerda, união, união direita, união completa, etc. Agora, à direita, eu queria mostrar um diagrama do que isso significa para a união interna. Quando você une a tabela a e a tabela B, a junção interna encontrará os elementos comuns. Bem, na junção esquerda de a e B, o resultado mostrará todas as linhas de dois pontos a, mesmo que não haja semelhança com a tabela be. junção direita é o resultado oposto de uma junção à direita da tabela a e a tabela B listará tudo da tabela B, mesmo que não haja nenhum valor correspondente na tabela a. E o resultado de uma união completa listará tudo da tabela a e da tabela B. Então, eu carrego aqui outro arquivo do Excel , as notas dos alunos também, e vamos importá-lo. Agora. Eu vou para Importar e depois para arquivo Excel. Em seguida, clico em Procurar e escolho meu arquivo. Agora clique em abrir. Ao clicar na seta aqui, você pode ver que há duas folhas diferentes. Um para carteiras e nomes de estudantes e outro para notas. Então, vamos usar o importador duas vezes, uma para IDs e outra para as notas. Aqui podemos ver à esquerda que nossos objetos foram criados. Id com 26 observações é três variáveis em notas com 48 observações e quatro variáveis. Vamos ver o conjunto de dados de identificação aqui. Podemos ver que as carteiras de estudante começam com 100.300 aqui com o sobrenome e o primeiro nome. E se tivermos boas notas, podemos ver as notas dos 100 alunos e dos 200 alunos. Não há notas para 300 estudantes. Portanto, o ponto em comum aqui é que temos carteiras de identidade, nomes e notas dos cursos dos 100 alunos. Portanto, a junção interna mostrará apenas os 100 alunos. Então, vamos descobrir se isso é verdade, mas usando a junção interna do ID do pacote dplyr. Em seguida, a união interna ou a união com as notas do conjunto de dados pela coluna comum, que é a ID do aluno. Aqui podemos ver que apenas os 100s são exibidos. Vamos apenas emitir um comando para visualizar esse conjunto de dados na seta para cima à esquerda e trazer o comando anterior. Em seguida, adicionamos a visualização e, em seguida, podemos ver o resultado à esquerda Somente os 100 alunos são exibidos porque esses são os elementos comuns entre os dois conjuntos de dados. Agora vamos fazer uma junção à esquerda entre id e notas. E como você pode ver aqui à esquerda, os 100.300 alunos do conjunto de dados do IID são exibidos aqui, tabela B, nesse caso, as notas do conjunto de dados, que não tem nenhum valor para os cursos de 300 alunos. Então você tem NA instalado. Agora vamos fazer uma junção correta. Nós temos o oposto. Temos todos os IDs de estudantes da tabela B. Portanto, das notas que defini aqui e para aqueles valores que não existem no conjunto de dados enquanto temos NAs ou valores nulos. Agora vamos fazer a junção completa. E, como eu disse, uma junção completa mostrará e exibirá todos os valores dos dois conjuntos de dados e exibirá valores nulos ou valores N A sempre que não houver um valor correspondente em nenhum dos conjuntos de dados. Este vídeo conclui esta seção transformando esse INR, analisamos muitas funções aqui do fornecedor, o arrumado R N, uma string ou pacote. E isso também conclui o curso em vídeo, começando com o RStudio. Espero que você tenha gostado, que tenha aprendido muitas coisas sobre o RStudio e o verso organizado, o DVD player, arrumar nossa corda, nosso pacote. Agora, as funções que estão disponíveis para transformar dados em conjuntos de dados limpos em R. 8. Prática 1: Bem-vindo à atividade prática número um da seção de transformação de dados em R. Portanto, para esta atividade prática, você usará o importador para importar todas as planilhas do arquivo Excel de lesões. Você pode encontrar o conjunto de dados do arquivo Excel sobre lesões na seção de recursos do seu curso. Agora, o nome do quadro de dados deve ser o conjunto de dados de lesões. Em seguida, selecione somente os casos em que lesão é igual a agressão e selecione apenas lesão na coluna e estimativa. Agora você pode pausar o vídeo, fazer o exercício em sua conta RStudio Cloud ou RStudio Desktop. E você pode voltar aqui para obter a resposta. Agora, primeiro, use o importante para importar todas as folhas de lesões para clicar em importar conjunto de dados. Há apenas uma planilha, um conjunto de dados que é igual ao conjunto de dados de lesões com 231 observações e quatro variáveis. Agora, é claro, você precisa carregar o pacote tidyverse ou dplyr. Então você pode ver o comando R. Você pega a lesão do conjunto de dados que eu configurei, o operador do tubo, e depois filtra a lesão como agressão. Portanto, em R, há um igual que, na maioria dos casos, é usado como substituto do operador de atribuição. Mas não é isso que queremos. Queremos dois iguais aqui, que sempre são usados para testes de igualdade. Aqui, lesão. Queremos que seja tão igual ao assalto quanto ao operador de tubulação. E selecionamos a lesão da coluna e a estimativa da coluna. 9. Prática 2: Bem-vindo à atividade prática número dois da seção, transformando dados com o RStudio. Para esta atividade prática, você usará o importador para importar todas as planilhas de notas dos alunos, ponto XLS, que estão na seção de recursos do curso. Há duas planilhas, então haverá dois conjuntos de dados. O nome dos quadros de dados é que os conjuntos de dados devem ser alunos em notas, respectivamente, para cada planilha O que eu quero que você faça é unir os dois quadros de dados por ID de aluno, a coluna comum, e selecionar as notas para salmão humano. Novamente, você vai pausar o vídeo, fazer o exercício e depois voltar para obter a resposta. Então, aqui à esquerda, você pode ver que eu uso o importador para importar as notas do conjunto de dados com 204 observações e quatro variáveis. E os estudantes do conjunto de dados estruturariam os alunos com 100 observações e três variáveis. Agora, quando olho para um aluno do conjunto de dados, posso ver que, para semi Newman, a carteira de estudante é 75. Então eu sei que vou filtrar esse quadro pela carteira de estudante 75. Mas primeiro preciso juntar os dois conjuntos de dados. Vou unir os dois conjuntos de dados com uma coluna comum, que é a carteira de estudante. Agora, se você não mencionou a carteira de estudante, assim como aqui no comando arc, a função inner join verá automaticamente se há uma coluna comum. Se houver uma coluna comum , ela usará a coluna. Então, nesse caso, é carteira de estudante. Então, são necessários estudantes e, em seguida, operador, vou me juntar aos alunos com notas, como eu disse, em um conjunto encontrei uma coluna comum de identificação estudantil. E então eu vou filtrar pela identificação estudantil igual, igual para testar a igualdade novamente para 75, que é a carteira de estudante de semi Newman. 10. Observações de encerramento e próximos passos: Então, este é o final da terceira parte desta série, Getting Started with RStudio Este curso em vídeo específico foi sobre como limpar e transformar dados em RStudio, caso você tenha perdido os dois cursos em vídeo anteriores. O primeiro está no RStudio Cloud e como configurá-lo e usar todas as opções para configurar sua conta Cloud. E a segunda parte foi como importar todos os tipos de dados para o RStudio. Você pode ver este vídeo e encontrar links para esses cursos em vídeo anteriores sobre como começar a usar o RStudio. E espero que você tenha gostado do curso e série dele sobre como começar a usar o R Studio. Muito obrigado.