Transcrições
1. Apresentação: Bem-vindo à terceira parte
desta série sobre como
começar a usar o RStudio. Então, a primeira parte
desta série foi sobre o RStudio Cloud e como você pode usar diferentes opções para configurar sua conta na nuvem. A segunda parte
abordou os dados das pesquisas. E este é sobre
como limpar e transformar dados em RStudio. Então, como você pode ver aqui, há oito lições. A primeira lição, primeiro vídeo, é sobre como selecionar
grupos de observações. Então, examinaremos várias funções
e
aprenderemos diferentes funções de
ordem,
especialmente a
implantação de seu pacote ou o pacote tidy verse. Em seguida, vídeo 2.3 ou duas partes, na
verdade, dois vídeos sobre como
transformar dados confusos em dados limpos. Em primeiro lugar,
vou definir o que constitui um conjunto de dados confuso
e como limpá-lo. Então, dois vídeos e, claro, para limpar um conjunto de dados, você terá
valores ausentes ou valores nulos. Portanto, é importante saber como
lidar com valores ausentes em R. Esse é o objetivo
deste vídeo. O próximo vídeo mostra como dividir e combinar células diferentes. Portanto, ele está usando algumas funções para dividir e combinar dados de
string. O vídeo aqui mostra
como combinar,
unir ou reunir mesas diferentes. Portanto, é o equivalente
à junção interna, à esquerda ou à direita ou à junção externa
completa na sequência. Finalmente, você precisará praticar o vídeo
para aumentar sua confiança na limpeza e transformação de dados em RStudio. Obviamente, no final, você pode ter um projeto
e a descrição
do projeto está abaixo
deste vídeo aqui, na
seção do projeto. Então, proponho
que nos aprofundemos e aprendamos como limpar e
transformar dados no RStudio.
2. Seleccionar grupos de observações: Bem-vindo à seção sobre
transformação de dados em R. Portanto, esta seção
abordará o uso de um pacote
chamado tidyverse. O tidyverse é mais parecido com uma
coleção de pacotes em R, muito
usado
por todos os nossos usuários para fazer análises de dados
e também para fazer ciência de dados. O pacote específico
que vamos usar
neste vídeo é chamado de player. Então, primeiro, vamos preparar
o cenário para esse vídeo. Vamos fazer
o upload do conjunto de dados, instalar
e carregar o tidyverse. E então eu vou explicar um pouco mais sobre
as funções de que vamos usar um R
do pacote dplyr. Primeiro, vamos
fazer o upload, carregar um conjunto de dados em
sua sessão R, um conjunto de dados chamado lesões. Lesões é o que eu disse
que lista um total de 231 pacientes que
passaram pelo pronto-socorro devido a
diferentes lesões. Então, para carregar o
conjunto de dados em nosso projeto, vamos para Arquivo e, em seguida,
faremos o upload. Aqui, escolhemos a engenharia do conjunto de dados
e clicaremos em OK. E podemos ver que aqui os ferimentos
estão no Projeto Arquivos. Agora podemos carregar o conjunto
de dados na sessão R. Vamos importar o
conjunto de dados do Excel. A interface do importador é iniciada. E então podemos escolher nosso arquivo. Podemos ver aqui
diferentes variáveis em cada uma, que é uma variável de caráter, existem várias
faixas etárias aqui. E então o tipo, acidentes de veículos
motorizados, etc. Essa também é uma variável de
caractere e temos uma estimativa aqui. Você pode ver que o RStudio adivinhou que era uma variável de
caractere, mas na verdade não está certo. Por que diz isso? A razão pela qual osteo adivinhou que era
uma variável de caractere é porque, no
arquivo de dados do Excel , para representar valores nulos, temos os caracteres. E no momento em port, osteo está tentando adivinhar que o tipo de
dados dessa variável, como você verá, são alguns
caracteres e automaticamente pensa que toda a variável
é uma variável de caractere. Vamos mudar
o tipo de dados para numérico. Então você pode ver aqui os caracteres NAs ou não e a, mas estão representando valores
nulos. Então clicamos em importar
e agora vamos
instalar o pacote tidyverse. Instale um verso arrumado. Agora o tidyverse está instalado. O pacote é
importante para nós aqui, é chamado de fornecedor profundo. Há muitas funções
diferentes nesse pacote de camadas profundas, mas estamos interessados
em funções aqui. Primeiro, a função select
que nos permitirá selecionar variáveis ou selecionar campos
ou colunas do conjunto de dados. Em seguida,
usaremos o
filtro de função que
nos permitirá obter linhas com
base em determinadas condições. A terceira função, pela qual
vamos usar esse grupo de funções, que nos
permite agrupar o conjunto de dados com base em
uma variável específica. Em seguida, usaremos
a função
resumir, resumir a estimativa
ou fazer um total
da estimativa dos dados
com base em alguns grupos. Então, primeiro, selecionando a função, vou mostrar duas
maneiras de usar essa função. Primeiro, vamos compor a função como ela é
normalmente escrita. E então vamos
usar o que é chamado de operador de tubulação. Agora, o objetivo dos
operadores de tubulação é ajudá-lo a escrever código de uma forma que seja mais
fácil de ler e entender. É uma forma de encadear ações
diferentes. Eu diria que em nosso
operador de tubulação que você escreve, porcentagem
maior que porcentagem. É assim que você escreve. Este operador de tubulação
vem do pacote do Magrebe. Mas quando você carrega,
o tidyverse carrega automaticamente esse operador de
tubulação, vamos usá-lo agora mesmo. Primeiro, vou
mostrar como usar
a função conforme ela está escrita. Então selecione, o primeiro argumento da função de seleção
é o conjunto de dados. Então, ferimentos. E então a segunda
função são as colunas ou campos ou as variáveis que
queremos configurar aqui. Vamos selecionar a idade. Então, para usar o tubo primeiro, você começa com o começo. Logo no começo
está o conjunto de dados. Então, ferimentos. E então você
insere um operador de tubulação. Você também pode selecionar
várias colunas. Obviamente, nesse caso, você usa o operador pipe, seleciona um tipo de agente aqui como uma coleção de
vetores e não apenas H, você quer várias colunas, então temos que
colocá-las em uma coleção. Você também pode usar
a coluna de índice para selecionar suas variáveis. Aqui estou selecionando a coluna
um e a coluna três, então idade e lesão. Então, agora vamos
usar o filtro de verbos. E o filtro é usado para filtrar o conjunto de dados
com base em uma condição. Então, aqui vamos
usar um exemplo. A condição
será que a faixa etária seja 0 a 17 anos, certo? Então, vamos levar
todos os pacientes para os quais a faixa etária é de 0 a 17 anos. Também podemos filtrar com
base em várias condições. Digamos que queremos filtrar
aqui com base na faixa etária zero a 17 anos e também no
tipo de hospitalizações. Vou abrir
um espaço aqui. E então vamos
usar a terceira
função, grupo de funções BY, aqui
vamos agrupar por idade. Vou pressionar Enter. Você verá que primeiro
o resultado é uma tabela. Mas então você pode ver
nos metadados que
há 11 grupos. Também podemos agrupar por variáveis
diferentes. Então, aqui, por exemplo eu estou agrupando por idade
primeiro e depois por tipo. Bem, há 11 grupos por
idade e há três tipos. Então, vivemos em
três vezes igual a 33 grupos. Agora, com base nesses grupos, faremos
alguns cálculos. Aqui. Vamos
resumir os dados. Então,
consideramos que
as lesões eram do tipo de agente de compra e, em seguida, resumimos e diremos: Ok, quero que essa coluna seja
chamada de total e total igual. Então, atribuímos parte
da estimativa ao total e não esquecemos de remover DNAs antes de fazer a soma. Então é isso para este vídeo. No próximo vídeo, veremos mais algumas funções da camada profunda e
do pacote tidyverse para unir dados, combinar células, etc.
3. Transforme confuso para limpar conjunto de dados Parte 1: Este vídeo é sobre como
transformar dados confusos organizados ou dados limpos com algumas funções
do tidyverse. Então, primeiro de tudo, vamos
limpar o espaço de trabalho, reiniciar R. Então, aqui
você vê que
não há mais variáveis ou
objetos no ambiente. Vou abrir algum espaço. E agora estamos prontos
para montar o cenário. Primeiro, vamos ver
o pequeno versus o carregado. Aqui vamos digitar tidyverse. Clique na caixa de seleção. E agora o
verso arrumado está carregado. Os dois pacotes são importantes. Aqui estão os fornecedores e arrumados. Então, vamos falar sobre
dados confusos versus dados organizados. O que são dados da Macy? Há três cenários
aqui para dados confusos. Em primeiro lugar, os cabeçalhos das
colunas são valores e não nomes de variáveis. Então, vamos dar uma olhada no conjunto de
dados aqui que está incluído no pacote de
camadas profundas chamado renda
relíquia, que é um dado de uma pesquisa sobre
religião e renda. Então você pode ver aqui
que os nomes das colunas aqui não são realmente variáveis e
deveriam ser variáveis. Os nomes das colunas aqui são
valores de grupos de renda. Portanto, isso é
considerado um dado confuso. O segundo cenário aqui são vários valores
armazenados em uma coluna. Então, eu vou te mostrar
isso com um conjunto de dados chamado tuberculose da Organização
Mundial da Saúde. Então, primeiro, vamos
fazer o upload do
conjunto de dados e você sabe como fazer isso. Agora, você importa
seu conjunto de dados aqui. Clique em Procurar, selecione
o conjunto de dados T, OK? E agora você importa o conjunto de dados. Então, se eu inserir TB aqui, você pode ver na
terceira coluna, G TRH, temos vários valores que
representam o sexo e H, M e F como mulheres
e a faixa etária. Então, precisamos separar
essas duas variáveis. O terceiro cenário aqui para dados confusos em que
consideramos confusos, ou seja, quando as variáveis estão armazenando linhas e colunas. Então, vou mostrar outro conjunto de dados da
Weather Association. Então agora você sabe o que fazer. Você carrega o conjunto de dados,
seleciona-o e depois o importa
para sua sessão R. Então é isso que estou
fazendo agora. N1 e insira o
novo objeto ou objeto que foi criado pela interface de
importação. Se eu posso ver duas coisas
na coluna do elemento, temos vários valores. Portanto, eles devem ser separados em variáveis
diferentes e também
nas colunas aqui, os nomes das colunas
são na verdade dias. Eles querem ter 31 anos. E isso realmente deveria ser
uma coluna chamada data. Então, agora vamos usar
o ER e aplicar funções para arrumar ou
limpar esse conjunto de dados. E, novamente, um pequeno conjunto de dados. O que consideramos um
conjunto de dados organizado em R são três coisas. Cada coluna é uma variável, cada linha é uma observação. Em cada célula há um valor único. Por isso, estamos usando o tidy
our d priorize diversas funções para limpar o conjunto de dados que atenda da melhor maneira
possível. Essa definição é composta
por três condições. Ok, então vamos voltar
ao nosso conjunto de dados anterior, o primeiro,
religião e renda. Então, emitiu o comando aqui,
primeira vista, renda contínua. E eu posso ver à esquerda
a visualização RStudio
do conjunto de dados. Você pode ver claramente aqui as categorias de renda são
representadas como colunas, que não é o que queremos. E podemos ver
à direita no console que eu emiti o segundo
comando, Relic Income. Então, o que vamos
fazer aqui é usar uma função do
pacote tidyr chamada pivot longer. Agora, esse conjunto de dados tem três
variáveis, na verdade, religião, categoria de
renda e o valor dentro de cada categoria de
renda. Para limpar esse conjunto de dados, vamos dinamizar as colunas
não variáveis. Então, todas essas
categorias de renda em uma coluna chamada renda emparelhada
com seu valor correspondente. Portanto, essa ação
às vezes é chamada de
tornar esse
ativo mais amplo, mais longo ou mais alto. Vamos usar a
função pivot por mais tempo, que alonga ou
torna os dados mais altos, aumentando o número de linhas, como dissemos, e diminuindo
o número de colunas. Agora, o oposto de
pivô mais longo é girar
mais largo e vamos
usá-lo no próximo exercício. Então, pegamos o
conjunto de dados de renda real, e depois o
operador de tubulação e dizemos:
Ei, eu vou pegar a renda
religiosa que eu disse, e depois vou
girar por mais tempo. O que eu quero girar? Bem, eu queria focar nas colunas não variáveis,
o que significa todas as colunas do conjunto de dados, exceto religião. Então, aqui podemos usar menos
religião ou podemos usar o ponto de exclamação para
dizer não a religião da coluna, depois os nomes dos argumentos também. Vamos dividir
todas essas colunas em uma nova coluna chamada,
digamos, categoria de renda. E então os valores
correspondentes
no argumento, valores dois. E vamos
chamá-lo de frack ou frequência. Você pressiona Enter e
pode ver aqui que todos os nomes das colunas foram
agrupados em uma coluna, uma variável chamada categoria de
renda, e o
valor correspondente está em outra variável
chamada frequência. Para ilustrar a segunda
situação de um conjunto de dados confuso, que consiste em várias variáveis
armazenadas em uma coluna. Vamos usar o
conjunto de dados tuberculosis e usar a função
separada para separar uma variável em
várias variáveis com expressões regulares
ou localizações numéricas. Aqui vamos usar localizações
numéricas. Então, voltando ao RStudio aqui, vamos ver
a tuberculose que está
situada aqui à esquerda. E o segundo comando que
vamos
ver é definido
no console. Podemos ver que a terceira
coluna, GDR H, é realmente composta por
duas variáveis, uma variável de gênero, um caractere N ou F
e, em seguida, uma faixa
etária de zero a 14, 15 a 24, 25 a 34, etc. Vamos usar uma função
separada para separar essa coluna em duas colunas
diferentes, sexo e faixa etária TB, e depois o operador de tubo. E então chamaremos a
função de separada em qual coluna está a coluna G, D RH, e estamos separando
essas colunas GDR 8022. Então C para coleta e
depois faça duas colunas, sexo e faixa etária. E estamos dizendo que eu quero manter o primeiro caractere
da primeira coluna
para pressionar Enter. E separamos
com sucesso a coluna H da RDA
em duas colunas, sexo e faixa etária. No terceiro vídeo,
mostrarei o que
fazer em nossa terceira situação de um conjunto de dados confuso
quando as variáveis são armazenadas em linhas e colunas.
4. Transforme confuso para limpar conjunto de dados Parte 2: Bem-vindo à segunda parte
deste vídeo em nossa
terceira situação de um conjunto de dados confuso
quando as variáveis são armazenadas em linhas e colunas. E em um vídeo anterior, analisamos funções mais longas
e separadas. Agora vamos
analisar todas as funções. A função muda
do fornecedor, depois se expande a
partir do título ER
e, em seguida, uma função que
lida com cadeias de caracteres, sub
STR da
string ou de um pacote. Novamente, todas essas funções
estão dentro do universo organizado. Então, novamente, se
olharmos para a primeira coluna, o elemento da coluna, podemos ver que
há vários valores e até mesmo variáveis nessa coluna
específica. Então, o que teremos que fazer é
separar essa coluna em várias colunas, onde os primeiros
caracteres do elemento são o id. Os outros quatro caracteres
estão presentes no ano, os próximos dois caracteres
representam o mês
e os próximos quatro
caracteres são, na verdade agrupamento
variável T máximo e PRC
P para temperatura máxima, temperatura
mínima
e precipitação. Mas primeiro, vamos usar
pivot longer novamente para reunir todos os
dias em uma variável, dia e todos os valores em
uma nova coluna chamada temp. Portanto, seja
conjunto de dados
, operador de tubulação e controle enter
para colocar o cursor na próxima linha sem pedir ao RStudio que avalie o comando. Então, estamos direcionando
tudo, exceto os nomes dos
elementos, para o dia da chamada. Estamos reunindo todas
essas colunas em uma coluna chamada dia. E, em seguida, os
valores associados na coluna amortecida. Você pode ver aqui o
resultado ao apresentar. E isso foi dito anteriormente
no elemento da coluna Há
diferentes variáveis e valores diferentes que
teremos que separar. Então, vamos usar essa função separada
do pacote tidyr. Estamos separando
o elemento da coluna ou separando essa coluna
em quatro colunas:
ID, ano, mês e elemento. Portanto, o terceiro argumento não
é a localização. Portanto, os primeiros caracteres do elefante são o ID da
segunda coluna. Quais são os próximos quatro personagens? Então, até o 15º
caractere do ano, e depois 16, 17 para o mês. E então prenda e coloque o L 21 no elemento da coluna, chamando-o de elemento novamente. Então, vamos criar uma
sala com a seta
para cima do Control L para abrir o comando
anterior. E agora vamos usar uma nova função do pacote de
camadas profundas chamada mutate. Mutate cria uma nova
coluna em nosso conjunto de dados. Agora, nesse caso específico, estamos criando uma nova coluna no lugar desse elemento de coluna. E estamos chamando esse
novo elemento de coluna. É como uma instalação em Python. Então, dizemos mutate element, o nome da nova
coluna é igual a inferior. Então, vamos colocar em minúsculas
todos os valores dessa coluna. E pressionaremos Enter. E você pode ver aqui que cada valor no elemento da coluna
está em letras minúsculas. Agora vamos usar mutate novamente para alterar a data da coluna. Então, novamente, altere,
crie outra coluna, mas vamos fazer uma configuração
implícita, se você quiser, mutate day, vamos
chamá-la de data com o mesmo nome. E o objetivo aqui é
substituir os valores D1, D2, D3, D4 pelo
dia correspondente de 1234, e alterar o tipo de dados também da coluna em vez das
características. Veja aqui, queremos um número inteiro. Vamos usar uma
função da string ou pacote CTR underscore sub, que é usada para
extrair e substituir cadeias de caracteres de um vetor de caracteres. Então, STR sub e o que
nos preocupa aqui é o dia da coluna. Agora, os próximos dois argumentos
são o início e o fim da string que
queremos preservar. Então, a estrela é duas e
o n é menos um. Então, como
dissemos, queremos converter essa coluna
em colunas inteiras. Então, adicionamos um número inteiro
antes da célula STR
e, em seguida, pressionaremos Enter. Podemos ver aqui que
a coluna Dia é um tipo de dados inteiro e
substituímos os valores D1, D2, D3 por apenas 1234. Agora vamos
usar o pivô mais amplo. Agora, falamos anteriormente sobre o
elemento da coluna com
agrupamento e precipitação de Tmax ,
que são realmente variáveis, então deveriam ser colunas. Então, para isso, vamos usar
a função pivot wider para pegar essa coluna e criar três colunas com os
valores do elemento da coluna. Portanto, as três novas colunas
serão T max, T min e precipitação PR, CP. E os
valores correspondentes
serão retirados da coluna temp. Portanto, controle l para abrir espaço na seta para
cima para abrir o comando anterior. Então, aqui estamos
usando o pivot wide. Portanto, pegue os valores distintos
do elemento da coluna e crie
novas variáveis para as colunas. Em seguida, os
valores correspondentes são
da coluna temp. Nós pressionamos Enter. E podemos ver aqui
três novas colunas, TMax, demean e PRPP. Portanto, esse conjunto de dados está em um formato organizado, em que cada
coluna é uma variável, cada linha é uma observação e cada célula é
um valor único. Agora você pode querer
reordenar as colunas ou ler
a coluna id. Então, o que você faz agora é selecionar a coluna que deseja
na ordem em que deseja. Aqui, selecione e
veja a coleção. E vamos
dizer que eu quero primeiro o ano e depois o
mês e o dia. E então os homens da equipe,
TMax, NPR, CP. Então, aqui
concluímos a organização
desse conjunto de dados em que as variáveis são armazenadas
em colunas e linhas.
5. Tratando valores em falta: Este vídeo é sobre dados
perdidos. Portanto, em nossos
valores ausentes, os
dados ausentes são representados
pelo símbolo N, o que significa não disponível. Agora, há uma diferença
entre um a e um NaN. Você vai ver algumas vezes. E NAM significa não um número. Portanto, esses são
valores impossíveis, por exemplo, eles não podem ser divididos por zero. E você vai
ter valores ausentes em seu conjunto de dados, isso é inevitável. Então, aqui neste vídeo,
vamos fazer quatro coisas. Primeiro, vamos
testar os
valores ausentes com a função is a. Em seguida, vamos recodificar
valores para dados ausentes. Então, em nosso exemplo,
vamos dizer que todos os valores, ou
seja, 99, substitua-os por NA. Em seguida, vamos usar a função drop NA
do fornecedor. E então vamos substituir todos esses ns pela mediana, função
replace a e f do tidyverse. E para isso aqui,
vamos
usar o conjunto de dados de lesões, como você pode ver à esquerda
aqui em uma estimativa de coluna, você vê dois NAs
à direita ou no console. Na estimativa da coluna, você pode ver um NA aqui em vermelho. Isso significa que não há valores. Então, a primeira função que
vamos usar é delta N
é uma função? E essa função
retorna um valor verdadeiro e falso para cada
valor em um conjunto de dados. Portanto, se o valor for NA, a função retornará
o valor verdadeiro. Caso contrário, ele retornará
o valor de false. Nesse caso específico, quero ver se a
estimativa da coluna tem tantos valores. Para acessar uma
coluna específica no conjunto de dados em R, usamos o cifrão, então lesões,
estimativa do cifrão, pressionamos enter. Então, podemos ver aqui que
temos alguns valores verdadeiros. Portanto, alguns valores de NA em conjunto com
a função são N-A. Vamos usar a função
any para ver se há algum valor nulo na estimativa
da coluna. Portanto, essa é outra
maneira de verificar rapidamente se há algum valor nulo
em uma coluna específica. Agora, quero saber
quantos valores nulos nas
estimativas desta coluna. Então, vou somar ou contar
o número de valores internos. E podemos ver que há 11 aqui. Não é incomum encontrar um conjunto de dados em que todos os valores, como desconhecido ou um número
específico como 999, representem quaisquer valores
ou valores nulos. Portanto, nessa estimativa de
coluna específica, não
temos um
determinado número ou caractere que
represente valores de NA. Então, vamos imaginar que temos um monte de 58, 30 como aqui que
representam quaisquer valores. Então, o que você faz
quando deseja substituir esse número
por valores N A? Então, pegamos nosso conjunto de dados de lesões e, em seguida, vamos
mutar no local. E vamos
dizer que a estimativa é igual a substituir a estimativa da coluna. E na estimativa da economia, quando a estimativa é igual a 58, 30. Basta usar NA ou substituí-lo por NA. Você pressiona Enter e
vê isso
na estimativa da coluna
onde havia 58, 30. Agora há NA. Portanto, todos os valores de 58 30 na estimativa
da coluna
foram substituídos por um a. Agora vamos usar uma função
para eliminar os valores faltantes. Vamos usar a
função drop NA do tidy para remover todas as linhas
que contêm valores faltantes. Então, se você se lembra havia 11 e seus valores em uma
estimativa de coluna e ano, se você observar os metadados
das lesões do conjunto de dados, poderá ver que é
uma tabela de 231 linhas. Então, se eliminarmos as linhas
que contêm valores faltantes, acabaremos com 220 linhas. Então, para isso, é muito simples. Apenas pegamos nossos ferimentos no conjunto
de dados e, em seguida, eliminamos os
NAs ou pressionamos Enter. E podemos ver nos metadados ainda
é uma tabela, é claro, um conjunto de dados, mas agora
é uma tabela de 220 rosas e,
claro, quatro colunas. Então, no nosso último exemplo, vamos usar
uma função chamada replace ANA
do pacote tidyr. E vamos substituir
os NAs pela média, ou você também pode substituí-los
pela mediana. Então, primeiro de tudo,
vamos fazer é calcular a média. Então, média das
lesões na roseta, cifrão
para acessar a coluna, a estimativa da coluna aqui. E podemos esquecer aqui que
precisamos remover o NA antes de fazer uma média
ou alguma média, precisamos remover os NAs. E o que vamos
fazer aqui é atribuir a média a uma
variável chamada média. Como você pode ver aqui
no ambiente global. E nosso objeto foi
criado chamado de média. Agora vamos
usar esse meio para substituir todos os DNAs pela média. Então, pegamos as lesões e
, em seguida, alteramos a
estimativa local igual
à substituição da estimativa da coluna. E substituímos os
NAs por uma média. Vamos pressionar Enter e
podemos ver aqui que o NA foi
substituído por uma média. Então é isso aí para este vídeo sobre como lidar com dados perdidos NR
6. Dividir e combinar células: Este vídeo é sobre
como dividir e combinar células e colunas em R. Então, já usamos o
verbo separar
do Tidyverse para separar duas colunas ou duas
dividir duas colunas. O que vamos fazer é primeiro combinar duas colunas. E para isso vamos usar o verbo ou a função unir. Eu fiz o upload de um arquivo do Excel
aqui. Você pode ver as notas dos alunos,
ponto XLS, que contém notas de cerca de 100 alunos
em matemática e física. Então, eu fiz o upload e também importei o conjunto de dados
que chamei de SD. Você pode ver aqui que há
100 observações ou 100 estudantes e
três variáveis. A ideia do aluno, o sobrenome e o primeiro nome. Agora, se eu digitar o objeto R S T, podemos ver aqui que
na coluna Sobrenome
e nome, há um espaço em branco
após cada nome. Agora, dependendo do formato
da coluna resultante, terá que cortar
todos os nomes aqui. Então, livre-se do espaço em branco. E em vez de usar
o corte STR
do tigre no sobrenome e
depois na coluna FirstName, vamos usar uma
função chamada across. E o que vamos
dizer é que eu quero cortar todos os nomes
nessas duas colunas. Então, vamos mudar de
posição nessas duas colunas aqui. Então, o conjunto de dados S, t
e, em seguida, vou silenciá-lo
em duas colunas e,
em seguida, coletar
as colunas que você deseja. Então, sobrenome e primeiro nome. Então, a função
que queremos aplicar é STR trim. Assim, podemos ver que
nos treinamos com sucesso em colunas. Agora vamos combinar essas duas colunas
com um separador. Agora estamos usando a função unite que combina
essas duas colunas. Vamos chamar
essa nova coluna de nome e depois de colunas que
queremos combinar. Então veja sobrenome, nome, o espaço separador de vírgulas. E então estamos dizendo que não
quero
remover a coluna
sobrenome e nome. Então, aqui combinamos
com sucesso nome e o sobrenome em
um novo nome de coluna. E, claro, podemos usar
as funções separadas, que dividem o nome da coluna de
acordo com um separador. Então, traga o
comando anterior e eu adiciono separadamente, separe o
nome da coluna em duas colunas. Por último, primeiro. Agora diga Não remova
o nome da coluna. Então, neste vídeo,
usamos várias funções mutação em
diferentes colunas. Cortamos algumas colunas
e temos colunas unidas
ou combinadas, colunas separadas ou divididas. No próximo vídeo,
usaremos
as diferentes juntas que estão disponíveis no pacote dplyr.
7. Junte-se a dados em diferentes tabelas: Portanto, neste último vídeo
desta seção, transformando dados em R, examinaremos
as diferentes juntas disponíveis em,
se as diferentes juntas fazem parte do pacote do
fornecedor. Dentro do Tidyverse. Aqui à esquerda você tem todas as funções, aqui
você pode ver junção interna, esquerda, união,
união direita, união completa, etc. Agora, à direita,
eu queria mostrar um diagrama do que isso
significa para a união interna. Quando você une
a tabela a e
a tabela B, a junção interna
encontrará os elementos comuns. Bem, na junção esquerda de a e B, o resultado mostrará todas
as linhas de dois pontos a, mesmo que não haja
semelhança com a tabela be. junção direita é o
resultado oposto de uma junção à direita da tabela a e a tabela B listará
tudo da tabela B, mesmo que não haja nenhum valor
correspondente na tabela a. E o resultado de uma união
completa
listará tudo da
tabela a e da tabela B. Então, eu carrego aqui
outro arquivo do Excel , as notas dos
alunos também, e
vamos importá-lo. Agora. Eu vou para Importar e
depois para arquivo Excel. Em seguida, clico em Procurar e escolho meu arquivo. Agora clique em abrir. Ao
clicar na seta aqui, você pode ver que há
duas folhas diferentes. Um para carteiras
e nomes de estudantes e outro para notas. Então, vamos usar
o importador duas vezes, uma para IDs e outra
para as notas. Aqui podemos ver
à esquerda que nossos objetos
foram criados. Id com 26 observações é três variáveis em notas com 48 observações e
quatro variáveis. Vamos ver o conjunto de dados de
identificação aqui. Podemos ver que as
carteiras de estudante começam com 100.300 aqui com o
sobrenome e o primeiro nome. E se tivermos boas notas, podemos ver as notas dos 100 alunos e
dos 200 alunos. Não há notas
para 300 estudantes. Portanto, o ponto em comum aqui
é que temos carteiras de identidade,
nomes e notas
dos cursos dos 100 alunos. Portanto, a junção interna
mostrará apenas os 100 alunos. Então, vamos descobrir
se isso é verdade, mas usando a junção interna
do ID do pacote dplyr. Em seguida, a união interna ou a união com as notas do conjunto de dados
pela coluna comum, que é a ID do aluno. Aqui podemos ver que apenas
os 100s são exibidos. Vamos apenas emitir um
comando para visualizar esse
conjunto de dados na seta para cima à esquerda e
trazer o comando anterior. Em seguida, adicionamos a visualização
e, em seguida, podemos ver o
resultado à esquerda Somente os 100 alunos
são exibidos porque esses são os elementos comuns
entre os dois conjuntos de dados. Agora vamos fazer uma junção à esquerda
entre id e notas. E como você pode ver
aqui à esquerda, os 100.300 alunos
do conjunto de dados do IID
são exibidos aqui, tabela B, nesse caso,
as notas do conjunto de dados, que não tem nenhum valor para os cursos de 300 alunos. Então você tem NA instalado. Agora vamos fazer uma junção correta. Nós temos o oposto. Temos todos os
IDs de estudantes da tabela B. Portanto, das notas
que defini aqui e para
aqueles valores que não existem
no conjunto de dados enquanto
temos NAs ou valores nulos. Agora vamos fazer a junção completa. E, como eu disse, uma
junção completa mostrará e exibirá todos os valores
dos dois conjuntos de dados e exibirá valores nulos
ou valores N A
sempre que não houver um valor
correspondente
em nenhum dos conjuntos de dados. Este vídeo conclui esta
seção transformando esse INR, analisamos muitas funções
aqui do fornecedor,
o arrumado R N, uma
string ou pacote. E isso também conclui
o curso em vídeo, começando com o RStudio. Espero que você tenha gostado, que
tenha aprendido muitas coisas sobre o RStudio
e o verso organizado, o DVD player, arrumar nossa
corda, nosso pacote. Agora, as funções
que estão disponíveis para transformar dados em conjuntos de dados
limpos em R.
8. Prática 1: Bem-vindo à
atividade prática número um da seção de
transformação de dados em R. Portanto, para esta atividade prática, você usará
o importador para importar todas as planilhas do arquivo
Excel de lesões. Você pode encontrar o
conjunto de dados do arquivo Excel sobre
lesões na
seção de recursos do seu curso. Agora, o nome do quadro de dados
deve ser o conjunto de dados de lesões. Em seguida, selecione somente os casos em que
lesão é igual a agressão e selecione apenas
lesão na coluna e estimativa. Agora você pode pausar o vídeo, fazer o exercício em sua conta RStudio Cloud
ou RStudio Desktop. E você pode voltar
aqui para obter a resposta. Agora, primeiro, use o importante
para importar todas as folhas de lesões para
clicar em importar conjunto de dados. Há apenas uma planilha, um conjunto de dados que é igual ao conjunto de dados de
lesões com 231 observações
e quatro variáveis. Agora, é claro, você precisa carregar o pacote tidyverse ou
dplyr. Então você pode ver o comando R. Você pega a
lesão do conjunto de dados que eu configurei, o operador do tubo, e depois filtra a
lesão como agressão. Portanto, em R, há um
igual que, na
maioria dos casos, é usado
como substituto do operador
de atribuição. Mas não é isso que queremos. Queremos dois iguais aqui, que sempre são usados
para testes de igualdade. Aqui, lesão. Queremos que seja tão igual ao assalto
quanto ao operador de tubulação. E selecionamos a lesão da coluna
e a estimativa da coluna.
9. Prática 2: Bem-vindo à atividade prática
número dois da seção, transformando dados com o RStudio. Para esta atividade prática, você usará
o importador para importar todas as planilhas de notas dos
alunos, ponto XLS, que estão na
seção de recursos do curso. Há duas planilhas, então
haverá dois conjuntos de dados. O nome dos quadros de dados é que
os conjuntos de dados devem ser alunos em notas, respectivamente,
para cada planilha O que eu quero que você
faça é
unir os dois quadros de dados
por ID de aluno, a coluna comum, e selecionar as notas para salmão humano. Novamente, você vai
pausar o vídeo, fazer o exercício e depois
voltar para obter a resposta. Então, aqui à esquerda, você pode ver que eu uso o importador para importar as notas do conjunto de dados com 204 observações
e quatro variáveis. E os estudantes
do conjunto de dados estruturariam os alunos com 100 observações e
três variáveis. Agora, quando olho para
um aluno do conjunto de dados, posso ver que, para semi Newman, a carteira de estudante é 75. Então eu sei que
vou filtrar esse quadro
pela carteira de estudante 75. Mas primeiro preciso
juntar os dois conjuntos de dados. Vou unir os dois
conjuntos de dados com uma coluna comum, que é a carteira de estudante. Agora, se você não
mencionou a carteira de estudante, assim como aqui
no comando arc, a função inner
join verá
automaticamente se
há uma coluna comum. Se houver uma coluna comum
, ela
usará a coluna. Então, nesse caso,
é carteira de estudante. Então, são necessários estudantes
e, em seguida, operador, vou me juntar
aos alunos com notas, como eu disse, em um conjunto
encontrei uma coluna comum de identificação estudantil. E então eu vou filtrar
pela identificação estudantil igual,
igual para testar a
igualdade novamente para 75, que é a
carteira de estudante de semi Newman.
10. Observações de encerramento e próximos passos: Então, este é o final da
terceira parte desta série, Getting Started with RStudio Este curso em vídeo específico foi sobre como limpar
e transformar dados em RStudio, caso você tenha perdido os dois cursos em vídeo
anteriores. O primeiro está no RStudio
Cloud e como
configurá-lo e usar todas as opções para configurar sua conta Cloud. E a segunda parte foi como importar todos os tipos
de dados para o RStudio. Você pode ver este
vídeo e encontrar links para esses cursos
em
vídeo anteriores sobre como começar a usar o RStudio. E espero que você tenha gostado
do curso e série
dele sobre como
começar a usar o R Studio. Muito obrigado.