Transcrições
1. Introdução: Oi, pessoal. a biblioteca Python definitiva
para criar visualizações de dados bonitas, perspicazes e Bem-vindo ao mundo
da Seaborn,
a biblioteca Python definitiva
para criar visualizações de dados bonitas,
perspicazes e profissionais com elas. Neste curso,
exploraremos Seaborn. Uma das bibliotecas
Python mais poderosas
e fáceis de usar para criar visualizações
incríveis Ao final do curso, você poderá
pegar qualquer conjunto de e transformá-lo em algo
visual atraente Isso conta uma história clara. Começaremos com o
básico, configurando o Seaborn, entendendo como ele se integra a outras ferramentas, como o Pandas, e aprendendo sobre
os vários tipos de Também analisaremos exemplos
práticos para ver como o Seaborn se
integra perfeitamente ao MD plot leap, aprimorando sua funcionalidade e tornando Se você estiver criando um
simples gráfico de barras, mapa de calor ou gráfico de dispersão, você aprenderá como fazer isso de forma eficiente
e eficaz Este curso é
perfeito para todos que
desejam aprimorar suas habilidades de análise de
dados, especialmente se você estiver
trabalhando com Python e quiser melhorar
seu jogo de visualização Vamos começar.
2. Primeiros passos com o Seaborn: o que é, como instalá-lo e como ele se compara ao Matplotlib: Olá, pessoal. Vamos
descobrir Seaborn Seaborn é uma biblioteca Python
usada para visualização de dados. Ele foi construído com base no MD
plot leap e se integra estreitamente ao Pandas para
facilitar a manipulação
e plotagem de dados Seaborn
simplifica a criação estatísticos
atraentes e informativos,
como mapas de calor, gráficos de barras, gráficos de
dispersão e gráficos de séries temporais, A principal vantagem
do Seborn é que ele vem com um conjunto de temas e paletas de
cores
padrão que ajudam você a criar gráficos
visualmente atraentes Ele também fornece funções de nível
superior para criar gráficos complexos, que você não precise escrever
um código longo e complicado Por que você deveria aprender Cburn? Para iniciantes, o CBurn
é ótimo porque simplifica muitos dos aspectos
tediosos da aspectos
tediosos Você não precisa
se preocupar muito com os detalhes
do
estilo de seus enredos, já que o CBurn resolveu isso para você
. Isso facilita o foco
nos dados em si, em vez de em como
eles serão exibidos. Além disso, o Seborn se integra
perfeitamente ao Pandas, que significa que você pode passar diretamente quadros de dados do
Pandas Esse recurso é extremamente
útil porque reduz a necessidade extra de dados
antes da plotagem Como o Seaborn difere
de outras bibliotecas de visualização Bem, embora o MD boot
leap seja poderoso, geralmente requer mais esforço
para criar gráficos aprimorados O Seaborn abstrai muitos
desses detalhes e fornece funções
mais simples que geram automaticamente Ele possui suporte integrado para visualizar a
distribuição de dados, relacionamentos entre várias variáveis
e comparações de dados, que é
mais avançado do que o Mt Bot
leap Seaborn tem uma sintaxe mais
fácil de usar e concisa, permitindo criar gráficos
complexos A biblioteca usa configurações de plotagem
padrão, tornando-as mais atraentes
e fáceis de entender. Também requer menos esforço para criar
visualizações apresentáveis Como eu disse antes, o Seaborn
se integra ao Pandas, facilitando a
exibição de dados estatísticos, que é ideal para análise e visualização de dados Embora Seaborn e Pandas trabalhem juntos para visualização de
dados, eles têm Pandas é especializada em processamento e análise de dados tabulares, fornecendo amplos
recursos para filtragem, agrupamento A Seaborn se concentra na
visualização de dados estáticos. A principal diferença entre a visualização do
Pandas e Seaborn está em sua Sim, o Pandas também possui funções de
plotagem integradas que funcionam
diretamente com É simples e rápido
para gráficos básicos, mas eles têm menos opções de personalização e estilo
em comparação com A Seaborn oferece ferramentas mais poderosas e visualmente atraentes para visualização
avançada Bem, para começar a trabalhar
com a biblioteca Seaborn, você precisa instalá-la Você pode usar o gerenciador de
bagagem PIP executando o comando PIP install Seaborn Como alternativa, você
pode usar o Anaconda
e instalar o Seaborn usando
o Conda install Seaborn Agora, vamos para
a parte prática. Primeiro, importamos o Seaborn e o
atribuímos ao As SNS, que é uma abreviatura Em seguida, importamos o Mat Blot Leap e você verá Ok, no momento, estamos
lidando com o tutorial do Seaborn e sabemos que
a biblioteca Seaborn
é construída sobre o é construída sobre Eu quero te mostrar a
diferença agora. Para isso, como sempre, preciso de alguns dados fictícios, que vou criar agora Usando esses dados,
construiremos juntos o
gráfico mais simples. Esse é o comando da biblioteca
Matplot Leap em Python, usado
especificamente para
criar um gráfico de duas linhas D. O que você vê agora foi construído usando o Matplot Leap, não Agora vou usar a função
SNS set. Eu simplesmente copiei
o mesmo comando e obteremos um resultado
diferente Parece significativamente
diferente. A função SNS set
é uma abreviatura para usar uma função
chamada Quando usamos essa função, obtemos automaticamente configurações
predefinidas Temos a função que tem estilos, cores e texto
predefinidos Tudo o que precisamos fazer é aplicar isso para obter um enredo mais
atraente. Se expandirmos essa
função e dermos uma olhada, podemos ver os parâmetros predefinidos que foram usados para esse gráfico Graças à função set, atualizamos as configurações padrão do Md boot lip e
aplicamos as usadas no Seaborn Agora vamos explorar
os estilos disponíveis e escolher um para nós mesmos. Existem vários
estilos e vamos,
por exemplo, escolher a grade branca. Agora estamos usando um estilo
diferente. Depois de executar esse comando, obtemos uma aparência completamente
diferente É assim que o Seaborn
colabora com o Matplot lip ou melhor, como o Seaborne é
construído Ok, o que fizemos aqui, a primeira linha diz à Seaborn que
defina o
estilo visual geral de nossos enredos Nesse caso, a
grade branca significa que nosso gráfico terá um fundo de cor clara
com linhas de grade. Isso facilita
a leitura dos dados, especialmente ao lidar
com trans ou comparações A segunda linha vem do MD Bot leap e é usada para
criar um gráfico de linha básico Mas há uma
parte fundamental. Embora estejamos usando Md plot leap para
realmente desenhar o enredo, o estilo
vem de Seaborn O Seaborn é
construído sobre o Matplot Leap. E quando definimos um
tema no Seaborn, ele se aplica automaticamente a todos os gráficos de
salto do Mdplot Isso significa que não precisamos ajustar manualmente coisas
como cor de fundo, linhas de
grade ou fontes padrão Seaborn faz isso por nós. Então, com apenas essas
duas linhas de código, estamos demonstrando
como o Seaborne influencia aparência do
Matplot Lips sem alterar a forma como O resultado é uma visualização
mais limpa e legível
sem esforço adicional Agora eu quero definir o título. Ao trabalhar com o Seaborn, obtemos algo muito parecido o que vimos no Matplot Leap, mas com uma aparência um Como podemos ver, precisamos
especificar o título na mesma célula em
que desenhamos o gráfico se separarmos o código
para criar o gráfico e o código para definir o
título em células diferentes. caderno de Júpiter pode
exibir a figura sem o gráfico,
como observamos aqui
3. Explorando conjuntos de dados integrados no mar: usando histplot e diagrama de dispersão para visualização de dados: Seborn, há algo muito conveniente. Conjuntos de dados integrados. Isso significa que o Seborn
já vem com vários
conjuntos de dados de exemplo que você pode acessar
facilmente e começar a
trabalhar imediatamente Podemos carregar esse
conjunto de dados incorporado usando a função load
dataset. Essa função nos permite
acessar rapidamente conjuntos de dados de exemplo sem precisar baixar ou preparar nenhum arquivo manualmente Você não precisa
pesquisar ou carregar seus próprios dados para começar a
explorar a biblioteca. Por exemplo, o conjunto de dados TIPS, que contém informações sobre contas e gorjetas de
restaurantes, incluindo atributos
como valor da fatura, sexo e se
é almoço ou jantar Outro
conjunto de dados de edifícios fornece informações sobre flores de íris, incluindo a largura alongada da maçã e da
pétala Também há dados
sobre o número de passageiros em voos por
mês em anos diferentes. Aqui temos exemplos em
que o exercício afeta a frequência cardíaca e os níveis de oxigênio
no sangue. E também características
dos diamantes, como peso,
qualidade e preço Isso é muito útil
para iniciantes pois você pode mergulhar
instantaneamente visualização de
dados e
começar a criar gráficos sem a necessidade de se preocupar com
a preparação
de É como ter um
playground instantâneo para o Seaborn, onde você pode experimentar e ver como diferentes gráficos funcionam
com dados do mundo real Como você pode notar, estou
usando a função de cabeça. No Seaborn, trabalhamos com conjuntos de dados que são carregados
como dataframe do Pandas, e a função head é uma
função do Pandas que nos
permite visualizar rapidamente do Por padrão, ele mostra
as primeiras cinco linhas. Para ver os conjuntos de dados disponíveis, podemos usar o método de nomes de
conjuntos de dados Git. Não esqueça o parêntese. Isso mostrará todos os conjuntos de dados disponíveis por padrão no Seborn Agora você pode experimentar,
escolher qualquer conjunto e explorar quais
dados estão disponíveis, o que pode ser feito com eles
e como trabalhar com eles Por exemplo, o uso do conjunto de dados de
acidentes de carro fornecerá informações sobre acidentes de
carro, enquanto as redes
cerebrais mais detalhados No entanto, vamos retornar
ao nosso conjunto de dados de dicas. Vamos explorar o gráfico, talvez uma das
formas mais comuns de visualizar dados Usaremos o mesmo conjunto e
usaremos apenas uma coluna, fatura
total, pois queremos mostrar a distribuição
do valor
total da fatura Definiremos a estimativa de
densidade do kernel como verdadeira, pegaremos 30 compartimentos e definiremos a
cor Esse é o gráfico resultante. Aqui, estamos selecionando
uma única coluna
do conjunto de dados e usando-a
para criar um histograma Se você trabalhou com o
Pandas antes, reconhecerá que o
uso de colchetes é a forma como acessamos uma
coluna específica a partir de um quadro de dados Nesse caso, estamos retirando apenas a coluna da fatura total e passando-a para a Seaborn
para Podemos redefini-lo um pouco
especificando o título,
depois o rótulo X e, em seguida, o rótulo y, tornando o gráfico Simplificando, definir a estimativa de
densidade do kernel é verdadeira. Peça à Seaborn que estime a distribuição
dos dados usando kernels em vez de apenas contar valores como Isso resulta em uma
representação mais suave e legível dos dados, facilitando a
visualização dos padrões gerais, especialmente quando não
temos um grande É uma ótima maneira de obter uma visão
mais clara de como os dados são distribuídos sem
depender de compartimentos rígidos Agora, depois de traçar
o histograma, usamos
aqui o título PLT , o rótulo PLT x e o rótulo
PLT y
do Mud plot Lip para adicionar do Mud plot Como podemos ver, a Cibern se
concentra principalmente na criação
e estilização de tramas, enquanto Matt lip faz
ajustes finos, como adicionar títulos, rótulos E como o CBRN é construído
sobre o MD Bot Lip, podemos modificá-lo usando a função
MD Bot Lips Agora vamos criar um exemplo
com um gráfico de dispersão. Exploraremos a
relação entre o valor total
da fatura
e as gorjetas em horas extras Estou usando a função de gráfico de
dispersão do CNS e passando os dados X representará a fatura total, e serão nossas dicas? Dividiremos o conjunto com base nos horários de almoço e jantar, atribuindo uma cor distinta
a cada momento no gráfico Em seguida, especificamos a fonte do
conjunto de dados da qual estamos obtendo todas
essas informações e definimos a paleta igual ao
conjunto dois para definir
a paleta de cores para criar diferentes categorias
de Vamos adicionar um título ao enredo. Esse gráfico de caras nos permite
visualizar a relação entre o valor total
da fatura e gorjetas com uma separação
baseada no horário, almoço ou jantar, obtida
por meio de cores diferentes E agora você pode
ver como fica. Isso adiciona uma
dimensão adicional à análise. Observar como a distribuição
dos pontos varia com tempo pode levar a
conclusões ou observações interessantes Aqui podemos ver a correlação entre as gorjetas e a fatura total, além de como isso
depende da hora do dia Podemos notar que as maiores gorjetas são recebidas à noite, o
que é lógico. Quanto maior a conta, maior
a gorjeta. Em Seborn, existe outro
parâmetro chamado tamanho. Ela indica a
variável usada para determinar o tamanho dos
pontos no gráfico de dispersão Vamos especificar isso. Estou
adicionando o parâmetro de tamanho. Em nosso exemplo, será a coluna de tamanho do nosso conjunto
de dados, que indica o número de pessoas no grupo que pediram o
prato Depois de acrescentar isso,
podemos observar várias
dependências, incluindo a hora
do dia e
o número de pessoas em um
grupo que afetam os dados Vamos voltar ao nosso gráfico H
e fazer algumas modificações. Adicionarei o parâmetro Hue, que nos permitirá
ver como os dados são divididos e marcados com cores
diferentes
no histograma Como eu também quero observar a dependência
do gênero, vou passar o sexo com Hue Quero mostrar
duas maneiras diferentes de
passar os dados para o gráfico H. Na primeira abordagem,
selecionamos diretamente coluna da fatura total
do conjunto de dados e
a
passamos para a Seaborn Agora, nesse caso, estou passando todos os
dados do quadro de dados, mas separando qual
coluna total Bill deve ser usada para o eixo X. Seaborn então encontra essa coluna dentro do conjunto de dados e a Para gráficos simples e rápidos, podemos usar a primeira variante Mas para projetos maiores
ou códigos mais limpos, especificar
explicitamente X e
dados é a melhor prática E olha o que temos. Este exemplo mostra
a distribuição do valor total
da fatura com a separação de
gênero entre
homens e mulheres. Quando você usa o hist blot do Seaborn e fornece as variáveis X
e Y, ele cria algo chamado Isso é diferente do
histograma comum com o qual você pode
estar familiarizado, que mostra a distribuição
de uma única variável Em vez disso, um histograma bivariado ajuda a visualizar a relação A ideia principal aqui
é que o gráfico divide o espaço em compartimentos
retangulares, semelhante à forma como um histograma
regular divide Mas, em vez de contar quantas vezes os valores aparecem
em cada intervalo, esse gráfico conta com que frequência combinações
diferentes nos valores X e Y
aparecem juntas. Em seguida, ele colore cada
compartimento de acordo com quantos pontos de dados se
enquadram nessa combinação. O efeito do mapa
de calor resultante
da coloração torna
essas relações ainda mais fáceis de identificar à primeira vista. Além disso, especificarei CbR igual a verdadeiro para
exibir uma Também podemos substituir o parâmetro de
cor pelo CMP. A diferença é que a cor
define uma cor específica, enquanto a CMP determina uma paleta de
cores que se ajusta dinamicamente com base nos valores
da terceira variável
em todo o gráfico Por favor, ignore essa duplicata.
Eu estava experimentando.
4. Mar avançado: explorando o boxplot, catplot e parâmetros estendidos como matiz, trilha de destaque e muito mais: Agora vamos nos familiarizar
com o gráfico da caixa. Primeiro, execute o comando
box blot e especifique os parâmetros X
e Y. Usaremos a variável dia
no eixo X e a variável total da
fatura no eixo Y. Em seguida, especificamos que
o matiz é igual a Imposto, o que separará o gráfico
por gênero para Em seguida, definimos o parâmetro de
dados, que é nosso conjunto de dados. Nesse caso, o conjunto de dados de dicas. Depois disso, especificarei que
a paleta é igual a Haskell, que define o esquema
de cores para marcar as diferenças que define o esquema
de cores para marcar as diferenças de gênero. Também podemos ajustar a
largura das caixas. Por padrão, ele é
determinado automaticamente, mas você pode
modificá-lo se precisar. O parâmetro de entalhe nos ajuda a ver com
que precisão a
mediana está posicionada Também definimos as
sequências de Showfler como verdadeiras, o que garante que valores atípicos, aquelas camadas que
são muito maiores ou menores do que o resto, sejam
realmente Esses valores discrepantes aparecem como pontos
individuais fora da faixa principal,
fora
dos bigodes
da trama Isso nos ajuda a ver claramente quaisquer pontos de dados incomuns
em vez de ocultá-los, que pode ser importante para entender a
imagem completa dos dados. Vamos trabalhar com legibilidade. E eu adiciono um título usando
o comando PLT title. Em seguida, adiciono a etiqueta para os eixos X e Y usando a etiqueta
PLT x e a etiqueta PLT Y. Por fim, adicionamos uma legenda, que será posicionada
no canto superior direito.
Isso é o que temos. Podemos fazer experiências com a largura para encontrar
o valor ideal. Por exemplo, configurá-lo como
largo pode não parecer ideal, então o ajustamos para 0,8. Ou vamos definir que é igual a 0,6. Agora vamos discutir
o parâmetro notch. Essa imagem nos ajuda a ver
com que precisão a mediana
está posicionada Por padrão, ele está configurado para quedas
e, na maioria dos casos, você
pode emiti-lo inteiramente Se habilitarmos, vemos
protrusões ou cortes na parte superior
das caixas, indicando a localização aproximada
da Se definirmos entalhe igual a quedas,
esses entalhes desaparecem. Vou devolver
tudo como estava. Vamos continuar com o gráfico CAT. Essa é uma função e uma
biblioteca Seaborn usadas para criar dados
categóricos que combinam
diferentes tipos de
gráficos diferentes tipos de Usando o gráfico Cat, você pode
gerar facilmente gráficos categóricos,
como gráficos de barras, gráficos de pontos
e outros, dependendo
de suas e outros, dependendo Então, vamos mergulhar. Estou usando a
função Catblot e especificando D no eixo X e
Bill total no Como no gráfico anterior, quero agrupar os
dados por gênero,
homens e mulheres, então
passar matiz é igual Em seguida, especifico o parâmetro
data, que é nosso quadro de dados, e defino o tipo como barra
para criar um gráfico de barras. Eu escolho a paleta igual ao
conjunto dois para o estilo de cores e, usando os parâmetros de altura
e aspecto, ajustamos a altura e a proporção do
gráfico Depois disso, eu especifico parâmetro para o intervalo de
confiança. Nesse caso, usando o desvio
padrão, o intervalo de confiança
determina a faixa de valores que provavelmente
contêm o valor verdadeiro do
parâmetro Por exemplo, em gráficos de barras
ou pontos, os intervalos de
confiança
mostram o nível de
incerteza em torno do valor médio ou de outras estatísticas Eles dão uma ideia de quão
confiável esse número é, como um pequeno intervalo que diz que o valor real provavelmente está
em algum lugar por aqui, mas não se
preocupe muito com isso agora. Esteja ciente de que
essa opção existe. Em seguida, defino um título e adiciono rótulos para os eixos X e Y usando o rótulo
X e o rótulo Y. Por fim, adicionamos uma
legenda e a colocamos
no canto superior direito.
Recebemos um erro. Isso sugere mudar para bar porque a
versão mais antiga está obsoleta Esse aviso apenas indica
que born está melhorando a forma como os elementos das
figuras são posicionados para melhor compacidade do layout Você pode ignorá-lo com segurança. Então esse é o gráfico
que criamos. No nosso caso, usamos o gráfico CAT para
criar um gráfico de barras
agrupadas que compara os valores totais das faturas diferentes dias da semana e
por gênero a partir do conjunto de dados Tips A partir do gráfico, podemos ver
que quase todos os dias, os homens tendem a gastar mais. Sua conta total é maior
do que a das mulheres. Também existe um parâmetro útil chamado coluna Cal shortf Isso permite que o gráfico
seja dividido em diferentes subparcelas
com base em uma variável Vamos dar uma olhada
nisso. Quero dividir a análise com base no fato de
alguém fumar ou não Então, copio o nome
da coluna smoker e depois de adicionar o parâmetro call
equal smoker, agora
vemos dois Um para quem fuma e
outro para quem não fuma. E, a propósito, podemos observar que quem fuma
tende a gastar mais. Agora vou remover as partes
desnecessárias, deixando apenas a paleta Como mencionei
antes, você pode usar vários tipos de plotagem
com a plotagem de gatos. Isso significa que você pode criar
diferentes tipos de gráficos
categóricos,
como um gráfico de caixa,
por exemplo, aqui está o que Ou podemos substituí-lo por
uma trama violenta. Desculpe pelo erro de ortografia,
isso é o que temos. Isso é especialmente
útil quando queremos examinar uma dependência
nos dados, mas não temos certeza de qual tipo de gráfico a representará melhor
5. Visualizações marítimas: trabalhando com enredo de violino, enredo de tiras e plot conjunto para obter insights avançados de dados: Vamos dar uma olhada na
trama do violino com mais detalhes. Um gráfico violento é um
método gráfico para visualizar
a distribuição de dados numéricos em uma ou mais variáveis
categóricas Para usá-lo, chamo a função de plotagem
do violino. Em seguida, passamos nossos dados. X será o dia. Y será a fatura total. Sexo igual separará
os dados por gênero. E dados, é nosso conjunto de dados de dicas. Em seguida, queremos dividir o
enredo por categoria, gênero. Então, usamos split equals true. Dissemos que a paleta é igual pastel e, com o
parâmetro interno igual a quartil,
mostramos os quartis mostramos Aqui está o que obtemos.
Vamos refinar um pouco, adicionar um título, os eixos X e Y. E inclua uma legenda, colocando-a à esquerda. Esse é o gráfico final. Aqui, usamos o parâmetro interno
para exibir quartis da distribuição total
da construção para diferentes dias da
semana e sexos Os quartis dividem os dados
em quatro partes iguais, cada uma contendo
25% dos valores Dentro de cada violino, uma linha mostra a mediana que representa
a tendência certa.
A forma de cada violino fornece uma visão sobre a distribuição dos
dados, seja ela
simétrica ou distorcida,
grossa ou estreita, fornecendo informações sobre onde A partir desse gráfico, podemos inferir que, em determinados
dias da semana, os homens tendem a apresentar uma distribuição mais ampla dos valores totais
das contas A violência contra homens é,
em alguns casos, mais ampla ou concentrada em áreas de maior
valor, indicando que os homens tendem a gastar mais do que as mulheres. Vamos
mergulhar na trama do strip. Esse é um método gráfico para exibir a distribuição de dados numéricos em uma ou mais variáveis
categóricas Ele coloca todos os pontos de dados
ao longo do eixo da categoria, permitindo que você veja
a concentração e a distribuição dos valores. Resumindo, um gráfico de faixas
fornece uma visão clara de como seus dados numéricos distribuídos em
cada categoria, ajudando você a entender
padrões e diferenças que podem não ser óbvios em outros tipos de gráficos Vou usar os mesmos dados. Vou especificar X e Y. O eixo X representa
o dia da semana
e o eixo Y mostra
o valor total da fatura
para cada um desses dias E, claro, eu passo o quadro
de dados como um dado. Eu encontro um erro. O que aconteceu? Oh, desculpe,
outro erro ortográfico Agora está corrigido. Agora, quero dividir ainda mais o
gráfico por gênero, então adiciono o parâmetro hub. Com o
parâmetro Deutsche definido como verdadeiro, separo os dados
que mostram uma distribuição distinta
para cada gênero Isso ajuda a evitar sobreposições e torna os
gráficos de dispersão mais legíveis. Quando digo que Jitter é igual a verdadeiro, isso significa que adicionarei um
pouco de ruído aleatório ou um leve movimento às posições
do ponto de dados ao longo
do Isso é feito para evitar que os pontos
se sobreponham demais, especialmente quando há muitos pontos na mesma categoria Sem o Jitter, os pontos podem se empilhar perfeitamente uns
sobre os outros, dificultando a visualização da
verdadeira distribuição dos dados Vamos usar cores ligeiramente
diferentes como essa. E aqui estamos. Agora vamos nos familiarizar com o enredo conjunto gráfico conjunto em Seaborn é usado para
visualizar a relação entre duas variáveis e Vamos trabalhar com isso. Usarei o gráfico conjunto, passando X e Y, X será a fatura total e Y serão dicas para especificar o quadro de dados e
escolher o tipo de
dispersão igual para o gráfico de dispersão Também escolhemos uma
cor azul celeste para o gráfico. Em seguida, adicionarei um título a todo
o enredo usando
o subtítulo do PLT. Isso geralmente é
usado quando você tem mais de uma
subtrama e deseja adicionar um título geral que indique a ideia
geral do tema Você pode experimentar alterando o tipo para ver
diferentes tipos de gráfico. Por exemplo, você pode tentar estimativa de densidade
do kernel ou
especificar type equals
reg Eu recomendo fazer uma pausa aqui e experimentar por conta
própria Verifique a documentação e
experimente conjuntos de dados diferentes. Sua própria experiência é
a melhor maneira de aprender.
6. Mar avançado: trabalhando com o diagrama PairGrid e mapa de calor da tabela dinâmica no conjunto de dados do Titanic: Agora vamos dar uma olhada em um
exemplo de uso da grade PAR. Suponha que tenhamos um
conjunto de dados sobre carros. Nesta linha de código, estamos carregando o conjunto de dados
incorporado chamado MPG Esse conjunto de dados contém
informações sobre os carros com colunas
como nome do modelo, ano de
lançamento, preço, volume
do motor, letras
e
outras informações Vamos carregar o conjunto de dados e criar uma grade de pares
passando os dados Por padrão, isso
criará uma grade de gráficos vazios para
cada par de colunas Para adicionar
gráficos específicos a essa grade, podemos usar o método map Por exemplo, podemos criar um gráfico de dispersão para
cada par de colunas Também podemos usar um gráfico de barras. Vamos ver como isso acontece. No entanto, não estou muito
satisfeito com isso, então vamos experimentar um enredo. Aqui está o resultado.
Isso é muito melhor. O Seaborn nos permite aplicar diferentes
funções de visualização às partes diagonais e não diagonais
da grade de parcelas Agora vou usar o método do
gráfico de cicatrizes para todos os gráficos, exceto os diagonais Dessa forma, obteremos um
gráfico de cicatrizes para cada par de variáveis, deixando a diagonal em branco Vamos descobrir a diagonal do mapa. Esse método aplica
a função especificada somente aos gráficos diagonais. Portanto, o tipo de trama de violino será exibido apenas em gráficos
diagonais como este. O Seaborn nos dá
flexibilidade ao permitir diferentes
funções de visualização para diferentes partes da grade Também podemos usar uma
função que aplica uma determinada visualização somente aos gráficos abaixo
da diagonal,
excluindo a própria diagonal excluindo Nesse caso, usarei o tipo de
estimativa de densidade do kernel Da mesma forma, podemos
aplicar uma função
aos gráficos superiores usando
a função superior do mapa Pode levar algum
tempo para ser construído, mas aqui está o resultado. Usamos dois métodos, mapear superior e mapear inferior e aplicamos diferentes tipos
de parcelas em cada um deles. Como resultado, obtivemos a
seguinte visualização. Vamos adicionar o familiar parâmetro
hub e dividir pela variável de
cilindros O parâmetro de aspecto controla a proporção de largura e altura
de parcelas individuais Por padrão, o
aspecto é definido como um, tornando os gráficos quadrados,
mas podemos ajustá-lo Definirei o
aspecto igual a dois, tornando os gráficos A altura define a altura de cada
parcela individual e da grade. Vou configurá-lo para três. A reconstrução do
gráfico por grade leva algum tempo. Ajustar a altura e a
proporção pode ajudar a obter uma exibição
ideal da grade, dependendo do conjunto de dados
e do estilo de Você pode experimentar com base
nas necessidades de seus conjuntos de dados. Agora vamos mudar a paleta de
cores para definir duas, o que nos dará cores
completamente diferentes Aqui temos um
campo infinito para experiências. Em seguida, vamos criar
um mapa de calor usando a tabela dinâmica e a função de mapa de
calor Neste exemplo,
trabalharei com um conjunto de dados sobre passageiros
titânicos Vamos mapear o conjunto de dados. Agora vou criar uma tabela
para contar o número de passageiros do sexo masculino e feminino
que sobreviveram ou morreram. Para isso, vou
usar uma tabela dinâmica. As tabelas dinâmicas
são tabelas criadas usando a função de
tabela dinâmica em um quadro de dados,
permitindo
resumir e reorganizar os dados com base nos pares de valores
do índice da coluna Eu abordei isso em detalhes
nas minhas partituras do Panda. Então, se você estiver interessado,
dê uma olhada. Vamos definir o índice como gênero e as
colunas como sobrevivência. O parâmetro ag funk
é definido como tamanho, contando o número de
observações em cada grupo Isso significa que para cada combinação
de sexo e sobrevivência, o número total de passageiros essas características
será calculado. Agora temos uma tabela com colunas para cada combinação de
gênero e sobrevivência. Vamos criar um mapa de calor
com base nessa tabela. Eu passo os dados para a função de
mapa de calor, defino a anotação, igual a true para exibir
o valor de cada célula, mostrando quantas pessoas O parâmetro FMT define o formato dos
valores como números inteiros Também podemos ajustar
os títulos das legendas e rótulos dos
eixos usando métodos dos gráficos
Mbap, como fizemos anteriormente Você pode definir o esquema
de cores do mapa de aquecimento usando o mapa C, por exemplo, assim, com uma aparência
completamente diferente. Você pode
experimentar a aparência do mapa de calor e definir a
espessura da linha entre as células. Vou configurá-lo como um, mas não está muito
visível no momento. Vamos mudar o mapa de cores para tornar as linhas
mais visíveis. Agora as linhas estão visíveis e você também pode ajustar
a cor da linha. Por padrão, a
cor da linha está ausente e a espessura da linha
está definida como 0,5, mas você pode
alterá-la conforme desejar É altamente recomendável
experimentar, ler a documentação,
baixar o conjunto de dados e
criar seus próprios gráficos,
ajustando os parâmetros para
entender À medida que você continua explorando
os dados, lembre-se grandes insights geralmente começam
com visualizações simples Continue praticando, fique curioso e deixe seus enredos
contarem a história