Transcrições
1. Introdução: Fundamentos de visualização de dados e design de
painel para aplicativos no ambiente de negócios. Uma de suas marcas e eu trabalhamos em análise de dados nos últimos 20 anos. Inicialmente como bioquímico, depois como consultor de gestão e atualmente como gerente de análise em uma empresa de varejo. Agora, essas funções podem parecer muito diferentes, mas o que elas têm em comum é a necessidade de contar histórias, onde minha função é encontrar a maneira mais eficaz, objetiva e impactante de comunicar insights de negócios por meio da visualização de dados. E o que quero dizer com isso? Bem, eficaz significa apenas que você deseja ajudar seu público a entender
rapidamente os principais insights de sua análise, independentemente de você estar ou não lá para explicar isso a eles. Agora, se você é um apresentador forte, você sempre pode encontrar maneiras de explicar uma análise complicada, mas orientando seu público passo a passo. Mas, no final do dia,
idealmente, seu painel ou seu deck de slides deve sempre ser projetado com a expectativa de que ele também precisa ser um produto autônomo que pode ser entendido pelo usuário sem seu comentário. Objetivo significa que você deseja dar ao seu público contexto suficiente para permitir que ele tire as conclusões certas com um mínimo de viés. Agora, às vezes, você pode apresentar propositadamente seus dados de uma forma que enfatize o ponto que você está tentando transmitir. Mas, idealmente, os dados e um grau de confiança associados a esses dados falam por si. Sua objetividade será apreciada, especialmente por públicos experientes, e deve ajudá-lo a criar confiança a longo prazo com esse público. Inicialmente criei este curso especificamente para minha própria equipe para garantir que todos
tenham o mesmo nível de conhecimento básico necessário para ser ineficaz contador de histórias. E então eu também adicionei alguns tópicos adicionais que eu achei que eram pontos de venda
muito comuns para candidatos que eu entrevistei, mas não contratei. Se você conseguiu passar por este curso, meu objetivo é não só ajudá-lo a passar na entrevista, mas também ter as ferramentas certas para ser um analista de dados ou analista de negócios eficaz e credível. Basicamente, se você tem o cargo de analista, isso é o que eu espero que você saiba um pouco sobre como este curso é projetado. Ele, este é um curso de nível intermediário e assume algum conhecimento básico de formas comuns de aplicar dados. Vamos saltar diretamente para os benefícios e as armadilhas comuns ao usar,
por exemplo, gráficos de barras e gráficos de
pizza e como eles se comparam com opções mais sofisticadas. Então, a expectativa é que você esteja familiarizado com algumas dessas parcelas mais básicas, que eu não vou introduzir em detalhes. Este curso também não é específico de software. Considere o software como ferramentas e já há muito material por aí. E como usar essas ferramentas de forma eficaz. O que vamos abordar neste curso em vez disso são os conceitos fundamentais para o que você deseja alcançar usando essas ferramentas. O objetivo é que esses conceitos sejam relevantes independentemente software
que você ou sua empresa escolham usar. E por último, todos os exemplos deste curso serão fortemente focados em aplicativos de negócios, vendas, marketing, finanças, cadeia de suprimentos, etc. Visualização de dados é um tópico muito amplo e bem abordado. Então, naturalmente, eu não quero criar mais um curso sobre este tema. E o que eu quero criar um que seja tão abrangente que tenha 100 horas de duração. O que eu vou me concentrar, que eu não encontrei em nenhum outro curso, são
os casos de uso que são mais relevantes para o mundo dos negócios. Para uma discussão mais geral sobre visualização de dados, eu recomendaria eletrodos de Tamara Munzner. Que estão disponíveis no YouTube. Ela fez um profundo aprofundamento sobre este tema, especialmente em termos de visualizações que são mais relevantes para a pesquisa acadêmica e científica. Se você está procurando se inspirar por alguns ótimos exemplos de visualização de dados. Eu sou um grande fã do site 538 de Nate Silver, que é um estatístico famoso por analisar previsões eleitorais. E o capitalista visual, que é um site com uma tonelada de belos infográficos, cada um dos quais é como uma obra de arte. E enquanto eu me orgulho do meu trabalho e é divertido tornar a força-tarefa diária, seja um pouco mais chamativa. Em um mundo de negócios acelerado, minha principal prioridade e minha expectativa para minha equipe, sempre
estaremos ajudando nossos líderes de negócios a tomar decisões melhores e mais orientadas por dados. E esse será o meu foco para este curso. E vou deixar que você confira esses dois exemplos por conta própria para como embelezar seu trabalho. O que este curso irá cobrir. Sos primeiro dia em seu novo trabalho como analista de dados, você foi encarregado de criar um painel de controle para apoiar uma determinada função de negócios. Por onde você começa? Bem, o ponto de partida para qualquer tipo de análise é garantir que você entenda as questões de negócios que você estava tentando resolver. E este não é um passo que você pode pular ou ignorar. Também não basta perguntar ao usuário o que ele quer, porque há um pouco de exploração e empreendedorismo envolvido nesta etapa. Como a famosa citação de Henry Ford, se eu tivesse perguntado às pessoas o que elas queriam, elas teriam me dito cavalos mais rápidos. Então você quer ir bem fundo nisso e ter
certeza de que entende pelo menos duas coisas. Primeiro, que tipo de ações com o usuário tomará base nos insights que você estava no painel fornecerá. Isto irá, por exemplo, dizer-lhe o nível de granularidade que você precisa dos dados. Você também quer ter certeza de que entende como essas informações são coletadas atualmente para que você possa, por exemplo, avaliar se deseja ou não usar a mesma fonte de dados ou se há uma melhor que possa ser usada. Essa será a base para a forma como você cria esse painel. Como você avalia se um satisfaz ou não os requisitos. E isso também irá ajudá-lo mais tarde com o gerenciamento de mudanças. E gerenciamento de mudanças é algo que eu tinha que pensar muito sobre quando eu era um consultor externo, mas algo que eu acho muitas vezes é ignorado quando você era interno da empresa. Só porque você criou um painel realmente incrível, isso não significa que ele vai automaticamente obter adoção generalizada. Você ainda precisa fazer o necessário em marketing e demonstrar de volta ao usuário como isso os apoia em sua tomada de decisão e por que é melhor do que o que eles usam atualmente? Compreender o número um permite que você faça isso. Uma vez que você esteja confiante de que tem uma compreensão firme da questão de negócios, então você pode prosseguir com a análise dos dados e prototipagem do painel, concentrando-se primeiro na utilidade e depois na estética. E a maior parte deste curso será focada no número dois, mas também incluirei algum material bônus no número três. Mas além do que acabei de dizer, não
vou falar mais sobre o número um, embora obviamente você não possa fazer o número dois ou o
número três sem fazer o número um com sucesso. E a única razão para isso é porque ser bom no número um é realmente mais sobre ter experimentado na prática. Não é realmente algo que eu possa resumir discretamente em alguns slides. Mas se houver interesse para o número um, por favor me avise e farei um curso separado sobre este assunto. E por último, alguns municípios que eu quero reconhecer quando se trata de design de painel. Farei o meu melhor para compartilhar com vocês o que considero ser as melhores práticas. Mas há algum nível de subjetividade. Por isso, o meu objectivo é sempre dar-lhe o meu raciocínio por trás destas regras para que
possa tomar a sua própria decisão sobre se deve ou não seguir ou ignorar estas regras. E acredito nessa ideia de que a maioria das regras pode ser quebrada. Mas antes de começar a quebrar uma regra, você tem que ser capaz de operar dentro dos limites dessa regra e você tem que entender completamente a razão dessa regra. Dois é que a maioria de seus usuários provavelmente não vai se importar com você. Sua atenção aos detalhes. Eles provavelmente nunca sabem que, quando eu crio um painel, eu provavelmente testo 20-30 maneiras diferentes de traçar um conjunto de dados e tomar uma decisão sobre qual dessas maneiras faz o melhor trabalho ao transmitir os insights de negócios. Mas, como profissionais de análise de dados, devemos orgulhar-nos do nosso trabalho. E com certeza como gerente, isso é algo que eu presto muita atenção sempre que olho
para o trabalho de outra pessoa. E finalmente, nem tudo o que precisa ser planejado. Mesmo que este seja um curso de visualização de dados, em muitas situações, uma tabela simples pode realmente ser a melhor em termos de clareza e simplicidade. E estas são situações que também vou apontar mais tarde na apresentação. Ok, então você completou o número um e você se sente confiante de que entendeu as questões de negócios. Agora você está pronto para começar a pensar no número dois em termos de como você deseja plotar esses dados. A primeira coisa que você quer fazer é reduzir esse tipo de análise que você deseja alcançar. Por exemplo, esta é uma comparação de uma determinada métrica em uma determinada dimensão, como uma comparação de nossa receita em diferentes regiões geográficas, ou comparar os níveis reais de inventário hoje versus o que foi orçado no início do ano. Mostrando a forma de uma distribuição para algo como o tamanho de cada categoria de produto em termos do número de produtos dentro dela, ou a idade de sua base de clientes. Isso mostra a relação ou a falta de relação entre duas ou mais métricas e se há ou não uma causa e efeito implícitos,
como, o spin de marketing de contratação gera maior receita? E, por último, isso mostra os componentes individuais de um total maior, como quanto lucro cada mês contribui para o nosso lucro anual total? O que você pode notar é que há um pouco de sobreposição entre algumas dessas questões de negócios. Se você estiver olhando para dados de séries temporais, por exemplo, sobre a rentabilidade mensal de sua empresa. Você pode considerar que é uma pergunta de comparação ou uma pergunta de composição. forma como você decide como plotar esses dados realmente depende da empresa e do tamanho que você deseja transmitir. Então, se você quiser fazer uma declaração como o nosso mês mais lucrativo é 5X, do nosso mês menos lucrativo que você pode
querer considerar parcelas que destacam esta comparação. No entanto, se você quiser fazer uma declaração como 50% do nosso lucro anual vem do período de tempo entre Black Friday e Christmas. Em seguida, você pode querer mostrar esses dados como uma composição. Na próxima seção, vamos falar sobre comparações.
2. Seção 1: comparações em comparação com o estado: Seção um, comparações. Quando se trata de fazer comparações, seu pão e manteiga sempre será gráficos de linhas e gráficos de barras. Provavelmente cerca de 70% do que você vai usar é um desses dois. As salas de almoço serão sempre a sua opção padrão para quaisquer dados de séries temporais. E o que quero dizer com séries temporais é que o eixo X atravessando é algum tipo de dimensão temporal. E uma das razões pelas quais os gráficos de linhas são tão ideais é que há pouca confusão de gráficos, significa que há uma quantidade mínima de tinta necessária para transmitir a quantidade total de informações. Portanto, você pode caber muito mais em uma única página. E, na verdade, eles são muito fáceis de entender, mesmo para um íons não-técnicos. Então isso deve ser capaz de lê-lo e interpretá-lo sem a sua ajuda. Gráficos de barras serão o seu gráfico de escolha quando se trata de comparar variáveis discretas. E falaremos sobre o que isso significa. E como o gráfico de linhas, também
é muito fácil de entender. Mas há um pouco mais de confusão no gráfico em termos da cor das barras. O que significa que você não pode ajustar tantas variáveis em uma única página em comparação com o gráfico de linhas. Vamos dar uma olhada em alguns exemplos. Neste caso, estamos plotando receita por mês com a receita
no eixo y e os meses passando no eixo x. Neste caso, podemos usar um gráfico de linhas ou um gráfico de barras. Mas minha preferência é sempre usar o gráfico de linhas porque seus olhos são naturalmente foco na parte do gráfico que realmente importa são os marcadores. Enquanto no gráfico de barras, seus olhos estão mais focados na cor das barras, que não transmite nenhuma informação adicional além do que é transmitido pela altura das barras. Então, em outras palavras, mais confusão gráfico. Neste próximo exemplo, estamos comparando a mesma métrica de receita, mas em diferentes regiões geográficas. E neste caso, não podemos usar o gráfico de linhas porque
no gráfico de linhas as linhas entre os marcadores implicam continuidade. E por isso só é útil para variáveis contínuas, não discretas, como os estados. Quero dizer, se você plotou assim, seu público ainda é bom para entender o que você está tentando transmitir, mas tecnicamente não é correto usar um gráfico de linhas quando a variável é uma variável discreta. Outra consideração é quantas variáveis você deseja comparar em um único gráfico. Então, se aumentarmos isso para dois gráficos, eles são ambos, ok. Você ainda pode ver o padrão da sazonalidade da receita entre ambos os gráficos. Mas quando você aumenta isso para cinco, fica um pouco mais lotado. E aqui o gráfico de linhas tem uma vantagem sobre o gráfico de barras. Neste gráfico, você pode ver que a primeira coisa que vai chamar minha atenção é o fato que a linha verde está sempre acima da linha vermelha para cada mês, exceto para o mês de abril. E agora isso é apenas dados sintéticos. Então eu não sei se isso é significativo e algo que você quer chamar para fora, mas é apenas algo que é muito claro para o público quando eles estão olhando para o gráfico superior. E detalhes como este são um pouco mais obscurecidos para o gráfico inferior. Agora, quando você aumenta isso para 20 variáveis, ambos os caracteres realmente parecem terríveis. Você provavelmente deve pensar sobre se você realmente precisa comparar todos os 20 como este, ou se você pode encontrar uma maneira melhor de apresentar isso. Mas no gráfico de linhas, você ainda pode provocar o que está acontecendo. Mas é quase impossível para o gráfico de barras por baixo. Então isso é apenas algo a considerar quando você está tentando escolher entre um gráfico de linhas e um gráfico de barras. Um último exemplo é quando se trata de gráficos de barras, você pode usá-los verticalmente ou horizontalmente. A principal consideração aqui é apenas ajudar seu público a ler os rótulos do eixo com mais facilidade. Então, se você tem muito pouco conjunto de nomes
no eixo x e é mais longo do que os rótulos no eixo y. Pode fazer sentido girá-lo para que seu público possa lê-lo sem inclinar o próximo. Ok, então um pouco de um estudo de caso. Então, digamos que você está apoiando um varejista no espaço eletrônico. Você compilar alguns dados de vendas em sua parte superior para marcas. E há quatro categorias de produtos. E você deseja criar um gráfico que os ajude a comparar esses segmentos. Então, como você faria isso? E, a propósito, este é um exemplo em que a tabela é realmente muito boa em termos de clareza e simplicidade. Portanto, é definitivamente uma opção que vai com para este exemplo. Ok, bem, a primeira coisa que você precisa decidir é se é um resumi-lo com base nas categorias de produtos e camada em cima disso, as marcas como as cores diferentes. Ou para resumi-lo como marcas e fazer as categorias de produtos serem as cores. E a outra decisão que você precisa tomar é se deve mantê-lo absoluto, para destacar as diferenças reais do dólar, orthonormalizá-lo para um 100%, a fim de destacar as diferenças na composição. Na realidade, você vai falar com o usuário e você vai descobrir qual deles realmente fornece os insights mais úteis e acionáveis para as decisões que eles estão tentando tomar, ou se é necessário incluir todos os quatro essas parcelas se cada um deles fornecer uma visão necessária. Mas também há outra opção que é usar um Char muito largo, também conhecido como um prontuário médico alegre. Este é basicamente um gráfico 2D que permite que você coloque as dimensões da marca e uma categoria de produto no mesmo gráfico. E outra vantagem que ele tem é que ele concentra a atenção do público no maior segmento. Então, neste caso, a percepção imediata que eu tenho é que os telefones representam a maior categoria de produtos. E dentro dos telefones, a Apple domina com uma quota de mercado de 60%, enquanto os tablets são a categoria de produtos mais pequena. E dentro dos tablets, é uma divisão uniforme entre as quatro marcas. Portanto, este gráfico não só permite que você inclua todos os insights dos quatro gráficos anteriores, como também fornece a relação completa entre marcas e categorias de produtos, que você não obtém quando os plota separadamente. A única coisa que falta são os valores totais do dólar, as comparações absolutas. Mas geralmente o que as pessoas fazem é incluir o valor total do dólar no título ou na nota de rodapé para que o público ainda possa ter esse contexto se precisar dele. Aqui está outro exemplo de um gráfico muito amplo, e desta vez sem qualquer normalização sobre os dois eixos. Aqui, o que estamos fazendo é traçar essas emissões de CO2 per capita no eixo y. E per capita significa apenas por pessoa. E temos a população total de cada país no eixo x. E a luz diante de nossos olhos sempre será atraída para o que é o maior segmento da página que ocupa a maior quantidade de espaço. Então, neste caso, são as emissões dos Estados Unidos e da China. O principal dentro que eu entendo é que a China é o maior produtor de emissões de CO2 com base na área do gráfico. Mas em uma base per capita, está no meio da matilha e não é tão alto quanto as outras nações desenvolvidas, como os Estados Unidos. Agora, se fôssemos traçar esses dados usando um gráfico de barras regular, você tem uma escolha. Você pode traçar as emissões totais, caso
em que a China será mostrada como o maior contribuinte de emissões. Ou você pode traçar as emissões per capita, nesse caso, a China não parece tão ruim quanto os outros países. E você pode realmente querer ter essa escolha se você tem uma agenda para fazer sobre um desses pontos ou outro. Mas isto remonta ao meu comentário anterior sobre a objectividade. Quando você estiver plotando os dados usando o gráfico muito amplo. Você pode dar ao público esse contexto completo e permitir que ele faça o julgamento completo sobre esse contexto, em vez usar o direcionamento para uma exibição ou outra. E eu realmente gosto desse exemplo e como meu único exemplo não-comercial e todo esse curso. Mas vamos dar uma olhada em um exemplo de negócios real. Então aqui estamos pegando o mesmo gráfico muito largo e estamos plotando nossas próprias margens unitárias no eixo y e as vendas unitárias sobre os excessos. Então esta é basicamente quanta margem bruta que geramos por unidade de produto que vendemos. E isto é quantas unidades vendemos? Se você tem dados como este, você tem três maneiras diferentes de plotar e três maneiras diferentes de classificar esses produtos. Se você plotar vendas unitárias totais, você teria o produto i como o primeiro produto seguido pelo produto o. Se você plotar a margem bruta total, você ainda terá o produto i como o primeiro, mas então ele é seguido pelo produto E a terceira maneira, que eu não estou mostrando, se você traçar a margem bruta por unidade, você obteria os produtos na mesma ordem que este gráfico muito amplo. Agora, cada uma destas praças dá-lhe uma visão ligeiramente diferente e uma classificação ligeiramente diferente dos produtos. Ou você pode simplesmente mostrar todo o contexto, tornando-o o gráfico muito amplo onde os insights de negócios ou aquele produto que eu gerou a maior quantidade de margens brutas totais. E conseguiu isso vendendo um número muito grande de unidades. Ou o produto B também gerou uma quantidade muito grande de margem bruta. E conseguiu isso tomando uma margem muito alta por unidade. Ok, então só para resumir, caracteres muito largos, eles são essencialmente um gráfico de barras sem espaços no meio. E gráficos de barras de luz, você pode normalizar ou não normalizar o eixo. Você tem dois conjuntos de atores, que significa que você pode simultaneamente mostrou duas dimensões, que é uma grande vantagem porque permite que você forneça mais contatos para o público e reduza o viés que vem de apenas mostrando uma dessas duas dimensões. A única desvantagem é que não é muito comum. Além disso, então as pessoas não estão familiarizadas com este gráfico, pode não ser capaz de interpretá-lo muito facilmente ou muito rapidamente sem alguma ajuda e explicação de você para se orientar. Mais um exemplo de comparação que eu acabei de incluir por uma questão de conclusão, mas é um que eu não sou um grande fã de e que é gráficos de radar,
também conhecidos como gráficos de teia de aranha. O que estamos traçando aqui são os resultados da satisfação do cliente, que inclui algumas dimensões como preço, qualidade, seleção e onde estamos comparando esses dois resultados para duas lojas localizadas em Boston. E uma coisa que eu não gosto sobre isso é o fato de que seus olhos têm que
acompanhar um pouco para trás e para frente, a fim de ler este gráfico, especialmente se você estiver comparando entre oito métricas diferentes. E também parece meio estranho se você estiver comparando entre quatro métricas porque então a TI, porque assim como um quadrado, a única coisa que eu não gosto sobre isso é que ele pode parecer bem. Nós temos as duas lojas são muito diferentes entre si, então há uma quantidade muito alta de contraste, mas parece meio feio quando há muita sobreposição entre
as lojas ou se você tem um monte de histórias diferentes que você está tentando para comparar, você tem a opção de traçar cada loja separadamente. E novamente, para mim, tudo bem se as lojas que você está comparando são muito diferentes entre si, como neste caso, eu posso ver que Boston South, por exemplo, tem notas muito decentes em tudo, especialmente em termos de preço. E eu posso ver que Dorchester, em contraste, tem notas muito ruins e tudo menos serviços. Quando se trata de outras lojas, as cargas de radar não fornecem comparações muito claras sem o público tenha que fazer muito trabalho olhando para frente e para trás. Isto é para comparações. Na próxima seção vamos falar sobre distribuições.
3. Seção 2: distribuição: Seção dois, distribuições. Quando se trata de mostrar a distribuição que suas duas opções básicas serão histogramas, gráficos de dispersão, e como você escolhe entre eles como basicamente chegando a se sua distribuição é em uma única dimensão ou duas dimensões. E os histogramas são uma ótima opção. Primeiro, geralmente é mais fácil de ler pelo público e para, porque você basicamente está fazendo a análise dos dados antes de plotá-los. Não é afetado pelo tamanho do seu conjunto de dados. Agora pense no gráfico de linhas que nós
olhamos onde quando estamos comparando duas linhas, está
tudo bem, mas fica complicado muito rapidamente e nós temos 20. Mas como você está fazendo essas estufas, você também tem algumas escolhas a fazer, principalmente em termos de como você deseja definir seus baldes. Os gráficos de dispersão também foram ótimos em termos de fácil compreensão e ter a desordem mínima do gráfico. Você pode usá-lo se estiver tentando mostrar uma distribuição em duas dimensões. Mas os insights não são tão claros quanto você pode exibir para um histograma porque você não está definindo explicitamente quais são esses buckets. Outra coisa para ter cuidado,
para ambos os tipos de grafos são as influências de Outliers, que não podem ser um profissional ou um golpe no caso de gráficos de dispersão. E vou mostrar-lhe o que quero dizer em alguns exemplos. Aqui está um exemplo de um histograma em que estamos contando quantos de nossos clientes se encaixam em cada uma dessas faixas etárias de quatro anos. E você pode ver que temos cerca de 1000 clientes na faixa etária mais jovem de 15 a 19 anos, e isso aumenta para 2500 clientes na faixa etária de 40 a 44 anos. O que eu quero dizer com esta segunda bala aqui é que mesmo se nós coletamos mais dados sobre este conjunto de dados e nós temos dez vezes mais clientes a complexidade do gráfico permanece o mesmo. Você ainda vai ter os mesmos baldes a menos que talvez
você esteja adicionando um bucket extra para aqueles com menos de 15 anos são aqueles com mais de 79. Mas geralmente a complexidade do gráfico não é dimensionada com mais pontos de dados porque estamos fazendo essa análise resumida sobre os dados para criar esses buckets. Você tem uma decisão a tomar em termos de se você deseja normalizá-lo para um 100%, o
que é muito comumente feito, já que na maioria
das vezes quando você tem uma pergunta de negócios de distribuição, você está pensando sobre isso em termos de porcentagens. E neste gráfico, podemos ver que cerca de 50% dos nossos clientes estão entre
3254 anos e aproximadamente 8,5% dos nossos clientes têm mais de 70 anos de idade. E aqui está um gráfico diferente onde estamos tentando caracterizar quantas de nossas inclinações e inclinações são basicamente unidades de manutenção de estoque, que você pode pensar como um produto único. E nós temos atualmente quantas dessas quantidades em estoque? Uma das coisas que você precisa pensar é em termos de como você deseja definir os intervalos para esses segmentos individuais, que eu tenho chamado de buckets. No padrão, você pega o ponto de dados mais alto que você tem nesse intervalo e divide-se uniformemente entre os diferentes segmentos que você pode caber no gráfico. Mas o que você pode ver neste exemplo é que um número muito pequeno se inclina onde temos realmente,
realmente ocultar a contagem de unidades, realmente muda tudo o resto em um único balde. E isso não é tão útil porque você está basicamente dizendo que 99% de suas inclinações, você teria em algum lugar entre 0 a 500 unidades em mãos. Então, o que você não pode fazer depois de dar uma olhada nos dados reais é personalizar os intervalos, os buckets, para permitir que o público veja uma imagem mais clara da forma dessa distribuição. E você não precisa fazer cada balde do mesmo tamanho. Aqui podemos ver que cerca de um terço das nossas inclinações, temos 0 unidades à mão. Agora, isso é intencional ou fazemos um trabalho ruim mantendo as coisas em estoque? Eu não sei. Cerca de 45% das nossas distorções, temos entre uma e 20 unidades à mão. E este ainda é um segmento muito grande. Você pode considerar dividir isso em segmentos menores para mostrar mais detalhes. E por último, todas essas coisas na cauda longa que vimos no primeiro gráfico, há cerca de 600 inclinações onde temos mais de 5 mil unidades na mão. E o gráfico à direita é apenas mais útil do que o da esquerda porque ele fornece mais granularidade em torno de uma parte do conjunto de dados que realmente importa. E ajustar o corte para os segmentos é algo que
você tem que tomar uma decisão sobre o que você está tentando fazer seu histograma mais eficaz e menos impactado por esse pequeno número de outliers. Passando para gráficos de dispersão. Assim, gráficos de dispersão são usados se sua distribuição estiver em duas dimensões diferentes em vez de apenas uma. E neste caso, estamos plotando vendas em dólares no eixo Y e vendas unitárias no eixo x. E basicamente isso é quanto dinheiro ganhamos versus quantas unidades vendemos, onde cada círculo representa um produto ou uma inclinação. Então, mesmo que o gráfico de dispersão mostre tudo e uma das desvantagens em relação aos histogramas é que ele não está explicitamente definindo os segmentos. Então normalmente você tem que chamar isso na sua descrição ou você está falando sobre o assunto. Então, neste caso, eu diria que a maioria dos produtos produzidos em algum lugar entre 0 e 4 milhões de dólares em vendas. E há dois grandes outliers que produzem cerca de 18 milhões de dólares. E os produtos são vendidos entre 0 a um 100 mil unidades com um grande alle estão em 350 unidades. E uma coisa que eu vou apontar em termos de estética é que você também pode tornar seus marcadores não filtrados ou parcialmente transparentes para que você possa exibir a densidade melhor em um gráfico lotado. Agora, assim como os histogramas, gráficos de
dispersão são fortemente influenciados por outliers. E eu vou colocar isso como um profissional e um vigarista envia. Isso realmente depende se esses outliers ou as coisas significativas que você quer chamar. Então aqui eu tomei o exemplo anterior e eu apenas adicionei mais alguns pontos de dados. Então, ou seja, neste à direita, há um produto que trouxe cerca de US $11 milhões em vendas e F vendeu cerca de 1,8 milhões em unidades. E este é um conjunto de dados sintéticos. Então eu não sei se este produto e esse comportamento são importantes ou não. Mas o que você pode ver é que ele basicamente esmagou tudo neste canto e criou um monte de espaços em branco neste gráfico. Agora isso é ótimo se esse ponto de dados é o que você quer falar, porque é exatamente aqui que os olhos do seu público vão naturalmente se concentrar. Mas se esta não é a coisa mais importante que você quer chamar, então você pode querer deixar de fora este outlier e apenas fazer uma
nota na nota de rodapé para que você possa,
em vez disso, ampliar , nesta área que tem a maioria dos dados que está realmente presente. Uma última nota sobre gráficos de dispersão é que a outra decisão que você precisa tomar é se realmente, faz mais sentido torná-lo dois histogramas distintos se a relação entre as duas dimensões não é tão importante em termos de sua visão de negócios. Então você poderia nos mostrar separadamente assim, fazendo dois histogramas separados. E pode ser claro para o público entender. Mas o que você perde é essa relação entre as duas dimensões. Que tal um exemplo mais complicado? Digamos que você queira comparar as 52 semanas de vendas semanais para um conjunto diferente de categorias de produtos. Então, neste caso para ferramentas, o que você vê é que você tem 3252 semanas no ano em que as vendas estão em algum lugar entre 0 a 200 mil dólares por semana. E as outras 20 semanas onde o total de vendas está entre $200,400 mil. Da mesma forma, você pode fazer o mesmo histograma para as outras categorias de produtos. E este é um caminho a percorrer. Se você tem apenas cinco categorias, você pode fazer esses cinco histogramas individuais e apenas colocá-los lado a lado. Mas você pode imaginar que isso pode ficar um pouco mais complicado se você tem muito mais categorias de produtos que você deseja comparar entre si. Portanto, outra opção é resumir cada categoria de produto em termos de um boxplot. E isso é tipicamente o que uma briga de chefe parece. E às vezes também é chamado de caixa e enredo de bigode baseado na forma. E é semelhante a um histograma. Você pode basicamente definir os segmentos, mas em vez de defini-los com base em seu próprio julgamento para um boxplot, você está basicamente definindo-o em termos de quartis. Então este é o 25% inferior de seus pontos de dados. Estes são os próximos 25% e os próximos 25%, e estes são os 25% principais dos seus pontos de dados gerais. Esta caixa do meio é chamada de intervalo inter-quartil, que contém o meio 50% de seus pontos de dados, ea linha define a mediana. Agora, muitas pessoas também definem os fins, não como o máximo e o mínimo, mas como o 95 e o cinco percentil. E isso basicamente ajuda a tornar os bigodes não tão longos. Você tem muito, muito extremos outliers. Então, como seria isso no nosso exemplo anterior? Bem, esta é uma tela muito mais compacta que permite fazer uma comparação lado a lado mais direta de múltiplas distribuições. E em termos de visão imediata, uma vez que eu me reoriente em termos de como ler a sucata, eu posso ver que as mochilas têm a maior média de vendas semanais ao longo do ano. As ferramentas são a categoria de produto menos sazonal é vendas
semanais cair dentro de uma faixa muito estreita e consistente. Bem, esquis ou a categoria mais sazonal com quase nenhuma venda durante metade do ano. E, por último, durante a alta temporada, vestuário exterior tem as maiores vendas semanais de todas as categorias. Agora este tipo de enredo é amado pela comunidade de estatísticas e eles usam muito. É ótimo para mostrar vários conjuntos de distribuições 1D. E como o histograma, você também está fazendo uma análise no conjunto de dados primeiro antes de aplicá-lo. que significa que a complexidade de agarrar não é dimensionada à medida que você aumenta o tamanho do seu conjunto de dados. A única desvantagem é que ele também não é um enredo muito comum fora da comunidade estatística, que significa que você pode precisar fornecer algum acompanhamento e explicação para garantir que seu público não-técnico entende o insights. Isto é para as nossas distribuições. E na próxima seção vamos falar sobre relacionamentos ligados a arco composto.
4. Seção 3: relacionamentos: Seção três, relacionamentos. Para mostrar relacionamentos, vamos revisitar o gráfico de dispersão e é informacionalmente mais denso equivalente, o gráfico de bolhas. Quando discutimos gráficos de dispersão e tendências de mostrar distribuições em duas dimensões. Nós dissemos que podemos substituí-lo por dois histogramas separados se a relação entre essas duas dimensões não for tão importante. Então, neste caso, o foco será esse relacionamento. Assim, os insights de negócios serão se existe ou não um relacionamento. E novamente, duas das grandes vantagens para gráficos de dispersão é que um, é fácil e entender e 2D é uma proporção muito alta de informação para tinta. Os gráficos de bolhas são os mesmos, exceto com uma dimensão adicional adicionada em termos do tamanho dos marcadores. Além disso, se você realmente quiser envolvê-lo,
mas não é recomendável trocar é que
as dimensões adicionadas também adicionam mas não é recomendável trocar é que complexidade extra que você terá que gerenciar e decidir se a questão de
negócios ou não realmente exigem que haja uma complexidade extra. E, na maioria das vezes, você pode encontrar alternativas
melhores e mais claras para comunicá-lo. Neste exemplo, estamos plotando o número de unidades vendidas versus o preço médio, onde cada marcador representa novamente uma inclinação ou produto específico. E os seres humanos são difíceis de reconhecer padrões. Então, quando você mostra um gráfico como este, e especialmente se você incluir uma linha de regressão através dele, você está essencialmente dizendo não só existe uma relação entre essas duas variáveis, mas você também está implicando uma relação causal. Agora, na análise do turismo, a causalidade não é fácil de provar. Normalmente, quando há uma relação causal potencial com as pessoas elas tendem a usar sua intuição para decidir se essa causalidade é plausível ou não. Então, neste caso, você está dizendo que quando você define um preço mais baixo para o seu produto, é mais provável que
você venda mais dele. Ou, se conseguir vender um produto e um volume, poderá oferecer aos seus clientes finais um preço mais competitivo. Ambos os cenários parecem bastante plausíveis na vida real. Então você pode mostrar esse relacionamento como seu site de empresários. E você também pode usar esta linha de regressão como uma forma de modelar esta relação, mas sempre ter que verificar o intestino para se certificar de que essa relação é plausível. Um último ponto é que, se você estiver usando o gráfico de dispersão, você geralmente deseja fazer a variável independente B
no eixo x e a variável dependente no eixo y. que significa que, se houver uma causa e efeito implícitos, você deseja que o custo esteja no eixo x e o efeito esteja no eixo y. Aqui está outro exemplo em que estamos olhando para a capacidade
de resposta promocional de diferentes clientes analisando a relação entre o aumento percentual nas vendas que alcançamos com cada cliente versus a quantidade de promocionais desconto que oferecemos a eles. E em termos desses clientes, temos uma coorte azul e uma coorte vermelha que parecem se comportar de forma muito diferente entre si por qualquer motivo. Para a cor azul, você pode ver que quando você aumenta seu desconto de 0 para 40%, você é capaz de alcançar e, em média, um aumento de cerca de 160%. Enquanto entre os clientes da coorte vermelha, o levantamento geral é muito menor e mais variado. Então você pode dizer que as coortes azuis pareciam ser mais promocionais, muito sensíveis. E a Guerra Fria vermelha. E, a propósito, todos os dados que estou usando nos exemplos deste curso, nossos dados sintéticos, que
significa que eu ou tratei do zero ou peguei alguns dados da minha empresa e modifiquei para torná-los anônimos. Na vida real, nunca vi dados
promocionais de responsividade tão claros quanto os mostrados aqui. Então, passando para gráficos de bolhas, aqui está um exemplo em que estamos avaliando as marcas em termos de seu preço e seu nível de inovação, que é algo que você pode pensar se você trabalhar em merchandising. Então, cada círculo é uma marca e o tamanho do círculo agora representa o tamanho da marca em termos de suas vendas globais. Então, comparando o exemplo anterior, isso agora incorpora uma terceira variável contínua como o tamanho dos marcadores. E o que isso faz é que nos permite fazer observações como esta, que a maioria das vendas são geradas por produtos de menor preço. Como se você dividir a marca entre a linha do meio, há mais círculos e círculos maiores na metade inferior em comparação com a metade superior. Em termos de relacionamentos, você verá que também há mais bolhas nos dois quadrados diagonais
do que nesses dois quadrados. O que significa que talvez os clientes estejam mais dispostos a pagar preços mais elevados por produtos mais inovadores. E por último, há uma quarta variável aqui em termos
de marcas norte-americanas versus internacionais. E podemos salientar aqui que as marcas internacionais tendem a ser as marcas mais caras e inovadoras, e todas elas se sentam neste canto superior direito. Aqui está outro exemplo de um gráfico de bolhas apenas para mostrar o fato de que você não precisa
necessariamente fazer os eixos x e y serem as variáveis contínuas. Às vezes ele realmente funciona muito bem também com variáveis discretas. Estamos analisando os motivos e
as quantidades de devoluções em diferentes categorias de produtos. Agora os retornos estão se tornando
um negócio maior para muitos varejistas à medida que eles estão crescendo seus negócios. Porque segmentos de e-comm tendem a ter uma taxa de retornos mais elevada em comparação com compras na loja. Portanto, é importante entender os motivos desses retornos e se esses motivos podem ser abordados. Assim, a partir deste gráfico, o foco de seus olhos será naturalmente para dois círculos maiores, o que é ótimo porque eles representam as maiores áreas problemáticas. E o que não pode ser interpretado é que nossa maior oportunidade de reduzir os retornos pode ser introduzida, melhorando as decisões de ajuste dos nossos clientes quando se trata de calçado e vestuário feminino. Além disso, alguns de nossos clientes também estão encontrando melhores preços em outros lugares quando se trata de esquis e instrumentos. Portanto, isso pode levar algumas decisões de preços para nosso departamento de marketing para executar algumas vendas ou promoções. E talvez haja também alguns problemas adicionais quando se trata identificação
do produto entre roupas do nosso armazém, onde eles estão escolhendo e empacotando os produtos incorretamente. E por último, eu entrei online, eu tento encontrar o exemplo mais ridículo de quantas dimensões você pode caber em um único gráfico de bolhas. E isto é o que eu encontrei. Portanto, há para variáveis contínuas e duas discretas neste único gráfico. E, obviamente, isso não é o ideal. E isso é apenas, este único tipo de funciona porque nenhum dos círculos está se sobrepondo um com o outro. E a verdadeira questão aqui é, o público realmente precisa ver simultaneamente essas variáveis? Ou seria mais claro se você simplesmente dividisse as informações em várias parcelas? Portanto, mesmo na era do tableau e do Power BI, onde você tem a opção de apresentar muitas informações antecipadamente e permitir que o usuário clique e faça drill-down. Este tipo de gráfico ainda não é recomendado. Isto é se um relacionamento. Na próxima seção vamos falar sobre composições.
5. Seção 4: composições: Seção quatro composições. Então, para composições, temos o nosso bom e velho gráfico de pizza e o gráfico de barras empilhadas. Gráficos de pizza Obter muito ódio, mas eles são realmente muito bons em termos de ser fácil de
entender e não são definitivamente eficazes. Para um resumo rápido, você tem dois dados é muito simples. Eu acho que a principal crítica para usar gráficos de pizza é que quando você tem um monte de segmentos diferentes de tamanhos diferentes, você realmente não pode dizer suas diferenças relativas muito facilmente em comparação com um gráfico de barras simples. No entanto, você provavelmente quer evitar gráficos de pizza explodidos 3D, já que ter algo assim em sua parte provavelmente diminuirá sua credibilidade entre a comunidade analítica. Gráficos de barras empilhados são outro grampo comum, novamente, principalmente porque eles são fáceis de entender, mas definitivamente há muitas
opções mais sofisticadas disponíveis para esta seção também, que vamos cobrir. Primeiro exemplo. Então, estamos plotando a divisão entre vendas a preço
regular versus vendas a preço promocional com desconto. E fizemos isso um gráfico de barras empilhadas e o normalizamos para entrar em porcentagem para que possamos nos concentrar mais nas diferenças de composição e como isso muda ao longo dos anos. Mas ao fazê-lo, estamos deixando de fora um monte de contexto em termos de como os reais dólares de vendas estão mudando ao longo destes anos. O que significa que há dois cenários potenciais que alertaram respostas muito diferentes. Uma vez que uma flecha pode ser que nosso total de vendas tem sido relativamente plana nos últimos dez anos. E uma parte maior e maior de nossas vendas totais está mudando de vendas regulares para vendas promocionais. E uma situação como esta, o que seria um pouco preocupante porque isso significa que nossas promoções não estão gerando nenhuma venda incremental. Eles estão simplesmente canibalizando nossas vendas regulares. No entanto, também pode ser outro cenário em nossas células regulares estão realmente se mantendo estável e nós estamos realmente aumentando o crescimento incremental de nossas vendas totais devido ao crescimento nas promoções. Então, dois cenários muito diferentes por baixo. E não podemos realmente dizer qual é qual quando normalizamos o gráfico 200% no gráfico de barras de pilha normalizada inicial. Então, aqui está outro exemplo. Então, digamos que você é responsável pela experiência do cliente e periodicamente você envia pesquisas sobre como eles classificam sua satisfação nesta escala de um a dez. Uma métrica muito comum que as lojas de varejo gostam de rastrear é algo chamado de Net Promoter Score, onde você pega a diferença entre sua porcentagem de promotores e sua porcentagem de detratores e o que você resta com é geralmente interpretado como a probabilidade de seus clientes atuais recomendarem seus produtos ou seus serviços a outras pessoas. Agora, como o exemplo anterior, em que você está calculando uma métrica resumida e plotando isso, o que você realmente está fazendo é otimizar para simplicidade, mas você está negociando um pouco mais desse contexto. Então, neste caso, você pega as pontuações do NPS para essas oito lojas rotuladas pelos nomes de suas cidades e você obtém essa classificação. E sempre que você tem este único ranking métrico, o gráfico é sempre muito limpo e muito fácil de entender. O melhor é Fort Worth e o pior é Los Angeles. Mas pode haver alguns detalhes que estão escondidos por trás dessa simplicidade. Então, se você está olhando para a quebra do componente individual é, o que você pode ver é que Filadélfia e Nova York são um pouco outlier. A loja justa por qualquer motivo é muito polarizante. Ele realmente tem o maior número de detratores, mas também tem um número muito alto de promotores. Então, seria interessante investigar isso e entender por que isso é uma loja tão polarizada. E inversamente, Nova York realmente não tem muitos detratores, mas a maioria das pessoas são bastante neutras e eles têm um número
muito, muito baixo de promotores para equilibrar que os rastreadores. Então, novamente, será interessante entender amplamente. Então, se seu objetivo é entender a causa raiz dos detratores, então a pontuação geral do NPS pode não ser a melhor métrica para se concentrar, porque você não quer que seu número de promotores oculte seu número de detratores porque é o número de tratores que são mais acionáveis para o seu público, para esta decisão comercial específica. Então, o que você pode fazer em vez disso é traçar os componentes individuais em um gráfico de barras empilhadas. Mas você pode colocar mais ênfase nos detratores por um, tornando-os POR uma métrica negativa separada dos outros dois valores. E dois classificando as lojas com base nessa métrica. Então, neste caso, você pode acabar tendo a loja
de Nova York no meio da matilha na loja Philly na parte inferior da matilha. Se você está apenas classificando-os com base na pontuação detratores. Você também pode colocar a camada acima dessa pontuação MPS
sobrepondo a pontuação NPS como marcadores circulares. Ex exemplo estamos falando sobre o que um gráfico diagramas. Então diagramas de Waterford é outra opção para mostrar os componentes individuais de um total. Nesse caso, estamos mostrando a receita mensal e como eles somam a receita anual total. Uma vantagem deste gráfico é que, para cada mês, você também pode ver o total cumulativo de todos os meses anteriores. Mas o trade-off aqui é que torna mais difícil comparar as receitas entre cada mês. E se essa é a visão mais importante, então pode fazer sentido traçá-lo como
um gráfico de barras regular ou um gráfico de linhas para mostrar melhor essa comparação. No entanto, cachoeiras são realmente muito úteis quando sua métrica tem números positivos e negativos porque a altura geral do gráfico não é compactada
tanto em relação ao total geral maior. E é por isso que mais comumente usado para métricas financeiras como fluxo de caixa ou lucro. Então, neste caso, cada barra é um pouco maior e o total cumulativo também é um pouco mais útil porque você pode ver, por exemplo, é neste ponto no mês de agosto que a empresa alcançou fluxo de caixa positivo para o resto daquele ano. E isso é algo que você não pode dizer tão facilmente em um gráfico de barras normal. Um último exemplo antes de encerrarmos esta seção. Então, digamos que você tenha um conjunto de dados que tem vendas deste ano em comparação com as vendas do ano passado. A diferença entre este ano e o ano passado e a diferença percentual. E isso é segmentado por categorias de produtos. E digamos que esta é uma lista bastante longa de 100 categorias de produtos diferentes. E o objetivo aqui é destacar o que tem impulsionado nosso negócio em geral e onde devemos nos concentrar para o próximo ano. Bem, eu quero salientar que este é outro caso esta tabela é realmente muito boa para mostrar esses números. E além do fato de que esta é uma mesa bem longa com 100 categorias diferentes. Você ainda pode classificar essas quatro métricas e olhar para a parte superior e inferior dessa lista. Mas se você está inclinado a traçar isso, você tem algumas opções a considerar. E esta é, na verdade, uma pergunta de entrevista. E eu digo que cerca de 50% dos candidatos que foram entrevistados tendem a escolher a opção número um, que é ignorar as métricas de diferença derivadas e focar em apenas um valor de US $2 que representam este ano versus ano passado. E traçá-los lado a lado para que o público possa avaliar as diferenças. E a outra metade dos candidatos tendem a escolher
a opção dois ou a opção número três, onde você está ignorando os dados de vendas subjacentes e destacando em vez disso as categorias que têm o maior ou o menores diferenças de dólar entre este ano e no ano passado. E uma coisa que você pode notar é que aqui eu estou apenas mostrando as categorias superior e inferior, e eu não estou mostrando toda a lista de 100 categorias. Então, para todos esses três gráficos, nós realmente não abordamos o problema de que temos uma lista muito, muito longa. A segunda coisa que você pode notar é que essas duas listas são realmente muito diferentes uma da outra, mesmo que ambos estão mostrando os melhores vencedores em um perdedores de baixo, eles pintam um quadro muito diferente em termos de quem o vencedores e perdedores são. Então, qual deles é mais útil em termos de avaliação da saúde geral do negócio. Essa é uma das perguntas que tivemos que responder. Então, uma maneira de abordar ambos os pontos é usar algo chamado mapa de árvore, onde a configuração comum é fazer com que o tamanho do quadrado B este ano as vendas para cada categoria e aconteceu ser colorido pela variação percentual do ano passado. O algoritmo de mapa de árvore coloca automaticamente todos os seus quadrados do maior para o menor, do canto superior esquerdo para o canto inferior direito. E isso realmente ajuda a resolver o problema com caudas muito longas porque os segmentos mais pequenos ocuparão automaticamente menos espaço e, portanto, menos atenção do público. A segunda coisa que aborda é o fato de que geralmente são os segmentos menores que muitas vezes são os maiores outliers quando se trata de mudanças percentuais. Então, isso também ajuda a impulsionar a priorização do público, empurrando sua atenção para os quadrados maiores que são mais altamente coloridos, pois esses são o segmento que realmente tem o maior impacto. E em termos de conduzir os negócios em geral, não os realmente pequenos no canto direito, não importa o quão grandes sejam essas mudanças percentuais. Então, neste caso, o meu maior takeaway é que a área mais significativa que estamos superando este ano, nossas mochilas de viagem, cozinha, calçado backcountry. E onde temos um desempenho muito baixo é em áreas como bicicletas, iluminação e luz feminina, vestuário de estilo de vida feminino. E esses caras aqui, apesar de serem altamente coloridos e terem grandes mudanças por cento em comparação com o ano passado. Eles podem alertar mais atenção em outras partes
do painel em termos de crescimento de um pequeno segmento. Mas eles são indiscutivelmente menos relevantes em termos de fornecer uma visão geral do que realmente está impulsionando os negócios no ano passado. Voltando ao nosso enredo anterior, você pode ver essa opção dois, como ela se alinha muito melhor com este TreeMap porque ele está mostrando as categorias de produtos que têm a maior mudança de dólar em comparação com o ano passado, enquanto a maioria dos que estão aqui e a opção número três, eles não estão rotulados no mapa de árvore porque eles tendem
a ser realmente pequenos que acabam no canto inferior direito. Então treemaps eram uma nota para comparar dois conjuntos de variáveis, especialmente se uma dessas variáveis é uma direção antiga como vendas, e a outra é bidirecional como mudanças nas vendas. E este exemplo realmente destaca as maneiras comuns que eu vi treemaps usados em painéis e especialmente para empresas de varejo. Em termos de vantagens, ele realmente destaca o que é importante em como esconder a cauda longa de pequenos itens que não impulsionam o negócio geral. Em termos de negativos. Eu acho que agora você está começando a ver o padrão de que muitas dessas parcelas menos comuns e
menos convencionais podem exigir um pouco mais de explicação e esforço por parte do público para entendê-las e lê-las. Mas uma vez que eles estão familiarizados, eles realmente oferecem muitas vantagens sobre
os gráficos de linhas e gráficos de barras mais convencionais. Então este é o fim das composições e você é feito em termos de selecionar a melhor maneira de traçar um conjunto de dados. E na próxima sessão, o que vamos abordar são coisas
diversas quando se trata de tratar e painel eficaz.
6. Seção 5: Context, clutter, cores: Seção cinco, contexto, desordem e cor. Portanto, muitas vezes o contexto que você fornece ao público é tão importante quanto as informações reais que você está apresentando. Então aqui está um exemplo que eu encontrei muitos, muitos anos atrás, e você pode ver que ele é um pouco datado, mas eu usei esse exemplo muitas vezes para fazer essa demonstração. Então eu estava no meu carro ouvindo as notícias no rádio. E o jornalista diz que
hoje, no mercado de ações, a média industrial da Dow Jones caiu 102 pontos enquanto o Nasdaq baixou 35 pontos. Então eu pensei, ok, então parece que foi um dia muito ruim para o dao, mas as empresas listadas em um asteca não foram tão ruins. Mas o que eu não sabia era o contexto em que Adele desceu de 8.281 pontos para 8.179 pontos, que é uma queda de 1.2%, enquanto a Nasdaq caiu 2.2%. Então, para um investidor, essa mudança percentual realmente importa muito mais. Então, na verdade, foi muito pior para o Nasdaq do que para o Dow uma vez que você tem esse contexto. Mas também há outra parte do concurso, que é que o Nasdaq estar cheio de ações
tecnológicas são inerentemente mais voláteis do que a dúvida. Então um plus ou menos 2% do swing não é realmente fora do comum. Enquanto o Dow cair 1,2% em um único dia na verdade era um grande negócio naquela época. Então o ponto aqui é que o contexto pode não
ter apenas um pequeno efeito na interpretação do insight, ele pode realmente reverter completamente a interpretação. Aqui está outro exemplo que é meio baseado em nosso olhar anterior sobre treemap. Então, temos duas categorias de produtos em uma empresa de varejo, roupas
masculinas e femininas. E se você apenas olhar para a mudança percentual ano a ano nas vendas, você pode concluir que o vestuário masculino é como impulsionando a maior parte do crescimento para o negócio geral, assumindo que ambas essas duas categorias são aproximadamente do mesmo tamanho . No entanto, se você tiver o contexto de como essa porcentagem é calculada, seu público verá que a Pérola Mensa teve uma variação percentual muito maior com base em vendas de linha de base muito menores do ano anterior. que, novamente, é um comportamento muito comum nas vendas em que as categorias
menores terão mudanças por cento muito maiores. E é realmente o maior vestuário feminino aqui que está impulsionando o crescimento real do dólar tangível. Mesmo que como uma porcentagem do ano passado, não
parece tão dramático. Aqui está outro sobre contratos. Então aqui estamos olhando para duas métricas muito comuns do armazém da cadeia de suprimentos, Dr. Stock, que é quanto tempo leva o armazém para receber e
guardar sua mercadoria que acaba de receber do fornecedor e escolher o navio, que é quanto tempo leva para armazenar e empacotar um produto que ele deseja enviar para um cliente. Então, se você é uma cadeia de suprimentos tem para você pode olhar para essas duas datas e você tem uma idéia áspera de se estes são bons ou ruins ou sobre a média. Mas para alguém que não é um especialista, realmente não
há muitos contextos aqui
além de talvez comparar esses dois númerosum além de talvez comparar esses dois números outro e se perguntar por que escolher um navio leva quase o dobro do tempo do Dr. Stock. Então, a fim de fornecer mais contexto, temos algumas opções diferentes. Podemos comparar esses dois números com tendências históricas, como quais foram as métricas da semana passada? Ou se esta era realmente uma métrica sazonal, qual foi a comparação com o mesmo período de tempo do ano passado? Também podemos compará-los com outros benchmarks, como o número de dias. Em outros armazéns mais comparáveis ou o que é considerado o padrão da indústria para essas métricas. Também podemos compará-los simplesmente com seus objetivos e suas metas. Portanto, se estabelecermos uma meta das ações holandesas de hoje, estamos bem à frente do nosso objetivo. Mas se o nosso alvo for um dia, então estamos muito atrasados. Então o contexto pode ser tão simples quanto isso. E novamente, voltando ao início, nosso objetivo é permitir que nosso público rapidamente identifique inequivocamente os principais insights que vão ajudá-los com suas decisões de negócios. Uma maneira de fazer isso é fornecer-lhes os contextos certos que realçam sempre que algo está fora do normal. Outro tópico que eu quero abordar é a desordem carregada, que eu mencionei algumas vezes ao longo deste curso. Então aqui está um exemplo que eu encontrei na internet onde temos um gráfico de barras muito colorido que mostra a taxa anual de inflação em supermercados em diferentes cidades. E este é um pouco de um homem de palha porque você geralmente não vê gráficos que são tão ruins em termos de desordem. Mas para limpar isso, eu acho que podemos aplicar algumas das melhores práticas que cobrimos,
como uma, tornando os nomes das cidades mais fáceis de ler, tendo que as barras ser horizontais, para se livrar da cor 3D em barras, e se livrar da cores completamente porque eles realmente não transmitem qualquer informação adicional que não é já transmitida pelo comprimento das barras. E por último, também é uma boa prática fazer com que a ordem
das barras também esteja em uma ordem significativa. Agora há também um homem chamado Edward Tufty que é uma espécie de guru quando se trata de visualização de dados. E ele causou muitos livros sobre esse assunto. E uma das coisas que ele realmente se concentra mais do que qualquer outra pessoa é o quão longe você pode ir quando se trata de minimizar gráficos desordenados. Então o que ele pode preferir é algo mais parecido com isso, onde você se livrou de todos os seus eixos completamente, incluindo as linhas da grade e o contorno dos gráficos de barras. Em vez disso, você está apenas mostrando o comprimento das barras como cor de subtração para as marcas de porcentagem. Sua filosofia é que você quer mostrar a menor quantidade de tinta na página para que seu público possa focar sua atenção apenas na tinta que realmente desempenha um papel crítico e transmitir informações. Ok, o próximo tópico vai ser um breve sobre a seleção do esquema de cores. Então, há um site chamado ColorBrewer, que ajuda você a escolher o conjunto mais ideal de códigos RGB para cores que oferecerão o melhor tipo de contraste e em diferentes cenários. Portanto, aqui, por exemplo, estão as cores padrão das versões anteriores do Microsoft Office. E aqui está o que a mistura de cores recomendaria em termos de maximizar esse contraste quando você tem um gráfico de cinco cores. E isso provavelmente está se tornando um pouco menos relevante agora porque a maioria das salas de conferências agora estão equipadas com TVs de tela plana, que oferecem um contraste muito melhor. Mas nos tempos em que você vai fazer uma apresentação no escritório do seu cliente, você não sabe como
será a configuração e se eles vão ou não ter um projetor de alta qualidade realmente ruim em uma sala que está muito iluminado, então, neste caso, você deseja garantir que seu público ainda possa ler as cores do gráfico confortavelmente, certificando-se de que você maximiza o contraste. O último tópico é apenas sobre algum material de ousadia em recursos de drill-down. Então isso vai ser um pouco sofrer específico, que não é a intenção do curso. Não é uma lista exaustiva. Este é apenas um que eu quero mostrar para tentar fazer o ponto que ferramentas fantásticas de construção de painel como Tableau e PowerPoint, você tem a opção de não ajustar tudo na mesma página, mas você pode torná-lo interativo para que o público pode obter a imagem geral e, em seguida, clicar para
baixo para detalhar os detalhes em que está interessado. Então o primeiro é sparklines. E as faíscas são basicamente apenas um Minecraft. E a Apple faz isso lindamente em seu boné de estoque, mostrando um pequeno gráfico para cada estoque e como isso tem tendência ao longo do dia. E então, se você ficou intrigado com isso, você sempre pode aprofundar mais, clicar em um desses estoques e obter mais detalhes sobre as tendências reais que remontam mais do que um dia. Outro ótimo exemplo é o pop-up de rollover do mouse, que são chamados de dicas de ferramenta no tableau. Então este é um mapa que foi colorido por uma métrica específica. E, em seguida, se uma área específica do mapa lhe interessar, então você pode colocar o mouse sobre essa área. E eu vou te dar um pop-up onde você pode colocar muito mais detalhes, inclusive em um outro gráfico inteiro. Um comentário adicional que eu vou adicionar é que mesmo que este seja um curso sobre visualização de dados e design de painel, eu percebo que eu realmente não falei muito sobre mapas. Mesmo que eu esteja bastante surpreso com o quão prevalentes mapas são no painel. E isso porque minha opinião é que a menos que a questão de negócios que você está tentando abordar esteja especificamente relacionada a geografias. Como se você estiver construindo um painel em termos de logística, mapas realmente não adicionam nenhum valor real ou insight. Tudo o que ele faz é cãibras detalhes
nos principais centros populacionais e deixa muito espaço em branco em todos os outros lugares. Mas vou admitir que eles são muito populares e o público em geral tende a amar o Maps só porque eles parecem muito legais. Um último exemplo é uma alternância é que você pode usar para alterar para mais de métrica que você usa em uma página inteira no Power BI Esse é um aplicativo mais avançado de botões e marcadores. Então, neste exemplo, o que temos é que você tem o público que pode preferir olhar para o mesmo conjunto de números, mas sob moedas diferentes. Então, se o público não precisa fazer comparações entre essas moedas, então é uma prática recomendada apenas mostrar um desses três conjuntos de
números de cada vez usando este botão para permitir que o público alterne para frente e para trás, em vez de triplicar a quantidade de informações para a página, mostrando todas as três moedas. Então, o tema geral entre esses três recursos que eu quero apresentar é apenas para permitir que você oculte certas informações na frente da visão principal do seu painel, que então faz com que pareça muito mais limpo, mas ainda permitir que o público para detalhar mais detalhes nas áreas em que eles estão interessados. Ok, então esse é o fim para esta seção. E na próxima sessão vamos encerrar rapidamente.
7. CONCLUSÃO: Conclusão. Muito obrigado por fazer isso através deste mini-curso, segmentamos o tópico de visualização de dados nessas quatro seções, que eu vou dar crédito ao Professor Andrew Abella, nós olhamos para os prós e contras
do mais maneiras básicas e comuns de traçar nossos dados para abordar questões comerciais comuns. Também demos uma olhada em algumas dessas opções mais avançadas e em que situações vale a
pena trocar a simplicidade em favor de algo mais rico em informações. Tenha em mente que nosso objetivo é comunicar nossos insights de negócios de forma eficaz e objetiva. Em termos do processo para criar um novo painel e você relacionar ou uma análise ad-hoc. Focamos nosso tempo principalmente no passo número dois. Mas eu tenho que enfatizar novamente que seus esforços para aplicar o que cobrimos no passo número dois serão muito prejudicados se você não
passar por um trabalho muito minucioso de cobrir o passo número um. E na minha experiência, uma das maiores críticas para pessoas que são altamente treinadas e altamente proficientes nos aspectos técnicos
da análise é que eles não
entendem totalmente as questões de negócios e as necessidades de negócios. E, portanto, eles ou criam um produto muito inferior ou eles interferiram com o gerenciamento de mudanças necessário para garantir que o painel que eles criam seja usado e adaptado. Este é o primeiro prato que eu faço juntos. Portanto, qualquer feedback sobre o conteúdo ou a entrega será muito apreciado. Não estou a tentar pedir elogios, mas qualquer crítica construtiva será muito útil para mim. Incluindo se você estaria interessado ou não em qualquer um desses outros tópicos que eu considerei, que incluem a etapa número um, entender a questão de negócios, planejamento de
demanda e previsão. Como criar uma apresentação eficaz e slides do PowerPoint, que é o componente complementar da narrativa. E por último, a lista de estudos de caso envolvendo os tipos mais comuns de modelos de análise de dados usados no mundo dos negócios, como análise de cesta, segmentação de produtos, clustering de lojas, marketing. Muito bem, obrigado novamente e parabéns por terminar este curso. Espero que tenha achado útil.