Transcrições
1. Introdução: Oi, meu nome é Nicholas Felton. Sou um designer de informação baseado no Brooklyn. Meu trabalho atravessa uma variedade de projetos diferentes, mas todos eles são baseados em dados. Sou mais conhecido por uma série de projetos conhecidos como Relatórios Anuais Feltron, que analisam um ano da minha vida e encapsulam isso em gráficos,
gráficos e mapas, para descrever minhas atividades ao longo do ano. Eu também trabalhei para o Facebook ajudando a projetar a linha do tempo, que é claro que é uma agregação de seu histórico de postagens na superfície. Você pode ter visto minha aula anterior de Skillshare. Envolve o uso do processamento para fazer um mapa complexo de 34.000 ataques de meteoritos no planeta. Mas esta classe é uma prequela ou sequela, dependendo de como você a vê, e vamos rever os princípios gerais para fazer visualização de
dados de uma maneira menos técnica. Tenho trabalhado com dados como fonte de design nos últimos 10 anos. Comecei como designer gráfico geral trabalhando em revistas, sites
e logotipos. Em 2005, descobri que havia uma riqueza de informações no mundo, e eu poderia usar isso para descrever comportamentos e atividades e usá-lo como uma fonte para meus projetos. Ver o mundo através da lente de dados é uma maneira realmente convincente de ver o mundo. Seu projeto para esta aula é encontrar um jornal local, eu tenho usado o New York Sunday Times, e pegar uma seção desse jornal, seja esportes, negócios, mundo, ou até mesmo os anúncios e usar isso como um fonte. Isso é algo que você vai fazer uma pergunta, e então nós vamos criar uma metodologia para coletar informações a partir dela,
organizá-la, explorá-la
e, finalmente, transformá-la em uma visualização de dados. Eles terão o mesmo tamanho de uma folha deste jornal, e isso deve condensar a informação dentro dele. Então, olhando para esta visualização, você terá uma idéia do que toda a seção se comunica. Toda visualização de dados deve começar com uma pergunta. Então, ele deve responder a algo que você quer saber sobre o mundo. Não precisa ser preciso, mas pode ser apenas um palpite geral, ou hipótese, ou algo que você queira provar. Então, as melhores visualizações de dados são respostas para essas perguntas que você deixa, sabendo de algo novo, e elas podem ser realmente poderosas dessa maneira. Eu reservaria de um a dois dias para fazer este projeto. Dependendo da intensidade da captura de dados, isso pode levar até um dia. Então, depois disso, o layout pode se reunir relativamente rapidamente, mas eu vou desistir de cerca de um dia para trabalhar nisso também. Você pode querer refiná-lo depois, especialmente se você compartilhar e receber feedback. Eu acho que em um postagens ideais para a galeria para este projeto, Eu adoraria ver a pergunta inicialmente. Qual era a coisa que você estava tentando explorar ou a resposta? Nós não precisamos ver os dados, mas esboços ao longo do caminho, e então alguns dos refinamentos do gráfico como ele vai junto. Eu costumo ter um monte de pequenos momentos Eureka ao longo do caminho ou tipo, “Oh, essa coisa funcionou.” Eu acho que compartilhar essas dicas sobre como você foi capaz de transformar algo em outro pedaço de informação ou criar um gráfico ou uma visualização, isso seria realmente útil para outras pessoas. Todos poderíamos fazer exatamente a mesma seção do jornal, e eu acho que todos pensariam em algo completamente diferente, com um ponto de vista diferente ou desenhos diferentes. Então, desde que não estejamos distorcendo os dados, isso está aberto à sua criatividade e exploração. A grande coisa a ter em mente aqui é que existem regras para isso, mas enquanto você estiver ciente delas, está aberto para exploração.
2. Ferramentas necessárias: Uma das coisas que eu amo nesta tarefa é que qualquer pessoa em qualquer nível de habilidade pode participar nela. Claro, se você não pode colocar suas mãos em um jornal físico, provavelmente
é bom trabalhar fora da Internet. Só me preocupo que possa ser muito amplo lá. Eu gosto da idéia de ter um objeto físico que é confinado e assim você sabe exatamente os limites do seu conjunto de dados. Então, materiais básicos, eu diria absolutamente que você precisa do jornal, vai ser a fonte de sua informação, caneta e lápis talvez um marcador, possivelmente uma régua, definitivamente um caderno de esboços. Eu acho que esboçar é uma grande parte deste processo. Então, de preferência um laptop ou um computador e algum conhecimento de planilhas. Então, esta é uma ótima maneira de organizar seus dados uma vez que você retirá-los e , em seguida, acesso à Internet para algumas das ferramentas on-line que estaremos analisando. No nível intermediário, acho que há ferramentas mais avançadas baseadas na Web que você pode usar. Há também as ferramentas de design típicas, como Adobe InDesign e o Illustrator, que serão realmente úteis para criar seus próprios gráficos. A planilha é algo que eu confio muito, mas não é algo que todos já experimentaram e também atende a uma gama de habilidades diferentes, desde iniciante até avançado. Para ferramentas online baseadas na web, eu tenho vários recursos, alguns dos quais vamos olhar nesta classe, e então mais links que estão disponíveis para você jogar. No final avançado da escala, há coisas como usar bancos de dados, consultá-los, usar ferramentas on-line que têm APIs para obter dados extras que complementam suas informações
e, finalmente, tocar em um pouco um pouco de código. Então, para pessoas que estão confortáveis nesse mundo, há muito que pode ser feito para fazer novas visualizações.
3. Faça uma pergunta: Há muitas oportunidades para mergulhar em uma seção que você pode não saber muito sobre. Eu acho que você pode trazer um interessante ponto de vista ingênuo para essa seção. Eu não sigo muito esportes, então eu acho que quando eu olho para a seção de esportes, eu tendem a olhar para ele de uma remoção adicional. Você pode imaginar pegar a seção de esportes e transformá-la em um mapa mostrando onde os jogos aconteceram e quais foram as pontuações. Mas você também pode pensar em questionar algumas das escolhas que o jornal fez. Uma abordagem muito jornalística para olhar para o jornal seria testar uma hipótese. Então, por exemplo, olhando para a seção de imóveis, você pode perguntar, onde está o imóvel mais caro em sua cidade? E escolha mapear os preços de diferentes imóveis em torno de sua cidade ou estado que o jornal cobre. Uma forma de criticar o artigo pode ser analisar o gênero ou a diversidade no jornal. De quem ele está falando, ou de quem está falando no jornal? Estas são maneiras de mergulhar sob o capô e começar a investigar a voz do jornal. Formalmente, você poderia olhar para as escolhas estéticas do jornal como é cor versus preto e branco usado no jornal. Além disso, você poderia olhar para a relação de tamanhos de tipos, você poderia olhar para os anúncios para as fotografias e, em seguida, começar a fazer uma comparação ou uma auditoria do jornal apenas através dessas escolhas estéticas. Uma abordagem mais tradicional de visualização de dados pode ser simplesmente traduzir os dados do formato de uma tabela ou do que você encontra no próprio artigo, em algo como gráficos que descrevem a mesma informação ou um mapa do pontuações esportivas em todo o país. Acho que as melhores perguntas aqui, geram mais perguntas. Você continua se aprofundando e descobrindo mais coisas sobre as quais
você está curioso e fazendo mais perguntas. Em última análise, a visualização é a resposta a essas perguntas. A primeira coisa que fiz foi comprar uma edição de domingo do New York Times, agradável e grosso e tem algumas seções únicas que não existem para o resto da semana. O que comecei a fazer foi passar por ele. Estou começando a procurar padrões, pontos de conexão entre diferentes artigos dentro dessa seção. Comecei a olhar para a seção de esportes e
notei que os ferimentos eram uma grande parte do artigo. Então eu estava pensando, talvez eu pudesse olhar para o jornal através desta lente de ferimentos. Como uma seção de esportes se
parece quando você está focado em lesões diferentes, então quebrando por esportes, eu também estava pensando para a seção de esportes talvez uma maneira crítica de olhar para isso é apenas, quanto espaço eles dedicaram a cada esporte? Outra maneira de olhar para ele não é apenas pelas equipes, mas pelas regiões e como Nova York pode ter marcado 80 pontos contra a Califórnia marcando 240 pontos. Em última análise, acabei olhando para a revisão do livro. Eu gostei da revisão do livro porque há um número limitado de livros, cada um dos artigos é estruturado e é apenas falar sobre uma coisa. Então, ele tem um autor, tem um gênero para ele como não-ficção ou ficção, ele tem números de página. Uma das perguntas que eu estava olhando são apenas os editores. Então, eu sei que há um número limitado de editoras no mundo fazendo livros, então talvez haja um viés aqui que possa ser interessante de se olhar. Então a pergunta aqui seria, como
é a revisão do livro quando você analisa através da lente dos editores? Claro que você poderia comparar e
contrastar o editorial versus a publicidade na seção. Em última análise, enquanto eu estava lendo alguns desses artigos notei que há muita menção de lugar neles. Mesmo em algumas das descrições mais breves dos livros, diferentes lugares começaram a ser mencionados como México e Índia. Então o tempo também era um grande componente. Então a pergunta que eu comecei a formular foi em torno de, como é a revisão do livro através desta lente de tempo e espaço? Como eu estava olhando para esta questão de como tempo e espaço se relaciona com os diferentes títulos de livros na revisão do livro, ele abriu essas outras perguntas que eu queria descobrir. Um exemplo seria, se uma guerra é mencionada incluo o lugar onde a guerra aconteceu e o ano? Isso é uma menção de tempo e lugar? Há também as diferentes categorias de livros. Então você pode começar a olhar lá. Como os tempos e lugares envolvidos na ficção se relacionam com a não-ficção. Uma vez que você veio acima com uma pergunta eu acho que é realmente importante para fazer uma leitura atenta de alguns dos artigos para
ter certeza de que há pontos suficientes de conexão e respostas
suficientes para esta pergunta em cada peça. Então, quando eu comecei a olhar o tempo e o espaço na revisão do livro, eu li alguns artigos e comecei a destacar os anos e os lugares envolvidos, e certificando-se de que eu iria acabar com um conjunto de dados que era grande o suficiente para trabalhar. Eu acho que se você está encontrando apenas dez conexões ou dez pedaços de dados, provavelmente vai ser do lado fino. Eu acho que devemos estar apontando para cerca de uma centena de pontos de conexão é provavelmente um conjunto de dados de bom tamanho para trabalhar com. Acho que são formas puramente visuais que você pode abordar este problema também. Você poderia olhar estritamente para as fotografias, apenas para os rostos ou para os locais representados nas fotos. Mesmo olhando formalmente para as escolhas de cores em cada uma
das fotos eu acho que é uma maneira completamente válida de analisar o jornal. Tenho a minha pergunta de como o tempo e o espaço são representados na revisão do livro, estou confiante de que haverá dados suficientes para coletar e explorar. Na próxima seção, vamos investigar como realmente obter esses dados do jornal e para o computador.
4. Obtenha os dados: Neste ponto, você selecionou sua seção do jornal e tem uma pergunta em mente. Isso deve significar que você está indo para ir artigo por artigo ou página por página através da seção e começar a retirar o que você precisa, para responder a essa pergunta. No meu caso, eu estava realmente interessado em destacar todos os lugares e datas que ocorreram no jornal. Então, eu puxei esses dois marcadores fluorescentes e passei por cada artigo, pouco a pouco, destacando em uma cor os lugares e destacando no outro, a data. Você pode passar por isso simplesmente com uma única caneta de cor ou um único lápis de cor e apenas sublinhar as coisas importantes que você vai estar puxando para fora, ou apenas marcar que você gravou eles ao riscá-los. Você também pode ir on-line e obter o texto para o site e, em seguida, fazer uma análise mais automatizada do mesmo. Se você estava apenas procurando palavras únicas ou talvez cada número que foi mencionado
nele, pode ser realmente fácil apenas fazer um “encontrar”
no texto e obter cada uma dessas instâncias. Uma das razões pelas quais eu gosto de trabalhar manualmente desta forma, é porque você começa a conhecer os dados tão bem. Li todos os artigos aqui pelo menos duas vezes. Então, eu tenho um bom entendimento de seu conteúdo. Eu acho que é bom trabalhar em um formato digital e fazer análises
mais automatizadas usando, digamos, outras APIs. Mas quando você está aprendendo a visualização de dados pela primeira vez, sinto que ter essa compreensão íntima das informações
com as quais você está trabalhando realmente valida a maneira como você a traz à vida mais tarde. É realmente útil para encontrar os erros e as falhas nele. Tentar coletar muito,
muito rapidamente pode levar a colapsos
catastróficos, já que você leva quatro horas para passar por um único artigo. Então, comece minimamente e construa mais tarde. Assim que você estiver pronto para começar a capturar essas informações, eu recomendaria colocar isso em pelo menos um editor de texto, se não em uma planilha. Isso vai manter as coisas bem organizadas e fornecer-lhe muita flexibilidade para fazer algumas análises mais interessantes no caminho. Você também pode considerar algo como formulários do Google, esta é uma maneira de tentar obter informações mais subjetivas. Então, você pode imaginar criar uma pesquisa e pedir às
pessoas para ler o jornal ou olhar para as imagens nele, e descobrir o que um grupo de pessoas pensa sobre o artigo que leu ou a foto que estão consumindo. Para capturar as informações de que preciso para a visualização em que estou trabalhando, primeiro
destaquei as datas e os locais que encontrei em cada artigo na revisão do livro. Em seguida, usei o Numbers da Apple para organizar todas essas informações. Então, eu criei uma pequena planilha aqui onde eu estou capturando o nome do livro, o autor, o lugar que eu encontrei e, em seguida, uma data de início ou uma data de término, se houver um, e a página. Eu também acho que é muito importante manter o controle de suas fontes. Então, as maneiras pelas quais estou fazendo isso estão marcando a página em que eu encontrei. Eu também estou usando apenas um pouco de texto de referência de que ele veio. Então, aqui, onde eu tenho a Itália em 1943 como os lugares, eu acabei de escrever a pequena frase “Norte da Itália em 1943". Esta é uma boa maneira de apenas validar seu trabalho, não ficar confuso ou perdido enquanto você passa por ele. À medida que você está criando uma planilha, é muito importante que nessas colunas diferentes, você esteja coletando apenas as mesmas informações. Então, você não está misturando, digamos, texto e números na mesma coluna. Isso provavelmente significa que você precisa de uma coluna extra. Eu diria que, em geral, há provavelmente três tipos diferentes de informação que você deveria estar gravando aqui. Um seria uma coisa binária, um booleano em código, mas poderia ser apenas um sim ou um não. Uma pessoa é casada? Sim ou não, ou é no exterior? Sim ou não. Então outro tipo de informação seria um número. Isso pode ser decimal, positivo ou negativo, um inteiro. Mas todos eles devem estar em sua própria coluna. Para mim, estes são os anos. Então, finalmente, apenas uma mensagem. Para mim, estou capturando o nome dos lugares. Então, em toda essa coluna, eu só tenho palavras falando sobre os diferentes países ou cidades envolvidos. O número de colunas provavelmente não é super importante, mas certamente o número de linhas. Então, o número de entradas que você tem, ele vai ter um grande impacto no projeto que você vai ser capaz de criar. Eu diria que vamos querer apontar para cerca de 100 linhas de dados. Isso nos dará uma boa quantidade de complexidade, mas ainda assim nos permitirá trabalhar manualmente e fazer algo à mão ou usando uma ferramenta online.
5. Explore os dados: Nesta seção, vamos começar a explorar seus dados. Vejo que este é um processo cíclico em que estamos chegando a entendê-lo, estamos limpando-o, potencialmente estendendo-o adicionando mais dados a ele, e envolve muitas ferramentas. Não sou perito em nada ou em tudo isso, mas sei o suficiente para sobreviver. Eu acho que você pode escolher e escolher com quais partes você quer trabalhar. Então, eu acho que inicialmente, é útil olhar para a nossa planilha. Eu tenho um monte de guias diferentes aqui porque eu estou versionando a planilha enquanto eu adiciono informações a ela. Às vezes estou removendo colunas, mas estou tentando fazer isso de uma forma estruturada, onde posso sempre voltar e corrigir erros ou fazer as coisas de novo e entender como cheguei ao resultado final desde o início. Então, eu tenho meus dados iniciais, eu acabei capturando cerca de 368 linhas diferentes. A primeira coisa que estou fazendo é refinar meus dados um pouco. Eu tinha uma coluna de localizações inicialmente e decidi que seria fácil e
útil dividi-lo tanto na cidade como em uma região e em uma coluna de país. Por exemplo, onde tenho Berlim como cidade mencionada, agora
tenho a Alemanha como país. A primeira coisa que eu queria fazer era apenas ter uma idéia de quantas vezes coisas diferentes estão sendo mencionadas. Para um deles, eu queria ver quantas entradas diferentes eu tenho para cada um dos meus livros. Infelizmente, isso não é algo que eu encontrei para ser fácil de fazer em uma planilha e então eu tenho um par de maneiras que eu posso fazer isso. Normalmente, eu usaria um banco de dados, mas eu descobri que há um tipo de maneira fácil, rápida e muito acessível de conseguir uma contagem em algo, o que eu vou mostrar agora. Então, na minha coluna que tem todos os títulos de livros, eu vou apenas selecionar tudo isso e copiá-lo para um novo arquivo de edição de texto. Então, agora eu colei tudo isso e eu
preciso apenas me livrar do título aqui que diz livro. Eu vou fazer um Find and Replace sobre isso para remover todos os espaços, basicamente para concatenar todas as palavras diferentes em uma coisa, então cada título de livro será apenas uma palavra longa. Agora, estou fazendo uma busca e substituição para cada espaço e substituindo-a por nada. Então, agora, segurá-los é segurá-los. Eu vou copiar isso e levá-lo para um site que eu uso muito. É um contador de frequência de palavras neste site chamado WriteWords. Então, basicamente, vou perguntar a este site quantas vezes cada uma dessas palavras aparece? Eu colo no texto da minha área de transferência que veio desse arquivo de texto e eu o envio. Agora, eu tenho contagens totais em cada um dos meus títulos e eu posso fazer isso para outras categorias. Eu posso começar a olhar dizer para os países que são usados aqui
copiando-os e colando-os neste arquivo TextEdit e fazendo minha substituição novamente. Agora, eu posso descobrir qual país está aparecendo mais no meu conjunto de dados e isso me diz que é Índia e Alemanha empatados em 36. Então, essa é uma maneira rápida de começar a ter um pouco de uma noção do que está acontecendo neste conjunto de dados. Outro site que eu realmente gosto é chamado CartoDB. Você pode criar uma conta gratuita aqui. Vou entrar na minha conta. Esta é principalmente uma ferramenta para transformar um conjunto de dados em um mapa. Isso pode ser interativo, mas são ótimas maneiras de entender seus dados e até mesmo exportá-los como um arquivo vetorial para o Illustrator. Então, eu tenho meus dados iniciais carregados aqui. A maneira como isso funciona é que você pode ver os dados e, em seguida, representá-los como um mapa. Então, esta é uma exibição de tela dividida e ele vai me mostrar tanto a visualização de dados. Então, esta é efetivamente a minha planilha. Novamente, a maneira que eu trouxe os dados para o CartoDB é pegando minha planilha e explorando tudo como um arquivo CSV. Então, eu vou salvar isso no meu computador e, em seguida, no CartoDB. Posso clicar neste botão para um novo conjunto de dados. Aqui ele vai pedir um arquivo de texto. Então, eu só vou arrastá-lo. Agora é apontado para que aquele arquivo de dados que eu acabei de criar, esse é chamado de dados iniciais. Então, eu estou carregando isso para CartoDB agora e ele vai me
dar esses dados iniciais como uma tabela e, em seguida, algo que eu possa trabalhar com mais detalhes. Então, aqui você pode ver que é trazido neste conjunto de dados, tenho meus anos, minhas localizações. O outro lado do CartoDB é este Mapa View. Quando eu clico na aba Visualização de Mapa, ele está me dizendo que eu não tenho referências geográficas. Isso significa que tenho os nomes dos lugares, mas ainda não os entende como locais. O que é realmente bom é que eu posso dizer para simplesmente mapear o que eu dei a ele. Então, eu tenho nomes de cidades, regiões
administrativas que são como países. Então, eu vou dizer a ele para pegar as regiões administrativas do meu conjunto de dados e tentar mapeá-las. Só preciso de lhes dizer em que coluna aparecem. Eu tenho uma coluna País, então eu selecionei isso e apertei Continuar. Clique nesta georeferência com regiões administrativas e ele funcionará por um minuto, mas isso deve me dar um mapa do que eu tenho até agora. Ele me disse que 230 das minhas 368 linhas foram geo-codificadas. Se eu clicar no botão Mostrar, vamos ver se eu clicar na Vista de Mapa agora, lá vamos nós. Então, esses são os países que foram mencionados no meu conjunto de dados e parece que há alguma coloração acontecendo aqui. Então isso está tentando me mostrar quais são os mais mencionados. Então, estou começando a ter uma noção dos meus dados descobrindo quais coisas estão sendo mencionadas mais, entendendo o número de registros dos meus livros, e onde as coisas estão geograficamente. Outra maneira de começar a entender seus dados é usar as ferramentas de gráficos que já existem na planilha. Se você tem isso aqui, você pode pegar qualquer dado numérico e começar a criar um gráfico a partir disso. Então, eu tenho uma coluna aqui que é a minha data de início. Se eu selecionar isso, posso fazer um gráfico e usar esta ferramenta de gráfico de linhas. Há algumas coisas que eu entendo aqui eu posso ver que ele está me dando um intervalo de 0-2100, então ele está seguindo o intervalo dos anos que eu dei a ele. O que é útil ver aqui é que há uma grande quantidade de coisas perto do topo, então a maioria das coisas que eu vou estar interessado é provavelmente no século XX. Com alguns outliers que são que estão voltando para uma espécie de idade média como os 12 centésimos aqui. Acho que eram referências ao Renascimento que estavam no meu conjunto de dados. A coisa boa sobre o CartoDB é que você pode mergulhar diretamente em consultas MySQL básicas sobre os dados que você já carregou aqui. Então, se voltarmos para a exibição de dados, há uma pequena guia disponível aqui agora chamada SQL. Isso me permitirá fazer alguns dos agrupamentos que eu estava fazendo usando o contador de frequência de palavras, mas diretamente no meu conjunto de dados e sem nenhum dos atalhos como remover todos os espaços. Vou mostrar-lhe um pequeno padrão que será realmente útil apenas para obter contagens de coisas em geral. Este é o padrão do MySQL que você diz o que você
quer selecionar e você dá um nome de coluna, eu quero coletar os países. Então, eu escrevo país e então eu quero outra coisa que é a contagem de quantos países existem. Então, isso diz apenas contar tudo da tabela um e eu quero agrupá-lo
pelo país e, em seguida, ordená-lo pela contagem em ordem decrescente. Então, isso vai me dar a maior contagem primeiro e a menor contagem no final. Se eu aplicar a consulta, agora posso ver que tenho 67 sem país, 36 com Alemanha, 35 com Índia. Então, você pode aplicar isso a qualquer uma das colunas apenas mudando o país, para o título do livro ou para criar e executar novamente o mesmo padrão repetidamente. Até agora, nós olhamos para um par de coisas, nós olhamos para uma maneira realmente fácil de usar a freqüência de
palavras para descobrir quantas vezes algo aparece em seu conjunto de dados, a conveniência do CartoDB para começar a mapear coisas realmente facilmente, fizemos isso em nível nacional, mas você pode fazer isso para cidades também. Então apenas agora em uma rápida olhada no MySQL que eu achei realmente útil para descobrir coisas como frequência de palavras e categorias contagens.
6. Amplie os dados: Agora vamos passar para estender o conjunto de dados. Então, como você se familiarizar com tudo que você pode querer adicionar mais informações de outras fontes. Estou interessado em obter dados de localização mais detalhados para os lugares que eu olhei. Para fazer isso, vou usar a combinação do Google e da Wikipédia, mas há outros lugares que podem ser úteis para você encontrar informações adicionais para o seu conjunto de dados. Posso mostrar-lhe alguns desses muito rapidamente. Na próxima guia da minha planilha, vou começar a adicionar informações de latitude e longitude para cada um dos locais que apareceram. Isto vai permitir-me fazer um mapeamento muito mais preciso no futuro. Para fazer isso eu basicamente organizei todos os meus lugares por cidade ou país qualquer informação que eu tenho disponível. Porque não tenho tantos, decidi fazê-lo manualmente. Então, eu estou fazendo coisas como copiar esta menção de Auschwitz para o navegador e isso vai me levar para a página da Wikipédia e de lá geralmente cada lugar tem este pequeno link de
coordenadas aqui no barra lateral direita. Então, clicando sobre isso, eu posso ir para esta página que tem muito bem formatado da maneira que eu quero, que tem dois decimais. Nós temos 50,03, eu vou copiar isso e colá-lo na minha planilha e 19.178. Então copie isso. Basicamente eu só fiz isso para tudo, mas agora isso me permitirá usar outras ferramentas de mapeamento ou até mesmo processamento para começar a mapear esses locais. Outra forma de geocodificar é usando o Google Maps. Por exemplo, se eu digitar em Turim, Itália no meu navegador. Ele vai me mostrar onde isso existe no mapa e então se você apenas clicar em algum lugar e você disser o que está aqui? Ele vai realmente dar-lhe esta pequena janela na parte inferior que
lhe diz a latitude e longitude para o lugar. Isso pode ser muito útil para identificar lugares
realmente específicos, como um restaurante ou um edifício que possa ser mencionado. Uma API é uma interface de programa de aplicativos tecnicamente, mas é como os plugues na parte de trás do seu videocassete. Então, é assim que você pode se conectar a um serviço. Algumas das coisas que estou mostrando são feitas para serem integradas em outros aplicativos, mas o que é bom sobre eles é que eles oferecem um front-end. O ponto de entrada do consumidor onde você pode jogar com eles e testar seu software sem ser um desenvolvedor e sem se comprometer a construir um pedaço de software personalizado. Eu vou fazer um pouco de análise de texto sobre os artigos em vez de passar por isso manualmente. O que eu faria é ir ao New York Times. Então, a fim de trabalhar digitalmente com o texto da seção de revisão de livros, eu simplesmente procuraria os artigos que são mencionados
na versão física do artigo e puxá-los aqui. Então, o primeiro artigo foi sobre os trabalhos completos de Primo Levi. Eu vou puxar para cima este artigo e tentar e obter o texto e apenas para mostrar a você ele pode parecer em uma dessas APIs de análise de textos. Eu estou pensando que uma maneira fácil de tirar isso é ir para o botão de impressão e apenas copiá-lo para fora como um PDF. Então, se eu abri-lo na visualização do PDF, ele tira toda a formatação que eu não preciso e eu posso simplesmente copiar tudo isso e eu
vou colar isso em uma sessão API Alchemy. Então, no site da API Alchemy, vou tentar a demonstração e quero carregar um texto de exemplo. Acabei de copiar o artigo do Primo Levi e colá-lo no campo de texto de demonstração deles e vou tentar. Então, vamos ver o que me dá aqui. Identificou Levi e Primo Levi como as pessoas mais importantes lá. Ele retirou Auschwitz, o que foi muito formativo em sua vida. Sua experiência lá como muito relevante e, claro, muito negativo. O New York Times está sendo puxado para cima porque eu acho que eu incluí um texto de rodapé lá. Mas se eu tivesse limpado um pouco o texto, esta poderia ser uma maneira realmente útil de obter alguma análise quantitativa dos artigos envolvidos. Eu também percebi que, a fim de conectar tempo e lugar, eu poderia querer essa idéia de um ano médio para tudo. Há o ponto de partida. Então, eu criei uma nova folha e aqui para cada livro, eu estou apenas pegando todas as menções de anos que eu tenho e
calculando-os juntos para obter um ano que será o ano de base que eu posso usar na minha visualização apenas em caso não havia uma hora e um lugar que foram mencionados ao mesmo tempo. NewsDiffs é um site muito interessante que certamente se relacionam com este projeto como eles mantêm o controle de artigos e como eles mudaram ao longo do tempo. Então, você pode imaginar pegar sua seção de artigos do New York Times e começar a ver quais edições foram feitas desde que eles inicialmente publicaram e começar a visualizar isso. Aqui podemos ver o obituário de um famoso diretor russo e você pode ver como ele mudou nas últimas 24 horas. NewsDiffs seria muito útil para olhar para a parte da frente do jornal. Estes são provavelmente os artigos mais controversos e mais até o minuto estão sendo mantidos e provavelmente estão sendo corrigidos continuamente. Então, eu imagino que você poderia ver um monte de atividade em notícias de última hora como eles emergem se você
optar por fazer a parte da frente do jornal e há uma grande história que aconteceu ao longo da semana, Eu acho que você pode encontrar algumas coisas realmente interessantes acontecendo à
medida que o artigo se expande e como pedaços dele são alterados horas extras. Imager, é outra API e esta é útil para olhar para imagens. Na demo você pode jogar com isso por si mesmo, mas você pode carregar uma imagem e, em seguida, ele vai tentar identificar o que está dentro dela. Aqui na demo eu estou usando sua foto de um lobo e ele está voltando com 100 por cento lobo, 100% lobo de madeira, 100% canino e você pode imaginar dando essas fotos de lugares ou pessoas que estão associados com o artigos e começar a usá-lo como uma forma consistente e repetível de analisar imagens. Apenas para outro experimento, isso está fora do escopo
do projeto que estou fazendo, mas estou curioso o que a API de imagem dirá sobre esta imagem de Primo Levi. Vou ao site de imagens. Então, aqui me dá loja, biblioteca, livraria, edifício, estabelecimento mercantil, estrutura, local de negócios, casa, adultos e pessoas. Um pouco preciso. Se você obter o suficiente destes espero que a precisão constrói, mas este é os primeiros dias para esta tecnologia. Finalmente, esta outra ferramenta. É interessante apenas como uma forma formal de analisar as cores e imagens. Então, se você olhar para a seção de viagens você pode notar que há muitos azuis e verdes de praia lá e talvez você esteja interessado em quantificar isso. Então, dando essas imagens ele vai voltar para você e dizer-lhe quais são as cores mais proeminentes com valores
realmente numéricos difíceis para ir junto com ele que pode ser interessante olhar em sua análise do jornal. Portanto, antes de nos envolvermos na visualização desses dados, explorá-los, familiarizar-nos com eles, limpá-los e até mesmo estendê-los é uma parte muito importante do processo. Isto também é cíclico. Então, ao olharmos para as coisas, podemos descobrir que precisamos de mais informações. Então, um local pode querer uma latitude e longitude para ir com ela para
nos ajudar a graficá-lo ou os dados que coletamos talvez muito precisos. Então, se você coletou 100, 200 nomes de cidades, talvez precisemos categorizá-los por país ou estado para poder fazer
uma visualização que seja mais ampla e mais acessível. Eu acho que começar a visualizar os dados e obter uma noção da sua forma, é uma coisa realmente importante a fazer antes de adicionar uma tonelada mais dados extras a eles. Enquanto eu estava trabalhando em meu projeto, descobri que o maior trabalho que eu precisava fazer e refinar estava nos dados de localização. Eu tinha mencionado alguns lugares que eram amplamente diferentes de cidades, países, até mesmo áreas como o Ocidente. Estes precisavam ser mais precisos e , finalmente, eu precisava encontrar coordenadas para eles. Então, eu tive que procurá-los em latitude e longitude. Isso significava adicionar um par de colunas diferentes e começar a estender os dados a esse respeito.
7. Esboce e projete o layout: Felizmente, você tem uma idéia de onde você quer levar sua visualização. Você estendeu os dados e encontrou algumas coisas interessantes sobre eles. Agora, é uma boa hora para
recuar e pensar sobre toda a página que vamos expor. É aqui que esboçar se torna realmente importante. Adoro sentar-me neste ponto com meu caderno e apenas bloquear para onde os elementos estão indo para ir. Este é um momento para certificar-se de que todas as diferentes dimensões do conjunto de dados serão representadas. Essa também é uma chance de começar a esboçar na visualização. Tente descobrir quais aspectos do conjunto de dados vão entrar em jogo e evoluir os formulários que você vai usar mais tarde. Eu acho que o fluxo narrativo
ao longo da visualização é algo que é realmente crítico. Então, como você coloca as pessoas em seu documento e, em seguida, movê-las através dele. Eu gosto de ter um ponto de entrada que vai dizer a eles o quadro geral e, em seguida,
mover lentamente para mais e mais detalhes enquanto eles lêem o gráfico. Com a revisão do livro em si, eu vou fazer a visualização que vai ser do mesmo tamanho desta página. Então, eu realmente vou pegar algumas dicas dele. Eu acho que incorporar o título no gráfico do New York Times poderia ser útil como uma forma de introduzir rapidamente as pessoas o que é isso, e então usar algumas das margens vai ajudá-lo a se sentir um pouco como o material de origem. Então, eu estou fazendo alguns esboços agora para descobrir a relação áspera dos elementos na minha página. Quero que este gráfico tenha proporções semelhantes à própria revisão do livro. Eu sei que eu quero repetir o título da revisão do livro, em cima. Para lhe dar contexto. A questão agora é como eu quero colocar o meu grande gráfico. Eu realmente acho que porque eu quero usar algumas informações cartográficas aqui e o mundo é, mais largo do que é alto na maioria dos mapas, e eu realmente quero reservar uma grande seção no meio superior para este mapa. Então, eu tenho meu título e na parte inferior, eu quero um par de colunas para mostrar alguns começos gerais sobre o próprio conjunto de dados. Aqui em cima, é aqui que eu vou começar a pensar sobre o que eu quero colocar aqui. Eu quero colocar um mapa de onde todos os livros estão falando, ou eu quero fazer algo mais abstrato. Eu acho que depois de olhar para os dados no CartoDB, eu quero começar a empurrar este gráfico em outro lugar. Uma das coisas que notei é que os dados não tendem a ser representados na América do Sul ou na África. Então, pensando sobre este gráfico, eu quero manter essa idéia da longitude. Então, onde as coisas estão acontecendo na América, na Europa e na Ásia, mas então para essa dimensão, eu estou pensando em usar o tempo porque isso é o que eu tenho coletado e como eu tenho começado a pensar sobre isso . Eu noto que há muitos livros da Segunda Guerra Mundial que eu acho que seria na década de 1940. Há alguns livros presentes que estão falando sobre a Coreia do Norte então eles podem estar aqui em cima, há aquele livro que fala sobre os dinossauros, mas não tem muitos locais. Então é meio que indo direto para o início e eu acho que é assim que eu quero jogar com os dados e construir
o sistema
para que eu possa começar a ver como os dados realmente se encaixam no meu layout. Um bom ponto de partida pode ser apenas escrever na página onde você está indo para esboçar, quais são as diferentes dimensões de dados que eu tenho. Não acho que a latitude seja tão importante. Eu acho que longitude é nomes muito mais interessantes dos livros, obviamente, os anos, e eu realmente não vou me concentrar nos autores porque eles são tão únicos quanto os livros. Então, eu tenho essas três dimensões e eu acho que a grande questão agora é descobrir como colocá-los na página. Se eles não se relacionassem um com o outro ou eu não conseguisse descobrir uma visualização que combinasse todos eles, eu diria para a página, eu vou dividi-lo em três seções. O topo pode ser sobre longitude, o fundo pode ser cerca de anos e cada um deles iria falar sobre os livros. Mas eu acho que eu tenho uma maneira de combinar tudo em um gráfico, que vai ser realmente convincente. Então, configurou um documento do InDesign. Aqui, eu tenho algumas margens do próprio jornal, e esse será o meu ponto de partida. Isto irá estabelecer onde as minhas caixas de texto vão para baixo do gráfico em si. Para fazer isso, vou apenas criar uma caixa de texto e dar-lhe quatro colunas. Eu vou dobrar a sarjeta para dar uma medida mais confortável, então isso deve ser bom. Basicamente, eu só vou usar o que ele me diz é a largura das minhas colunas aqui e para criar quatro caixas de texto diferentes. Então, eles são dois e um quarto polegadas, eu vou excluir esse e então apenas fazer um novo, que tem a largura que eu quero de dois e um quarto
e, em seguida, fazer quatro desses para caber em toda a página, e para estabelecer minha grade e, em seguida, definir minhas regras com base no local dessas caixas de texto. Então, isso vai configurar minha grade horizontal que vai tornar muito mais fácil para alinhar objetos. Agora, eu tenho quatro caixas de texto. Eu também gostaria de uma grade vertical, novamente que me ajuda a fazer unidades que são do mesmo tamanho para que eles possam ser movidos muito, e isso vai me ajudar se eu precisar equilibrar minha história, ou mover elementos ao redor. Todos eles têm a mesma altura e peso para que possam ser trocados como eu preciso. Eu só vou fazer essa grade vertical de 10 unidades, então eu estou fazendo uma caixa que se encaixa dentro das minhas margens e eu vou fazer 10 por cento da altura, e apenas definir minhas réguas lá para quebrar a página. Eu acho que o gráfico principal vai ser a maior parte da página. Isso me permitirá adicionar um monte de detalhes lá e porque meu conjunto de dados tem tipo de grande mais de 300 pontos de dados, eu posso precisar do espaço e da resolução para comunicar os dados. Minha grade de 10 unidades está pronta e eu tenho algumas caixas de texto aqui, eu vou apenas tipo de arame isso para me dar uma idéia de onde tudo está indo para ir. Esta caixa representará onde meu gráfico vai, talvez, eu não sei. Vai ser cerca de dois terços da página e então eu
digitalizei o título da revisão do livro, então eu vou colocar isso em cima apenas para dar uma noção da escala, e então essas serão minhas caixas de texto. Então, eu vou resolver isso com algumas estatísticas rapidamente. Então, eu meio que tenho minha estrutura áspera que está combinando meu esboço e isso é um bom ponto de partida. Se você tem alguma idéia agora sobre alguns
dos pequenos detalhes que você quer colocar aqui coisas vieram à mente. Agora, há um bom lugar para colocá-los no layout, e para começar a capturar suas idéias enquanto você esboça.
8. Visualização: ferramentas e design: Estou de volta ao CartoDB, e enviei minha versão mais recente da planilha. Isso tem latitude e longitude para todos os lugares que estou discutindo e informações para os anos. De volta à visualização de mapa, eu criei essa nova visão, em vez de usar a abordagem simples, no Assistente de camada de mapa, e nós temos essa category.type. Isso fez um ótimo trabalho ao me ajudar a entender meus dados. Então, depois da última vez que eu estava olhando para ele e eu estava apenas vendo os países, eu entrei e adicionei um pouco mais de detalhes a ele, que me permitiu trazê-lo de volta e ver as coisas com mais clareza. O que é ótimo agora que eu tenho tudo até pontos e não apenas países, é que eu posso ver cada ponto está associado com o livro. CartoDB tem cor revestida isso, então eu posso agora ver esses aglomerados roxos todos têm a ver com, Hell and Back, e esses aglomerados vermelhos são todos India At War. Isso é realmente útil e eu posso até exportar isso
agora e trazê-lo para o Illustrator e começar a jogar com esses marcadores. Novamente, CartoDB me permitirá exportar isso como um SVG, que eu posso abrir no Illustrator. Então, isso é realmente interessante, isso está me ajudando a entender meus dados um pouco melhor, e me levando para onde eu quero ir. Mas, um mapa é um pouco limitado demais para onde eu quero ir, em meus esboços eu tenho explorado essa idéia de me livrar da latitude. Então, apenas mostrando onde os itens caem na largura do mapa e usando o tempo como uma dimensão vertical. Então, CartoDB é muito casado com a abordagem do mapa, então eu não vou ser capaz de explorar esta idéia mais longe aqui. Então, eu vou para um aplicativo diferente para jogar com esses dados. Há uma série de ferramentas on-line que permitem que você carregue seus dados e jogue com eles para fazer gráficos de barras e gráficos de dispersão, treemaps, todo esse tipo de coisas, e todos eles têm diferentes vantagens e desvantagens. Então, alguns funcionam muito bem para certos tipos e não tão bem para outros. Um que eu descobri que estava funcionando bem para explorar este conjunto de dados era uma ferramenta chamada RAW por design de densidade. Você só começa com este campo de texto vazio, e o que podemos fazer é simplesmente colar ou soltar um arquivo em sua ferramenta on-line para começar a explorá-lo. Então, eu vou pegar alguns dos meus dados, este geocodedplaces.csv. Vou puxá-lo para a interface de design de densidade. Agora você pode ver que ele adicionou um novo conjunto de opções, todos esses diferentes tipos de diagramas de rede, e um mapa de árvore, mas o que eu estava interessado em olhar é um gráfico de dispersão. Basicamente, eu quero dizer que no eixo x, eu quero usar longitude, mas no eixo y eu quero usar ano. Então, clicando no gráfico de dispersão e eu tenho mais algumas opções aqui. Como eu disse no eixo x eu quero aplicar a latitude, e no eixo y, eu quero aplicar a data de início, e você pode ver que algo está acontecendo já aqui. Então, eu tenho meus locais sendo traçados e você pode ver algumas coisas realmente novas,
algumas coisas muito antigas, eu acho que estes são dados vazios que estão sendo traçados na parte inferior. Então, onde eu não tenho um ano, é automaticamente colocá-lo em zero. Eu posso adicionar um pouco mais, eu posso mudar a cor aqui com base no livro, que é o que eu estava fazendo no CartoDB. Então, arrastando a cor, agora estou começando a ver um pouco disso se aproximando, eu posso até colocar os rótulos que é interessante. Então, eu posso brincar com as cidades que estão sendo faladas ou eu poderia remover isso e colocar o nome do livro também, e começar a obter isso rotulado, mas este é um ótimo playground pequeno, eu poderia revisitá-lo e retirar alguns dos os dados que não estão jogando tão bem aqui como essas quantidades zero que estão terminando na parte inferior. Mas o que é bonito é que uma vez que eu tenho isso para um lugar onde eu gosto, eu posso exportar isso como um SVG e trazê-lo para o Illustrator e fazer um pouco de limpeza e pós-processamento com ele para mudar
o tipo, as cores, coisas assim. Outro site que foi útil, que me ajudou a mexer com isso foi chamado Filtergraph. Eu tinha carregado os dados do New York Times aqui também e você pode ver que eu basicamente fiz exatamente a mesma coisa e eu coloquei latitude no eixo x, e no momento eu tenho longitude no eixo y. Então, se eu puder mudar isso para a data de início, e você verá como as coisas começam a agrupar aqui e isso é o que estou interessado em ver, é como as coisas se organizam. Você também pode colocar filtros sobre ele, esta é uma coisa que você não poderia fazer no aplicativo raw. Então, para a data de início, eu posso dizer que eu quero ter certeza de que todas as minhas datas de início são digamos, maiores do que 1900, e menos de 2020, e que irá refiltrá-lo. Então, agora eu posso ver lá embaixo, eu tenho esses pequenos pontos que estão mais perto de 1900, e ele não vai além de 2020. Gosto de usar o processamento para levar as coisas ainda mais longe. Então, eu acabei construindo um pequeno aplicativo em processamento que me permite pegar esses dados e começar a jogar com eles e realmente personalizar a exibição deles. Aqui você pode ver uma das primeiras iterações deste aplicativo onde eu estou simplesmente colocando tudo na tela apenas em seu ano médio e sua localização no eixo x. Então, no centro é a Europa, à esquerda é a América, e à direita é a Ásia, e à medida que eu passo por esses aplicativos, eu estou começando a adicionar cada vez mais complexidade a eles. Esses diferentes componentes gráficos que eu compartilhei antes, então agora estou começando a conectar esses anos, eu conectaria os livros nesses anos médios. Neste esboço, eu comecei a adicionar rótulos como vimos no CartoDB db. Então, eu tenho uma cor aleatória para cada livro e um título aqui para que eu saiba qual livro está sendo representado por qual cor. Você pode ver pequenas manchas como esta para o The Mare, contra as maiores. Este é provavelmente To Hell and Back, este livro da Segunda Guerra Mundial que tem um monte de locais e datas sendo mencionado. Uma das outras coisas que eu gosto no processamento é que cada vez que eu executo,
ele está gerando um PDF. Então, se eu executar meu aplicativo, você pode ver a visualização, mas nesta pasta, ele é feito um bom PDF que eu posso então trazer para o Illustrator, e assim como qualquer uma dessas ferramentas on-line que produz um SVG, Posso limpá-lo e personalizar a tipografia, personalizar as cores também, e basicamente encaixá-lo no meu layout. Isto está a chegar perto de onde quero estar com a minha visualização. Eu comecei a conectar ambos os livros no eixo x e y, eu estou começando a ver as formas que esses livros estão fazendo. Meu palpite sobre haver um monte de livros largos que não são muito altos, significa que eles têm um amplo escopo geográfico com são escopo temporal muito estreito está provando ser verdade. Eu estou vendo esses no topo, que são todos os tipos de hoje que não têm quaisquer datas específicas mencionadas versus estes livros da Segunda Guerra Mundial que tendem a acontecer em uma banda estreita, mas também têm um amplo escopo geográfico. Há uma série de outras ferramentas como tableau, e herói de dados, e R, alguns deles talvez sua xícara de chá, eles podem ser avançados o suficiente ou simples o suficiente para que eles se encaixem em seus desejos, Eu incluí uma lista de links para ir junto com esta classe, para que você possa experimentá-los todos. Com todas essas ferramentas diferentes, ter um esboço em mente de como você deseja aplicar essas diferentes transformações aos seus dados será realmente importante, nenhum deles pode fazer tudo, mas eu acho que ter a sistemática idéia de eu quero usar esta dimensão de dados para controlar a posição x e este para o y e, em seguida, escala
será denotado por estes dados e cor virá de outro, como ter esta receita em mente será realmente útil quando você avaliar essas ferramentas e você terá um objetivo final em mente que eu acho que é o mais importante. Então, você não está apenas tentando um monte de coisas até que algo pareça legal. Trata-se de tentar chegar a este ponto final que você pensou antes do tempo e é racional. Então, é certamente possível fazer tudo isso manualmente. Eu acho que, idealmente, se você quiser ficar mais rápido e ser capaz de lidar com conjuntos de dados maiores, é realmente importante começar a jogar com essas ferramentas e explorar o que código e automação
e ferramentas dedicadas de design de dados podem adicionar ao seu fluxo de trabalho.
9. Visualização: abordagem e elementos: Nesta seção, veremos como transformar seus dados em uma visualização. Mais uma vez, gosto de começar no meu caderno. Às vezes eu vou apenas anotar as diferentes dimensões do conjunto de dados que eu tenho, e começar a pensar sobre como essas podem ser aplicadas de maneiras diferentes para criar formulários. Vou mostrar algumas das diferentes técnicas e meios de construir uma visualização usando um par de transformações simples. Você pode ver alguns dos trabalhos que entraram em um projeto eu concluí recentemente que foi a capa do meu último relatório anual. Você pode ver como o esboço é útil aqui como uma maneira de desenvolver idéias e até mesmo se livrar de algumas delas inicialmente. Então, eu tenho provavelmente 20 ou 30 idéias diferentes esboçadas aqui, mas apenas as de vermelho são as que eu escolhi para investigar mais detalhadamente. Aqui você pode ver aqueles que eu realmente levei para o código para que eu pudesse ver como os dados estão influenciando essas formas em seu estado final. Não é até chegar ao último aqui que encontrei algo que estava funcionando muito bem em representar todas as diferentes nuances dos dados que eu queria comunicar. Uma das coisas que tento fazer em todo o trabalho de visualização é capturar o conjunto de dados em pequenas, médias e grandes escalas. Então, em sua maior escala, isso é algum gráfico ou número que vai encapsular tudo como o número total de livros no meu conjunto de dados, isso é uma coisa que está em grande medida, ou uma visualização que captura todos os anos e todos os lugares, que é em grande escala. O tamanho médio, eu estou pensando em partes de categorias como, quantos países foram mencionados? Ou quais são todos os países da Europa que são criados? Em seguida, até a pequena escala, onde posso falar sobre um ponto de dados individual, como um único livro ou um único lugar. Uma entrada que é significativa e ajuda você a entender o quadro maior. Ao mostrar dados em todas essas escalas diferentes, você está demonstrando sua compreensão do conjunto de dados e eu acho que expressá-lo nessas resoluções ajuda as pessoas a entendê-lo também. Então, quando penso em visualizações, sinto que mesmo as mais complexas são simplesmente o resultado de construir um monte de pequenas técnicas em algo maior e mais complexo. Eu tentei quebrar algumas dessas diferentes transformações aqui, e a primeira coisa que você gostaria de começar é alguma forma de fazer marcas. O mais rudimentar seria usar uma forma como um círculo, ou quadrado, ou triângulo. Qualquer coisa que você deseja representar na página, começa com esta forma. Você também pode pensar em usar um símbolo, um marcador de localização, ou um ícone de casa ou avião. Estes são o tipo de marcadores
fundamentais que devem entrar na criação da sua visualização? Outra coisa sobre formas e símbolos, é que pode ser mais fácil trabalhar com formas mais simples, como círculos e quadrados, estes são fáceis de modular e medir como quando estamos usando escala para criar diferenças. Se você começar a pensar em formas mais assimétricas, estas serão muito mais difíceis de trabalhar e mais difíceis de controlar. Você pode, naturalmente, usar estritamente o tipo. Então, talvez não haja nem formas envolvidas. Há apenas a topografia em si e então fazemos transformações como usar posição e escala para criar a visualização. Claro, quando chegarmos à rotulagem, tipo vai ser outro elemento importante. A repetição é um elemento muito importante. Há uma história de coisas como o sistema isotipo que está simplesmente repetindo um monte de ícones para representar 300 ou 500 usando três ou cinco ícones diferentes. Mas se você pensar em algo como um gráfico de barras, essa é outra forma de repetição onde estamos repetindo essas barras diferentes e, em seguida, dimensionando-as várias quantidades para representar as qualidades numéricas. Posição. Se você está pensando em mapear posição é simplesmente usando o eixo X e
Y que extrapolar a
partir da latitude e longitude para colocar um marcador na tela. A escala é uma ótima maneira de mostrar quantidades. Então, usar as transformações geométricas corretas para transformar uma quantidade em um círculo escalado ou um quadrado, é algo que pode ser útil. Ao dimensionar formas para representar a área, é realmente importante que você defina seus tamanhos usando as regras geométricas adequadas. Então, para criar um círculo que representa 12, não
podemos simplesmente dar-lhe um diâmetro de 12. Infelizmente, temos que usar um pouco de álgebra para descobrir o tamanho e eu forneci este slide que vai dizer os tamanhos a serem usados para os lados de um quadrado, o diâmetro de um círculo e os lados de um triângulo equilátero. Se simplesmente usarmos a quantidade que queremos representar como o tamanho dos lados ou o tamanho do diâmetro de uma forma, você irá distorcer os dados. Então, seus círculos eles não serão compreensíveis como representando as quantidades que você pretende que eles, então certifique-se de que você usar essas fórmulas ou uma calculadora de área on-line para se certificar de que eles estão representando os tamanhos certos. Conexões é outra transformação ou outro elemento que podemos usar para unir as coisas. Então, você pode usar isso em diferentes visualizações de rede ou um caminho se você estiver descrevendo onde alguém foi em um mapa, que será criado usando um conjunto de conexões. Proximidade é outra coisa. Então, quão próximo ou distante são coisas diferentes. Relaciona-se um pouco com a posição, mas a
proximidade é a relação entre dois marcadores. Então, se quisermos dizer que duas coisas estão associadas, podemos movê-las mais juntas, e se elas forem menos associadas, então podemos movê-las mais distantes. Rotação é certamente algo que é importante. Você pode pensar em uma pequena seta de painel, como seu indicador de combustível, que é o tipo de visualização que é baseada quase exclusivamente em rotação e pode ser uma maneira realmente interessante de adicionar algumas informações extras ao nossas visualizações. A rotação também é usada comumente para subdividir como no gráfico de pizza com o qual todos estamos familiarizados. Então, finalmente, cor. Então, tudo isso vem assumindo que as coisas seriam criadas apenas em preto e branco, mas claro que cor pode ser aplicada para criar mais conexões dentro do gráfico e para definir diferentes categorias. Você pode ver alguns dos princípios de transformação aplicados a este gráfico no meu Relatório Anual de 2010. Aqui, estou usando um círculo como elemento base. Estou usando escala para ampliá-la com base na quantidade de informações que eu tinha para cada ano. Em seguida, separando-o em diferentes segmentos que são definidos pela rotação de um ângulo, bem como por cor para ajudar a mostrar como os gráficos de pizza se dividem com base no ano. Neste outro exemplo estou criando um mapa e cada ponto está usando um triângulo que é então dimensionado para mostrar o número de registros. Também estou usando cores para codificar se o evento aconteceu em 2010 ou 2012. Finalmente, neste exemplo, estou usando rotação. Cada um desses pontos que está falando sobre se eu enviei mais mensagens do que recebidas para uma pessoa ou se eles enviaram mais mensagens para mim, cada um dos pontos neste gráfico tem uma proximidade com o centro que representa quantas mensagens foram enviadas e, em seguida, o ângulo ajuda a definir se
enviei mais mensagens ou se a outra pessoa enviou mais mensagens.
10. Estatísticas: Nos próximos três vídeos, vamos tocar em estatísticas, tipografia e cor. Estes são todos elementos cruciais da visualização de dados, mas eles têm suas próprias pequenas nuances e acho que vale a pena falar sobre eles individualmente. Como você notou, eu tenho pressionado você a usar uma planilha para capturar dados. Uma das grandes coisas sobre isso é que a planilha nos permite fazer algumas transformações e cálculos apenas rudimentares e realmente úteis. Fórmula em uma planilha é uma maneira realmente útil de descobrir rapidamente coisas sobre seu conjunto de dados. Neste caso, se eu quiser descobrir a data média referenciada, eu posso apenas digitar média e clicar no prompt aqui e, em seguida, selecionar o resto da coluna para descobrir qual é a data média que está sendo mencionada. Eu acho que com alguns conceitos básicos, você pode ir muito longe e estes são os que eu achei úteis. Claramente, contando o número de entradas que achei isso útil ao olhar para o meu conjunto de dados, somando coisas, usando um total, como eu mostrei que você pode fazer isso em uma planilha. O Max e o Min certamente em termos de anos. Acho que isto vai ser interessante. Esta é toda a gama do meu conjunto de dados. Agora, temos algumas médias diferentes. Então, significa é o que normalmente pensamos quando mediamos algo, é adicionar tudo junto e depois dividi-lo pelo número de entradas. Muitas vezes, este é um bom caminho a percorrer, mas às vezes pode ser muito distorcido. Como você viu nesta planilha, quando eu fiz a média de tudo, minha média acabou sendo negativa 320.896 e isso é porque eu tenho esse outlier, que é a idade do universo no meu conjunto de dados. Então, eu tenho um -13,8 bilhões lá dentro, o que está jogando tudo fora quando eu faço a média. Mediana é uma boa forma de contabilizar isso e o que ele diz é escolher a entrada do meio. Então, se você tem um número ímpar, é o do meio, se você tem um número par de entradas, é a média dos dois do meio. Finalmente, o modo é outra maneira interessante de olhar para o conjunto de dados, este é apenas o número que ocorre com mais freqüência. Então, este pode ser o item com mais entradas em seu conjunto de dados. Mas eu sempre acho que é uma coisa interessante para olhar e considerar. Nas estatísticas, eu escolhi puxar para fora na parte inferior do meu gráfico. Estou usando várias dessas abordagens estatísticas para encontrar e extrair medidas diferentes do meu conjunto de dados. Neste primeiro, eu estou olhando para todo o conjunto de dados, eu estou tentando dizer algo que é abrangente, eu estou falando sobre o número 19, que é quantos livros estão nele. Estou subcategorizando isso em cinco ficções e quatro, então eu tenho o total aqui. Este é o número total do conjunto de dados. Novamente para esse número de anos mencionados, eu tenho o total, mas como eu mencionei, o ano médio não é útil. Não é relevante para o conjunto de dados. Nada lá aconteceu há 380.000 anos. É tudo muito atual ou muito, muito antigo. Então, usando a mediana, eu posso vomitar esse outlier e chegar a um número que é muito mais representativo desse conjunto de dados. Quando eu estou perguntando como é a revisão do livro em termos de tempo e lugar, este é o centro dela. A mediana me ajuda a descobrir que 1943 foi o ano no centro deste conjunto de dados. Para o total de lugares mencionados, estou finalmente usando a média. Nenhum deles vai ter 3,7 lugares mencionados, todos
eles vão ter um número inteiro de lugares, mas isso dá a você uma idéia de como eles ocorrem frequentemente. Finalmente estou usando uma abordagem mínima e máxima para o número total de páginas. Há uma grande variedade aqui. Então, se simplesmente o mínimo e o máximo fossem
separados apenas por 10 ou 50 páginas, não seria interessante. Mas eu acho que o fato de que ele varia de 228 a quase 3.000 páginas é realmente útil e talvez inspirou você a querer descobrir o que é esse livro que é 3.000 páginas.
11. Tipografia: Quando comecei a fazer a visualização de dados, uma das coisas que me separaram das outras pessoas foi minha atenção aos detalhes e à tipografia. Isso é algo que eu tentei manter e tentar comunicar a todos que eu dou conselhos sobre visualização de dados. Então, uma das maiores coisas é selecionar tipos de letra. Eu costumo selecionar fontes condensadas e serifas. Estes me permitem expressar muito em um espaço pequeno, que eu
possa obter tipo muito alto em uma janela estreita e isso é útil quando eu estou apenas definindo números curtos. Mas, em geral, estou procurando por tipografia que não vai distrair. Eu gostaria de ter coisas com até mesmo texturas que
não vão tirar sua atenção das visualizações. Eu forneci uma lista de um par de fundições diferentes que eu gosto olhar porque há tipos de alta qualidade, essas fundições tendem a fazer tipos de letra que funcionam muito bem que são bem trabalhados e têm um monte de características que estou procurando. Há também um monte de erros tipográficos comumente cometidos que eu vejo e gosto de lembrar as pessoas para não cometer. Então, no mundo em geral, tendemos a ver marcas de tic e apóstrofos trocados o tempo todo. Mas quando estamos lidando com dados e números, isso pode ter um enorme impacto. As marcas de tic são úteis para falar de comprimento, são úteis para falar de minutos e segundos versus apóstrofos e aspas que são úteis para descrever a fala. Então, tente não misturar essas coisas. Acho que faz uma grande diferença. Além disso, usando um x como um sinal de multiplicação, isso tende a ser bom no e-mail, mas eles são realmente caracteres diferentes. Então, se você quiser usar um sinal de multiplicação, por favor vá e encontre o personagem apropriado. Há também uma grande diferença entre hífens e traços em, e um personagem que eu costumo usar muito no design é o en dash. Este é o meio, você obtê-lo pressionando opção hífen e isso é usado para denotar um intervalo. Então, se você estiver definindo de 10 a 20, você separaria isso com um traço en ou um intervalo de tempo, como 1960 a 1986 seria definido usando um traço en. Além disso, em suas fontes de alta qualidade, há uma variedade de diferentes estilos de números. Há um estilo antigo e figuras de forro. Você pode ver que o estilo antigo tem descendentes versus figuras de
forro que todos ficam entre a linha de base e a altura da tampa, bem
como figuras proporcionais e tabulares. Assim, figuras proporcionais como maioria das letras onde eles têm uma gama de larguras versus figuras tabulares, que são feitas para alinhar verticalmente. Então, se você definir quatro números acima de outros quatro números, todos
eles se alinharão perfeitamente. Então, pense no estilo certo de número para o trabalho que você está fazendo. Além disso, esteja ciente de que os tendem a ter configurações realmente amplas, e então você pode precisar deixar um espaço eles dentro,
para que eles não pareçam que eles estão saindo. Há também tipos de letra que têm frações adequadas. Então, se você estiver fazendo suas frações usando uma e, em seguida, uma barra e duas, considere usar a paleta de glifos novamente para chegar
ao caractere apropriado, onde você terá uma fração tipograficamente mais correta. Pode haver um pouco de atrito quando você vê o elemento tipográfico errado enquanto você tenta analisar algo. Então, ver um número hifenizado nos parece errado versus ver um que tem o comprimento adequado e o traço entre ele. Da mesma forma, eu acho que vendo um x como um sinal de multiplicação, você pensa x primeiro então você tem que pausar por
talvez um milissegundo, talvez mais para tentar extrair o significado adequado, o que a pessoa estava tentando expressar da tipografia. Ao escolher tipos de letra, considere a legibilidade acima de tudo. Acho que a adequação é uma consideração primordial, assim como o impacto. Então, há pedaços da minha tipografia que eu quero desaparecer. Eu quero que eles sejam uma textura uniforme, e há outros elementos tipográficos que eu posso querer falar muito alto, onde eu vou usar um tipo mais ousado. Tudo isso pode ser uma família ou talvez duas fontes diferentes que se encaixam para criar esse tipo de impacto e contraste que você está procurando. Quando criamos uma visualização de dados, cada marca é importante. Estamos criando um conjunto geral de contrastes e texturas que definem a página. Quando colocamos tinta na página, é porque queremos que seu olho vá lá. Eu acho que o contraste mais pesado deve ser as peças mais significativas dele. Então, ao rotular ou adicionar texto extra, isso é um pouco separado, é um pouco secundário às marcas da visualização. Então, como uma textura, queremos que seja muito uniforme e queremos que ele diminua um pouco, então é lido após a visualização em si. Na minha visualização, eu escolhi usar um senso neutro de tipo que eu tenho confiado um pouco recentemente, é chamado de firme. O que eu gosto sobre isso é que quando definir todas as tampas e espaçados um pouco, ele cria essa textura realmente uniforme que eu estou indo para. Então, não há peças pretas que apareçam e chamem a minha atenção. As marcas do gráfico são as coisas que me puxam para dentro, e então a tipografia é secundária. Mas eu também gosto que usando o título Book Review, eu tenho essa âncora de impacto pesado no topo da página que realmente define tudo.
12. Cor: Usamos cores para criar associações, codificar significado e criar contraste e interesse visual também. No Illustrator, você tem acesso a algumas maneiras diferentes de pensar sobre a cor. Temos CMYK e RGB, e este outro modo, HSP. O que eu gosto sobre isso é que está separando um monte de diferentes dimensões que podem ser úteis no uso de cores para codificar informações. Então, como você pode ver aqui, simplesmente brincando com a tonalidade, podemos mover este círculo vermelho através dessas gradações de laranja para amarelo. Ou se simplesmente isolarmos a saturação, podemos começar a transformar este círculo vermelho em um rosa muito mais pálido. Finalmente, jogando com brilho, podemos transformar este círculo vermelho em um vermelho realmente escuro. Você pode ver como cada um deles será útil na codificação de informações. Alguns conjuntos de dados numéricos podem ser aplicados e você pode usar isso para dimensionar essas cores. Quando estou escolhendo uma paleta, estou pensando nisso e estou pensando em selecionar cores que me dão oportunidades para alto e baixo contraste. Eu às vezes acho que meu gráfico seria legível simplesmente em preto e branco, e é a cor adicionando algo, e eu posso usar essas cores mais ousadas para enfatizar um elemento gráfico mais mínimo ou usar mais suave, menos saturado, cores menos ousadas para desenfatizar algo que é realmente grande. Eu acho que manter a acessibilidade daltônica em mente é realmente importante também. Assim, pensar nas maneiras pelas quais as pessoas percebem suas cores e até mesmo potencialmente usar ferramentas para olhar o layout através de filtros daltônicos pode ser útil, especialmente quando queremos que as pessoas mantenham os elementos separados. Outra maneira que eu vou começar a trabalhar com cores é começar com uma imagem que seria uma referência. Então, esta é uma espécie de paleta que eu acho que está funcionando muito bem e pode fornecer uma inspiração para que eu desenvolva cores. Então, neste caso, eu encontrei essa imagem que estava em uma pequena pasta de inspiração que tinha algumas cores que eu respondia bem e harmonizei como um todo. Há esta laranja brilhante, estes azuis, um pouco de cinza pálido e o rosa, e todos eles são visualmente distintos, mas funcionaram bem como um todo. Então, eu uso isso um pouco como um ponto de partida para desenvolver as cores que eu usei na minha visualização. Quando desenvolvo essa visualização, construí uma chave. Este tem o título de cada livro e um pequeno círculo que tem a cor. Eu estava usando cores aleatórias só para configurar tudo. Isso não é o que eu recomendo. Esta é simplesmente uma maneira de eu colocar a informação no gráfico. Eu acho que quando você tem uma chave como esta, você está simplesmente descarregando trabalho para o leitor. Realmente não estava claro qual
desses livros estava associado com qual dessas marcas. Então, o que eu pretendo fazer quando eu o trouxe para o
Illustrator foi simplesmente usar essa codificação para me ajudar a entender qual gráfico foi com qual livro e, em seguida remover esta chave para acabar em um lugar como você vê no final, onde o nome do livro está intimamente associado ao gráfico que ele descreve. Então, não há nenhuma dessa chave que você precisa verificar e criar estes, carregar em torno de um valor de cor em sua cabeça enquanto você digitalizar a página, procurando um lugar onde ele pode ocorrer. Em vez disso, eu tento trazer o rótulo direto para o gráfico que não haja caça e busca envolvidos em consumi-lo. Algumas maneiras diferentes que a cor pode ser usada em
nossa visualização de dados para criar associação são através da variação da própria cor através da aplicação de diferentes matizes ou transparências, e também através do uso de padrão. Então, usando hashes ou pontos, esta é outra maneira de usar uma paleta mais limitada para criar mais significado. Comecei o meu gráfico com um conjunto de 19 cores aleatórias, mas não era aqui que eu queria acabar. Eu queria acabar com uma paleta muito mais mínima. Então, acho que consegui codificar todo esse gráfico com apenas cinco cores. Então, ao olhar para este gráfico, eu estava limitado por todos os lugares em que as linhas se cruzam. Eu teria preferido ter feito este gráfico com menos cores, mas há muitas interseções. Então, cinco é o número mínimo de cores que eu poderia usar para eliminar
a confusão sobre onde um elemento gráfico começou e outro terminou. Da mesma forma que os símbolos têm suas próprias associações inerentes, eu acho que você deve considerar as associações que as cores podem ter. Por exemplo, se representar homens e mulheres, certamente
faz sentido ficar com as cores tradicionais. Então, se vemos azul em uma silhueta masculina, acho que tem menos dissonância do que tentar reinventar a roda e criar novas cores para representar homens e mulheres. Então, pode não ser progressivo, mas acho que esse é o tipo de linguagem visual a que estamos acostumados. É mais fácil quebrar as regras lá, empurrar as coisas um pouco do que tentar reinventá-las totalmente. Os elementos de estatística e tipografia em cores são algo que estão continuamente em jogo enquanto eu estou projetando isso. Então, eu mudarei de cor com
base na proeminência de diferentes elementos, ajustando topografia, alterando tamanhos para caber em coisas diferentes ou para fazer coisas mais rochosas, e depois ajustando uma cor enquanto eu também estou brincando com estatísticas para encontrar novas histórias para colocar neste gráfico. Então, é apenas um processo contínuo de jogar com esses dois componentes diferentes para construir o gráfico.
13. Considerações finais: O design deste gráfico começou com esqueleto acumulado, configurando algumas das proporções e a grade que eu ia usar mais tarde. Mais tarde, eu refino isso, selecionando meu tipo de letra que eu ia usar e ajustando algumas das proporções. Em seguida, colocando em algumas das visualizações iniciais que eu era capaz de criar. Este é o primeiro que
reúne todas as conexões que eu queria representar. Em seguida, comecei a limpá-lo no Illustrator, começando a brincar com cores e rótulos que mostrariam as associações. Este ponto eu estou usando apenas os nomes dos livros ao longo, e não adicionou qualquer uma das escalas para a longitude ou para os anos envolvidos. Nesta próxima iteração, eu estava brincando com o mapa, colocando lá, vendo se isso iria adicionar um pouco de contexto
interessante, mas decidir que não era, não era necessário. Em vez disso usá-lo para criar essas legendas que definem a largura das Américas, da Europa e da Ásia, e adicionando na escala para os anos de 2020 até 1900. Neste ponto, também estou começando a refinar o palete. Então, usando algumas das cores finais, e brincando com isso na topografia para ver se isso é algo que eu quero perseguir. Nesta próxima iteração, estou melhorando a grade, apertando a tipografia e estabelecendo quantas estatísticas terei na parte inferior do gráfico. No dia seguinte, eu ajusto um pouco o título, apenas descobrindo onde eu quero colocar esse rótulo de espaço e tempo, e a data, e ajustando o tamanho dedicado à visualização. Em seguida, comecei a adicionar alguns fatos reais que encontrei no conjunto de dados. Adicionando estes primeiro conjunto de peças de informação como o total de lugares mencionados, eo lugar mais mencionado. Finalmente, chegando ao fim, eu me esfriei no fundo, todas as estatísticas estão aqui, e a tipografia está funcionando muito bem. Mas eu decidi ir e revisitar meu esboço mais uma vez, e eu percebi que ao adicionar os nomes dos lugares, eu posso adicionar muito mais contexto a este gráfico. Então, eu voltei e fiz mais uma iteração do layout que inclui a maioria dos nomes para os lugares que são usados. Então, você tem uma noção real não apenas da largura gráfica, dos lugares que estão sendo discutidos, mas da diversidade específica real de lugares que cada um desses livros falou. Espero que este gráfico esteja respondendo à pergunta que eu coloquei no início da aula, que é,
como é a revisão do livro quando vista através da lente do espaço e do tempo? Acho que é muito fascinante. Eu acho que é uma maneira interessante de agregar esses livros, criando conexões entre eles e se vendo as diferentes dimensões no espaço e no tempo que eles habitam. Em última análise, penso que este gráfico funciona e responde à pergunta que apresentei no início. Qual é a revisão do livro olhar através da lente do espaço e do tempo? Vejo as conexões que estão sendo feitas tanto pela dimensão do tempo e do espaço entre esses livros, pelas estreitas bandas que cada um deles habita. É realmente interessante que o período de tempos que estão sendo representados aqui e também o que não está sendo representado. Notei cedo que a América do Sul e a África estavam realmente sub-representadas. Eu acho que isso é verdade para o mundo e provavelmente para o jornal em geral, que eles não fazem parte da narrativa geral. Em termos do ano envolvido, eu não sei se temos tais preconceitos inerentes a anos diferentes, mas é interessante que este esteja tão fortemente focado na Segunda Guerra Mundial, e nos anos intermédios entre a Primeira Guerra Mundial e a Guerra Mundial II ,
mas entre os anos 90 e o presente há muito pouco. Este gráfico responde às perguntas desta edição específica da revisão do livro, mas também faz perguntas sobre a revisão do livro em geral. Então, eu adoraria ver isso acontecer todas as semanas para que possamos ver esses padrões maiores ou para analisar um ano
da revisão do livro e ver como isso se parece. Eu confio em um teste decisivo interno para esses gráficos. Quero ter certeza de que eles estão comunicando os dados que eu coloquei neles de forma eficaz, que eles não estão criando confusão, mas também estou confortável com eles ultrapassando os limites. Então, eu não exijo que alguém entenda isso imediatamente. Estou feliz que eles olhem para ele por um tempo antes de começar a chegar a um acordo com isso. Pode ser difícil porque, depois de trabalhar nisso por um dia ou às vezes trabalhar em um gráfico por muito mais tempo, você se torna tão familiarizado com ele que pode ser difícil
recuar e ter uma noção de se está funcionando. Se nada mais, uma coisa que eu adoraria que você tirasse desta aula é que, ver o mundo através da lente de dados é uma maneira realmente convincente de ver o mundo. Tenho tendência a ver o mundo através desta lente quantificada. Então, todas as ações ao meu redor que eu sinto que podem ser contadas, e expressas através desta linguagem. Então, se você ainda não começou uma visualização, eu o encorajo a encontrar o jornal e se aprofundar. Leve seus interesses para o jornal, siga-os para as seções que você normalmente lê ou para um novo território. Eu adoraria que você considerasse os conceitos que eu introduzi nesta aula, é uma estrutura para avaliar seu próprio trabalho e para dar feedback aos outros.
14. Leitura adicional: Nesta aula, eu toquei em uma série de tópicos, que cada um pode ser um livro de si mesmo. Se você está interessado em aprender mais, aqui um monte de meus favoritos. Ao lidar com a Grid Systems, este livro é fantástico. Mesmo tem essas grandes sobreposições traço, que mostram os sistemas de grade envolvidos em fazer gráficos fantásticos. Outro livro é este, The Designer and The Grid, The Elements of Typographic Style. Há uma referência realmente útil na parte de trás, que se baseia em muitos detalhes tipográficos que eu trouxe na aula com muito mais detalhes. Em termos de lidar com mapas, eu acho que isso, Como mentir com mapas, é realmente uma ótima leitura, não
é muito difícil de passar. Este livro lida com muitas das complexidades que surgem, quando você tenta achatar uma esfera em um objeto bidimensional. Se você está procurando inspiração, não
há muita falta de coleções infográficas nos dias de hoje, mas esta é uma boa que saiu relativamente recentemente, com alguns dos melhores gráficos de criadores incríveis como o Tempos. Semiology of Graphics é uma coleção grande, pesada que lida em profundidade com um monte de diferentes transformações, que eu passei por cima para construir gráficos diferentes. Nenhuma discussão estaria completa sem o tomo de Edward Tufte, A Exibição Visual de Informações Quantitativas. Eu acho que esta é realmente boa leitura, que lida com um monte de apenas os princípios básicos de design de informação. Se você está interessado em processar, o livro de Dan Shiffman, Learning Processing é um lugar fantástico para começar e é um dos livros que eles me fizeram interessado e envolvido em aprender a codificar. Certifique-se de conferir os recursos da classe em que listei mais inspiração, mais ferramentas e mais recursos para aprofundar a visualização de dados.
15. Explore o design na Skillshare: maneira.