Inteligência de negócios - coletar, limpar e mesclar dados, curso de BI #2 | Michael McDonald | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Inteligência de negócios - coletar, limpar e mesclar dados, curso de BI #2

teacher avatar Michael McDonald, Business Intelligence and Finance

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Recolha de dados e limpeza

      0:58

    • 2.

      Avaliando bancos de dados

      5:32

    • 3.

      Coleta de dados

      10:08

    • 4.

      Mesclando conjuntos de dados

      7:05

    • 5.

      Conjuntos de dados de limpeza

      8:47

    • 6.

      Capacidades de coleta de dados

      9:12

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

209

Estudantes

--

Projetos

Sobre este curso

Esse segundo curso de inteligência de negócios na sequência, vai preparar os participantes para iniciar projetos de inteligência de negócios na sua própria empresa. O foco do curso é uma abordagem prática para coleta e limpeza de dados. Depois de realizar este curso, os participantes estarão prontos para criar suas próprias bases de dados ou supervisionar a criação de bancos de dados para sua empresa. O foco deste curso é em conjuntos de dados “Big Data” que contenham dezenas de milhares a milhões de observações. Embora as ferramentas usadas sejam aplicáveis para conjuntos de dados menores de algumas centenas de pontos de dados, o foco é em conjuntos de dados maiores. O curso também ajuda os participantes sem experiência na construção de conjuntos de dados a começar do zero. Finalmente, o curso é excelente para usuários de pacotes de software de Salesforce, Tableau, Oracle, IBM e outros BI, pois ajuda os espectadores a ver através da “caixa preta” à mecânica subjacente das práticas de Business Intelligence.

Conheça seu professor

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Professor
Level: Intermediate

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Collection e limpeza de dados: Olá, sou o Dr. Michael McDonald. Hoje, vou falar com vocês sobre coleta de dados e limpeza do primeiro passo no business intelligence. Vamos começar falando sobre as diferentes etapas deste curso e o que você vai aprender hoje no Módulo um vai falar sobre avaliar diferentes tipos de bases de dados e escolher o que é certo para você no módulo. Vamos falar sobre os conceitos básicos na coleta de seus próprios dados e na criação de seus próprios bancos de dados para seu uso dentro de um módulo da empresa. Três. Vamos falar sobre a fusão de conjuntos de dados diferentes e distintos e algumas das armadilhas e perigos que você pode enfrentar ao fazê-lo no módulo quatro. Falaremos sobre como limpar o dia em que você reuniu e garantir que os dados que você está olhando para tomar decisões estejam exatamente corretos. Módulo cinco. Falaremos sobre mais algumas armadilhas que você pode encontrar, e algumas coisas que você pode fazer para combatê-las. Vamos começar. Será que nós 2. Avaliando bases de dados: módulo um acessando bancos de dados. Agora, quando muitas pessoas pensam em bancos de dados, a primeira coisa que fazem é pensar que devem sair e procurar software de banco de dados comercial . E isso é ótimo porque o software de banco de dados comercial é muito poderoso e torna fácil a coleta e gravação de dados comprados. Não é uma panacéia para os problemas que sua organização pode enfrentar, e muitas pessoas não conseguem reconhecer que, em particular, bancos de dados comerciais podem criar uma caixa preta que os usuários raramente olham além. Isso pode ser um grande problema, para sua organização, em particular cria oportunidades para dados defeituosos. E isso é especialmente verdade. Suas empresas começam a usar o APS móvel para coletar dados remotamente. Há uma série de diferentes tipos de software de banco de dados comercial lá fora. Eles podem ser divididos por algumas características-chave diferentes. Uma delas é se você vai usar a entrada de dados manual ou automática. Existe potencial para problemas com a entrada de dados manual e automática, em particular com a entrada manual de dados. Você pode ter oportunidades para entradas incorretas em seus dados. Imagine, por exemplo, que você tem entrada de dados individuais, e eles estão colocando transações em seu banco de dados e moda Emmanuel. É fácil para eles transpor figuras ou coisas assim e criar erros e possíveis problemas para você olhar. Da mesma forma, eles podem perder entradas de log inadvertidamente criando registros inteiros que são simplesmente incorretos. O Bunt. O problema com entradas automáticas de dados é que torna mais fácil para os usuários pegar dados e aplicá-los onde eles não devem ser aplicados. Por exemplo, em um exemplo simples, usando dados de vendas internacionais nos EUA Com a EUA entrada automática de dados, você pode obter melhor precisão dos dados, mas maiores problemas na verdade aplicando esses dados corretamente. Há alguns pontos que você deve considerar ao avaliar bancos de dados. Primeiro, você quer pensar sobre a facilidade de revisão de dados. Os diferentes tipos de bases de dados podem tornar isto mais fácil ou mais difícil, em particular. Se você tiver dados armazenados em várias planilhas diferentes em um banco de dados, vez de mesclar em uma única planilha, pode ser muito difícil visualizar e navegar por esses dados e avaliá-los por verificações de sanidade ou até mesmo por análise básica. Em segundo lugar, você deve considerar a facilidade de edição de seus dados. Não é simples fazer adições aos dados se você tiver um banco de dados existente, mas deseja atualizar isso regularmente. É fácil passar por um adicionar coisas a ele? Da mesma forma, talvez você tenha um banco de dados existente, mas você deseja adicionar uma nova variável. Por exemplo, talvez você tenha uma lista de vendas que sua empresa fez, e você quer passar e adicionar algum tipo de característica sobre o cliente. Isso pode ou não ser fácil, dado o banco de dados que você está usando. São prós e contras para diferentes bases de dados. E, bem, é verdade que a facilidade de ajudar os dados. Desculpe-me por dizer isso de novo. Eles são prós e contras de diferentes bancos de dados e a facilidade de edição de dados. O recurso destaca isso em particular. Embora possa tornar mais simples fazer adições aos dados e, portanto, permitir uma análise de dados mais poderosa , também pode levar a problemas de governança de dados em que você pode ter dados inseridos incorretamente, ou você pode ter problemas que são inadvertidamente criado adicionando muitos dados. Além disso, ao pensar em pontos a considerar em relação a um banco de dados específico, você vai querer procurar ferramentas integradas que permitem testar a confiabilidade dos dados. Diferentes sistemas de software podem ou não ter as ferramentas que você pode precisar ainda mais. Você quer pensar sobre como este software se integra com outros programas. Este banco de dados vai facilitar a interação com o Excel, Order Net. Interaja com algum tipo de software de análise que você deseja usar. Finalmente, você quer pensar sobre se este software de banco de dados oferece ou não qualquer capacidade de lidar com a análise por conta própria. Talvez você tenha um sistema que o deixe ir do início ao fim. Isso certamente torna conveniente e evitar problemas logísticos de movimentação de dados entre diferentes tipos de software. Mas também torna mais fácil para as pessoas a usar a análise defeituosa sem perceber, na medida em que torna o software tema mais de uma caixa preta para começar. Agora existem algumas alternativas para o software tradicional de banco de dados. Em particular, a primeira opção é criar seus próprios conjuntos de dados. Excel é a solução mais fácil de utilizar. Essa rota se destaca muito familiar para a grande maioria dos usuários, e é algo que é fácil de editar, e praticamente todas as empresas têm acesso a ela. No entanto, o problema é que algumas versões do Excel só podem processar 65.536 linhas de dados. Mesmo se você tiver uma versão que manipula Mawr, no entanto, Excel tem vários erros de transposição. Se você tentar classificar mais de 20 ou 30.000 linhas de dados e muitas colunas de dados, a resposta aqui ou a solução é que você pode querer usar o Excel para alguma entrada de dados inicial e, em seguida, transferir os dados de seus dois dados mais sofisticados programa de análise. Mas cabe a você no final do dia . 3. Recolhemos dados: para coletar dados. Agora, a primeira pergunta que enfrentamos ao construir nossos próprios bancos de dados para começar com isso, onde eu vou obter os dados que eu gostaria de usar? Bem, há algumas opções diferentes aqui. Para começar, sua empresa poderia comprar dados. Isso é particularmente útil para alguns tipos de dados onde talvez não seja fácil obtê-los por conta própria. Nomes e endereços em listas de discussão, por exemplo, é um exemplo clássico. É muito fácil obter nomes e endereços de provedores desses dados, e geralmente será muito mais preciso do que sair e coletar os dados você mesmo, especialmente tendo em conta que as pessoas se movem com tanta frequência. Outro exemplo de dados que você pode querer comprar são dados financeiros sobre empresas de capital aberto . Embora você possa certamente sair e coletar partes individuais de informações de fontes como o Yahoo, nossa CNBC sobre essas empresas coletando dados em grandes quantidades e coletando grandes quantidades de dados sobre as finanças por trás das empresas é muitas vezes difícil se você não comprá-lo. Da mesma forma, a restauração natural stada é muitas vezes muito difícil de obter a menos que você comprá-lo. A segunda opção em termos de obtenção de dados é construí-los. Os dados sobre seus clientes geralmente são a empresa de dois anos mais valiosa, e é improvável que você possa comprar esses dados em qualquer outro lugar. Em vez disso, é mais provável que você tenha que criar esse banco de dados por conta própria. É nisso que a maior parte do resto deste módulo vai estar focada. Terceiro e finalmente, você pode coletar seus dados gratuitamente. O governo federal tem resmas de dados disponíveis gratuitamente sobre as condições macroeconômicas em todo o país. Pesquisas do Consumidor dos EUA. EUA Basicamente todos os dados que você pode um em um nível macroeconômico. O FBI provavelmente tem algo para você. Agora, se você tem necessidades específicas de dados, que tipo de dados você deve procurar? Bem, as necessidades de dados da sua empresa serão orientadas pelas necessidades específicas do seu projeto. Quer começar pensando no que está tentando modelar? Os economistas financeiros sempre começam construindo um modelo e, em seguida, obtendo os dados. Uma vez que você terminar com isso, você quer passar e descobrir quais são os fatores que influenciarão o resultado que você se importa sempre que eu estiver fazendo projetos de análise de dados. Como economista financeiro, eu sempre começo por descobrir, ah, ah, modelo hipotético básico, em seguida, passar e encontrar os dados que eu estou procurando que vão apoiar este projeto em particular. Isso é muito mais eficaz do que coletar os dados e tentar construir o modelo. Se eu coletar os dados primeiro e tentar construir o modelo, pode acontecer que eu estou faltando algumas peças críticas que eu preciso ir sobre. Minha análise. Por exemplo, as vendas são impulsionadas por marketing interno, inovações de novos produtos, etc. Mas eles também serão impulsionados por fatores externos condições macroeconômicas, comportamento competitivo, expectativas sobre o futuro do mercado, etc. Podemos construir um modelo que leve em conta todos esses fatores diferentes, mas é muito importante que tenhamos feito. Construímos este modelo com antecedência para sabermos o que datava para reunir. Agora, quando se trata de coletar dados, provavelmente queremos começar com as coisas mais fáceis. Os dados macroeconómicos que mencionei anteriormente do Fed, por exemplo, são muito simples de obter. Podemos obter isso do banco de dados econômico da Reserva Federal, o site. Para isso, esse recurso está aqui. Alternativamente, você pode realmente reunir este através de um Excel simples Adam que excel Annan, uma vez que você instalou ele é mostrado aqui. Depois de instalar o anúncio e ir para a guia Fred no seu modelo do Excel, você pode ver uma variedade de diferentes tipos de dados econômicos aqui. Tudo neste caso, Srta. Tab particular. Produto interno bruto real para dizer, despesas federais, receitas federais e o excedente federal e déficit. Também temos dados não apenas sobre os EUA EUA mas também sobre dados internacionais. Da mesma forma, se estamos procurando dados sobre, digamos, produção ou atividade comercial, poderíamos encontrar dados do Fed sobre isso relacionado com a utilização da capacidade de produção industrial começa habitação, licenças de construção, essencialmente quaisquer dados macroeconómicos de que necessitamos para uma determinada indústria que possamos obter do Fed. Assim que encontrarmos os dados que precisamos, usaremos um código pneumônico para coletá-los. Deixe-me recuar um segundo. Por exemplo, se estivéssemos interessados em vendas de veículos, vamos procurar dados populares dos EUA do que a produção e atividade de negócios e, em seguida, clicar em vendas de veículos automóveis e como caminhões. Quando fizermos isso, teremos o pneumônico de vendas a seguir. Nós vamos passar e clicar sobre isso quando nós dificar o pote os dados vão preencher por conta própria . Neste caso particular, os dados são mensalmente. Começa em 1976 e está disponível até março de 2016. Os dados vão nos dizer sobre vendas de veículos leves para automóveis e caminhões leves, e é do Departamento de Análise Econômica dos EUA. EUA O ponto importante aqui é que mesmo que estejamos a reunir dados através dos federais, acrescente. Não são dados da Reserva Federal. Esse é o poder da ferramenta Fred para Excel nos permite aproveitar um monte de fontes de dados diferentes como neste caso, o B E. T.A é dados através de um simples e isso torna muito mais fácil coletar dados. Peço-lhe que, se tiver interesse nisso, verifique. O anúncio Innisfree. Não te custa nada, e tem um monte de coisas legais lá dentro. Mas vamos seguir em frente . Além de Fred, você também pode tentar obter dados do U. S. Census Bureau. Isso é particularmente útil para identificar características de clientes-alvo com base em blocos de censo. O Google Trends também é ótimo para dados de pesquisas. Se você está tentando descobrir como exemplo o que está acontecendo em setores específicos ou em mídias sociais ou coisas assim, Google Trends fornecerá dados sobre o que está sendo pesquisado ao longo do tempo. Reunir dados sobre comentários de clientes e dados de mídia social on-line é outro tópico realmente quente . É algo que me perguntam sobre é um economistas financeiros o tempo todo no contexto de diferentes necessidades financeiras para empresas compradas coleta, este tipo de dados requer análise textual que será o assunto para o curso futuro. Agora, se você tem um conjunto de dados específico que você precisa, por exemplo, informações financeiras da empresa para um amplo conjunto de grandes empresas de capital aberto, comprar esses dados pode ser a única opção. Alguns dados, como mencionei, estão disponíveis através do Yahoo, financiados através da CNBC, etc. Mas coletar esses dados dessa forma requer escrever um script python em vez disso. compra de dados geralmente é a opção mais realista, especialmente se você estiver interessado em atualizar esses dados regularmente. Finalmente, criar conjuntos de dados a partir de seus próprios dados é geralmente a habilidade mais crucial para a maioria das empresas. Você certamente pode tocar em seus bancos de dados de clientes para fazer isso, por exemplo, mas você também pode continuar desenvolvendo seus próprios métodos internos de coleta de dados. Isso geralmente é ótimo porque em uma base diária a maioria das empresas gera resmas de novos dados que poderiam ser úteis na análise e tomada de decisões de negócios futuras. Pesquisas de clientes geralmente podem ser uma ótima opção para, mas novamente, é algo que realmente só está disponível se você fizer o esforço para pesquisar seus clientes. Por exemplo, recentemente trabalhei em pesquisas bancárias de investimento para ajudar uma pequena empresa de bancos de investimento boutique a prever as características que os ajudaram a ganhar negócios. Nós passamos e olhamos para ambos os clientes e clientes anteriores que eles não tinham vencido o acordo. Então nós olhamos para ambos os clientes onde eles ganharam e os clientes ou fingir clientes potenciais. Devo dizer onde gostariam de conseguir um acordo. Nós olhamos para ambos os conjuntos e, em seguida, fomos capazes de usar métodos de business intelligence para percorrer e descobrir que tipo de negócios esta empresa boutique de investimento deve visar no futuro. Esse é apenas um exemplo de onde o setor financeiro e, em particular, o banco de investimento , podem se beneficiar de business intelligence, mas estou confiante. Se você pensar um pouco sobre isso, você pode encontrar muitos exemplos em sua própria empresa, onde essa análise de dados pode ser útil também. Agora, em termos de obter essas pesquisas, há muitas ferramentas diferentes lá fora que você pode usar. Por exemplo, mistura crítica da Surveymonkey e muitas outras ajudarão você depois que você gerar seu questionário para obter respostas. Isso lhe dá a capacidade de obter informações não apenas sobre seus próprios clientes, mas sobre os clientes de outras pessoas. Os clientes que você perdeu potencialmente como no caso, o trabalho bancário de investimento que eu fiz, ou potencialmente clientes que nunca ouviram falar de você, mas que você pode querer atingir no futuro. Em seguida, você deseja pensar sobre vieses de dados em seu questionário. Se estou tentando descobrir como vender, os outros clientes são meus clientes atuais representativos do resto do mundo. Por exemplo, se eu estiver procurando vender no exterior na Alemanha, fazer uma pesquisa com norte-americanos consumidores norte-americanosque compram meu produto pode ou não me dizer nada útil. O ponto aqui é que é importante garantir que todos os dados de pesquisa que estou coletando realmente representativos do problema que estou tentando resolver novamente. Este é o lugar onde um bom modelo de companheiro de seus dados pode ajudá-lo se você pensou sobre isso antes de realmente coletar os dados. 4. Como mesclar conjuntos de dados: , três conjuntos de dados de mesclagem. Depois de reunir os dados que você precisa reunir, é importante começar a tomar essa miríade de diferentes conjuntos de dados e juntá-los em um todo coeso que pode ser útil para sua análise. Parece fácil, mas na realidade não é. Por exemplo, há uma variedade de tipos diferentes de problemas que você pode encontrar. Analisámos anteriormente as vendas de veículos ligeiros. Esses dados eram mensalmente. Se olharmos, em vez disso, para o PIB, essa data será trimestralmente. Dados econômicos como esse podem ter frequências diferentes. Isso significa que se tentarmos mesclar dados do PIB com dados de vendas de veículos leves, teremos um problema. Porque um é relatado mensalmente, um é relatado trimestralmente. Temos de encontrar uma forma de conciliar essa questão. Outro exemplo. Preços do petróleo, ar diário, venda de habitação ou mensal e PIB é trimestral. Então, se estamos tentando olhar para todos esses três conjuntos diferentes de dados, precisamos decidir como queremos lidar com isso. Vamos usar esses dados do PIB diariamente e simplesmente alterá-los uma vez 1/4. Vamos olhar para os preços do petróleo? Onley trimestral? Porque é com que frequência o PIB é relatado. Precisamos descobrir as relações com as quais nos importamos e depois decidir que tipo de banco de dados queremos construir aqui. Um banco de dados que contém GDP também deve ter informações de nossos clientes nele? Como queremos que o dedo do banco de dados se pareça? Uma vez que você descobriu como você quer que o banco de dados se pareça, com base no problema que você está tentando resolver, devemos tentar criar uma planilha grande. Há algumas razões para isso primeiro, e talvez o mais importante, é fácil de revisar e fácil analisar uma planilha grande. Mas isso também nos ajudará a descobrir qual é a nossa unidade de observação. Se nos preocupamos com vendas são unidade de observação. Pode ser dias da empresa está operando quantas vendas temos de segunda a sexta-feira, todos os dias em que a empresa estava aberta, ou pode ser que nossa unidade de análise é clientes. Se estamos tentando prever se um futuro cliente vai ou não voltar ou o valor que um determinado cliente irá encomendar, podemos Em vez de nos preocuparmos com dias individuais de vendas, podemos nos preocupar com clientes específicos e as suas características. Aqui estão dois exemplos no topo. Temos dados dependentes do tempo que você vê aqui. Dados fictícios sobre o número de vendas em um determinado dia relacionados à taxa de desemprego do estado são se estamos ou não executando, comercializando o número de vendedores que temos em nossos concorrentes. Preços na parte inferior. Temos dados de tempo estáticos. Temos clientes A, B, C, D E, etc. As vendas para esse cliente, independentemente de termos oferecido ou não ao cliente o preço com desconto, as encomendas mensais médias para determinado cliente e o último preço que algo foi vendido a esse cliente em ambos os conjuntos de dados podem ser muito útil. Mas eles nos deixam prever coisas completamente diferentes lá em cima. É mais provável que estejamos a tentar prever algo como o número de vendas que terão na próxima semana, no próximo trimestre. O que quer que esteja abaixo era muito mais provável. Seja tentando descobrir algo como o tipo de demanda que podemos esperar de um determinado cliente se alterarmos o preço estavam cobrando esse cliente. Ambas as questões são importantes, mas o tipo de banco de dados e o tipo de dados que precisamos para respondê-las é muito diferente. Se passarmos tempo antes de realmente coletar nossos dados, pensando sobre o que queremos nosso modelo, a aparência. E depois o quê? Queremos que nosso banco de dados pareça que vai nos poupar muito tempo e esforço e, francamente, frustração mais tarde. Depois de decidir sobre a análise de desativação U, você precisa consultar os dados de fusão, da Siri. Para fazer isso, eu preciso encontrar uma variável comum ou recurso para mesclar em dados dependentes de tempo que queremos passar por emergir na data, por exemplo. A idéia é que a data será comum entre diferentes variáveis, e, portanto, podemos mesclar essas variáveis em um único conjunto de dados grande e unificado como resultado, por tempo, dados estáticos independentes, isto é, nós poderíamos fundir em algo como CEP, por exemplo, não há uma única análise Univ ou variável comum que nós vamos querer fundir. Em vez disso, a fusão vai depender das circunstâncias específicas que nos preocupamos e do que estamos tentando analisar comprado quando estamos revisando nosso conjunto de dados, precisamos ter certeza de que a variável de fusão é única. Isso pode criar um grande problema que muitas pessoas não necessariamente pensam. Por exemplo, em alguns dos projetos financeiros em que trabalhei, os clientes costumam dizer, bem, vamos fundir, digamos , cotações de ações. Cada empresa tem seu próprio coração de ações, e isso é verdade. Mas o que muitas pessoas não conseguem perceber é que os cotações das ações são repetidos ao longo do tempo. Por exemplo, empresa ABC hoje pode se referir a uma empresa específica. Digamos que há 10 anos atrás, poderia ter se referido a uma empresa diferente, também. A empresa pode ter ido à falência ou sido fundida em outra empresa completamente. Foi adquirida, isto é, e aquele símbolo de ticker. O ABC ficou disponível novamente até que foi usado pela Empresa 1 hoje. Como resultado, as cotações de ações não são uma variável única para usar ao mesclar nossos dados. Se estamos olhando para uma série temporal de dados, eles podem ser repetidos ao longo do tempo para diferentes empresas que nós não queremos um pedaço juntos. Em vez disso, precisamos usar algo chamado Q sips quando estamos olhando para dados de investimento financeiro acusar gole simplesmente como um número de Seguridade Social. É específico para uma determinada empresa, e existe para sempre, quer a empresa saia ou não do negócio, etc. Ele nunca é reatribuído como os tickers são. Se estamos usando um programa de software como Sasse ou Stada vai querer mesclar, nossos dados usando código no Excel vai querer que ele seja ouvido usando a função de pesquisa V. Se você estiver indo para mesclar usando a função de pesquisa V, devemos sempre verificá-la vem após a fusão. Eles podem estar com defeito em particular. Sempre use o intervalo, procure o valor no V, procure a função e especifique uma correspondência exata em vez de correspondência aproximada. Se você especificar apenas uma correspondência aproximada, você terá inúmeros estados de problemas. Você também pode usar H funções de pesquisa, mas é melhor para um para análise ter variáveis em execução no topo e, em seguida, as observações rodando verticalmente em vez de vice-versa. 5. Como limpar dados, de forma que você é de Datasets: para limpar bancos de dados. Quando estamos passando pela limpeza de dados, é importante entender que quase todos os grandes conjuntos de dados têm alguns problemas. Esses problemas potenciais podem incluir coisas como dados fraudulentos nos erros de dados extremos que foram inseridos em algum momento, geralmente dados inadvertidamente genuínos, simplesmente não representativos de circunstâncias típicas transposições de dados. Agora, se você quiser passar e testar nosso conjunto de dados para erros seus procedimentos específicos que podemos usar para fazer isso. Então, para testar erros de dados, queremos começar descartando, substituindo quaisquer valores que não fazem sentido. Por exemplo, se estamos olhando para vendas diárias ou ativos da empresa, nunca deve haver valores negativos. Normalmente, é melhor descartar valores questionáveis a menos que tenhamos um pequeno conjunto de dados, caso em que a substituição desses valores será necessária agora. Geralmente, vamos pensar sobre um pequeno conjunto de dados é menos de 500 observações. Se tivermos menos de 500 observações no mínimo, devemos passar e tentar fazer o nosso melhor palpite sobre qual é o valor correto e substituir esses dados. Idealmente, porém, para apenas 500 observações. Se possível, gostaríamos de voltar e confirmar que os valores estavam colocando em nosso correto ou seja, passar por incorreto nosso conjunto de dados com conjuntos de dados maiores de, digamos, 10 20 150 mil observações. Isso simplesmente não vai ser prático na maioria dos casos. E se tivermos 100.000 observações de dados, desde que a maioria de nossos dados esteja bem, deixar cair alguns valores não fará grande diferença se estivermos caindo mais de, digamos, 20% de nossos valores ou 10% de nossos valores. Isso, é claro, cria um problema. Mas, francamente, se tivermos mais de três ou 4% de nossos valores com erros neles, provavelmente teremos um processo de coleta de dados defeituoso em primeiro lugar. Por isso, temos de voltar atrás e analisar as políticas e os procedimentos que temos em vigor que nos estão a permitir recolher esses dados. Provavelmente haverá alguns problemas lá que vão querer corrigir a seguir. Para testar nossos pontos de dados, queremos passar e encontrar a mediana média e o valor do desvio padrão para cada variável. Estas medidas estatísticas vão ser cruciais para nos permitir passar e fazer o tipo de teste de hipóteses que mencionei anteriormente relacionado com a correcção de eventuais erros de dados. Em particular, queremos passar e fazer uma verificação para sinalizar todos os nossos pontos de dados que são mais de três desvios padrão da média. A idéia é que em uma distribuição normal, maioria dos pontos de dados deve estar dentro desses três desvios padrão em particular. Se estamos pensando nisso, é um teste de hipóteses com duas caudas. Menos de 1% de nossos dados devem cair em mais de três desvios padrão da média, porque isso será apenas uma parte muito pequena de nossos dados. É uma boa idéia passar e sinalizar esses pontos de dados não excluí-los. Eles são dados úteis, e não há necessariamente uma indicação de que eles estão errados. Mas queremos sinalizá-los se descobrirmos que muito mais do que, digamos, 1% de nossos dados são mais de três desvios padrão da média que sugere que nossos dados são, em algum sentido, é incomum onde pode haver um problema com se nossa média e mediana são dramaticamente diferentes. Por exemplo, isso vai nos dizer que nossos dados estão distorcidos. Precisamos decidir se este é um problema com base na questão que estava examinando agora este mesmo procedimento que está olhando para o número de desvios padrão da média para qualquer dado ponto de dados que o procedimento pode ser usado para testar valores incomuns em podem não representar com precisão a realidade. Outra das questões na análise de dados que mencionei anteriormente. Da mesma forma, vai ser útil. Sinalize quaisquer observações no 1% superior de nossos dados e o 1% inferior de nossos dados. Isso é chamado de vitórias. Levantando-se novamente, essas observações não precisam ser descartadas. Mas devemos fazer análises com ele sem esses dados para ter certeza não estão gerando nossos resultados. Um erro crítico que podemos cometer, por exemplo, é passar por e pensar que nossas vendas podem ser drasticamente maiores se seguirmos os procedimentos X Y Z quando, na realidade, isso só é verdade para uma pequena amostra do nosso dados. Digamos que o maior 1% de nossos clientes foi o menor 1% de nossos clientes sinalizando esses dados e , em seguida, executando nossa análise com e sem esses pontos de dados específicos. Vamos este teste para ter certeza de que os dados são realmente semelhantes para aqueles ventos, arizados ou aqueles pontos de bandeira versus o conjunto de dados em massa geral. E também nos permite garantir que nossos resultados não estão sendo conduzidos por uma amostra de nossos dados gerais. Isto leva a outra questão muito importante. Ben Friends Law. Agora, uma das coisas mais complicadas para lidar na análise de dados é o potencial para dados falsos. Uma das melhores regras, porém, para porém, testar grandes conjuntos de dados para dados falsos é Ben Friends Law. Ben Foods Loss diz que em dados genuínos reais, o número um deve ser o mais comum. O número dois deve ser o próximo mais comum, seguido pelo número três, o número quatro, etc. Para ilustrar por que esse é o caso, pense no mercado de ações. Demorou muito mais tempo para a média industrial da Dow Jones ir de 1000 para 2000 do que de 17.000. É simplesmente uma questão de crescimento dentro dos mercados. Passar de 1000 para 1100 é um movimento de 10% nos mercados, em teoria, que 10% passam para levar aproximadamente a mesma quantidade de tempo que ir de, digamos, 16.800. Além disso, um movimento de 10% ainda indo de 1000 para 1100 Onley move-nos uma fração do caminho entre os pontos de dados de 3000 versus ir de 16.800 move-nos a grande maioria da distância para os 9000 pontos na indústria Dow Jones média. Assim, medida que vamos cada vez mais alto, o movimento este menor e menor em uma base percentual, lei Ben Foods simplesmente captura isso em uma forma elegante. Ao passar e olhar para os dados, o número um deve ser o número mais comum, seguido pelo número dois, etc. Procure esse padrão em nossos dados e podemos dizer se ou não os dados Israel ou falsificar o gráfico abaixo vai nos mostrar a frequência de cada número em dados genuínos. Agora, tenha em mente, haverá alguma variação disso em qualquer amostra de dados. Mas, em média, cerca de 30,1% de todos os números todos os dígitos em dados genuínos devem ser o número um 17,6% deve ser o número dois 12,5% deve ser o número três 9,7% deve ser o número quatro 7,9% rua. O número cinco 6,7% deve ser o número seis 5,8% deve ser o número sete. 5,1% deve ser o número oito, e 4,6% deve ser o número nove. Se você passar e olhar um conjunto de dados e você descobrir que ele difere drasticamente disso, isso não garante necessariamente os dados fraudulentos da viagem. Mas isso significa que provavelmente é prudente verificar a fonte desses dados e decidir por conta própria quão confiáveis esses dados são. Você não gostaria de tomar grandes decisões sem passar e estar bastante confiante de que os dados eram precisos. lei da Ben Foods pode parecer simples, mas na realidade é uma ferramenta extremamente poderosa. Por exemplo, em um famoso estudo de pesquisa, os economistas mostraram que os dados da Enron e os dados financeiros não seguiam Ben para a lei de Deus . Se os auditores estivessem olhando para a Lei Ben Fritz ao avaliar os livros da Enron, bem, digamos que o resultado dessa história poderia ter sido muito diferente 6. Armando em armadilhas em coleta de dados: módulo. Cinco armadilhas na construção de conjuntos de dados Há alguns problemas importantes nos dados que você pode encontrar que são úteis para entender como lidar. Em particular. A primeira é o que fazer sobre a falta de muitos dados. O segundo é Souness em dados Ah, terceiro é un variáveis observáveis e doutrinação. Ah, quarto é quando temos uma pequena amostra que pode estar gerando nossos resultados. Todos esses problemas podem ser muito desafiadores de lidar com, mas vamos falar sobre algumas estratégias para cada um deles à medida que passamos por este módulo em particular, vamos começar pensando em conjuntos de dados que estão faltando muitas variáveis. Se tivermos um conjunto de dados que está faltando muitos dados, isso pode nos levar a conclusões errôneas. Não está claro por que os dados estão faltando em primeiro lugar e sem saber que não sabemos se é ou não um problema para nossa análise. Então você tem que ser muito cuidadoso neste tipo de situações. Por exemplo, se estamos estudando dados financeiros de empresas estrangeiras, apenas os dados das maiores empresas tendem a estar disponíveis na maioria dos casos fora dos dos EUA requisitos de relatórios dos EUAsimplesmente não são tão minuciosamente seguidos, e eles não são rigorosos como eles são nos EUA. EUA Como resultado, as empresas maiores da Onley tendem a relatar com precisão e consistência suas finanças. Empresas menores não tendem a fazer isso. Os pequenos dados das pequenas empresas estão frequentemente ausentes. Assim, se estamos tentando passar e executar uma análise simples de, digamos, tamanho do ativo em empresas fora dos EUA , isso vai produzir uma imagem distorcida. Nesse caso em particular, descobriremos que vemos, acreditamos, com base em nossa análise, com base em nossa análise, que a maioria das empresas estrangeiras são muito maiores do que realmente são. E isso é o que vemos na prática. Assim, isso poderia nos comprar, por exemplo, quaisquer decisões que possamos estar tomando sobre entrar ou não em um mercado externo. Talvez acreditemos que as empresas enfrentarão são muito maiores do que realmente são . Na realidade, esse mesmo tipo de problema pode acontecer em outros tipos de análise. Como regra geral. Se você estiver faltando mais de 25% dos valores, qualquer variável em um conjunto de dados, é hora de examinar mais de perto esses dados. Você pode ou não ser capaz de corrigir esse problema, mas se você não conseguir, você precisa decidir se as conclusões que você vai tirar desses dados serão realmente válidas. Em seguida, vamos falar sobre distorção nous e dados distorcidos e dados podem ser um problema, dependendo dos dados que estão sendo examinados. Um exemplo clássico disso são os níveis de renda. Se estamos olhando para a renda média ou média para nossos clientes, por exemplo, isso vai produzir uma visão distorcida. Ninguém tem um nível de renda inferior a $0 enquanto algumas pessoas têm uma renda superior a $1.000.000 . Isso é que nous poderia distorcer algum tipo de análise sobre preços ótimos usados em um esforço de discriminação de preços . Por exemplo, em um projeto recente em que eu estava envolvido, ah, empresa tinha passado e nós estamos olhando para seus clientes tentando prever que tipo de preço ótimo eles poderiam cobrar usando os dados médios. Eles realmente tinham alguns clientes muito ricos, e eles acreditavam que seus clientes eram muito menos sensíveis ao preço do que eles realmente eram. No caso da empresa que levou a empresa a aumentar o preço demais, prejudicando suas vendas. Embora a diferenciação de preços seja muito útil neste tipo de estudo, precisamos ter certeza de que estamos usando a métrica apropriada put. A renda média dos nossos clientes é, na verdade, a mediana é uma indicação muito melhor disso na média. Se nossos dados estiverem distorcidos, isso pode ou não ser um problema. De qualquer forma, os dados não podem ser desparafusados, então, em vez disso, precisamos usar certas ferramentas estatísticas ao fazer nossa análise financeira e econômica. Essas ferramentas não são necessariamente tão complicadas, mas você pode ou não estar familiarizado com, hum, então é importante analisar e fazer um pouco de pesquisa antes de chegar a esse ponto. 1/3 problema que podemos enfrentar é variáveis observáveis da ONU. Às vezes, os resultados para uma decisão de negócios são simplesmente conduzidos por uma variável não pode ser observada . Por exemplo, se estamos tentando prever quais candidatos a emprego seriam os melhores funcionários, isso pode ser uma tarefa infrutífera e frustrante. Pode ser que os melhores funcionários sejam os mais inteligentes. Mas não podemos medir a inteligência diretamente, pelo menos a menos que vamos começar a pagar os testes de I Q direito. Podemos lidar com este problema através de variáveis não observáveis que devem ser correlacionadas. Por exemplo, com a inteligência, podemos ir através e olhar para o S a T pontuar a faculdade GP A. para procuração de inteligência. Não é perfeito. Claro, nem as pontuações da faculdade g p A nem S a T prevêem diretamente a inteligência, mas estão relacionadas. Seria muito incomum para alguém que não é muito inteligente para marcar muito bem em seu S, um ts ou de um muito alto colégio G p a. Novamente, não é perfeito, e precisamos estar cientes disso. Mas pode ou não ser a melhor escolha que temos. Temos que decidir se podemos encontrar uma boa variável proxy para nosso fator un observável. Se não pudermos, precisaremos usar técnicas estatísticas especiais em nossa análise. Outro problema que podemos ter é a possibilidade de uma subamostra conduzir os nossos resultados. Às vezes, uma amostra de nossa análise mostra nossas conclusões. Por exemplo, a maioria dos retornos de ações em qualquer ano ocorre na semana das reuniões da Reserva Federal . O Fed reúne-se periodicamente ao longo do ano e a maioria dos retornos de ações, estudos descobriram, ocorre no período de uma semana antes e depois do Fed se reunir. É uma pequena parte do número total de dias de negociação no mercado, mas é a amostra mais importante do ano. Olhando para a maioria dos outros dias durante o ano vai levar a menos conclusões significativas sobre os retornos gerais para evitar problemas com sub amostras. Dirigindo nossos resultados. Será sempre melhor executar nossa análise em diferentes períodos de tempo. Por exemplo, poderíamos verificar os fatores que acreditamos preverem retornos de ações e ver se eles têm ou não poder preditivo em cada mês do ano, vez de apenas os meses para o Fed atender. Vamos falar sobre o que aprendemos para começar. Quando estamos avaliando bancos de dados, precisamos estar cientes das diferenças em bancos de dados comerciais caros e se há ou não certo para nós. A alternativa é usar métodos genéricos de coleta de dados. Estes têm o seu próprio conjunto de problemas, entanto, e em particular eles podem exigir mais esforço de sua equipe. Em seguida, falamos sobre a coleta de dados. É importante ser capaz de olhar através e combinar dados que foram construídos, comprados e coletados de um conjunto díspares de fontes passando e obter uma tomada desses dados que reunimos e colocá-los todos juntos em um conjunto de dados útil é o que nos referimos como mesclando nossos dados para mesclar nossos dados. Precisamos decidir o que é a análise Univ e, em seguida, mesclar os dados em conformidade. Lembre-se de que nossa unidade de análise precisa ser única, modo que possamos mesclar nossos dados corretamente. Em seguida, falamos sobre a limpeza de nossos dados. Em seguida, falamos sobre a limpeza de nossos dados para limpar nossos dados. Temos de passar e testar uma variedade de problemas potenciais. Por exemplo, coisas como dados ausentes, dados distorcidos, dados potencialmente fraudulentos, etc. Para testar esses problemas, há uma variedade de diferentes tipos de técnicas estatísticas que podemos usar. Estes variam de coisas como vitórias surgindo e olhando para meios e medianos para regras como Ben Foods Law. Finalmente, falamos sobre armadilhas nos dados. É sempre importante verificar seus dados para possíveis problemas e, se você encontrar algo incomum, tenha uma técnica para lidar com o problema. Eu tentei passar por um esboço muitas das técnicas que você vai precisar para fazer esse tipo de análise e esse tipo de verificação nesta apresentação. Espero que tenha gostado desta conversa. Eu certamente gostei desta oportunidade de falar com você. Obrigado por assistir. Procure futuros cursos de técnicas de business intelligence em breve. Te vejo na próxima vez.