Inteligência de negócios - estruturando dados para análise de negócios, curso de BI #3 | Michael McDonald | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Inteligência de negócios - estruturando dados para análise de negócios, curso de BI #3

teacher avatar Michael McDonald, Business Intelligence and Finance

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Estruturando dados para inteligência de negócios

      1:29

    • 2.

      Visão geral de dados de estruturação para análise

      6:40

    • 3.

      Avaliando a precisão de dados

      10:52

    • 4.

      Rácios e métricas-chave no Data Analytics

      10:52

    • 5.

      Variáveis categóricas em Business Intelligence

      18:16

    • 6.

      Como criar dados em um conjunto de dados

      8:19

    • 7.

      Noções básicas de análise de dados

      7:21

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

127

Estudantes

--

Sobre este curso

Este terceiro curso de inteligência de negócios na sequência, vai preparar os participantes para iniciar projetos de inteligência de negócios na sua própria empresa. O foco do curso é uma abordagem prática para estruturar dados, incluindo geração de novas variáveis baseadas em métricas comparativas e relativas. A estruturação dessas variáveis será feita no Excel, SAS e Stata para dar aos espectadores uma noção de familiaridade com uma variedade de diferentes estruturas de pacotes de software. O foco deste curso será nos dados financeiros, embora as técnicas também sejam aplicáveis a formas mais gerais de dados, como as utilizadas nas análises de marketing ou gerenciamento.

Conheça seu professor

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Professor
Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Estruturando dados para Business Intelligence: Oi. Bem-vindo à Business Intelligence estruturando dados para análise. Meu nome é Dr. Michael McDonald. Hoje eu vou estar falando com você sobre esse assunto e o que você precisa saber. Enquanto você está se preparando para projetos de business intelligence com sua empresa, deixe-me começar com uma visão geral para aqueles que podem ter perdido minhas aulas de business intelligence anteriores , vamos passar por várias seções diferentes no módulo um. Vamos falar sobre uma visão geral da estrutura de dados, os conceitos básicos e o que você precisa saber sobre inteligência de negócios que o resto desta sessão faz sentido no módulo para Vamos falar sobre a avaliação da precisão dos dados. Se você receber um conjunto de dados, como vamos passar e descobrir se é o que de fato precisamos para prosseguir com o projeto no Módulo 3 vai passar e olhar para as razões e métricas chave nos dados e como podemos usá-los para fazer certeza de que estamos otimizando nossa análise de dados em Montreuil quatro vai olhar para o uso de variáveis categóricas. O que são variáveis categóricas? Como eles são formados? Como eles são úteis em nossa análise, Montreuil cinco vai olhar para a imputação de dados um dos grandes desafios e business intelligence muitas vezes está faltando. imputação de dados é uma maneira de contornar esse problema no módulo cinco, vamos falar sobre como condenamos a enguia com diferentes pedaços de dados ausentes. E, finalmente, no módulo seis, darei a vocês uma prévia da seção de análise de dados que estará chegando no próximo curso. Vamos começar, vamos? 2. Visão geral de estruturações para análise: estrutura de dados. Visão geral do módulo um. O que é business intelligence? Bem, para aqueles que faltam às aulas passadas, deixe-me explicar o que exatamente estavam falando quando nos referimos a inteligência de negócios . Essencialmente, business intelligence permite que uma empresa tome decisões inteligentes e baseadas em fatos. Eliminar adivinhações envolve quatro etapas. Primeira coleta de dados de limpeza. Segundo, analisando dados. Em terceiro lugar, testando nossas escolhas com dados e quarta tomada de decisão com base nesses dados, os dados estruturação de classe de hoje cai no final da seção de coleta de dados Limpar. E logo antes de começar a analisar dados, como usamos o business intelligence? Bem, inteligência de negócios é útil em uma variedade de circunstâncias diferentes. Em particular, sua melhor resposta utilizada. O tipo de perguntas quantitativas que surgem muitas vezes para as empresas quando estão olhando para perguntas que envolvem prever algo ou analisar o desempenho atual , etc. Alguns exemplos de questões de business intelligence incluem coisas como qual de nossos clientes deve ser oferecido descontos em um produto, a fim de induzir esses clientes a comprar mawr, que os mutuários do nosso banco são mais propensos a padrão. Dadas as tendências e a economia, quais serão as nossas vendas ou fluxos de caixa no próximo período? Onde deve ser localizado um novo escritório de loja, a fim de maximizar o nosso sorteio para novos clientes . Todos esses são exemplos de perguntas que poderiam ser respondidas usando dados e usando uma estrutura de business intelligence. Então, como eu disse, o primeiro passo no business intelligence é coletar dados. Então, onde é que arranjaste esses dados? Bem, há três maneiras diferentes de você coletar os dados para o seu projeto. Você pode usar qualquer um dos três, ou você pode usar uma combinação fora deles. Primeiro, você pode comprar dados. Isso inclui coisas como nomes e endereços. Por exemplo, para clientes que são comumente comprados dados financeiros sobre ações negociadas publicamente. Estado de recursos naturais de coisas como imagens de satélite para empresas petrolíferas, etc. Todos esses dados geralmente vai ter que ser comprado através 1/3 partido. Em segundo lugar, você pode criar seus próprios dados. Definir dados sobre seus clientes é muitas vezes o mais valioso para sua empresa. Se você está tentando prever o que seus clientes vão fazer, provavelmente você tem dados melhores do que qualquer outra pessoa em seus próprios clientes e, em terceiro lugar, você pode coletá-los gratuitamente. Neste caso, o governo federal tem resmas de dados disponíveis, isso é particularmente verdade quando estamos falando sobre dizer condições macroeconômicas ou pesquisas dos EUA cortar coisas de consumo que estão geralmente relacionadas ao geral economia. Não há como comprar esses dados. Mas muitas vezes é apenas Azizi para baixá-lo do Fed através de um dos bancos de dados da Reserva Federal ou através do U. S. Census Bureau são uma das outras muitas organizações governamentais que coletam dados e torná-lo livremente disponível para o público novamente para obter mais dados, firmes ou informações sobre todos esses diferentes aspectos da coleta de dados para projetos de business intelligence. Veja minha aula passada sobre este assunto. Em seguida, depois de reunirmos nossos dados, precisamos construir um banco de dados. Para fazer isso, vamos precisar reunir vários conjuntos de variáveis de dados. Ocasionalmente, você tem todos os dados ordenadamente organizados em um dia para definir, e você não tem que fazer nada com ele. Mas isso é bastante incomum. E, francamente, isso só acontece se tentarmos responder a uma pergunta muito simplista como, por exemplo, qual é o endereço do cliente X y Z? Bem, nós provavelmente apenas olharíamos nosso banco de dados de clientes. Essa não é uma pergunta do tipo business intelligence. Na maioria das vezes, precisaremos reunir diferentes conjuntos de dados. Por exemplo, dados sobre a economia geral combinados com dados sobre nossos clientes e combinam esses dois para ver, por exemplo, como a economia geral e suas condições afetam as vendas de nossos clientes, talvez nos deixando prever vendas para a nossa empresa no futuro. Juntar esses diferentes conjuntos de dados parece fácil, certo? Basta pegar duas peças de dados diferentes e juntá-las. Na verdade, não é, Por exemplo, há alguns problemas que você pode encontrar. Um dos primeiros problemas é que os dados económicos têm frequências diferentes. Os preços do petróleo são comunicados diariamente. O PIB é reportado trimestralmente. As vendas de casas são reportadas mensalmente. As reivindicações de desemprego são reportadas semanalmente ou mensalmente, dependendo de quais estatísticas específicas vamos analisar tantas vezes, é difícil mesclar esses conjuntos diferentes para descobrir como fundir eles juntos. Precisamos descobrir quais são as relações entre bancos de dados para mesclá-los de forma mais eficaz . Assim que fizermos isso, podemos estruturar nossos dados. Estruturação de dados é o tópico para os dados de classe de hoje precisam ser estruturados adequadamente, nem para facilitar a análise. Em particular, isso significa determinar quais variáveis usar em nossa análise de dados sobre quais tipos de alterações devem ser feitas nos dados ou para maximizar sua eficácia. Estrutura de dados ruim pode ser um problema realmente significativo. Por exemplo, recentemente realizei uma sessão de treinamento para funcionários de uma empresa Fortune 500, onde eles receberam um projeto inicial por um dos gerentes de nível superior. E depois de uma das coisas que fizemos neste treinamento foi o que eles trouxeram o projeto para o curso. Nós meio que passamos e olhamos para algumas das análises que eles fizeram quando eu descobri muito rapidamente, é que eles não conseguiram quantificar adequadamente os efeitos das mudanças macro nas vendas para sua empresa porque eles não estruturar os dados corretamente em tudo. A falha em estruturar os dados e colocar essas variáveis no tipo correto faz para um grande problema quando se trata de prever diferentes efeitos neste caso, as vendas para a empresa. Então, se não estruturarmos nossos dados corretamente, construindo uma base muito fraca para futuras questões de business intelligence. Agora, quando se trata de análise de dados, esse será o assunto para um curso futuro. Mas, em resumo, se estruturamos nossos dados corretamente, podemos usar ferramentas estatísticas para prever na análise de questões de negócios. Essas ferramentas incluem, entre outras coisas, análise de regressão, árvores de decisão, análise de cenários, simulações de Monte Carlo, etc. Você pode procurar um curso futuro sobre esses tópicos. 3. Avaliando a precisão dos dados: módulo dois. Avaliar os dados para começar com um dado de recesso que precisamos passar e avaliar, decidir se temos ou não problemas com nossos bancos de dados. Em particular, bancos de dados em configurações de negócios geralmente são gerados automaticamente ou quase automaticamente. Por exemplo, os dados de relatórios de vendas ou de estatísticas de investimento poderiam ser descarregados diretamente de uma parte diferente da empresa. Os dados de locais de varejo, talvez com a nossa empresa, geralmente são gerados automaticamente por software. Por exemplo, em um sistema de ponto de venda. É importante avaliar esses dados e sua precisão antes de avançarmos para analisá-los. Dados que são gerados automaticamente muitas vezes não tiveram uma verificação de sanidade por qualquer ser humano e, portanto, como resultado, podem conter erros, omissões ou problemas que podemos ignorar. Se avançarmos rapidamente. Quando estamos avaliando dados, há alguns questões-chave que queremos começar olhando primeiro, a data parece ter algum tipo de mentirosos fora? Segundo, a data parece ser exacta? Terceiro, são a construção de dados em torno de variáveis que fazem sentido econômico. Por exemplo, podemos ter dívida como uma variável e ativos é outra. Se estamos olhando para, por exemplo, diferentes empresas que podem ser concorrentes nossos, ou apenas empresas diferentes que são negociadas publicamente. Bem, se olharmos para o valor agregado da dívida detida por uma empresa que não nos diz muito no agregado, tudo o que ele realmente consegue é nos dar um proxy para o tamanho. Empresas maiores, em média, devem manter mais dívidas. Eu esperaria que, como exemplo, General Electric tem muito mais dívidas do que, digamos, Ah, fabricante industrial muito pequeno. G E é grande. Eles podem dar ao luxo de suportar muito mais dívidas, então a dívida por si só não é muito útil. A mesma coisa se aplica aos ativos. Não é realmente claro que os ativos por si só nos dizem outra coisa além de nos dar um proxy para o tamanho da empresa. Por outro lado, se tomarmos uma proporção de activos da dívida agora temos algo mais significativo. Neste caso, os activos da dívida vão dar-nos algum tipo de indicação do risco da firma. Além disso, e finalmente, podemos estar interessados em olhar para outras lacunas ou descontinuidades nos dados. Estes são todos os pontos-chave que devemos analisar mais primeiro através de um conjunto de dados. Quando se trata de namorar mentirosos, temos que nos perguntar como são os dados? Parece que os dados são testes simétricos? Isso precisará executar o termo de cálculos. A média e a mediana de cada variável de interesse são a carne que podemos perguntar a nós mesmos. Se não, nós decidimos de distorção Nissen. Os dados são um problema. Se a média e a mediana diferem drasticamente, isso nos diz que nossos dados estão distorcidos. Nós também podemos executar cálculos termo nos percentis superior e inferior o top 1% o top 5% o top 10% e compará-los contra a média e mediana. Se, por exemplo, estivessem olhando para, digamos, vendas para alguns de nossos clientes, se o 1% mais alto dos registros de vendas de nossos clientes for seguro para 100 vezes a média de vendas, talvez essas métricas não são muito são muito significativas. Talvez essas métricas vão estragar nossa análise, talvez, por exemplo, seja simplesmente um erro de contabilidade. Seja qual for o problema, precisamos passar e decidir se esses percentis superiores e inferiores pertencem aos nossos dados. Defina tudo para calcular significa medianas e percentis. Há algumas ferramentas diferentes que podemos usar. Vou falar brevemente sobre SAS, Stada e Excel. O Excel é provavelmente aquele com o qual quase todos estão familiarizados. Para calcular significa medianas e percentis e Excel vai simplesmente usar as seguintes funções. Média mediana e ponto de percentil Inc Cada um desses ar bastante simples, e eles vão nos deixar passar e descobrir algumas das perguntas que queremos olhar no Excel. O problema com o Excel, entanto, é que o Excel só nos permite olhar para um pequeno subconjunto de dados, relativamente falando, dependendo da versão do Excel que você está usando. Está em qualquer lugar de talvez 65.000 linhas de dados até talvez 1.000.000 linhas de dados. Francamente, mesmo se você tiver versões mais recentes do Excel que permitem que você analise até um 1.000.000 linhas de dados, Excel muitas vezes tem problemas para lidar com grandes bases de dados como que classifica Congar pesquisas v erradas . Coisas assim, você pode ter sérios problemas com o Excel para conjuntos de dados muito grandes mais de cerca de 50.000 pontos de dados ou assim. Como resultado, eu não estou dizendo que você não deve usar o Excel, mas você deve ser muito cauteloso com ele. Agora, se você não quiser usar o Excel, um dos programas alternativos que eu realmente gosto, este estado A é muito bom porque ele tem dois benefícios. Número um. É barato. Ist pacotes de software ir. Você pode obter uma licença perpétua para alguns entre alguns 100 talvez $1000 dependendo do tipo de organização que você é. Estado também é muito amigável, não tão amigável quanto excel. Mas é muito mais poderoso onde o Excel fica preso em cerca de 50.000 pontos de dados e apenas algumas variáveis e começa a produzir saída ou saída questionável. Isso, na verdade, é absolutamente errado. E você não tem como saber se está errado ou não, porque o Excel não lhe dá nenhum tipo de aviso. Stada evita todos esses problemas. Estado de ainda depende de uma entrada de folha de cálculo, o que é bom porque você pode passar por exibir seus dados no mesmo tipo de estrutura que você faz com o Excel comprado. Ele lhe dá mais ferramentas para passar por uma análise de seus dados de uma maneira mais robusta. Você pode ver alguns dos códigos básicos que eu escrevi para alguma análise abaixo agora no estado, se quiséssemos olhar para médias medianas e percentis, nós simplesmente usaríamos as seguintes funções. Por exemplo, alguma variável uma variável para etcetera. Se nós simplesmente digitar isso e colocar em nossos nomes de variáveis, estado vai cuspir nossos meios. Se escrevermos alguma variável uma variável para variável, três etcetera e, em seguida, detalhe vírgula no final, ele vai cuspir para fora. Não são apenas meios, mas nossas medianas e nossos percentis em vários pontos do conjunto de dados, então o estado é muito simples e fácil de usar. E o bom é que uma vez que você tenha escrito um programa, você pode pegar esse mesmo programa e aplicá-lo a vários conjuntos de dados, então pode ser mais trabalho adiantado. Comparado ao Excel. Uma vez que você tenha feito o trabalho na frente, é muito fácil reexecutá-lo uma e outra vez. Novamente. É um pouco mais caro do que programas como, digamos, que são de código aberto. Mas eu acho que é mais fácil de usar, e por isso é muitas vezes dólares bem gastos. Isso depende de você, claro, para cada pessoa é propriedade agora como uma alternativa. Se você não gosta de estado de por qualquer motivo, SAS é outra ótima escolha. Declarado tem ferramentas de análise de dados muito mais poderosas do que o Excel tem. Mas se você começar a olhar para 5 10 2030 milhões de observações estado, muitas vezes pode ficar mais lento. Nesse caso, você precisará de um programa de software diferente. Sass é uma ótima escolha agora. Sass é muitas vezes comprado em uma licença. É um pouco mais caro do que Stada, mas ainda é uma boa escolha em geral, assim como State of the Oh SAS envolve escrever um pedaço de código, que implica, é claro, trabalho inicial. Mas então, uma vez que você tenha escrito esse programa, você pode usá-lo uma e outra vez e outra vez. Então trabalho adiantado. Mas então, uma vez que o programa é escrito, é muito fácil aplicá-lo a uma miríade de conjuntos de dados diferentes com apenas pequenas alterações . Então, neste caso em particular, escrevi este programa, que passa e nos mostra nossos retornos. Em particular, o conjunto pertinente de código aqui está na parte inferior. Prock significa dados. Isso nos mostra para o nosso conjunto de dados específico. Neste caso, retornos de ponto s e P 500 são percentil médio médio para o percentil 90, o percentil 10 os homens e o máximo no conjunto de dados, todos com decimais máximos de três. Poderíamos, claro, mudar isso. Mas o ponto é que a codificação é relativamente simples para passar por e descobrir esses diferentes indicadores de dados, eles vão nos deixar estabelecer se nosso conjunto de dados é ou não adequado, correto e bem construído. Em seguida, Quando estamos olhando para a precisão dos dados, uma das grandes preocupações é sempre dados falsos. Ben, a lei de Deus é um dos melhores testes para dados falsos. Se você está preocupado com a sua empresa recebendo dados que foram falsificados por algum motivo , eu recomendo vivamente usar a lei de Benford. Ben Friends Law simplesmente diz que em dados reais, o número um deve ser o número mais comum. O número dois deve ser o próximo, mais comum, etc. Isso soa inacreditável, mas na verdade ele funciona uma e outra vez com muitos conjuntos de dados diferentes. Para ilustrar por que isso é o caso. Pense no mercado de ações. Demorou muito mais tempo para o Dow Jones ir de 1000 para 2000 pontos do que de 17.000 pontos. A natureza do crescimento em Siris de números é que um será sempre o número mais comum em um conjunto de dados real deve ser o próximo mais comum etcetera. O gráfico abaixo mostra a frequência de cada número em dados genuínos. Agora tenha em mente, claro, que há alguma variação a partir disso em qualquer amostra de dados dada. Mas, em média, para um conjunto de dados, devemos descobrir que o número um representa cerca de 30,1% em todos os dígitos em dados reais. O número dois representa cerca de 17,6% de todos os dígitos. Número três, cerca de 12,5%, etc. Então você pode usar esta é uma ferramenta para estabelecer se seus dados são ou não genuínos. Os dados genuínos não garantem que não haja problemas com os dados. Por exemplo, os dados podem ter observações ausentes ou os dados podem simplesmente ser muito pequenos de um tamanho amostral . Mas nos diz que nos dá uma indicação, pelo menos, de que os dados não foram adulterados. 4. Proporções e principais métricas no análise de dados: Módulo dois. Avaliar os dados para começar com um dado de recesso que precisamos passar e avaliar, decidir se temos ou não problemas com nossos bancos de dados. Em particular, bancos de dados em configurações de negócios geralmente são gerados automaticamente ou quase automaticamente. Por exemplo, os dados de relatórios de vendas ou de estatísticas de investimento poderiam ser descarregados diretamente de uma parte diferente da empresa. Os dados de locais de varejo, talvez com a nossa empresa, geralmente são gerados automaticamente por software. Por exemplo, em um sistema de ponto de venda. É importante avaliar esses dados e sua precisão antes de avançarmos para analisá-los. Dados que são gerados automaticamente muitas vezes não tiveram uma verificação de sanidade por qualquer ser humano e, portanto, como resultado, podem conter erros, omissões ou problemas que podemos ignorar. Se avançarmos rapidamente. Quando estamos avaliando dados, há alguns questões-chave que queremos começar olhando primeiro, a data parece ter algum tipo de mentirosos fora? Segundo, a data parece ser exacta? Terceiro, são a construção de dados em torno de variáveis que fazem sentido econômico. Por exemplo, podemos ter dívida como uma variável e ativos é outra. Se estamos olhando para, por exemplo, diferentes empresas que podem ser concorrentes nossos, ou apenas empresas diferentes que são negociadas publicamente. Bem, se olharmos para o valor agregado da dívida detida por uma empresa que não nos diz muito no agregado, tudo o que ele realmente consegue é nos dar um proxy para o tamanho. Empresas maiores, em média, devem manter mais dívidas. Eu esperaria que, como exemplo, General Electric tem muito mais dívidas do que, digamos, Ah, fabricante industrial muito pequeno. G E é grande. Eles podem dar ao luxo de suportar muito mais dívidas, então a dívida por si só não é muito útil. A mesma coisa se aplica aos ativos. Não é realmente claro que os ativos por si só nos dizem outra coisa além de nos dar um proxy para o tamanho da empresa. Por outro lado, se tomarmos uma proporção de activos da dívida agora temos algo mais significativo. Neste caso, os activos da dívida vão dar-nos algum tipo de indicação do risco da firma. Além disso, e finalmente, podemos estar interessados em olhar para outras lacunas ou descontinuidades nos dados. Estes são todos os pontos-chave que devemos analisar mais primeiro através de um conjunto de dados. Quando se trata de namorar mentirosos, temos que nos perguntar como são os dados? Parece que os dados são testes simétricos? Isso precisará executar o termo de cálculos. A média e a mediana de cada variável de interesse são a carne que podemos perguntar a nós mesmos. Se não, nós decidimos de distorção Nissen. Os dados são um problema. Se a média e a mediana diferem drasticamente, isso nos diz que nossos dados estão distorcidos. Nós também podemos executar cálculos termo nos percentis superior e inferior o top 1% o top 5% o top 10% e compará-los contra a média e mediana. Se, por exemplo, estivessem olhando para, digamos, vendas para alguns de nossos clientes, se o 1% mais alto dos registros de vendas de nossos clientes for seguro para 100 vezes a média de vendas, talvez essas métricas não são muito são muito significativas. Talvez essas métricas vão estragar nossa análise, talvez, por exemplo, seja simplesmente um erro de contabilidade. Seja qual for o problema, precisamos passar e decidir se esses percentis superiores e inferiores pertencem aos nossos dados. Defina tudo para calcular significa medianas e percentis. Há algumas ferramentas diferentes que podemos usar. Vou falar brevemente sobre SAS, Stada e Excel. O Excel é provavelmente aquele com o qual quase todos estão familiarizados. Para calcular significa medianas e percentis e Excel vai simplesmente usar as seguintes funções. Média mediana e ponto de percentil Inc Cada um desses ar bastante simples, e eles vão nos deixar passar e descobrir algumas das perguntas que queremos olhar no Excel. O problema com o Excel, entanto, é que o Excel só nos permite olhar para um pequeno subconjunto de dados, relativamente falando, dependendo da versão do Excel que você está usando. Está em qualquer lugar de talvez 65.000 linhas de dados até talvez 1.000.000 linhas de dados. Francamente, mesmo se você tiver versões mais recentes do Excel que permitem que você analise até um 1.000.000 linhas de dados, Excel muitas vezes tem problemas para lidar com grandes bases de dados como que classifica Congar pesquisas v erradas . Coisas assim, você pode ter sérios problemas com o Excel para conjuntos de dados muito grandes mais de cerca de 50.000 pontos de dados ou assim. Como resultado, eu não estou dizendo que você não deve usar o Excel, mas você deve ser muito cauteloso com ele. Agora, se você não quiser usar o Excel, um dos programas alternativos que eu realmente gosto, este estado A é muito bom porque ele tem dois benefícios. Número um. É barato. Ist pacotes de software ir. Você pode obter uma licença perpétua para alguns entre alguns 100 talvez $1000 dependendo do tipo de organização que você é. Estado também é muito amigável, não tão amigável quanto o excel. Mas é muito mais poderoso onde o Excel fica preso em cerca de 50.000 pontos de dados e apenas algumas variáveis e começa a produzir saída ou saída questionável. Isso, na verdade, é absolutamente errado. E você não tem como saber se está errado ou não, porque o Excel não lhe dá nenhum tipo de aviso. Stada evita todos esses problemas. Estado de ainda depende de uma entrada de folha de cálculo, o que é bom porque você pode passar por exibir seus dados no mesmo tipo de estrutura que você faz com o Excel comprado. Ele lhe dá mais ferramentas para passar por uma análise de seus dados de uma maneira mais robusta. Você pode ver alguns dos códigos básicos que eu escrevi para alguma análise abaixo agora no estado, se quiséssemos olhar para médias medianas e percentis, nós simplesmente usaríamos as seguintes funções. Por exemplo, alguma variável uma variável para etcetera. Se nós simplesmente digitar isso e colocar em nossos nomes de variáveis, estado vai cuspir nossos meios. Se escrevermos alguma variável uma variável para variável, três etcetera e, em seguida, detalhe vírgula no final, ele vai cuspir para fora. Não são apenas meios, mas nossas medianas e nossos percentis em vários pontos do conjunto de dados, então o estado é muito simples e fácil de usar. E o bom é que uma vez que você tenha escrito um programa, você pode pegar esse mesmo programa e aplicá-lo a vários conjuntos de dados, então pode ser mais trabalho adiantado. Comparado com o Excel. Uma vez que você tenha feito o trabalho na frente, é muito fácil reexecutá-lo uma e outra vez. Novamente. É um pouco mais caro do que programas como, digamos, que são de código aberto. Mas eu acho que é mais fácil de usar, e por isso é muitas vezes dólares bem gastos. Isso depende de você, claro, para cada pessoa é propriedade agora como uma alternativa. Se você não gosta de estado de por qualquer motivo, SAS é outra ótima escolha. Declarado tem ferramentas de análise de dados muito mais poderosas do que o Excel tem. Mas se você começar a olhar para 5 10 2030 milhões de observações estado, muitas vezes pode ficar mais lento. Nesse caso, você precisará de um programa de software diferente. Sass é uma ótima escolha agora. Sass é muitas vezes comprado em uma licença. É um pouco mais caro do que Stada, mas ainda é uma boa escolha em geral, assim como State of the Oh SAS envolve escrever um pedaço de código, que implica, é claro, trabalho inicial. Mas então, uma vez que você tenha escrito esse programa, você pode usá-lo uma e outra vez e outra vez. Então trabalho adiantado. Mas então, uma vez que o programa é escrito, é muito fácil aplicá-lo a uma miríade de conjuntos de dados diferentes com apenas pequenas alterações . Então, neste caso em particular, escrevi este programa, que passa e nos mostra nossos retornos. Em particular, o conjunto pertinente de código aqui está na parte inferior. Prock significa dados. Isto mostra-nos para o nosso conjunto de dados específico. Neste caso, retornos de ponto s e P 500 são percentil médio médio para o percentil 90, o percentil 10 os homens e o máximo no conjunto de dados, todos com decimais máximos de três. Poderíamos, claro, mudar isso. Mas o ponto é que a codificação é relativamente simples para passar por e descobrir esses diferentes indicadores de dados, eles vão nos deixar estabelecer se nosso conjunto de dados é ou não adequado, correto e bem construído. Em seguida, Quando estamos olhando para a precisão dos dados, uma das grandes preocupações é sempre dados falsos. Ben, a lei de Deus é um dos melhores testes para dados falsos. Se você está preocupado com a sua empresa recebendo dados que foram falsificados por algum motivo , eu recomendo vivamente usar a lei de Benford. Ben Friends Law simplesmente diz que em dados reais, o número um deve ser o número mais comum. O número dois deve ser o próximo, mais comum, etc. Isso soa inacreditável, mas na verdade ele funciona uma e outra vez com muitos conjuntos de dados diferentes. Para ilustrar por que isso é o caso. Pense no mercado de ações. Demorou muito mais tempo para o Dow Jones ir de 1000 para 2000 pontos do que de 17.000 pontos. A natureza do crescimento em Siris de números é que um será sempre o número mais comum em um conjunto de dados real deve ser o próximo mais comum etcetera. O gráfico abaixo mostra a frequência de cada número em dados genuínos. Agora tenha em mente, claro, que há alguma variação a partir disso em qualquer amostra de dados dada. Mas, em média, para um conjunto de dados, devemos descobrir que o número um representa cerca de 30,1% em todos os dígitos em dados reais. O número dois representa cerca de 17,6% de todos os dígitos. Número três, cerca de 12,5%, etc. Então você pode usar esta é uma ferramenta para estabelecer se seus dados são ou não genuínos. Os dados genuínos não garantem que não haja problemas com os dados. Por exemplo, os dados podem ter observações ausentes ou os dados podem simplesmente ser muito pequenos de um tamanho amostral . Mas nos diz que nos dá uma indicação, pelo menos, de que os dados não foram adulterados. 5. Variáveis categóricas em Business Intelligence: , três razões e métricas-chave. Agora, quando estamos analisando os dados na minha experiência, o problema número um que as pessoas têm quando estão fazendo análise de dados é usar as variáveis erradas . Eles tendem a usar as variáveis que parecem produzir o resultado que querem, mesmo que não façam sentido economicamente. Apenas ter bons dados ou uma ferramenta que permite analisar relações empíricas não é suficiente Você precisa das variáveis certas. . Há uma velha história em que provavelmente é apócrifa, mas os ursos repetem mesmo assim que há uma correlação muito forte entre a taxa de natalidade na Índia e a velocidade do vento em Chicago. Este é um exemplo perfeito de correlação espúria. Não há nenhuma razão racional para o número de pessoas nascidas na Índia ter qualquer relação com a velocidade do vento em Chicago comprado. Se olharmos para pedaços suficientes de dados para nós dado tamanho amostral, vamos encontrar essas correlações. Se eles são ou não significativos é algo que temos que avaliar independentemente das correlações reais . Portanto, é importante analisar quais variáveis estavam usando e ter certeza que estamos usando variáveis que fazem sentido no contexto do problema que estamos tentando resolver. Por exemplo, pense em nossas variáveis, dívida, ativos e dívida com ativos. Como notei anteriormente, dívida e os ativos em si não são necessariamente tão significativos. Na melhor das hipóteses, são proxies diferentes para o tamanho da empresa. dívida com ativos, no entanto, é significativa como uma métrica para o risco de uma empresa. Agora, em muitos casos, o que isso nos diz é que variáveis brutas precisam ser modificadas para ter relacionamentos fortes nos dados, mas também relacionamentos fortes que são economicamente significativos além de apenas ter correlação estatística com variáveis com as quais nos preocupamos. Como notei, nem a dívida nem os ativos são bons. Proxy para dívida de risco para ativos é, no entanto, agora modificações variáveis vão cair em três categorias básicas. Formar razões, tomando taxas de mudança nos dados em vez de níveis fora desses dados e variáveis categóricas . rácios são uma das ferramentas mais úteis que confinamos. Ao criar conjuntos de dados. Dados de negócios brutos geralmente não são tão bons em prever resultados futuros. Muitas vezes é barulhento. Ele tem muita variação dentro dos dados que dificulta a proteção das coisas e seguida, como vimos com a dívida em ativos, às vezes não é particularmente significativo. Tudo se estamos tentando medir mais abstratos conceitos como o nível de risco de uma empresa. Em vez disso, muitas vezes é uma boa ideia calcular taxas com base nas métricas que nos interessam. Por exemplo, vemos aqui um diagrama mostrando valor intrínseco usando análise de razão que podemos estar interessados em, digamos, o valor de uma empresa comprada se formos dados sobre lucros necessários investimentos em capital operacional e fluxo de caixa livre. Só aqueles não nos dizem muito sobre a firma. Em vez disso, precisamos passar e contar final. Combine esses dados com, neste caso, o custo médio ponderado de capital. Formamos um rácio, e esse rácio constitui a base para um modelo de fluxo de caixa descontado, o que, por sua vez, nos dá uma avaliação sobre a empresa. O ponto aqui é que o simples fluxo de caixa livre por si só não é tão útil para descobrir o valor da empresa ponderada. O custo médio do capital por si só não é mais útil para descobrir o valor da empresa. Junte esses conceitos, no entanto, e obtemos algo que é muito mais útil e razões significativas podem ser igualmente úteis nas proporções da sua organização. Eles vão nos deixar facilitar a comparação de uma empresa ao longo do tempo para uma empresa versus outras empresas também. Os índices serão usados por, por exemplo, por exemplo, credores determinam acionistas de credibilidade para estimar fluxos de caixa futuros e gerentes de risco quando estamos tentando identificar fraquezas e pontos fortes em uma organização. Então, vamos analisar algumas das diferentes proporções que você pode usar em sua organização quando estiver criando sentido de dados. Em particular, há cinco categorias de rácios financeiros. Rácios de liquidez, rácios de gestão de ativos, rácios de gestão da dívida, rácios de rentabilidade e rácios de valor de mercado. Cada uma dessas proporções será útil em circunstâncias diferentes, dependendo do que estamos procurando analisar. Em particular, temos de passar, e temos de ter a certeza de que temos os dados correctos na nossa base de dados. Vamos calcular essas proporções. Dependendo da pergunta que estamos fazendo, taxas de liquidez vão medir nossa capacidade de cumprir as obrigações atuais. Os índices de gerenciamento de ativos nos dizem algo sobre o uso adequado e eficaz dos ativos, se a empresa está fazendo um bom trabalho e gerenciando esses ativos, etc. Assim, as taxas de gerenciamento de ativos podem incluir itens como a utilização de ativos. Por exemplo, rácios de rotatividade total de ativos. Isso vai ser simplesmente um total de ativos. Vendas iguais divididas pelo total de ativos. Os índices de gestão da dívida vão nos dizer algo sobre a extensão da dívida na firma no nível de segurança que será oferecido aos credores. Por exemplo, utilização da dívida Multiplicadores de capital próprio razão multiplicador é apenas ativos totais divididos pelo capital total Os rácios de rentabilidade vão nos dizer algo sobre os efeitos da liquidez, ativo gestão e dívida sobre os resultados operacionais. Isso inclui coisas como controle de despesas, lucro margem de lucro, é claro, é apenas o lucro líquido dividido por vendas. Finalmente, os rácios de valor de mercado iam nos dar uma indicação do que os investidores pensam dos resultados passados de uma empresa . Como as perspectivas futuras da empresa se parecem quando estamos lidando com taxas de liquidez estavam fazendo uma série de perguntas fundamentais sobre se a empresa pode cumprir suas obrigações de curto prazo usando o recurso é que ele tem atualmente em mãos. Há algumas razões diferentes, particularmente relevantes. O primeiro deles simplesmente o rácio corrente activos correntes dividido por passivos correntes. Da mesma forma, o rácio rápido vai ser ativos correntes menos inventário sobre passivos correntes. Então, se estamos tentando prever, por exemplo, por exemplo, algo sobre gerenciamento de caixa ou a probabilidade de um fornecedor ou cliente algum tipo de obrigação, estaríamos interessados em usar esses tipos de proporções, e devemos nos certificar de que eles estão incluídos em nosso banco de dados para fins de previsão. Em seguida, se olharmos para os índices de gestão de ativos estavam perguntando, quão eficientemente a empresa usa seus ativos? Quanto a empresa tem amarrado em seus ativos para cada dólar de vendas? Podemos medir isso usando o índice de volume de negócios de estoque, modo que isso é simplesmente igual a vendas divididas por inventários. Da mesma forma, podemos estar interessados em nossa eficiência de ativos fixos. Para calcular isso, podemos usar nosso volume de negócios de ativos fixos. Isso vai ser vendas divididas por ativos fixos líquidos. volume de negócios total de ativos, em contraste, é apenas vendas divididas pelo total de ativos. Então, novamente, cada uma dessas razões está medindo diferentes aspectos de nossa estratégia de gerenciamento de ativos comprada . Se estivermos interessados em prever o quão bem a empresa está indo e o que as vendas podem parecer no futuro, provavelmente queremos garantir que esse ar esteja incluído em nosso banco de dados rácios de gerenciamento de dívidas . Se estamos fazendo perguntas sobre quanta dívida a empresa tem, e se isso é demais para a empresa lidar e se os ganhos da empresa podem atender seus requisitos de serviço de dívida, podemos estar interessados em algo como o rácio da dívida. O rácio da dívida é apenas o total do passivo dividido pelo total dos activos. Ou você pode estar interessado no empate vezes juros ganhos, que é simplesmente e mas dividido por despesas de juros. O ponto aqui com cada uma dessas razões é que podemos não ter essas proporções em nosso banco de dados para começar. Se estamos simplesmente desenhando, digamos, dados financeiros de um banco de dados financeiro que está lá fora, digamos, de campy, stat ou crisp, podemos ter passivos totais no total de ativos para nossa empresa ou para empresas concorrentes. Mas precisamos passar e calcular o rácio da dívida como mostrado aqui no próprio banco de dados. Precisamos tomar o seguinte. Precisamos tomar operadores matemáticos que nos darão isso e declarar nova variável para o rácio da dívida. Da mesma forma, quando estamos olhando para taxas de rentabilidade, você pode estar interessado em coisas como a margem de lucro líquido, que simplesmente margem de lucro é igual ao lucro líquido dividido por vendas. Se estamos olhando para a taxa de retorno da empresa, podemos estar interessados na margem de lucro operacional, que é simplesmente Ebert dividido por vendas. Se estamos interessados em métricas de quão bem a empresa está usando seus ativos, podemos estar interessados em por sua vez em ativos e retorno sobre o retorno de patrimônio líquido sobre ativos simplesmente renda líquida dividida por ativos totais onde retorno sobre o patrimônio líquido é que a renda dividida por comum capital próprio? Uma das minhas proporções favoritas, e não é realmente uma proporção. Para ser justo, é mais de, Ah, Ah, operador matemático é a pontuação Altman Z. A pontuação de Altman Z vai prever a probabilidade de a frente de uma determinada empresa ir à falência dentro de dois anos. O modelo mostrado aqui é para Empresas Industriais Ponto. Isso também é aplicável a qualquer tipo de empresa que esteja produzindo ou fabricando um bem em geral. Além disso, porém, há variações na pontuação Altman Z. Eles foram otimizados para, digamos, empresas de software ou varejistas, empresas que têm um tipo de modelo de negócios mais leve de ativos. A pontuação de Altman Z será baseada em cinco proporções diferentes todas juntas para formar esta única métrica. A primeira proporção de que precisaremos é de capital de giro dividido pelo total de ativos. Isso vai nos dar uma métrica de como a empresa é líquida. Razão dois x dois Na fórmula armada é retido. Ganhos Dividir Sobre o índice de ativos totais Três é o lucro antes de juros em impostos dividido pelo total de ativos. Então, como vemos rácio de dois anos dando-nos uma métrica para a flexibilidade financeira fora da empresa e seu rácio de avaliação três está nos dando uma métrica para o seu rácio de rentabilidade. Quatro vai nos dizer algo sobre a avaliação da firma. No geral, é simplesmente o valor de mercado do capital próprio dividido pelo passivo total e rácio. Cinco são vendas para o total de ativos. Isso nos diz, em essência, quão eficiente é a empresa com seus ativos que passamos, usar cada um desses coeficientes mostrados aqui e multiplicá-los pelas razões. Então, por exemplo, calculamos a proporção x um e multiplicamos por 1,2. Em seguida, adicionamos a essa proporção x duas vezes 1,4 etcetera. Passar por executar todas essas funções matemáticas e nós temos um Z se Z para a empresa é mais de 2,99 Isso é uma empresa segura. A probabilidade de a empresa ir à falência dentro de dois anos é bastante baixa. Se a proporção se a pontuação Z Sinto muito, cai dentro do intervalo de 1.8122 ponto 99 isso é o que chamamos de Zona Cinzenta. Há algum risco aqui. E finalmente, se a proporção estiver abaixo de 1,81, essa é a zona de socorro. Há uma alta probabilidade de a empresa ir à falência dentro de dois anos. Em seguida, podemos nos preocupar com a taxa de crescimento interno. Talvez queiramos passar e realizar algum tipo de previsão sobre os ganhos da empresa no futuro. Para fazer isso, precisamos de um banco de dados que nos permita passar e calcular nossa taxa de crescimento interno. taxa de crescimento interno é simplesmente igual. Os tempos de retorno dos ativos são a porcentagem de retenção pretendida. Essa porcentagem de retenção é a quantidade de lucro que mantemos retidos dentro da empresa em vez de pagar aos investidores na forma de um dividendo. Assim, a taxa de crescimento interno é a nossa porcentagem de retenção de tempos ausentes dividida por um menos estão ausentes vezes porcentagem de retenção. Poderíamos também estar interessados na taxa de crescimento sustentável. A taxa de crescimento sustentável vai nos dizer o quanto a empresa pode crescer usando seus fundos gerados internamente e emitindo dívida para manter uma taxa de dívida constante ao longo do tempo. Essa taxa de crescimento sustentável é apenas igual ao nosso A Nós vezes nossa porcentagem de atenção dividida por um menos somos vezes nossa porcentagem de atenção. Finalmente, podemos estar interessados em relações de valor de mercado. Os índices de valor de mercado dão à gerência uma indicação do que os investidores pensam do desempenho passado da empresa . E as perspectivas futuras, incluindo os rácios de valor de mercado, são muitas vezes úteis. Se estamos tentando prever ações que podemos tomar que podem melhorar o valor da nossa empresa . Por exemplo, analisamos e criamos um banco de dados que olha nossas empresas firmes e concorrentes no mesmo setor e tem um monte de dados relacionados às decisões. Tomamos decisões que eles tomaram. Podemos então calcular taxas de valor de mercado para nos dar uma idéia do valor relativo de cada uma dessas empresas, e podemos usar esse valor relativo como nossa variável de previsão para o futuro. Em seguida, vamos falar sobre taxas de mudança. Assim, como eu notei, as taxas de mudança podem ser muitas vezes úteis se os níveis de um dado ponto de dados não são úteis. Portanto, mesmo que uma proporção não seja tão óbvia como um substituto para dados brutos, muitas vezes é uma boa idéia tentar usar taxas de mudança em vez de níveis, dados por níveis de dados. Estamos falando de pontos diferentes. Por exemplo, voltando para a minha dívida em ativos exemplo. Poderíamos olhar para o montante da dívida detida pela General Electric ou o montante dos ativos detidos pela General Electric. Alternativamente, poderíamos olhar para a taxa de variação na dívida ou ativos, e isso nos diz algo sobre o quão rápido a empresa está crescendo. O nível de rendibilidade, por exemplo, é menos provável que seja útil do que a taxa de variação da rendibilidade. Para uma empresa novamente, rentabilidade, pelo menos em termos de dólares, será apenas uma métrica bruta para o tamanho. Podemos colocá-lo na forma de uma proporção e nos diz algo sobre a eficácia da empresa. Mas mesmo que não estejamos interessados em fazer isso, podemos estar interessados na taxa de crescimento da rentabilidade de uma empresa ao longo do tempo. Quando estamos computando taxas de mudança, geralmente é útil passar por um intervalo de computador de taxa de mudança para cada variável principal que planejamos incluir em nossa análise, apenas uma boa regra. Vá através e calcule essas taxas de mudança antecipadamente e, em seguida, decida mais tarde. Se eles são úteis em sua análise ou não com base em considerações econômicas agora podemos estar interessados em descobrir se as taxas de mudança fazem ou não sentido para nós. Dado que o nosso encontro vai fazer isso. Temos de começar por estabelecer uma correlação entre os nossos níveis e as nossas taxas de variação e a variável ou tentar prever ou examinar e isso irá dizer-nos se as taxas ou os níveis são ambos mais úteis. Queremos escolher o tipo de variável em cada caso com a correlação maior. Isso é apenas uma regra geral. Nem sempre é o caso. Pode haver um exemplo em que você tem correlação espúria e novamente é importante passar e pensar sobre o significado econômico por trás de cada um desses diferentes tipos de variáveis. Mas, em geral, geralmente é melhor olhar e ver se o nível ou a taxa estão mais intimamente correlacionados com a variável. Estamos olhando para prever agora além das taxas de mudança. Às vezes, olhar para um longo natural é uma boa escolha para. Por exemplo, se estamos olhando para dados com ampla variação de valor como, digamos, tamanho de ativos em diferentes concorrentes, Natural Log pode fazer muito sentido muito difícil comparar uma empresa que tem este exemplo $1 bilhão em ativos para um com 100 milhões em algum nível, uma empresa com um $1.000.000.000 em ativos é bastante semelhante a afirmar, com 900 bilhões em ativos, mesmo que haja 100 milhões de indiferença entre eles. Essas duas firmas, aquela com US$1.000.000.000 em ativos e com 900 milhões em ativos, têm uma semelhança muito maior do que, digamos, uma empresa com 100 milhões em ativos contra 200 milhões da NASA. Esse diferencial em ambos os casos é de 100 milhões, mas a diferença percentual é significativa. Passar de 900 milhões para 1.000.000.000 é apenas um crescimento de 10% nos ativos. Crescer de 100.000.200 milhões é uma duplicação de ativos. Os troncos naturais podem nos ajudar a evitar esses problemas tomando seu registro natural de ativos. Então vamos uma escala mais apropriada 6. Como gerar dados em um dataset: módulo. Quatro variáveis categóricas Quando estamos fazendo análise, muitas vezes faz sentido agrupar clusters de dados usando uma variável categórica . Por exemplo. Em vez de nos preocuparmos com uma pontuação Altman Z precisa, podemos simplesmente colocar fornecedores ou clientes em uma das três categorias, como observamos anteriormente, Danger Zone, Gray Zone e safe Para fins de nossa análise de dados, poderíamos rotular esses valores 12 e 3 um sendo a zona de perigo como zona cinzenta e três sendo a zona segura. E podemos, por exemplo, prever o que é preciso para passar de uma categoria para outra, ou qual o impacto que cada um desses valores diferentes tem em alguma outra métrica com a qual nos importamos. Alternativamente, variáveis Byeon Eri são tipo especial de variáveis categóricas. Em particular, as variáveis binárias têm apenas dois resultados possíveis. Um ou um zero. Por exemplo, voltando ao nosso exemplo de Altman Z. Poderíamos representar a pontuação como três variáveis Byeon Eri diferentes com um valor de um ou zero em cada caso. Então uma empresa teria um exemplo na pontuação Altman Z, e eles seriam ou na zona segura, a zona cinzenta ou a zona de perigo. Criamos três variáveis binárias. Seguro, cinza e perigo. Se a empresa cair na zona segura, eles recebem um para o valor da zona segura. Se eles não caírem na zona segura, eles recebem um zero. Se eles caírem na zona cinzenta, eles recebem um para essa variável. Caso contrário, eles recebem um zero. Previsivelmente, como você poderia esperar, você só poderia ter um em uma das três categorias. Ou seja, se tivermos um na zona segura para uma determinada empresa, deve ser zero nos cinzentos na zona cinzenta e zero na zona de perigo. General Electric só se enquadra numa dessas três categorias. Byeon Eri Variables, então, são úteis para passar por quebrar nossos dados em diferentes pedaços digeríveis. Isso facilitará a previsão de valores no futuro. Então, por que usamos variáveis categóricas? As variáveis categóricas vão servir dois propósitos? Em primeiro lugar, eles nos permitem representar dados qualitativos de forma empírica. Por exemplo, a raça de gênero ou status de veterano para funcionários é todos os dados qualitativos. Ou você é um macho ou uma fêmea. Você não tem 12345 Isso não é um gênero. Então, em vez disso, nós podemos ter uma compra no Eri Variable simplesmente dizendo masculino um ou zero Se é um, nós sabemos que determinados funcionários é um homem. Se for um zero, sabemos que há segundas variáveis categóricas femininas. Também vamos evitar ficar atolados com diferenças sem sentido, e eles nos permitem focar no quadro geral ao usar técnicas estatísticas para analisar dados . Por exemplo, se temos que concorrentes com um mais de 1.000.000.000 e vendas, ambos devem ser classificados como grandes empresas. Se um está em 1,11 bilhões, ou 1,14 bilhões, é realmente material em geral. Em vez disso, queremos manter o foco na análise de grande imagem, e assim ele poderia simplesmente classificá-los como grandes empresas em cada caso, em Alternative Way, em vez de usar variáveis binárias para calcular dados e agrupar juntos é usar a morte. Seiler Quintile variáveis do tipo de percentil do ar que são categóricas na natureza. Por exemplo, muitas vezes é útil olhar, a classificação de percentil para pedaço de dados em vez do valor absoluto. Isso é especialmente verdadeiro quando estamos lidando com dados de séries temporais, por exemplo, talvez queiramos ser capazes de identificar nossos 10% principais de clientes em um determinado ano, independentemente de quanto seu volume de vendas real seja. Se estamos tentando comparar nossos principais clientes no ano 1990 versus o ano 2010, esperaríamos apenas dada a inflação natural que o valor das vendas e cada ano teria crescido para que ele pudesse escalar isso e colocá-lo em C $1990 para ajustar para a inflação. Ou podemos simplesmente usar uma variável categórica tipo percentil novamente fazendo a escada. Usando essas variáveis do tipo percentil, digamos, estilos de morte ou Quintis, vai nos deixar evitar problemas com inflação, mudanças de preços, etc. Estilos de morte e quintis são geralmente boas variáveis categóricas para calcular as variáveis chave . Variáveis de classificação decil vão dividir dados em intervalos de 10%, por exemplo, 10% 10 20% etc. A idéia aqui é que nós estamos tomando todos os valores perdoados variável em. Estamos dividindo isso em pedaços iguais, então nós olharíamos, por exemplo, nossos 10% principais de clientes e eles estariam no topo decil os próximos 10% dos clientes estariam no nono. Decil, etc. Quintis vão classificar variáveis dividindo-as em intervalos de 20% 20% 20% 40% etc. Agora podemos calcular a classificação de decil para cada cliente em um determinado trimestre e, em seguida, olhar para o que impulsiona o comportamento dos clientes no decil superior ou inferior como um exemplo. Isso nos permite passar e nos concentrar no tipo de clientes que nos importamos, porque é bem possível que os clientes no decil superior se comportem de forma diferente clientes na parte inferior. Decile Nossas variáveis morte Seiler Quintile geralmente ser rotulado 1 para 10 ou 125 respectivamente . Fazer isso vai nos deixar descobrir o movimento marginal e eficaz entre as categorias. Em outras palavras, são os principais clientes quintis afetados de forma diferente por um esforço de publicidade do que, digamos, os clientes quintis inferiores são. Também facilitará o cálculo das diferenças entre segmentos de dados. Por exemplo, qual é a diferença de rentabilidade entre as firmas de decil de topo e de baixo decil com base no seu tamanho total de ativos? Variáveis categóricas baseadas em torno dessas casas por cento são mais úteis quando estamos lidando com dados que variam muito ao longo do tempo, por exemplo, são um Nós e nossos afastados são muitas vezes mais eficazes como variáveis preditivas. Se eles estão na forma de variáveis categóricas em vez de razões, é importante não ter muitas mortes. Seiler Quintile variáveis Então alguns de vocês podem estar familiarizados com a fazenda em francês. Quatro. Factor Model Eugene Fama é um economista ganhador do Prêmio Nobel e trabalha em conjunto com Ken French de Dartmouth para desenvolver este modelo, e é útil para prever retornos de ações com base em diferentes tipos de variáveis. Mas em vez de usar valores absolutos para, digamos, rentabilidade ou relações P E ou coisas assim, em vez disso, usa Death Siles e Quintiles em alguns casos. Mas também usa categorizações ainda mais amplas como Ter Siles. Por que ele faz isso? Bem, se usarmos apenas vendas de morte ou Quintiles, muitas vezes começamos a dividir nosso conjunto de dados demais. Por exemplo, se tivermos quatro mortes diferentes, eu vou variáveis. Há quatro variáveis diferentes usadas no modelo de quatro fatores, como o nome indica. Bem, se tivéssemos quatro variáveis diferentes de decil, isso significaria que uma vez segmentamos as 5000 ações em grupos que se encaixam com cada um desses Siles da Morte. Teríamos agrupamentos de cinco ações em cada carteira que é 5000 ações divididas por 10 levantadas para a quarta. Alternativamente, usando Ter Siles usando Quintiles coisas assim, ele nos permite obter portfólios maiores e, portanto, nos dá um poder preditivo mais preciso dentro cada portfólio que estamos tentando prever. 7. Noções básicas de análise de dados: módulo, cinco dados de imputação. Agora, quando estamos falando sobre os problemas que estão envolvidos com a estruturação de um conjunto de dados, muitas vezes há algumas preocupações comuns que surgem. Um dos mais comuns é a falta de dados. Dados ausentes às vezes podem ser inferidos, embora com base nos dados disponíveis existentes. Por exemplo, se os ativos são registradores $1000 em janeiro e, em seguida, 1300 abril, provavelmente é razoável preencher os valores ausentes para fevereiro e março que se enquadram entre os dois pontos de dados. Isso é chamado de imputação de dados. Há uma série de técnicas que podemos usar a partir de dados de colocação. Os três mais comuns são o último método de valor disponível, o método de interpolação linear e o método de previsão de regressão. A última metanfetamina disponível, o último método de valor disponível de imputação de dados, vai simplesmente usar o último ponto de dados válido em vez de pontos de dados ausentes com base em qualquer método de classificação de dados apropriado. Por exemplo, se nossos ativos nosso registro, é US $1000 em janeiro e, em seguida, 1300 em abril, o último método de valor disponível preenchendo US $1000 para ativos para fevereiro e março, o método tem uma desvantagem óbvia, embora ele crie descontinuidades stepwise. Em nossos dados, passamos de US $1000 em janeiro, US $1000 em fevereiro, US $2000 em 2 de março atingindo 1300 em abril, de modo que às vezes é um problema. Do lado positivo, fazemos menos pressupostos sobre a taxa de crescimento ao longo do tempo usando esse método. Alternativamente, o método de interpolação linear de imputação de dados vai usar um int Grady no lugar que os dados em falta com base em qualquer método de classificação de dados é apropriado. Por exemplo, se nossos ativos forem US$1000 em janeiro e 1300 abril, o método de interpolação linear preencheria 1112 100 para nossos valores de ativos em fevereiro e março, respectivamente. O problema com este método é que pode criar a aparência de crescimento estável em valores para variáveis ausentes. Ao longo do tempo, evita as descontinuidades discutidas com o último método de valor comprado. Ele cria uma suavização artificial do crescimento de dados ao longo do tempo. Isso não é necessariamente uma coisa boa novamente, dependendo dos problemas que estavam tentando resolver nos dados. Finalmente, o método de previsão de regressão de imputação de dados usa valores preditos baseados em nossa agressão no lugar fora de pontos de dados ausentes com base em qualquer método de classificação de dados é apropriado novamente, vamos fingir que têm US $1000 em ativos em janeiro e 1300 em abril. O método de previsão de regressão previa ativos para fevereiro e março com base em outros dados disponíveis, como, exemplo, vendas e número de funcionários. O método é mais preciso, mas infelizmente também é mais complexo e demorado. A alternativa para imputar dados é simplesmente soltar os dados sempre que há um valor ausente . Eliminar pontos de dados pode ser bom ou ruim, dependendo de nossas escolhas. Como observamos com a imputação, os dados estavam fazendo suposições em cada caso, e há desvantagens para cada um dos métodos comprados. Eliminar pontos de dados também não é uma solução perfeita . Vai nos levar a ter uma amostra menor com menos poder preditivo. Se os dados em falta não são aleatórios, também, deixando cair pontos de dados que poderiam distorcer quaisquer conclusões que vamos tirar dos dados . Por exemplo, se estamos tentando examinar o comportamento do concorrente era mais provável que faltassem dados em pequenas empresas versus grandes empresas. Assim, por exemplo, interessados na frente desde a rentabilidade de nossos concorrentes, bem pequenas empresas podem não ter rentabilidade Informações disponíveis onde grandes empresas que são negociadas publicamente teriam que informações disponíveis. Ao cair, todas as pequenas empresas excluíam sistematicamente todo um conjunto de concorrentes. E esses podem ser os concorrentes mais relevantes para nós, talvez dos concorrentes que crescem mais rápido, por exemplo. Assim, precisamos ter cuidado sobre a queda de pontos de dados e os vieses que podem criar agora. Outro problema que podemos ter nos dados é com dados barulhentos. Às vezes, os dados são muito barulhentos para serem úteis na análise preditiva. A este respeito, os dados das séries temporais são particularmente problemáticos. Se houver um alto grau de variação, isso pode tornar as previsões muito difíceis por causa das flutuações aleatórias. Suavizar nossos dados, então, pode levar a melhores resultados. Um dos melhores métodos para suavizar dados é usar uma média móvel. Um exemplo disso é, digamos, digamos, fluxo de dados de fundos. Então eu estava trabalhando recentemente em um projeto com um cliente consultor onde estamos tentando prever a demanda de investidores por emissões de títulos para a empresa. O problema é que quando você olha para o fluxo de dados de fundos dos dados que estão disponíveis lá fora , é muito, muito aleatório. Há muito movimento em qualquer mês baseado em invenção, sentimento de investidor e coisas assim. Como resultado, as tendências na variação real dos dados ao longo do tempo poderiam ser obscurecidas pelos dados de ruído. Suavizar com uma média móvel nos ajuda a evitar esse problema. Isso poderia ser feito facilmente e excel, SAS Data ou muitos outros programas estatísticos que estão lá fora. A questão chave aqui é apenas para ter certeza de que estamos criando uma nova variável suave em vez de substituir o módulo de variável original seis. Visualização da análise de dados. Ok, estamos chegando ao final desta lição, mas eu quero passar em pré-visualização o que veremos em uma lição futura quando estamos lidando com a análise de dados. Uma vez que construímos um conjunto de dados completo e estruturamos os dados com base nas perguntas que nos preocupamos , é hora de começar nossa análise de dados. A Análise de Dados requer a busca de relacionamentos nos dados para avaliar o desempenho atual dos negócios e prever o desempenho dos negócios futuros. Isso pode ser feito usando ah variedade de ferramentas diferentes. Em particular, meios simples, medianas e percentis fingidos poderiam ser facilmente calculados a partir de um conjunto bem estruturado de dados. Por exemplo, vai ser muito fácil passar e calcular o nível de vendas necessário para vendedor na vai ser muito fácil passar e calcular o nível de vendas necessário parao vendedor na Califórnia estar no top 25% dos pares se tivermos estrutura ou dados corretamente. Se não o fizermos , pode ser muito difícil. Responda até uma pergunta básica como esta. Mas muitas vezes é útil ir além disso e tentar prever o futuro, embora, por exemplo, quanto esse vendedor na Califórnia vai vender no próximo mês? Bem, a resposta a esta pergunta, vamos precisar usar uma forma mais sofisticada de análise de dados. A análise de regressão neste caso é provavelmente o método mais simples e intuitivo para responder a esta pergunta específica. Esse será o foco para o próximo curso. Espero vê-lo então. Obrigado por assistir e ficar de olho em futuros cursos de técnicas de business intelligence , que estarão disponíveis em breve. Falo com você então. Tchau tchau.