Intelligence d'affaires - Structurer les données pour l'analyse d'affaires, Cours BI #3

Michael McDonald, Business Intelligence and Finance

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

- 1.
  
  Structurer les données au service de l'intelligence d'affaires
  
  1:29
- 2.
  
  Aperçu des données structurées pour l'analyse
  
  6:40
- 3.
  
  Évaluation de l'exactitude des données
  
  10:52
- 4.
  
  Ratios et mesures clés dans l'analyse de données
  
  10:52
- 5.
  
  Variables catégoriques en intelligence d'affaires
  
  18:16
- 6.
  
  Importer des données dans un ensemble de données
  
  8:19
- 7.
  
  Les bases de l'analyse des données
  
  7:21

Niveau débutant

Niveau intermédiaire

Niveau avancé

Tous niveaux

127

apprenants

À propos de ce cours

Ce troisième cours de l'intelligence d'affaires dans la séquence, préparera les participants à commencer des projets de l'intelligence d'affaires dans leur propre cabinet. L'objectif du cours est une approche pratique de la structuration des données, y compris la génération de nouvelles variables basées sur des mesures comparatives et relatives. La structuration de ces variables se fera dans Excel, SAS et Stata pour donner aux téléspectateurs un sentiment de familiarité avec diverses structures de paquets logiciels différentes. L'accent mis dans ce cours sera mis sur les données financières, bien que les techniques soient également applicables à des formes plus générales de données comme celles utilisées dans les analyses de marketing ou de gestion.

Rencontrez votre enseignant·e

Michael McDonald

Business Intelligence and Finance

Enseignant·e

Voir le profil complet

Compétences associées

Visualisation de données Marketing et affaires Plus en affaires et marketing

Level: Beginner

Projet de cours pratique

Essayez le court quiz inclus ici pour rafraîchir votre mémoire de ce que nous avons discuté. Les réponses sont incluses ici aussi. Plus important encore, essayez d'utiliser les outils que nous avons discutés ici avec vos propres ensembles de données pour pratiquer vos compétences.

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Structurer les données pour le Business de Intelligence: Salut. Bienvenue dans les données structurantes Business Intelligence pour l'analyse. Je m'appelle le Dr Michael McDonald. Aujourd'hui, je vais vous parler de ce sujet et de ce que vous devez savoir. Alors que vous vous préparez à des projets d'intelligence décisionnelle avec votre cabinet, permettez-moi de commencer par un aperçu pour ceux qui ont manqué mes précédents cours d'intelligence décisionnelle , nous allons parcourir plusieurs sections différentes dans le module 1. Nous allons parler d'un aperçu de la structure des données, les bases et ce que vous devez savoir sur l'intelligence d'affaires que le reste de cette session a un sens dans le module à Nous allons parler de l'évaluation de l'exactitude des données. Si vous recevez un ensemble de données, comment pouvons-nous passer en revue et déterminer si c'est ce dont nous avons réellement besoin pour poursuivre le projet dans le module 3 passera en revue et examiner les ratios et les mesures clés dans les données et comment nous pouvons les utiliser pour sûr que nous optimisons notre analyse de données à Montreuil quatre va chercher à utiliser des variables catégoriques. Quelles sont les variables catégoriques ? Comment sont-elles formées ? Comment sont-elles utiles dans notre analyse, Montreuil 5 examinera l'imputation des données l'un des grands défis et l' intelligence d'affaires est souvent absente. imputation des données de données est un moyen de contourner ce problème dans le module 5, nous allons parler de la façon dont nous condamnons l'anguille avec différentes données manquantes. Et enfin, dans le module 6, je vais vous donner un aperçu de la section d'analyse des données qui sera présentée dans le prochain cours. Commençons, d'accord ? 2. Aperçu des données de Structuring pour l'analyse: structure des données. Vue d'ensemble module un. Qu' est-ce que l'intelligence d'affaires ? Eh bien, pour ceux qui manquent les cours passés, laissez-moi vous expliquer de quoi parlait exactement quand on parle de business intelligence. Essentiellement, intelligence décisionnelle permet à une entreprise de prendre des décisions intelligentes et fondées sur des faits. L' élimination des conjectures implique quatre étapes. Première collecte des données de nettoyage. Deuxièmement, analyser les données. Troisièmement, tester nos choix avec des données et la quatrième prise de décision basée sur ces données, données de structuration de classe d' aujourd'hui tombent à la fin de la section de collecte de données propres. Et juste avant de commencer à analyser les données, comment utilisons-nous la Business Intelligence ? Eh bien, intelligence d'affaires est utile dans une variété de circonstances différentes. En particulier sa réponse la mieux utilisée. Le type de questions quantitatives qui se posent souvent pour les entreprises lorsqu'elles examinent des questions qui impliquent de prévoir quelque chose ou d'analyser la performance actuelle , etc. Quelques exemples de questions d'intelligence d'affaires comprennent des choses comme celles qui de nos clients devraient recevoir des rabais sur un produit afin d'inciter ces clients à acheter mawr, ce que les emprunteurs de notre banque sont les plus susceptibles de faire défaut. Compte tenu des tendances et de l'économie, quels seront nos ventes ou nos flux de trésorerie au cours de la prochaine période ? Où devrait-on trouver un nouveau bureau de magasin afin de maximiser notre attirance pour les nouveaux clients ? Toutes ces questions sont des exemples de questions auxquelles on pourrait répondre à l'aide de données et d'un cadre décisionnel. Donc, comme je l'ai dit, la première étape de l'informatique décisionnelle est la collecte de données. Alors, où trouvez-vous ces données ? Eh bien, il y a trois façons différentes de collecter les données pour votre projet. Vous pouvez utiliser l'un de ces trois, ou vous pouvez utiliser une combinaison hors d'eux. Tout d'abord, vous pouvez acheter des données. Cela inclut des choses comme les noms et les adresses. Par exemple, pour les clients qui achètent couramment des données financières sur les actions cotées en bourse. État des ressources naturelles de choses comme l'imagerie satellitaire pour les compagnies pétrolières, etc. Toutes ces données devront généralement être achetées par 1/3 partie. Deuxièmement, vous pouvez créer vos propres données. Définir des données sur vos clients est souvent le plus précieux pour votre entreprise. Si vous essayez de prédire ce que vos clients vont faire, vous avez probablement de meilleures données que quiconque sur vos propres clients, et ensuite, troisièmement, vous pouvez les collecter gratuitement. Dans ce cas, le gouvernement fédéral dispose d'une foule de données, ce qui est particulièrement vrai lorsque nous parlons de dire que les conditions macroéconomiques ou les enquêtes menées aux États-Unis réduisent les biens de consommation qui sont généralement liés à l'ensemble économie. Vous ne pouvez pas acheter ces données. Mais souvent est juste Azizi pour le télécharger à partir de la Fed à travers l'une des bases de données de la Réserve fédérale ou à travers le U.S. U.S Census Bureau sont l'un des autres nombreux organismes gouvernementaux là-bas qui recueillent des données et de les rendre à nouveau librement accessibles au public pour obtenir plus de données, firmes ou d'informations sur tous ces aspects de la collecte de données pour les projets de Business Intelligence. Voir mon cours passé sur ce sujet. Ensuite, après avoir rassemblé nos données, nous devons construire une base de données. Pour ce faire, nous allons devoir extraire plusieurs ensembles de variables de données ensemble. Parfois, vous avez toutes les données soigneusement organisées en une seule journée à définir, et vous n'avez rien à faire avec. Mais c'est assez inhabituel. Et franchement, cela n'arrive que si nous essayons de répondre à une question très simpliste comme dire, quelle est l'adresse du client X y Z ? Eh bien, nous devrions juste regarder notre base de données clients. Ce n'est pas vraiment une question de type business intelligence. La plupart du temps, on va devoir rassembler différents ensembles de données. Par exemple, des données sur l'économie globale combinées avec des données sur nos clients et correspondent à ces deux données pour voir, voir,par exemple, comment l'économie globale et ses conditions ont un impact sur les ventes de nos clients, nous laissons peut-être prévoir les ventes de notre entreprise à l'avenir. Réunir ces différents ensembles de données semble facile, non ? Il suffit de prendre deux données différentes et de les fusionner ensemble. En fait, ce n'est pas, Par exemple, il y a quelques problèmes que vous pourriez rencontrer. L' un des premiers problèmes est que les données économiques ont des fréquences différentes. Les prix du pétrole sont rapportés quotidiennement. Le PIB est déclaré sur une base trimestrielle. Les ventes domiciliaires sont déclarées mensuellement. Les demandes de chômage sont déclarées sur une base hebdomadaire ou mensuelle, selon les statistiques spécifiques que nous allons examiner si souvent, il est difficile de fusionner ces différents ensembles afin de comprendre comment fusionner ensemble. Nous devons déterminer quelles sont les relations entre les bases de données pour les fusionner le plus efficacement possible . Une fois que nous aurons fait cela, nous pourrons structurer nos données. structuration des données est le sujet pour les données de classe actuelles doivent être structurées correctement, ni pour faciliter l'analyse. en particulier Cela signifieen particulierdéterminer les variables à utiliser dans notre analyse des données sur les types de changements à apporter aux données ou pour maximiser leur efficacité. Une mauvaise structure des données pourrait être un problème vraiment important. Par exemple, j'ai récemment organisé une session de formation pour les employés d'une entreprise Fortune 500 où un projet initial leur a été assigné par l'un des gestionnaires de niveau supérieur. Et après une des choses que nous avons faites dans cette formation, c'est ce qu'ils ont apporté le projet au cours. Nous avons en quelque sorte passé et regardé une partie de l'analyse que nous avons faite quand j'ai découvert assez rapidement, est qu'ils n'avaient pas réussi à quantifier correctement les effets des changements macro sur les ventes de leur entreprise parce qu'ils n'ont pas structurer les données correctement du tout. Le fait de ne pas structurer les données et de mettre ces variables dans le type correct pose un gros problème quand il s'agit de prévoir différents effets dans ce cas, les ventes pour l'entreprise. Donc, si nous ne structurons pas nos données correctement, construisions une base très faible pour les futures questions d'intelligence d'affaires. Maintenant, quand il s'agit de l'analyse des données, ce sera le sujet d'un futur cours. Mais en bref, si nous avons structuré nos données correctement, nous pouvons utiliser des outils statistiques pour prédire dans l'analyse des questions commerciales. Ces outils comprennent, entre autres, analyse de régression, arbres de décision, l'analyse de scénarios, les simulations de Monte Carlo etc. Vous pouvez rechercher un futur cours sur ces sujets. 3. Évaluer l'exactitude des données: module deux. Évaluer les données pour commencer par une seule donnée d'effacement que nous devons examiner et évaluer, décider si nous avons ou non des problèmes avec nos bases de données. En particulier, les bases de données dans les paramètres de l'entreprise sont souvent générées automatiquement ou presque automatiquement. Par exemple, données provenant des rapports de vente ou des statistiques d'investissement pourraient être téléchargées directement à partir d'une autre partie de l'entreprise. Les données provenant des points de vente au détail, peut-être avec notre entreprise, sont souvent générées automatiquement par des logiciels. Par exemple, sur un système de points de vente. Il est important d'évaluer ces données et leur exactitude avant de les analyser. Les données générées automatiquement n'ont souvent pas fait l'objet d'une vérification de la santé mentale par un être humain, et par conséquent, elles peuvent contenir des erreurs, des omissions ou des problèmes que nous pouvons négliger. Si nous passons à rapidement. Lorsque nous évaluons les données, il y a quelques problèmes clés que nous voulons commencer en regardant d'abord Est-ce que la date semble avoir une sorte de menteurs ? Deuxièmement, la date paraît-elle exacte ? Troisièmement, les données sont construites autour de variables qui ont un sens économique. Par exemple, nous pourrions avoir la dette comme une variable et les actifs en sont une autre. Si nous regardons par exemple, différentes entreprises qui pourraient être des concurrents des nôtres, ou simplement des sociétés différentes qui sont cotées en bourse. Eh bien, si nous regardons le montant total de la dette détenue par une entreprise qui ne nous dit pas grand-chose dans l'ensemble, tout ce qu'elle obtient est de nous donner une approximation de la taille. Les grandes entreprises, en moyenne, devraient détenir plus de dettes. À titre d'exemple, General Electric a beaucoup plus de dettes que, disons, Ah, très petit fabricant industriel. G E est grand. Ils peuvent se permettre de supporter beaucoup plus de dettes, sorte que la dette en soi n'est pas très utile. La même chose est vraie pour les actifs. Il n'est pas vraiment clair que les actifs en soi nous disent autre chose que de nous donner une approximation de la taille de l'entreprise. D' un autre côté, si nous prenons maintenant un ratio de l'actif de la dette, nous avons quelque chose de plus significatif. Dans ce cas, actifs de la dette vont nous donner une sorte d'indication du risque de l'entreprise. Enfin, nous pourrions être intéressés à examiner d'autres lacunes ou discontinuités dans les données. Ce sont tous des points clés que nous devrions examiner plus avant de passer par un ensemble de données. Quand il s'agit de sortir des menteurs, nous devons nous demander à quoi ressemblent les données ? Les données semblent-elles être un test symétrique ? Cela devra exécuter des calculs terme. La moyenne et la médiane de chaque variable d'intérêt sont la viande que nous pourrions nous demander sont-elles la moyenne et la médiane à peu près la même ? Sinon, nous décidons d'incliner Nissen. Les données sont un problème. Si la moyenne et la médiane diffèrent considérablement, cela nous indique que nos données sont biaisées. Nous pouvons également exécuter des calculs terme dans les percentiles supérieur et inférieur le 1% supérieur le 5% supérieur le 10% supérieur et les comparer à la moyenne et la médiane. Si, par exemple, on regardait, disons, les ventes de certains de nos clients, si les 1% les plus élevés de nos clients sont sûrs pour 100 fois les ventes moyennes, peut-être ces statistiques ne sont pas très sont très significatifs. Peut-être que ces statistiques vont annuler notre analyse, peut-être, par exemple, c'est simplement une erreur de comptabilité. Quel que soit le problème, nous devons passer en revue et décider si ces centiles supérieur et inférieur appartiennent à nos données. Définissez tout pour calculer les médianes et les percentiles moyens. Il y a quelques outils différents que nous pouvons utiliser. Je vais parler brièvement de SAS, Stada et Excel. Excel est probablement celui que presque tout le monde connaît. Pour calculer les moyens médians et percentiles et Excel utilisera simplement les fonctions suivantes . Moyenne médiane et percentile point Inc Chacun de ces air assez simple, et ils vont nous laisser passer et comprendre quelques-unes des questions que nous voulons examiner dans Excel. Le problème avec Excel, cependant, est qu'Excel nous permet seulement d'examiner un très petit sous-ensemble de données, relativement parlant, en fonction de la version d'Excel que vous utilisez. C' est n'importe où de 65 000 lignes de données jusqu'à peut-être 1 000 000 lignes de données. Franchement, même si vous avez des versions plus récentes d'Excel qui vous permettent d'analyser jusqu'à 1 000 000 lignes de données, Excel a souvent des problèmes avec les bases de données volumineuses comme cela trie Congar mauvaises recherches v . Des choses comme ça, vous pouvez avoir de sérieux problèmes avec Excel pour de très grands ensembles de données de plus de 50 000 points de données environ. En conséquence, je ne dis pas que vous ne devriez pas utiliser Excel, mais vous devriez être très prudent avec cela. Maintenant, si vous ne voulez pas utiliser Excel, l' un des programmes alternatifs que j'aime vraiment, cet état A est très agréable car il a deux avantages. Numéro un. C' est peu coûteux. Ist progiciels vont. Vous pouvez obtenir une licence perpétuelle pour certains entre quelques 100 peut-être 1000$ selon le type d'organisation que vous êtes. State est également très convivial, pas tout à fait aussi convivial qu'Excel. Mais c'est beaucoup plus puissant où Excel est coincé dans environ 50 000 points de données et juste quelques variables et commence à produire une sortie ou une sortie douteuse. Cela, en fait, est carrément faux. Et vous n'avez aucun moyen de savoir si c'est faux ou non, parce qu'Excel ne vous donne aucun avertissement. Stada évite tous ces problèmes. L' état de repose toujours sur une entrée de feuille de calcul, ce qui est agréable car vous pouvez passer par la vue de vos données dans le même type de cadre que vous faites avec Excel acheté. Il vous donne plus d'outils pour passer par une analyse de vos données d'une manière plus robuste. Vous pouvez voir quelques-uns du code de base que j'ai écrit pour une analyse ci-dessous maintenant en état, si nous voulions regarder les médianes et les percentiles moyens, nous utiliserions simplement les fonctions suivantes. Par exemple, une variable variable à etcetera. Si nous tapons simplement cela et mettons nos noms de variables, state crachera nos moyens. Si nous tapons une variable une variable à variable, trois etcetera, puis une virgule détaillée à la fin, il crachera. Non seulement sont des moyens, mais nos médianes et nos percentiles à différents points de l'ensemble de données, sorte que l'état est très simple et facile à utiliser. Et la bonne chose est qu'une fois que vous avez écrit un programme, vous pouvez prendre ce même programme et l'appliquer à plusieurs ensembles de données, donc cela pourrait être plus de travail à l'avance. Comparé à Excel. Une fois que vous avez fait le travail à l'avance, il est très facile de le réexécuter encore et encore. Encore une fois. C' est un peu plus cher que les programmes comme, disons, qui sont open source. Mais je pense que c'est plus convivial, et donc c'est souvent des dollars bien dépensés. C' est à vous, bien sûr, à chaque personne est détenue maintenant comme une alternative. Si vous n'aimez pas l'état de pour quelque raison que ce soit, SAS est un autre excellent choix. déclaré a des outils d'analyse de données beaucoup plus puissants qu'Excel ne le fait. Mais si vous commencez à regarder 5 10 2030 millions d'observations état, il peut souvent être ralenti. Dans ce cas, vous aurez besoin d'un autre logiciel. Sass est un excellent choix maintenant. Sass est souvent acheté sur une licence. C' est un peu plus cher que Stada, mais c'est toujours un bon choix en général, tout comme State of the Oh SAS implique d'écrire un morceau de code, ce qui implique, bien sûr, travail initial. Mais une fois que vous avez écrit ce programme, vous pouvez l'utiliser encore et encore et encore. Donc, le travail initial. Mais alors, une fois le programme écrit, il est très facile de l'appliquer à une myriade d'ensembles de données différents avec seulement des modifications mineures . Donc, dans ce cas particulier, j'ai écrit ce programme, qui nous montre nos retours. En particulier, l'ensemble de code pertinent ici est en bas. Prock veut dire données. Cela nous montre pour notre ensemble de données spécifique. Dans ce cas, points de travail s et P 500 sont le percentile médian moyen pour le 90e percentile, le 10e percentile pour les hommes et le maximum dans l'ensemble de données, avec des décimales maximales de trois. On pourrait, bien sûr, changer ça. Mais le fait est que le codage est relativement simple à parcourir et à comprendre ces différents indicateurs de données, ils vont nous permettre d'établir si notre ensemble de données est correct, correct et bien construit. Ensuite, lorsque nous examinons l'exactitude des données, l' une des grandes préoccupations est toujours les fausses données. Ben, car la loi de Dieu est l'un des meilleurs tests pour les fausses données. Si vous craignez que votre entreprise obtienne des données qui ont été falsifiées pour une raison quelconque , je vous recommande fortement de passer en revue et d'utiliser la loi de Benford. Ben Friends Law dit simplement que dans les données réelles, le numéro un devrait être le nombre le plus courant. Le numéro deux devrait être un prochain, le plus commun etcetera. Cela semble incroyable, mais en fait, cela fonctionne encore et encore avec de nombreux ensembles de données différents. Pour illustrer pourquoi c'est le cas. Pensez au marché boursier. Il a fallu beaucoup plus de temps pour que le Dow Jones passe de 1000 à 2000 points que de 17 000 points. La nature de la croissance dans Siris des nombres est que l'on sera toujours le nombre le plus commun dans un ensemble de données réel pour devrait être le prochain plus commun etcetera. Le tableau ci-dessous nous montre la fréquence de chaque nombre dans les données authentiques. Maintenant, gardez à l'esprit, bien sûr, il y a quelques variations par rapport à cela dans n'importe quel échantillon de données donné. Mais en moyenne pour un ensemble de données, nous devrions constater que le numéro un représente environ 30,1% de réduction sur tous les chiffres des données réelles. Le nombre deux représente environ 17,6 % de tous les chiffres. Numéro trois, environ 12,5 %, etcetera. Vous pouvez donc utiliser cet outil pour déterminer si vos données sont authentiques ou non. Les données authentiques ne garantissent pas qu'il n'y a pas de problème avec les données. Par exemple, les données peuvent avoir des observations manquantes ou les données peuvent simplement être trop petites d'une taille d'échantillon . Mais cela nous dit que cela nous donne au moins une indication que les données n'ont pas été falsifiées. 4. Ratios et mesures clés dans l'analyse des données: module deux. Évaluer les données pour commencer par une seule donnée d'effacement que nous devons examiner et évaluer, décider si nous avons ou non des problèmes avec nos bases de données. En particulier, les bases de données dans les paramètres de l'entreprise sont souvent générées automatiquement ou presque automatiquement. Par exemple, données provenant des rapports de vente ou des statistiques d'investissement pourraient être téléchargées directement à partir d'une autre partie de l'entreprise. Les données provenant des points de vente au détail, peut-être avec notre entreprise, sont souvent générées automatiquement par des logiciels. Par exemple, sur un système de points de vente. Il est important d'évaluer ces données et leur exactitude avant de les analyser. Les données générées automatiquement n'ont souvent pas fait l'objet d'une vérification de la santé mentale par un être humain, et par conséquent, elles peuvent contenir des erreurs, des omissions ou des problèmes que nous pouvons négliger. Si nous passons à rapidement. Lorsque nous évaluons les données, il y a quelques problèmes clés que nous voulons commencer en regardant d'abord Est-ce que la date semble avoir une sorte de menteurs ? Deuxièmement, la date paraît-elle exacte ? Troisièmement, les données sont construites autour de variables qui ont un sens économique. Par exemple, nous pourrions avoir la dette comme une variable et les actifs en sont une autre. Si nous regardons par exemple, différentes entreprises qui pourraient être des concurrents des nôtres, ou simplement des sociétés différentes qui sont cotées en bourse. Eh bien, si nous regardons le montant total de la dette détenue par une entreprise qui ne nous dit pas grand-chose dans l'ensemble, tout ce qu'elle obtient est de nous donner une approximation de la taille. Les grandes entreprises, en moyenne, devraient détenir plus de dettes. À titre d'exemple, General Electric a beaucoup plus de dettes que, disons, Ah, très petit fabricant industriel. G E est grand. Ils peuvent se permettre de supporter beaucoup plus de dettes, sorte que la dette en soi n'est pas très utile. La même chose est vraie pour les actifs. Il n'est pas vraiment clair que les actifs en soi nous disent autre chose que de nous donner une approximation de la taille de l'entreprise. D' un autre côté, si nous prenons maintenant un ratio de l'actif de la dette, nous avons quelque chose de plus significatif. Dans ce cas, actifs de la dette vont nous donner une sorte d'indication du risque de l'entreprise. Enfin, nous pourrions être intéressés à examiner d'autres lacunes ou discontinuités dans les données. Ce sont tous des points clés que nous devrions examiner plus avant de passer par un ensemble de données. Quand il s'agit de sortir des menteurs, nous devons nous demander à quoi ressemblent les données ? Les données semblent-elles être un test symétrique ? Cela devra exécuter des calculs terme. La moyenne et la médiane de chaque variable d'intérêt sont la viande que nous pourrions nous demander sont-elles la moyenne et la médiane à peu près la même ? Sinon, nous décidons d'incliner Nissen. Les données sont un problème. Si la moyenne et la médiane diffèrent considérablement, cela nous indique que nos données sont biaisées. Nous pouvons également exécuter des calculs terme dans les percentiles supérieur et inférieur le 1% supérieur le 5% supérieur le 10% supérieur et les comparer à la moyenne et la médiane. Si, par exemple, on regardait, disons, les ventes de certains de nos clients, si les 1% les plus élevés de nos clients sont sûrs pour 100 fois les ventes moyennes, peut-être ces statistiques ne sont pas très sont très importants. Peut-être que ces statistiques vont annuler notre analyse, peut-être, par exemple, c'est simplement une erreur de comptabilité. Quel que soit le problème, nous devons passer en revue et décider si ces centiles supérieur et inférieur appartiennent à nos données. Définissez tout pour calculer les médianes et les percentiles moyens. Il y a quelques outils différents que nous pouvons utiliser. Je vais parler brièvement de SAS, Stada et Excel. Excel est probablement celui que presque tout le monde connaît. Pour calculer les moyens médians et percentiles et Excel utilisera simplement les fonctions suivantes . Moyenne médiane et percentile point Inc Chacun de ces air assez simple, et ils vont nous laisser passer et comprendre quelques-unes des questions que nous voulons examiner dans Excel. Le problème avec Excel, cependant, est qu'Excel nous permet seulement d'examiner un très petit sous-ensemble de données, relativement parlant, en fonction de la version d'Excel que vous utilisez. C' est n'importe où de 65 000 lignes de données jusqu'à peut-être 1 000 000 lignes de données. Franchement, même si vous avez des versions plus récentes d'Excel qui vous permettent d'analyser jusqu'à 1 000 000 lignes de données, Excel a souvent des problèmes avec les bases de données volumineuses comme cela trie Congar mauvaises recherches v . Des choses comme ça, vous pouvez avoir de sérieux problèmes avec Excel pour de très grands ensembles de données de plus de 50 000 points de données environ. En conséquence, je ne dis pas que vous ne devriez pas utiliser Excel, mais vous devriez être très prudent avec cela. Maintenant, si vous ne voulez pas utiliser Excel, l' un des programmes alternatifs que j'aime vraiment, cet état A est très agréable car il a deux avantages. Numéro un. C' est peu coûteux. Ist progiciels vont. Vous pouvez obtenir une licence perpétuelle pour certains entre quelques 100 peut-être 1000$ selon le type d'organisation que vous êtes. State est également très convivial, pas tout à fait aussi convivial qu'Excel. Mais c'est beaucoup plus puissant où Excel est coincé dans environ 50 000 points de données et juste quelques variables et commence à produire une sortie ou une sortie douteuse. Cela, en fait, est carrément faux. Et vous n'avez aucun moyen de savoir si c'est faux ou non, parce qu'Excel ne vous donne aucun avertissement. Stada évite tous ces problèmes. L' état de repose toujours sur une entrée de feuille de calcul, ce qui est agréable car vous pouvez passer par la vue de vos données dans le même type de cadre que vous faites avec Excel acheté. Il vous donne plus d'outils pour passer par une analyse de vos données d'une manière plus robuste. Vous pouvez voir quelques-uns du code de base que j'ai écrit pour une analyse ci-dessous maintenant en état, si nous voulions regarder les médianes et les percentiles moyens, nous utiliserions simplement les fonctions suivantes. Par exemple, une variable variable à etcetera. Si nous tapons simplement cela et mettons nos noms de variables, state crachera nos moyens. Si nous tapons une variable une variable à variable, trois etcetera, puis une virgule détaillée à la fin, il crachera. Non seulement sont des moyens, mais nos médianes et nos percentiles à différents points de l'ensemble de données, sorte que l'état est très simple et facile à utiliser. Et la bonne chose est qu'une fois que vous avez écrit un programme, vous pouvez prendre ce même programme et l'appliquer à plusieurs ensembles de données, donc cela pourrait être plus de travail à l'avance. Comparé à Excel. Une fois que vous avez fait le travail à l'avance, il est très facile de le réexécuter encore et encore. Encore une fois. C' est un peu plus cher que les programmes comme, disons, qui sont open source. Mais je pense que c'est plus convivial, et donc c'est souvent des dollars bien dépensés. C' est à vous, bien sûr, à chaque personne est détenue maintenant comme une alternative. Si vous n'aimez pas l'état de pour quelque raison que ce soit, SAS est un autre excellent choix. déclaré a des outils d'analyse de données beaucoup plus puissants qu'Excel. Mais si vous commencez à regarder 5 10 2030 millions d'observations état, il peut souvent être ralenti. Dans ce cas, vous aurez besoin d'un autre logiciel. Sass est un excellent choix maintenant. Sass est souvent acheté sur une licence. C' est un peu plus cher que Stada, mais c'est toujours un bon choix en général, tout comme State of the Oh SAS implique d'écrire un morceau de code, ce qui implique, bien sûr, travail initial. Mais une fois que vous avez écrit ce programme, vous pouvez l'utiliser encore et encore et encore. Donc le travail initial. Mais alors, une fois le programme écrit, il est très facile de l'appliquer à une myriade d'ensembles de données différents avec seulement des modifications mineures . Donc, dans ce cas particulier, j'ai écrit ce programme, qui nous montre nos retours. En particulier, l'ensemble de code pertinent ici est en bas. Prock signifie données. Cela nous montre pour notre ensemble de données spécifique. Dans ce cas, points de travail s et P 500 sont le percentile médian moyen pour le 90e percentile, le 10e percentile pour les hommes et le maximum dans l'ensemble de données, avec des décimales maximales de trois. On pourrait, bien sûr, changer ça. Mais le fait est que le codage est relativement simple à parcourir et à comprendre ces différents indicateurs de données, ils vont nous permettre d'établir si notre ensemble de données est correct, correct et bien construit. Ensuite, lorsque nous examinons l'exactitude des données, l' une des grandes préoccupations est toujours les fausses données. Ben, car la loi de Dieu est l'un des meilleurs tests pour les fausses données. Si vous craignez que votre entreprise obtienne des données qui ont été falsifiées pour une raison quelconque , je vous recommande fortement de passer en revue et d'utiliser la loi de Benford. Ben Friends Law dit simplement que dans les données réelles, le numéro un devrait être le nombre le plus courant. Le numéro deux devrait être un prochain, le plus commun etcetera. Cela semble incroyable, mais en fait, cela fonctionne encore et encore avec de nombreux ensembles de données différents. Pour illustrer pourquoi c'est le cas. Pensez à la bourse. Il a fallu beaucoup plus de temps pour que le Dow Jones passe de 1000 à 2000 points que de 17 000 points. La nature de la croissance dans Siris des nombres est que l'on sera toujours le nombre le plus commun dans un ensemble de données réel pour devrait être le prochain plus commun etcetera. Le tableau ci-dessous nous montre la fréquence de chaque nombre dans les données authentiques. Maintenant, gardez à l'esprit, bien sûr, il y a quelques variations par rapport à cela dans n'importe quel échantillon de données donné. Mais en moyenne pour un ensemble de données, nous devrions constater que le numéro un représente environ 30,1% de réduction sur tous les chiffres des données réelles. Le nombre deux représente environ 17,6 % de tous les chiffres. Numéro trois, environ 12,5 %, etcetera. Vous pouvez donc utiliser cet outil pour déterminer si vos données sont authentiques ou non. Les données authentiques ne garantissent pas qu'il n'y a pas de problème avec les données. Par exemple, les données peuvent avoir des observations manquantes ou les données peuvent simplement être trop petites d'une taille d'échantillon . Mais cela nous dit que cela nous donne au moins une indication que les données n'ont pas été falsifiées. 5. Variables Categorical dans la Business Intelligence: , trois ratios et mesures clés. Maintenant, lorsque nous examinons les données de mon expérience, le problème numéro un que les gens rencontrent lorsqu'ils effectuent une analyse de données est d'utiliser les mauvaises variables. Ils ont tendance à utiliser les variables qui semblent produire le résultat qu'ils veulent, même si elles n'ont pas de sens économique. Il ne suffit pas d'avoir de bonnes données ou d'avoir un outil qui vous permet d'analyser les relations empiriques Vous avez besoin des bonnes variables. . Il y a une vieille histoire à laquelle est probablement apocryphe, mais il faut néanmoins répéter qu'il y a une très forte corrélation entre le taux de natalité en Inde et la vitesse du vent à Chicago. C' est un parfait exemple de corrélation fallacieuse. Il n'y a aucune raison rationnelle pour laquelle le nombre de personnes nées en Inde devrait avoir une relation avec la vitesse du vent à Chicago acheté. Si nous examinons suffisamment de données pour nous donner la taille de l'échantillon, nous trouverons ces corrélations. Qu' ils soient significatifs ou non est quelque chose que nous devons évaluer indépendamment des corrélations réelles elles-mêmes. Il est donc important de regarder quelles variables utilisaient et de s'assurer que nous utilisons des variables qui ont du sens dans le contexte du problème que nous essayons résoudre. Par exemple, pensez à nos variables, la dette, la dette, actif et la dette envers les actifs. Comme je l'ai dit plus tôt, la dette et les actifs eux-mêmes ne sont pas nécessairement autant significatifs. Au mieux, ce sont des mandataires différents pour la taille de l'entreprise. La dette envers les actifs, cependant, est significative en tant que mesure du risque d'une entreprise. Maintenant, dans de nombreux cas, ce que cela nous dit, c'est que les variables brutes doivent être modifiées afin d'avoir des relations solides dans les données, mais aussi des relations solides qui sont économiquement significatives au-delà du simple fait d'avoir corrélation statistique avec les variables qui nous intéressent. Comme je l'ai noté, ni la dette ni les actifs ne sont bons. procuration de la dette à risque par rapport aux actifs est, cependant, maintenant, les modifications variables vont se classer en trois catégories de base. Former des ratios, en éliminant les taux de variation des données plutôt que les niveaux de ces données et variables catégoriques . ratios sont l'un des outils les plus utiles que nous avons confinés. Lors de la création de jeux de données. Les données métier brutes ne sont généralement pas si utiles pour prédire les résultats futurs. C' est souvent bruyant. Il a beaucoup de variation dans les données qui rend difficile de protéger les choses et puis, comme nous l'avons vu avec la dette dans les actifs, parfois ce n'est pas particulièrement significatif Tout si nous essayons de mesurer plus abstrait concepts comme le niveau de risque d'une entreprise. Au lieu de cela, c'est souvent une bonne idée de calculer des ratios en fonction des mesures qui nous tiennent à cœur. Par exemple, nous voyons ici un diagramme montrant la valeur intrinsèque à l'aide d'une analyse de ratio, nous pourrions être intéressés par , disons, la valeur d'une entreprise achetée si nous recevons des données sur les investissements requis dans capital d'exploitation et flux de trésorerie libre. Ceux qui sont seuls ne nous parlent pas grand-chose de la firme. Au lieu de cela, nous devons passer et compter fin. Combiner ces données avec, dans ce cas, le coût moyen pondéré du capital. Nous formons un ratio, qui constitue la base d'un modèle de flux de trésorerie actualisé, ce qui nous permet d'évaluer l'entreprise. Le fait est que le flux de trésorerie libre simple en soi n'est pas si utile pour déterminer la valeur de l'entreprise pondérée. Le coût moyen du capital à lui seul n'est pas si utile pour déterminer la valeur de l'entreprise. Rassemblez ces concepts, cependant, et nous obtenons quelque chose qui est beaucoup plus utile et des ratios significatifs pourrait être tout aussi utile dans vos ratios organisationnels. Ils vont nous permettre de faciliter la comparaison pour une entreprise au fil du temps pour une entreprise par rapport d'autres entreprises aussi. Les ratios seront utilisés par, par exemple,par exemple, prêteurs déterminent les actionnaires de solvabilité pour estimer les flux de trésorerie futurs et les gestionnaires de risques lorsque nous essayons d'identifier les faiblesses et les points forts d'une organisation. Examinons donc certains des différents ratios que vous pouvez utiliser dans votre organisation lorsque vous créez le sens des données. En particulier, il y a cinq catégories de ratios financiers. Ratios de liquidité, ratios de gestion d'actifs, ratios de gestion de la dette, ratios de rentabilité et ratios de valeur marchande. Chacun de ces ratios sera utile dans des circonstances différentes, en fonction de ce que nous cherchons à analyser. En particulier, nous devons passer en revue, et nous devons nous assurer que nous avons les bonnes données dans notre base de données. Calculons ces ratios. Selon la question que nous posons, ratios de liquidité mesureront notre capacité à respecter les obligations actuelles. ratios de gestion d'actifs nous disent quelque chose sur l'utilisation correcte et efficace des actifs, si l'entreprise fait du bon travail et gère ces actifs, etc. Ainsi, les ratios de gestion des actifs peuvent inclure des éléments comme l'utilisation des actifs. Par exemple, les ratios de rotation totale des actifs. Ce sera simplement le chiffre d'affaires total. Ventes égales divisées par le total des actifs. ratios de gestion de la dette vont nous dire quelque chose sur l'ampleur de la dette de l'entreprise dans le niveau de sécurité qui sera offert aux créanciers. Par exemple, l'utilisation de la dette Multiplicateurs d'actions ratio multiplicateur d'actions est juste le total des actifs divisés par total des capitaux propres Les ratios de rentabilité vont nous dire quelque chose sur les effets de liquidité, actif gestion et de la dette sur les résultats d'exploitation. Cela inclut des choses comme le contrôle des dépenses, marge bénéficiaire, bien sûr, est juste le revenu net divisé par les ventes. Enfin, ratios de valeur marchande allaient nous donner une idée de ce que les investisseurs pensent des résultats passés d'une entreprise . À quoi ressemblent les perspectives d'avenir de l'entreprise lorsqu'il s'agit de ratios de liquidité, nous posons une série de questions fondamentales sur la question de savoir si l'entreprise peut remplir ses obligations à court terme en utilisant les ressources qu'elle a actuellement en main. Il y a quelques ratios différents, particulièrement pertinents. Le premier d'entre eux simplement le ratio courant actif divisé par le passif courant. De même, le ratio rapide sera l'actif à court terme moins l'inventaire par rapport au passif à court terme. Donc, si nous sommes en train d'essayer de prévoir, par exemple, quelque chose sur la gestion de la trésorerie ou la probabilité qu'un fournisseur ou un client ne une sorte d'obligation, nous serions intéressés à utiliser ces types de ratios, et nous devrions nous assurer qu'ils sont inclus dans notre base de données à des fins de prévision. Ensuite, si nous regardons les ratios de gestion de l'actif se demandaient, Dans quelle mesure l'entreprise utilise-t-elle ses actifs ? Combien l'entreprise a-t-elle immobilisé ses actifs pour chaque dollar de ventes ? Nous pouvons mesurer cela en utilisant le ratio de rotation des stocks, sorte que c'est tout simplement égal aux ventes divisées par les stocks. De même, nous pourrions être intéressés par notre efficacité des immobilisations. Pour calculer cela, nous pouvons utiliser notre chiffre d'affaires d'immobilisations. Ça va être des ventes divisées par des immobilisations nettes. , le chiffre d'affaires total En revanche n' est que des ventes divisées par le total des actifs. Encore une fois, chacun de ces ratios mesure différents aspects de notre stratégie de gestion d'actifs achetée . Si nous sommes intéressés à prédire dans quelle mesure l'entreprise se porte et à quelles ventes pourraient ressembler à l'avenir, nous aimerions probablement veiller à ce que ces données soient incluses dans notre base de données sur les ratios de gestion de la dette . Si nous posons des questions sur le montant de la dette de l'entreprise, si cela est trop important pour l'entreprise et si les bénéfices de l'entreprise peuvent répondre à ses besoins en matière de service de la dette, nous pourrions être intéressés par quelque chose comme le ratio de la dette. Le ratio de la dette est juste total au total du passif divisé par le total des actifs. Ou vous pourriez être intéressé par l'égalité des taux d'intérêt gagné, qui est simplement e mais divisé par les frais d'intérêt. Le point ici avec chacun de ces ratios est que nous n'avons peut-être pas ces ratios dans notre base de données pour commencer. Si nous tirons simplement, disons, des données financières à partir d'une base de données financière qui existe, disons à partir de campy, stat ou net, nous pourrions avoir des passifs totaux dans l'actif total de notre entreprise ou pour entreprises concurrentes. Mais nous devons passer en revue et calculer le ratio de la dette comme indiqué ici dans la base de données elle-même. Nous devons prendre ce qui suit. Nous devons prendre des opérateurs mathématiques qui nous donneront cela et déclarer une nouvelle variable pour le ratio de la dette. De même, lorsque nous examinons les ratios de rentabilité, vous pourriez être intéressé par des choses comme la marge bénéficiaire nette, qui correspond simplement au résultat net divisé par les ventes. Si nous examinons le taux de rendement de l'entreprise, nous pourrions être intéressés par la marge bénéficiaire d'exploitation, qui est simplement divisée par les ventes. Si nous sommes intéressés par des mesures permettant de déterminer dans quelle mesure la société utilise ses actifs, nous pourrions être intéressés à tour de rôle sur les actifs et le rendement des capitaux propres sur les actifs simplement le revenu net divisé par le total des actifs où le rendement des capitaux propres Est que le revenu divisé par équité ? Un de mes ratios préférés, et ce n'est pas vraiment un ratio. Pour être juste, c'est plus de, Ah, l'opérateur mathématique est le score Altman Z. Le score Altman Z va prédire la probabilité d'une faillite d'une entreprise donnée dans deux ans. Le modèle présenté ici est pour Industrial Companies Point. Cela s'applique également à tout type d'entreprise qui produit ou fabrique un produit en général. Au-delà de cela, cependant, il y a des variations sur le score Altman Z. Ils ont été optimisés pour, disons, les entreprises de logiciels ou les détaillants, les entreprises qui ont une sorte de modèle d'affaires léger plus actif. Le score Altman Z sera basé sur cinq ratios différents tous réunis pour former cette seule mesure. Le premier ratio dont nous aurons besoin est le fonds de roulement divisé par le total des actifs. Ça va nous donner une mesure pour le liquide de l'entreprise. Ratio deux x deux Dans la formule armée est retenu. Diviser les gains Au sujet du ratio total des actifs. Trois est le bénéfice avant intérêts en impôts divisé par le total des actifs. Donc, comme nous voyons un ratio de deux ans qui nous donne un métrique pour la flexibilité financière de l'entreprise et son ratio d'évaluation trois nous donne un métrique pour son ratio de rentabilité. Quatre va nous dire quelque chose sur l'évaluation de la firme. Dans l'ensemble, il s'agit simplement de la valeur marchande des capitaux propres divisée par le total des passifs et le ratio. Cinq sont les ventes au total des actifs. Cela nous dit, en substance, quel point l'entreprise est efficace avec ses actifs que nous traversons, utiliser chacun de ces coefficients présentés ici et les multiplier par les ratios. Ainsi, par exemple, nous calculons le rapport x un et le multiplions par 1,2. Ensuite, nous ajoutons à ce rapport x deux fois 1,4 etcetera. Passez par effectuer toutes ces fonctions mathématiques et nous obtenons un Z si Z pour l'entreprise est plus de 2.99 C'est une entreprise sûre. La probabilité que l'entreprise fasse faillite dans les deux ans est assez faible. Si le rapport si le score Z je suis désolé, tombe dans la gamme de 1.8122 point 99 c'est ce que nous appelons la zone grise. Il y a un risque ici. Et enfin, si le rapport est inférieur à 1,81, c'est la zone de détresse. Il y a une forte probabilité que l'entreprise fasse faillite dans les deux ans. Ensuite, nous pourrions nous soucier du taux de croissance interne. Peut-être voulons-nous faire une sorte de prévision sur les bénéfices de l'entreprise à l'avenir. Pour ce faire, nous avons besoin d'une base de données qui nous permette de calculer notre taux de croissance interne. Le taux de croissance interne est tout simplement égal. Les temps de rendement des actifs sont un pourcentage de rétention prétendu. Ce pourcentage de rétention est le montant des bénéfices que nous conservons au sein de l' entreprise plutôt que de verser aux investisseurs sous forme de dividende. Donc, le taux de croissance interne est notre pourcentage de rétention temps absent divisé par un moins sont temps absents pourcentage de rétention. Nous pourrions également être intéressés par le taux de croissance durable. Le taux de croissance durable va nous dire combien l'entreprise peut croître en utilisant ses fonds générés à l' interne et en émettant des dettes pour maintenir un ratio d'endettement constant au fil du temps. Ce taux de croissance durable est juste égal à notre A Nous multiplions notre pourcentage d'attention divisé par un moins sont nous fois notre pourcentage d'attention. Enfin, nous pourrions être intéressés par les ratios de valeur marchande. ratios de valeur marchande donnent à la direction une idée de ce que les investisseurs pensent de la performance passée de l'entreprise . Et les perspectives d'avenir, y compris les ratios de valeur marchande, sont souvent utiles. Si nous essayons de prévoir des mesures que nous pourrions prendre, cela pourrait améliorer la valeur de notre entreprise . Par exemple, nous construisons une base de données qui regarde notre entreprise et nos entreprises concurrentes dans la même industrie et qui contient toute une série de données liées aux décisions. Nous avons pris des décisions. Nous pouvons ensuite calculer des ratios de valeur marchande pour nous donner une idée de la valeur relative de chacune de ces sociétés, et nous pouvons utiliser cette valeur relative comme variable de prévision pour l'avenir. Ensuite, parlons des taux de changement. Ainsi, comme je l'ai noté, les taux de changement peuvent souvent être utiles si les niveaux d'un point de données donné ne sont pas utiles. Donc, même si un ratio n'est pas aussi évident un substitut aux données brutes, il est souvent judicieux d'essayer d'utiliser les taux de changement à la place des niveaux, des données par niveaux. On parle de différents points. Par exemple, revenir à ma dette dans l'exemple des actifs. Nous pourrions examiner le montant de la dette détenue par General Electric ou le montant des actifs détenus par General Electric. Sinon, nous pourrions examiner le taux de variation de la dette ou de l'actif, ce qui nous indique à quel point la croissance de l'entreprise est rapide. Le niveau de rentabilité, par exemple, est moins susceptible d'être utile que le taux de variation de la rentabilité. Pour une entreprise encore , la rentabilité moins en dollars, sera juste une mesure grossière pour la taille. Nous pouvons le mettre sous la forme d'un ratio et nous dire quelque chose sur l'efficacité de la gestion de l' entreprise. Mais même si cela ne nous intéresse pas, nous pourrions être intéressés par le taux de croissance de la rentabilité d'une entreprise au fil du temps. Lorsque nous calculons les taux de changement, il est généralement utile de passer par une plage informatique de taux de changement pour chaque variable majeure que nous prévoyons inclure dans notre analyse, juste une bonne règle empirique. Passez en revue et calculez ces taux de changement à l'avance, puis décidez plus tard. S' ils sont utiles dans votre analyse ou non en fonction de considérations économiques maintenant, nous pourrions être intéressés à déterminer si les taux de changement sont sensés pour nous. Étant donné que notre date fera ça. Nous devons commencer par établir une corrélation entre nos niveaux et nos taux de variation et la variable ou essayer de prédire ou d'examiner et cela nous dira si les taux ou les niveaux sont plus utiles. Nous voulons choisir le type de variable dans chaque cas avec la corrélation la plus élevée. C' est juste une règle générale. Ce n'est pas toujours le cas. Il peut y avoir un cas où vous avez une corrélation erronée et encore une fois, il est important de passer en revue et de réfléchir à l'importance économique derrière chacun de ces différents types de variables. Mais en général, il est généralement préférable de regarder et de voir si le niveau ou le taux est plus étroitement corrélé avec la variable. Nous cherchons à prédire maintenant au-delà des taux de changement. Parfois, regarder un long naturel est un bon choix pour. Par exemple, si nous examinons des données avec une grande variation de valeur comme, disons, taille des actifs sur différents concurrents, Natural Log peut avoir beaucoup de sens très difficile de comparer une entreprise qui a cet exemple 1 milliard de dollars d'actifs pour 100 millions à un certain niveau, une entreprise avec 1 000 000 000 000 d'actifs est assez similaire à affirmer, avec 900 milliards d'actifs, même s'il y a 100 millions d'indifférence entre eux. Ces deux entreprises, celle qui a un actif de 1 000 000 000 000 000 et qui a 900 millions d'actifs, ont une similitude beaucoup plus grande que, disons, une entreprise avec 100 millions d'actifs par rapport à 200 millions de NASA. Cet écart est de 100 millions dans les deux cas, mais l'écart en pourcentage est important. Passer de 900 millions à 1.000.000.000 est seulement une croissance de 10% des actifs. La croissance de 100.000.200 millions est un doublement des actifs. Les billes naturelles peuvent nous aider à éviter ces problèmes en prenant leur log naturel d'actifs. Ensuite, nous allons une échelle plus appropriée 6. Imputer des données dans un l'un des l'un des l'un des dataset: module. Quatre variables de catégorie Lorsque nous effectuons une analyse, il est souvent logique de regrouper des clusters de données à l'aide d'une variable de catégorie . Par exemple. Plutôt que de nous soucier d'un score Altman Z précis, nous pourrions simplement regrouper les fournisseurs ou les clients dans l'une des trois catégories, comme nous l'avons noté précédemment, Danger Zone, Gray Zone et Safe Aux fins de notre analyse de données, nous pourrions étiqueter ces valeurs 12 et trois une étant la zone de danger à la zone grise et trois étant la zone de sécurité. Et nous pourrions, par exemple, prédire ce qu'il faut pour passer d'une catégorie à une autre, ou quel impact chacune de ces différentes valeurs a sur une autre mesure qui nous intéresse. Alternativement, variables de Byeon Eri sont un type spécial de variables catégoriques. En particulier, les variables binaires n'ont que deux résultats possibles. Un ou un zéro. Par exemple, en revenant à notre exemple Altman Z. Nous pourrions représenter le score sous la forme de trois variables Byeon Eri différentes avec une valeur de 1 ou zéro dans chaque cas. Donc, une entreprise aurait est un exemple dans le score Altman Z, et ils seraient soit dans la zone de sécurité, la zone grise ou la zone dangereuse. Nous créons trois variables binaires. Sûr, gris et dangereux. Si l'entreprise tombe dans la zone de sécurité, elle en obtient une pour la valeur de la zone de sécurité. S' ils ne tombent pas dans la zone de sécurité, ils obtiennent un zéro. S' ils tombent dans la zone grise, ils en obtiennent une pour cette variable. Sinon, ils obtiennent un zéro. Comme vous pouvez vous y attendre, vous ne pouvez en avoir qu'un dans l'une des trois catégories. Comme vous pouvez vous y attendre, Autrement dit, si nous en avons un dans la zone de sécurité pour une entreprise donnée, il devrait être zéro dans les gris dans la zone grise et zéro dans la zone de danger. General Electric ne peut entrer dans l'une de ces trois catégories. variables Byeon Eri, donc, sont utiles pour passer à travers dans la division de nos données en différents morceaux digestibles. Cela nous permettra de prédire plus facilement les valeurs à l'avenir. Alors pourquoi utilisons-nous des variables catégoriques ? Les variables catégorielles seront-elles utiles à deux fins ? Premièrement, ils nous permettent de représenter les données qualitatives de manière empirique. Par exemple, la race sexuelle ou le statut d'ancien combattant des employés est toutes des données qualitatives. Vous êtes soit un homme, soit une femme. Tu n'es pas 12345 Ce n'est pas un genre. Donc, au lieu de cela, nous pourrions avoir un achat dans Eri Variable simplement dire mâle un ou zéro Si c'est un, nous savons que certains employés sont un homme. Si c'est un zéro, nous savons qu'il y a des variables féminines de deuxième catégorie. Évitons également de nous enliser avec des différences dénuées de sens, et ils nous permettent de nous concentrer sur le tableau d'ensemble lorsque nous utilisons des techniques statistiques pour analyser les données . Par exemple, si nous avons à des concurrents avec un 1.000.000.000.000 plus et des ventes, ils devraient tous les deux être classés comme grandes entreprises. Que l'on soit à 1,11 milliard, ou 1,14 milliard, c'est vraiment dans l'ensemble matériel. Au lieu de cela, nous voulons rester concentrés sur l'analyse globale, et donc il pourrait simplement les classer comme de grandes entreprises dans chaque cas, sur Alternative Way, au lieu d'utiliser des variables binaires pour calculer les données et grouper ensemble est d'utiliser la mort. Seiler Quintile variables les variables de type percentile d'air qui sont de nature catégorique . Par exemple, c'est souvent un aspect utile, le rang percentile pour le morceau de données plutôt que la valeur absolue. Cela est particulièrement vrai lorsque nous traitons des données de séries chronologiques, par exemple, nous pourrions être en mesure d'identifier nos 10 % de clients les plus importants au cours d'une année donnée, quel que soit leur volume de ventes réel. Si nous essayons de comparer nos meilleurs clients en 1990 par rapport à l'année 2010, nous nous attendons juste compte tenu de la nature de l'inflation que la valeur des ventes et chaque année aurait augmenté afin qu'il puisse augmenter cette valeur et le mettre en C $1990 pour tenir compte de l'inflation. Ou nous pourrions simplement utiliser une variable catégorique de type percentile à nouveau en faisant l'échelle. En utilisant ces variables de type percentile, disons styles de mort ou quintiles, ça va nous permettre d'éviter les problèmes avec l'inflation, les changements de prix etc. styles de décès et les quintiles sont généralement de bonnes variables catégoriques à calculer pour les variables clés . Les variables de rang décile vont diviser les données en intervalles de 10%, par exemple, 0 10% 10 20%, etcetera. L' idée ici est que nous prenons toutes les valeurs de la variable pardonnée sur. Nous sommes en train de le diviser en morceaux, donc nous regarderions, par exemple, nos 10 % de clients les plus élevés et ils seraient dans le décile supérieur les 10 % suivants des clients seraient dans le neuvième. Décile, etc. quintiles vont classer les variables en les divisant en intervalles de 20% 0 20% 40% etcetera. Maintenant, nous pouvons calculer le classement décile pour chaque client dans un trimestre donné, puis examiner ce qui conduit le comportement des clients dans le décile supérieur ou inférieur à titre d'exemple. Cela nous permet de nous concentrer sur le type de clients qui nous intéressent, car il est tout à fait possible que les clients du décile supérieur se comportent différemment du bas. Décile Notre mort Seiler Les variables quintiles sont généralement étiquetées de 1 à 10 ou 125 respectivement . Faire ça va nous permettre de comprendre le déplacement marginal et efficace entre les catégories. En d'autres termes, les clients du quintile supérieur sont-ils affectés différemment par un effort publicitaire que, disons, clients du quintile inférieur sont. Cela nous permettra également de calculer facilement les différences entre les segments de données. Par exemple, quelle est la différence de rentabilité entre le décile supérieur et le décile inférieur en fonction de la taille totale de leurs actifs ? variables catégoriques basées autour de ces pourcentage maison sont les plus utiles lorsque nous traitons des données qui varient beaucoup au fil du temps, par exemple, sont un Nous et notre éloignement sont souvent plus efficaces en tant que variables prédictives. S' il s'agit de variables catégoriques plutôt que de ratios, il est important de ne pas avoir trop de décès. Seiler Quintile Variables Donc, certains d'entre vous connaissent peut-être la ferme en français. Quatre. Factor Model Eugene Fama est un économiste lauréat du prix Nobel et collabore avec Ken French de Dartmouth pour développer ce modèle, et il est utile pour prédire le rendement des actions en fonction de différents types de variables. Mais plutôt que d'utiliser des valeurs absolues pour, disons, la rentabilité ou les ratios P E ou d'autres choses du genre, il utilise plutôt les siles mortels et les quintiles dans certains cas. Mais il utilise aussi des catégorisations encore plus larges comme Ter Siles. Pourquoi fait-il ça ? Eh bien, si nous n'utilisons que les ventes de décès ou les quintiles, nous commençons souvent à trop briser notre ensemble de données. Par exemple, si nous avons quatre décès différents, je vais variables. Il y a quatre variables différentes utilisées dans le modèle à quatre facteurs, comme son nom l'indique. Eh bien, si nous avions quatre variables déciles différentes, cela signifierait qu'une fois que nous avons segmenté les 5000 stocks en groupes qui correspondent à chacun de ces Siles morts. Nous aurions des regroupements de cinq actions dans chaque portefeuille, soit 5000 actions divisées par 10 levées à la quatrième. Alternativement, en utilisant Ter Siles en utilisant des Quintiles comme ça, cela nous permet d'obtenir des portefeuilles plus importants et donc nous donne une puissance prédictive plus précise dans chaque portefeuille que nous essayons de prédire. 7. Les bases de l'analyse des données: , cinq données d'imputation. Maintenant, lorsque nous parlons des problèmes liés à la structuration d'un ensemble de données, il y a souvent quelques préoccupations communes qui surgissent. L' une des données les plus courantes est l'absence de données. Les données manquantes peuvent parfois être déduites, bien qu'elles soient fondées sur les données existantes. Par exemple, si les actifs sont des enregistreurs de 1000$ en janvier puis 1300 avril, il est probablement raisonnable de remplir les valeurs manquantes pour février et mars qui se situent entre les deux points de données. C' est ce qu'on appelle l'imputation des données. Il existe un certain nombre de techniques que nous pouvons utiliser à partir des données de puting. Les trois plus courantes sont la dernière méthode de valeur disponible, la méthode d'interpolation linéaire et la méthode de prédiction de régression. La dernière méthamphétamine disponible, la dernière méthode de valeur disponible pour l'imputation des données, va simplement utiliser le dernier point de données valide à la place des points de données manquants en fonction de la méthode de tri des données appropriée. Par exemple, si nos actifs notre record, est de 1000$ en janvier puis 1300 en avril, la dernière méthode de valeur disponible remplissant 1000$ pour les actifs pour février et mars, la méthode présente un inconvénient évident, bien qu'il crée des discontinuités par étapes. Dans nos données, nous passons de 1 000$ en janvier, 1 000$ en février, 2 000$ en mars et de 1 300$ en avril, ce qui pose parfois un problème. Du côté positif, nous faisons moins d'hypothèses sur le taux de croissance au fil du temps en utilisant cette méthode. Alternativement, la méthode d'interpolation linéaire d'imputation des données va utiliser un Grady int en place que données manquantes basées sur n'importe quelle méthode de tri des données est appropriée. Par exemple, si nos actifs sont de 1000$ en janvier et 1300 avril, la méthode d'interpolation linéaire remplirait 1112 100 pour nos valeurs d'actifs en février et mars, respectivement. Le problème avec cette méthode est que peut créer l'apparence d'une croissance stable dans les valeurs pour les variables manquantes. Au fil du temps, il évite les discontinuités discutées avec la dernière méthode de valeur achetée. Il crée un lissage artificiel de la croissance des données au fil du temps. Ce n'est pas nécessairement une bonne chose à nouveau, selon les problèmes qui tentaient de résoudre dans les données. Enfin, la méthode de prédiction de régression d'imputation des données utilise des valeurs prédites basées sur notre agression en place des points de données manquants en fonction de la méthode de tri des données appropriée à nouveau, faisons semblant que appropriée à nouveau, nous ont 1000$ en actifs en janvier et 1300 en avril. La méthode de prévision de régression permettrait de prédire les actifs pour février et mars en fonction d'autres données disponibles comme, exemple, ventes et le nombre d'employés. La méthode est plus précise, mais malheureusement elle est aussi plus complexe et prend beaucoup de temps. L' alternative à l'imputation des données est de simplement supprimer les données chaque fois qu'il y a une valeur manquante . suppression de points de données peut être bonne ou mauvaise, selon nos choix. Comme nous l'avons noté lors de l'imputation, données faisaient des hypothèses dans chaque cas, et il y a des inconvénients à chacune des méthodes achetées. suppression de points de données n'est pas une solution parfaite non plus. Ça va nous amener à avoir un échantillon plus petit avec moins de pouvoir prédictif. Si les données manquantes ne sont pas aléatoires, aussi, en abandonnant des points de données qui pourraient biaiser les conclusions que nous allons tirer des données . Par exemple, si nous essayons d'examiner le comportement des concurrents étaient plus susceptibles de manquer des données sur les petites entreprises par rapport aux grandes entreprises. Ainsi, par exemple, intéressés à l'avant puisque la rentabilité de nos concurrents, bien les petites entreprises peuvent ne pas avoir de rentabilité Information disponible lorsque les grandes entreprises qui sont cotées en bourse auraient que informations disponibles. En abandonnant, toutes les petites entreprises excluaient systématiquement tout un ensemble de concurrents. Et ce sont peut-être les concurrents les plus pertinents pour nous, peut-être des concurrents qui connaissent la croissance la plus rapide, par exemple. Par conséquent, nous devons faire attention à la suppression des points de données et aux biais qui peuvent créer maintenant. Un autre problème que nous pourrions avoir dans les données est avec les données bruyantes. Parfois, les données sont trop bruyantes pour être utiles dans l'analyse prédictive. Les données relatives aux séries chronologiques sont particulièrement problématiques à cet égard. S' il y a un degré élevé de variation, cela pourrait rendre les prévisions très difficiles à cause des fluctuations aléatoires. lissage de nos données peut alors conduire à de meilleurs résultats. L' une des meilleures méthodes pour lisser les données est l'utilisation d'une moyenne mobile. Un exemple de cela est, disons, les données sur le flux de fonds. Donc, je travaillais récemment sur un projet avec un client consultant où nous essayons de prédire la demande des investisseurs pour les émissions obligataires de la société. Le problème est que lorsque vous regardez les données de flux de fonds à partir des données qui sont disponibles là-bas , c'est très, très aléatoire. Il y a beaucoup de mouvement au cours d'un mois donné en fonction de l'invention, du sentiment des investisseurs et de choses comme ça. Par conséquent, les tendances de la variation réelle des données au fil du temps pourraient être masquées par les données sur le bruit. lissage avec une moyenne mobile nous aide à éviter ce problème. Cela pourrait être fait facilement et exceller, SAS Data ou de nombreux autres programmes statistiques qui sont là-bas. Le problème clé ici est juste d'être sûr que nous créons une nouvelle variable lisse plutôt que de remplacer le module six d'origine. Aperçu de l'analyse des données. Ok, nous approchons de la fin de cette leçon, mais je veux passer en avant-première ce que nous verrons dans une leçon future quand nous aurons affaire à l'analyse de données. Une fois que nous avons construit un ensemble de données complet et structuré les données en fonction des questions qui nous intéressent, il est temps de commencer notre analyse de données. L' analyse des données nécessite la recherche de relations dans les données afin d'évaluer les performances actuelles de l'entreprise et de prévoir les performances futures de l'entreprise. Cela peut être fait en utilisant ah variété d'outils différents. En particulier, moyens simples, médianes et des percentiles prétendants pourraient être facilement calculés à partir d'un ensemble bien structuré de données. Par exemple, il sera très facile de passer en revue et de calculer le niveau de ventes requis pour vendeur en Californie, disons, disons,pour être dans le top 25% des pairs si nous avons une structure ou des données correctement. Si nous ne l'avons pas fait, ça pourrait être très difficile. Répondez même à une question de base comme celle-ci. Mais il est souvent utile d'aller au-delà et d'essayer de prédire l'avenir, cependant, par exemple, combien ce vendeur en Californie va-t-il vendre le mois prochain ? Eh bien, la réponse à cette question, nous allons devoir utiliser une forme plus sophistiquée d'analyse de données. L' analyse de régression dans ce cas est probablement la méthode la plus simple et la plus intuitive pour répondre à cette question particulière. Ce sera le point de mire de notre prochain cours. J' espère vous voir alors. Merci d'avoir regardé et de garder un œil sur les futurs cours en techniques d'intelligence d'affaires , qui seront bientôt disponibles. Parle-toi alors. Au revoir.

Intelligence d'affaires - Structurer les données pour l'analyse d'affaires, Cours BI #3

Michael McDonald, Business Intelligence and Finance

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

Structurer les données au service de l'intelligence d'affaires

1:29

2.

Aperçu des données structurées pour l'analyse

6:40

3.

Évaluation de l'exactitude des données

10:52

4.

Ratios et mesures clés dans l'analyse de données

10:52

5.

Variables catégoriques en intelligence d'affaires

18:16

6.

Importer des données dans un ensemble de données

8:19

7.

Les bases de l'analyse des données

7:21

À propos de ce cours

Rencontrez votre enseignant·e

Michael McDonald

Compétences associées

Projet de cours pratique

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Apprenez, où que vous soyez

Transcription

Intelligence d'affaires - Structurer les données pour l'analyse d'affaires, Cours BI #3

Michael McDonald, Business Intelligence and Finance

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

Structurer les données au service de l'intelligence d'affaires

1:29

2.

Aperçu des données structurées pour l'analyse

6:40

3.

Évaluation de l'exactitude des données

10:52

4.

Ratios et mesures clés dans l'analyse de données

10:52

5.

Variables catégoriques en intelligence d'affaires

18:16

6.

Importer des données dans un ensemble de données

8:19

7.

Les bases de l'analyse des données

7:21

À propos de ce cours

Rencontrez votre enseignant·e

Michael McDonald

Compétences associées

Projet de cours pratique

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Apprenez, où que vous soyez

Cours apparentés

Transcription