Intelligence d'affaires – Collecte, nettoyage et fusion de données, cours BI #2 | Michael McDonald | Skillshare

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Intelligence d'affaires – Collecte, nettoyage et fusion de données, cours BI #2

teacher avatar Michael McDonald, Business Intelligence and Finance

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Collecte et nettoyage de données

      0:58

    • 2.

      Évaluation des bases de données

      5:32

    • 3.

      Recueillir des données

      10:08

    • 4.

      Fusion des ensembles de données

      7:05

    • 5.

      Nettoyage des ensembles de données

      8:47

    • 6.

      Les pièges dans la collecte de données

      9:12

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

209

apprenants

--

projets

À propos de ce cours

Ce deuxième cours de l'intelligence d'affaires dans la séquence, préparera les participants à commencer des projets de l'intelligence d'affaires dans leur propre cabinet. L'objectif du cours est une approche pratique de la collecte et du nettoyage des données. Après avoir suivi ce cours, les participants seront prêts à créer leurs propres bases de données ou à superviser la création de bases de données pour leur cabinet. L'accent mis dans ce cours est mis sur des ensembles de données « Big Data » contenant n'importe où de dizaines de milliers à des millions d'observations. Bien que les outils utilisés soient applicables aux petits ensembles de données de quelques centaines de points de données, l'accent est mis sur les ensembles de données plus grands. Le cours aide également les participants n'ayant pas d'expérience dans la construction d'ensembles de données à commencer à partir de zéro. Enfin, le cours est excellent pour les utilisateurs de Salesforce, Tableau, Oracle, IBM et d'autres logiciels BI puisqu'il aide les spectateurs à voir à travers la « boîte noire » aux mécanismes sous-jacents des pratiques de Business Intelligence.

Rencontrez votre enseignant·e

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Enseignant·e
Level: Intermediate

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Collet et nettoyage des données: Bonjour, je suis le Dr Michael McDonald. Aujourd'hui, je vais vous parler de la collecte de données et du nettoyage de la première étape de la Business Intelligence. Commençons par parler des différentes étapes de ce cours et ce que vous allez apprendre aujourd'hui dans le module un parlera de l'évaluation des différents types de bases de données et la sélection de celle qui vous convient dans le module vers. Nous parlerons des bases de la collecte de vos propres données et de la création de vos propres bases de données pour votre utilisation dans un module d'entreprise. Trois. Nous parlerons de la fusion de différents ensembles de données distincts et de certains pièges et dangers auxquels vous pourriez faire face dans le module 4. Nous parlerons de nettoyer le jour que vous avez rassemblé et de nous assurer que les données que vous regardez pour prendre des décisions sont exactement correctes. Module cinq. Nous parlerons de quelques autres pièges que vous pourriez rencontrer, et de certaines choses que vous pouvez faire pour les combattre. Commençons. Devrions-nous 2. Évaluer les bases de données: module 1 accès aux bases de données. Maintenant, quand beaucoup de gens pensent aux bases de données, la première chose qu'ils font est de penser qu'ils devraient aller chercher des logiciels de bases de données commerciales . Et c'est génial parce que le logiciel de base de données commerciale est très puissant et facilite la collecte et l'enregistrement des données. Ce n'est pas une panacée pour les problèmes que votre organisation peut rencontrer, et trop de gens ne reconnaissent pas que, en particulier, bases de données commerciales peuvent souvent créer une boîte noire que les utilisateurs regardent rarement au-delà. Cela peut être un gros problème, pour votre organisation, en particulier crée des opportunités pour les données défectueuses. Et c'est particulièrement vrai. Ses entreprises commencent à utiliser l'APS mobile pour collecter des données à distance. Il existe un certain nombre de différents types de logiciels de bases de données commerciales. Ils peuvent en quelque sorte être ventilés par quelques caractéristiques clés différentes. L' un d'entre eux est de savoir si vous allez utiliser la saisie manuelle ou automatique des données. Il existe des problèmes de saisie manuelle et automatique des données, en particulier en ce qui concerne la saisie manuelle des données. Vous pouvez avoir des opportunités d'entrées incorrectes dans vos données. Imaginez, par exemple, que vous avez la saisie de données individuelles, et qu'ils mettent des transactions dans votre base de données et la mode Emmanuel. Il est facile pour eux de transposer des chiffres ou des choses comme ça et de créer des erreurs et des problèmes potentiels à examiner. De même, ils peuvent manquer des entrées de journal par inadvertance créant des enregistrements entiers qui sont tout simplement incorrects. Bunt. Le problème avec les entrées de données automatiques est qu'il est facile pour les utilisateurs de prendre des données et de les appliquer là où elles ne devraient pas être appliquées. Par exemple, dans un exemple simple, l'utilisation de données de ventes internationales aux États-Unis Avec la États-Unis saisie automatique des données, vous pouvez obtenir une meilleure précision des données, mais plus de problèmes dans appliquer correctement ces données. Il y a quelques points à prendre en compte lors de l'évaluation des bases de données. Tout d'abord, vous voulez penser à la facilité d'examen des données. Différents types de bases de données peuvent rendre cela plus facile ou plus difficile, en particulier. Si vous avez des données stockées dans plusieurs feuilles différentes dans une base de données, plutôt que de les fusionner en une seule feuille, peut être très difficile d'afficher et de parcourir ces données et de les évaluer soit par vérification de santé, soit même une analyse de base. Deuxièmement, vous voudrez considérer la facilité d'édition de vos données. N' est pas simple de faire des ajouts aux données si vous avez une base de données existante, mais que vous souhaitez la mettre à jour régulièrement. Est-il facile de passer par un ajouter des choses à elle ? De même, peut-être avez-vous une base de données existante, mais vous voulez ajouter une nouvelle variable. Par exemple, vous avez peut-être une liste des ventes que votre entreprise a effectuées, et vous voulez passer en revue et ajouter une sorte de caractéristique sur le client. Cela peut ou non être facile, compte tenu de la base de données que vous utilisez. Ce sont des avantages et des inconvénients pour différentes bases de données. Et, eh bien, c'est vrai que la facilité d'aider les données. Excusez-moi de le répéter. Ce sont les avantages et les inconvénients des différentes bases de données et la facilité d'édition des données. La fonctionnalité met en évidence cela en particulier. Bien qu'il soit plus simple de faire des ajouts aux données et de permettre ainsi une analyse des données plus puissante , cela peut également entraîner des problèmes de gouvernance des données où les données sont saisies de manière incorrecte ou que vous rencontrez des problèmes qui sont créé par inadvertance en ajoutant trop de données. En outre, lorsque vous pensez aux points à prendre en compte en ce qui concerne une base de données particulière, vous devrez rechercher des outils intégrés qui vous permettent de tester la fiabilité des données. Différents systèmes logiciels peuvent avoir ou non les outils dont vous pourriez avoir besoin. Vous voulez réfléchir à la façon dont ce logiciel s'intègre à d'autres programmes. Est-ce que cette base de données va faciliter l'interaction avec Excel, Order Net. Interagissez avec une sorte de logiciel d'analyse que vous souhaitez utiliser. Enfin, vous voulez savoir si ce logiciel de base de données offre ou non la possibilité de gérer l'analyse par lui-même. Peut-être avez-vous un système qui vous laissera aller du début à la fin. Cela rend certainement pratique et éviter les problèmes logistiques de déplacement de données entre différents types de logiciels. Mais cela rend également plus facile pour les gens d'utiliser l'analyse défectueuse sans s'en rendre compte, en ce qu'il rend le logiciel de thème plus d'une boîte noire pour commencer. Maintenant, il y a quelques alternatives aux logiciels de base de données traditionnels. En particulier, la première option consiste à créer vos propres ensembles de données. Excel est la solution la plus simple à prendre. Cette route excelle très familière pour la grande majorité des utilisateurs là-bas, et c'est quelque chose qui est facile à modifier, et pratiquement toutes les entreprises y ont accès. Cependant, le problème est que certaines versions d'Excel ne peuvent gérer que 65 536 lignes de données. Même si vous avez une version qui gère Mawr, , Excel a de nombreuses erreurs de transposition. Si vous essayez de trier plus de 20 ou 30 000 lignes de données et de très nombreuses colonnes de données, la réponse ici ou la solution est que vous pouvez utiliser Excel pour une entrée de données initiale , puis transférer les données à partir de leurs deux données plus sophistiquées programme d'analyse. C' est vraiment à vous de décider à la fin de la journée, cependant. 3. Rassembler les données: à la collecte de données. Maintenant, la première question que nous rencontrons lors de la construction de nos propres bases de données pour commencer par ceci, où vais-je obtenir les données que je voudrais utiliser ? Eh bien, il y a quelques options différentes ici. Pour commencer, votre entreprise pourrait acheter des données. Ceci est particulièrement utile pour certains types de données où il n'est peut-être pas facile de les obtenir par vous-même. Les noms et adresses dans les listes de diffusion, par exemple, sont un exemple classique. Il est très facile d'obtenir les noms et adresses des fournisseurs à partir de ces données, et cela va généralement être beaucoup plus précis que de sortir et de recueillir les données vous-même, autant plus que les gens se déplacent si souvent. Un autre exemple de données que vous pourriez vouloir acheter est les données financières sur les entreprises cotées en bourse . Alors que vous pouvez certainement sortir et recueillir des informations individuelles provenant de sources comme Yahoo, notre CNBC sur ces entreprises qui recueillent des données en grande quantité et recueillent des quantités profondes de données sur les finances derrière les entreprises est souvent difficile si vous ne l'achetez pas. De même, la restauration naturelle stada est souvent très difficile à obtenir à moins que vous l'achetez. La deuxième option en termes d'obtention de données est de les construire. Les données sur vos clients sont souvent l'entreprise la plus précieuse de deux ans, et il est peu probable que vous puissiez acheter ces données partout ailleurs. Au lieu de cela, vous devrez probablement construire cette base de données par vous-même. C' est sur ça que le reste de ce module va se concentrer. Troisièmement et enfin, vous pouvez collecter vos données gratuitement. Le gouvernement fédéral dispose d'une foule de données gratuites sur les conditions macroéconomiques dans tout le pays. Enquêtes auprès du consommateur américain. Fondamentalement toutes les données que vous pouvez un sur un niveau macroéconomique. La Fed a probablement quelque chose pour vous. Maintenant, si vous avez des besoins spécifiques en matière de données, quel type de données devriez-vous rechercher ? Eh bien, les besoins en données pour votre entreprise seront dictés par vos besoins particuliers de projet. Vous voulez commencer par penser à ce que vous essayez de modéliser ? Les économistes financiers commencent toujours par construire un modèle, puis obtenir les données. Une fois que vous avez fini avec cela, vous voulez passer en revue et comprendre quels sont les facteurs moteurs qui influenceront le résultat auquel vous vous souciez chaque fois que je fais des projets d'analyse de données. En tant qu'économiste financier, je commence toujours par trouver, ah, modèle hypothétique de base, puis je passe par et je trouve les données que je cherche qui soutiendront ce projet particulier. C' est beaucoup plus efficace que de collecter les données et d'essayer de construire le modèle. Si je recueille les données d'abord et que je tente de construire le modèle, il se peut que je manque quelques éléments critiques dont j'ai besoin pour aller de l'avant. Mon analyse. Par exemple, les ventes sont motivées par le marketing interne , les innovations de nouveaux produits etc. Mais ils seront aussi motivés par des facteurs externes, des conditions macroéconomiques , des comportements concurrentiels des attentes quant à l'avenir du marché, etc. Nous pouvons construire un modèle qui tient compte de tous ces facteurs, mais c'est très important que nous l'ayons fait. Nous avons construit ce modèle à l'avance afin que nous sachions ce qui datait de recueillir. Maintenant, quand il s'agit de recueillir des données, nous voulons probablement commencer avec les choses les plus faciles. Les données macroéconomiques que j'ai mentionnées précédemment de la Fed, par exemple, sont très simples à obtenir. Nous pouvons obtenir cela à partir de la base de données économique de la Réserve fédérale, le site Web. Pour cela, cette ressource est là. Alternativement, vous pouvez réellement rassembler cela à travers un simple Excel Adam qui Excel Annan, une fois que vous avez installé, il est montré ici. Après avoir installé l'annonce et accédez à l'onglet Fred dans votre modèle Excel, vous pouvez voir une variété de différents types de données économiques ici. Tout dans ce cas, Mlle onglet particulier. produit intérieur brut réel, c'est-à-dire les dépenses fédérales, les recettes fédérales et l'excédent et le déficit fédéraux. Nous disposons également de données non seulement sur les États-Unis mais , maisaussi sur des données internationales. De même, si nous recherchons des données sur, par exemple, exemple, la production ou l'activité commerciale, nous pourrions trouver des données de la Fed sur ce qui concerne les mises en chantier de logements d' utilisation de la capacité de production industrielle , permis de construire, essentiellement toutes les données macroéconomiques dont nous avons besoin pour une industrie particulière que nous pouvons obtenir de la Fed. Une fois que nous aurons trouvé les données dont nous avons besoin, nous allons utiliser un code pneumonique pour les recueillir. Laisse-moi revenir une seconde. Par exemple, si nous étions intéressés par les ventes de véhicules, nous allons parcourir les données américaines populaires que la production et l'activité commerciale, puis cliquez sur les ventes de véhicules automobiles et les camions similaires. Quand on fera ça, on aura la pneumonie de toutes les ventes. On va passer en revue et cliquer dessus quand on dira le pot que les données vont remplir de son propre chef. Dans ce cas particulier, les données sont mensuelles. Il débute en 1976 et est disponible jusqu'en mars 2016. Les données vont nous parler des ventes de véhicules légers pour les voitures et les camions légers, et elles proviennent du d' Bureau d'analyse économique des États-Unis. Le point important ici est que même si nous collectons des données à travers les fédéraux Excel, ajoutez-y. Ce ne sont pas des données de la Réserve Fédérale. C' est la puissance de l'outil Fred pour Excel nous permet d'exploiter un grand nombre de sources de données différentes comme dans ce cas, le B E. T. A est des données à travers un simple et dans ce qui rend beaucoup plus facile à collecter des données. Je vous exhorte, si cela vous intéresse, à vérifier. L' annonce Innisfree. Ça ne vous coûte rien, et il y a beaucoup de trucs soignés là-dedans. passons à autre chose Maispassons à autre chose. En plus de Fred, vous pouvez également essayer d'obtenir des données auprès du recensement Bureau du recensementdes États-Unis. Ceci est particulièrement utile pour identifier les caractéristiques des clients cibles en fonction des blocs de recensement. Les tendances Google sont également idéales pour les données d'enquête. Si vous essayez de comprendre à titre d'exemple ce qui se passe dans certains secteurs d'activité ou dans médias sociaux ou d'autres choses comme ça, les tendances Google vous donneront des données sur ce qui est recherché au fil du temps. La collecte de données sur les commentaires des clients et les données des médias sociaux en ligne est un autre sujet vraiment brûlant . Il est quelque chose qui me demande est un économistes financiers tout le temps dans le contexte des différents besoins financiers pour les entreprises achetées collecte, ce type de données nécessite une analyse textuelle qui sera l'objet pour le cours futur. Maintenant, si vous avez un ensemble de données spécifique dont vous avez besoin, par exemple, des informations financières d'entreprise pour un large éventail de grandes sociétés cotées en bourse, achat de ces données pourrait être la seule option. Certaines données, comme je l'ai mentionné, sont disponibles via Yahoo, financé par CNBC, etc. Mais la collecte de ces données nécessite d'écrire un script python à la place. L' achat de données est généralement l'option la plus réaliste, surtout si vous êtes intéressé à les mettre à jour régulièrement. Enfin, la création d'ensembles de données à partir de vos propres données est généralement la compétence la plus cruciale pour la plupart des entreprises. Vous pouvez certainement utiliser vos bases de données clients pour le faire par exemple, mais vous pouvez également développer vos propres méthodes internes de collecte de données. C' est généralement excellent parce que, quotidiennement, la plupart des entreprises génèrent des tas de nouvelles données qui pourraient être utiles pour analyser et prendre des décisions commerciales futures. sondages auprès des clients peuvent souvent être une excellente option, mais là encore, c'est quelque chose qui n'est vraiment disponible que si vous faites l'effort d'interroger vos clients. Par exemple, j'ai récemment travaillé à une enquête sur les services bancaires d'investissement pour aider une petite entreprise de banque d'investissement à prédire les caractéristiques qui l'ont aidée à obtenir des transactions. Nous avons parcouru et nous avons examiné à la fois leurs clients et leurs clients passés avec lesquels ils n'avaient pas obtenu l'accord. Nous avons donc regardé à la fois les clients où ils ont gagné et les clients ou prétendre clients potentiels. Je devrais dire où ils auraient aimé obtenir un accord. Nous avons examiné les deux ensembles et avons ensuite été en mesure d'utiliser des méthodes d'intelligence d'affaires déterminer le type d'opérations que cette entreprise de banque d'investissement devrait cibler à l'avenir. n'est qu'un exemple de ce que le secteur financier, et en particulier les services bancaires d'investissement , peuvent bénéficier de l'intelligence d'affaires, mais je suis confiant. Si vous y réfléchissez un peu, vous pouvez trouver de nombreux exemples dans votre propre entreprise, où une telle analyse de données peut également être utile. Maintenant, en termes d'obtention de ces sondages, il y a beaucoup d'outils différents que vous pouvez utiliser. Par exemple, Surveymonkey mix critique et bien d'autres vous aideront une fois que vous aurez généré votre sondage à obtenir des réponses. Cela vous donne la possibilité d'obtenir des informations non seulement sur vos propres clients, mais aussi sur les clients d'autres personnes. Les clients que vous avez ratés comme potentiellement dans le cas, le travail de banque d'investissement que j'ai fait, ou potentiellement des clients qui n'ont jamais entendu parler de vous, mais que vous aimeriez peut-être cibler à l'avenir. Ensuite, vous voulez penser aux biais de données dans votre enquête. Si j'essaie de comprendre comment vendre, les autres clients sont mes clients actuels représentatifs du reste du monde. Par exemple, si je cherche à vendre à l'étranger en Allemagne, faire une enquête auprès des américains consommateurs américainsqui achètent mon produit peut ou non me dire quelque chose d'utile. Le point ici est qu'il est important de s'assurer que toutes les données d'enquête que je recueille sont réellement représentatives du problème que j'essaie de résoudre à nouveau. C' est là qu'un bon modèle de contrainte de vos données peut vous aider si vous y pensez avant de collecter réellement les données. 4. Les ensembles de données de fusion: , trois ensembles de données fusionnant. Une fois que vous avez rassemblé les données dont vous avez besoin, il est important de commencer à prendre ces myriades de différents ensembles de données et de les rassembler dans un ensemble cohérent qui peut être utile pour votre analyse. Cela semble facile, mais en réalité ce n'est pas le cas. Par exemple , vous pouvez rencontrer une variété de différents types de problèmes. Nous avons examiné plus tôt les ventes de véhicules légers. Ces données étaient mensuelles. Si nous nous penchions plutôt sur le PIB, cette date est trimestrielle. Des données économiques comme celle-ci peuvent souvent avoir des fréquences différentes. Cela signifie que si nous essayons de fusionner les données sur le PIB avec les données sur les ventes de véhicules légers, nous rencontrons un problème. Comme l'un d'entre eux est déclaré mensuellement, l'autre est déclaré trimestriellement. Nous devons trouver un moyen de concilier cette question. Un autre exemple. Prix du pétrole, air quotidien, ventes de logements ou mensuel et PIB est trimestriel. Donc, si nous essayons d'examiner ces trois ensembles de données différents, nous devons décider comment nous voulions faire face à cela. Allons-nous utiliser ces données sur le PIB sur une base quotidienne et les modifier simplement une fois 1/4 ? Allons-nous examiner les prix du pétrole ? Onley trimestriel ? Parce que c'est à quelle fréquence le PIB est déclaré. Nous devons comprendre les relations qui nous tiennent à cœur, puis décider du type de base de données que nous voulons construire ici. Une base de données contenant du PIB devrait-elle également contenir des informations sur nos clients ? Qu' est-ce qu'on veut que cet orteil de base de données ressemble ? Une fois que vous avez compris à quoi ressemble cette base de données, fonction du problème que vous essayez de résoudre, nous devrions essayer de créer une feuille de calcul volumineuse. Il y a quelques raisons à cela, et peut-être plus important encore, il est facile à examiner et à analyser facilement une grande feuille de calcul. Mais cela nous aidera aussi à comprendre ce qu'est notre unité d'observation. Si nous nous soucions des ventes sont unité d'observation. Peut-être jours de la société fonctionne combien de ventes nous avons obtenu du lundi au vendredi, chaque jour que l'entreprise était ouverte, ou il se pourrait que notre unité d'analyse est des clients. Si nous essayons de prédire si un futur client va revenir ou le montant qu'un client particulier va commander, nous pourrions au lieu de nous soucier de jours individuels de vente, nous pourrions nous soucier de clients particuliers et leurs caractéristiques. Voici deux exemples en haut. Nous avons des données dépendantes du temps que vous voyez ici. Les données fictives sur le nombre de ventes sur un jour donné liées à sauver le taux de chômage de l'État sont si nous courons ou non, commercialisons le nombre de vendeurs que nous avons dans nos concurrents. Prix en bas. Nous avons des données temporelles statiques. Nous avons le client A, B , C , D E, etc. Les ventes à ce client, que nous ayons offert ou non au client un prix réduit, les commandes mensuelles moyennes pour un client particulier et le dernier prix que quelque chose a été vendu à ce client dans ces deux ensembles de données pourraient être très utile. Mais ils nous permettent de prédire des choses complètement différentes en haut. Nous sommes plus susceptibles d'essayer de prédire quelque chose comme le nombre de ventes qui auront semaine prochaine, l'année prochaine, trimestre prochain. Quoi qu'il en soit ci-dessous étaient beaucoup plus probables. Essayez de comprendre quelque chose comme le type de demande que nous pouvons attendre d'un client donné si nous changeons le prix facturé ce client. Ces deux questions sont importantes, mais le type de base de données et le type de données dont nous avons besoin pour y répondre sont très différents. Si nous passons du temps avant de recueillir nos données, en pensant à ce que nous voulons notre modèle, l'apparence. Et puis quoi ? Nous voulons que notre base de données donne l'impression que cela nous permettra d'économiser beaucoup de temps et d'efforts et, franchement, de frustration plus tard. Une fois que vous avez décidé de l'analyse de désactivation U, vous devez passer par les données de fusion, celles de Siri. Pour ce faire, j'ai besoin de trouver une variable ou une fonctionnalité commune à fusionner dans les données dépendantes du temps que nous voulons passer par emerge à la date, par exemple. L' idée est que la date sera commune entre les différentes variables, et donc nous pouvons fusionner ces variables en un seul grand ensemble de données unifiées en conséquence, pour le temps, des données statiques indépendantes temporelles, c'est-à-dire que nous pourrions fusionner sur quelque chose comme le code postal, par exemple, il n'y a pas d'analyse Univ unique ou de variable commune sur laquelle nous allons vouloir fusionner. Au lieu de cela, la fusion dépendra des circonstances spécifiques qui nous préoccupent et de ce nous essayons d'analyser acheté lorsque nous examinons notre ensemble de données, nous devons nous assurer que la variable de fusion est unique. Cela peut créer un gros problème auquel beaucoup de gens ne pensent pas nécessairement. Par exemple, dans certains des projets financiers sur lesquels j'ai travaillé, les clients diront souvent : Eh bien, Eh bien, nous allons fusionner, disons, des billets d' actions. Chaque entreprise a sa propre billetterie d'actions, et c'est vrai. Mais ce que beaucoup de gens ne réalisent pas, c'est que les billets de stock sont répétés au fil du temps. Par exemple, ABC société aujourd'hui pourrait faire référence à une société spécifique. Disons qu'il y a 10 ans, il aurait pu faire référence à une autre société . La société aurait pu faire faillite ou être fusionnée dans une autre entreprise. été acquis, c'est-à-dire, et ce symbole de ticker. ABC est de nouveau disponible jusqu'à ce qu'il soit utilisé par la société 1 aujourd'hui. Par conséquent, les tickers boursiers ne sont pas une variable unique à utiliser lors de la fusion de nos données. Si nous examinons une série chronologique de données, elles pourraient être répétées au fil du temps pour différentes entreprises que nous ne voudrions pas une masse ensemble. Au lieu de cela, nous devons utiliser quelque chose appelé Q sips quand nous regardons les données d'investissement financier accusent sip tout simplement comme un numéro de sécurité sociale. Il est spécifique à une entreprise donnée, et il existe pour toujours que l'entreprise cesse ou non d'affaires, etc. Il n'est jamais réaffecté comme les tickers le sont. Si nous utilisons un logiciel comme Sasse ou Stada voudra fusionner, nos données en utilisant le code dans Excel voudront qu'il entende en utilisant la fonction de recherche V. Si vous allez fusionner en utilisant la fonction de recherche V, nous devrions toujours vérifier qu'elle vient après la fusion. Ils pourraient être défectueux en particulier. Toujours utiliser la plage, rechercher la valeur dans le V, rechercher la fonction et spécifier une correspondance exacte plutôt qu'une correspondance approximative. Si vous spécifiez seulement une correspondance approximative, vous obtiendrez de nombreux problèmes. Vous pouvez également utiliser des fonctions de recherche H, mais il est préférable pour une analyse for d'avoir des variables en haut, puis les observations s'exécutant verticalement plutôt que vice versa. 5. Nettoyer les ensembles de données: pour le nettoyage des bases de données. Lorsque nous procédons au nettoyage des données, il est important de comprendre que presque tous les grands ensembles de données présentent certains problèmes. Ces problèmes potentiels peuvent inclure des éléments comme des données frauduleuses dans les erreurs de données extrêmes qui ont été saisies à un moment donné, généralement des données authentiques par inadvertance, tout simplement pas représentatives des situations typiques données trans positions. Maintenant, si vous voulez passer en revue et tester notre ensemble de données pour les erreurs, leurs procédures spécifiques que nous pouvons utiliser pour le faire. Donc, pour tester les erreurs de données, nous voulons commencer par supprimer, en remplaçant toutes les valeurs qui n'ont pas de sens. Par exemple, si nous examinons les ventes quotidiennes ou les actifs de l'entreprise, il ne devrait jamais y avoir de valeurs négatives. Il est généralement préférable de laisser tomber des valeurs douteuses à moins que nous ayons un petit ensemble de données, auquel cas le remplacement de ces valeurs sera nécessaire maintenant. Généralement, nous allons penser à un petit ensemble de données est inférieur à 500 observations. Si nous avons moins de 500 observations au minimum, nous devrions passer en revue et essayer de faire notre meilleure estimation quant à la valeur correcte et remplacer ces données. Idéalement, cependant, pour seulement 500 observations. Si possible, nous aimerions revenir en arrière et confirmer que les valeurs étaient en place dans notre correct qui est, passer par incorrectes notre ensemble de données avec des ensembles de données plus importants de, disons, 10 20 150 000 observations. Ce ne sera tout simplement pas pratique dans la plupart des cas. Et si nous avons 100 000 observations de données, tant que la plupart de nos données sont très bien, supprimer quelques valeurs ne fera pas une grande différence si nous diminuons plus de, disons, disons, 20 % de nos valeurs ou 10 % de nos valeurs. Cela, bien sûr, crée un problème. Mais franchement, si plus de trois ou 4% de nos valeurs ont des erreurs, nous avons probablement un processus de collecte de données défectueux en premier lieu. Nous devons donc revenir en arrière et examiner les politiques et les procédures que nous avons en place qui nous permettent de recueillir ces données. Il y aura probablement des problèmes là-bas qui voudront corriger ensuite. Pour tester nos points de données, nous voulons parcourir et trouver la moyenne médiane et la valeur de l'écart type pour chaque variable. Ces mesures statistiques vont être cruciales pour nous permettre de passer en revue et de faire le type de tests d'hypothèses que j'ai mentionnés plus tôt en ce qui concerne la correction d' éventuelles erreurs de données. En particulier, nous voulons passer par et effectuer une vérification pour signaler tous nos points de données qui sont plus de trois écarts types par rapport à la moyenne. L' idée est que, dans une distribution normale, la plupart des points de données devraient se situer dans ces trois écarts-types en particulier. Si on y pense, c' est un test d'hypothèse à deux queues. Moins de 1% de nos données devraient tomber plus de trois écarts-types par rapport à la moyenne, car ce ne sera qu'une très petite partie de nos données. C' est une bonne idée de passer en revue et d'indiquer que ces points de données ne les suppriment pas. Ce sont des données utiles, et il n'y a pas nécessairement d'indication qu'ils se trompent. Mais nous voulons les signaler si nous constatons que beaucoup plus de, disons, 1% de nos données sont plus de trois écarts-types de la moyenne qui suggère que nos données sont en quelque sorte inhabituelles là où il pourrait y avoir un problème avec si notre moyenne et la médiane sont radicalement différentes. Par exemple, cela va nous dire que nos données sont biaisées. Nous devons décider s'il s'agit d'un problème basé sur la question qui examinait maintenant cette même procédure qui examine le nombre d'écarts-types par rapport à la moyenne pour un point de données donné que la procédure peut être utilisée pour tester des valeurs inhabituelles dans les variables peuvent ne pas représenter avec précision la réalité. Un autre des problèmes de l'analyse des données que j'ai mentionnés plus tôt. De même, ça va être utile. Indiquez toutes les observations dans le 1 % supérieur de nos données et dans le 1 % inférieur de nos données. C' est ce qu'on appelle les gains. Revenant à nouveau, ces observations n'ont pas besoin d'être abandonnées. Mais nous devrions passer par l'analyse avec lui sans ces points de données pour nous assurer qu'ils ne conduisent pas nos résultats. Une erreur critique que nous pourrions commettre, par exemple, par exemple, est de penser que nos ventes peuvent être considérablement plus élevées si nous suivons les procédures X Y Z alors qu'en réalité, cela n'est vrai que pour un petit sous-échantillon de notre données. Supposons que le 1% le plus élevé de nos clients était le 1% inférieur de nos clients signalant ces données et effectuant ensuite notre analyse avec et sans ces points de données particuliers. Nous allons faire ce test pour nous assurer que les données sont vraiment similaires pour les vents, arisés ou ces points de drapeau par rapport à l'ensemble de données globales. Et cela nous permet également de nous assurer que nos résultats ne sont pas dictés par un sous-échantillon de nos données globales. Cela conduit à une autre question très importante. Ben Loi sur les amis. Maintenant, l' une des choses les plus délicates à traiter dans l'analyse de données est le potentiel de fausses données. L' une des meilleures règles de base, cependant, cependant, pour tester de grands ensembles de données pour les fausses données est Ben Friends Law. Ben Foods Loss dit que dans les données authentiques réelles, le numéro un devrait être le plus commun. Le numéro deux devrait être le suivant le plus commun, suivi du numéro trois, le numéro quatre, etc. Pour illustrer pourquoi c'est le cas, pensez au marché boursier. Il a fallu beaucoup plus de temps pour que la moyenne industrielle Dow Jones passe de 1000 à 2000 que de 17 000. Il s'agit simplement d'une question de croissance sur les marchés. Passer de 1000 à 1100 est un mouvement de 10% sur les marchés en théorie que 10% passent à peu près la même quantité de temps que passer de, disons, 16 800. En outre, un mouvement de 10% encore aller de 1000 à 1100 Onley nous déplace une fraction du chemin entre les points de données de 3000 contre aller de 16.800 nous déplace la grande majorité de la distance aux 9000 points sur le Dow Jones industriel moyenne. Ainsi, comme nous allons de plus en plus haut, le mouvement plus petit et plus petit sur une base de pourcentage, Ben Foods loi capture simplement cela sous une forme élégante. Lors de l'examen et de l'examen des données, le numéro un devrait être le nombre le plus commun, suivi du numéro deux, etc. Cherchez ce modèle dans nos données et nous pouvons dire si oui ou non les données Israël ou faux le tableau ci-dessous vont nous montrer la fréquence de chaque numéro dans les données authentiques. Maintenant, gardez à l'esprit, il va y avoir une variation par rapport à cela dans n'importe quel échantillon de données donné. Mais en moyenne, environ 30,1% de tous les chiffres tous les chiffres dans les données authentiques devraient être le numéro un 17,6% devrait être le nombre deux 12,5 % devrait être le numéro trois 9,7% devrait être le nombre quatre 7,9% rue. Le nombre cinq 6,7% devrait être le nombre six 5,8% devrait être le nombre sept. 5.1% devrait être le numéro huit, et 4.6% devrait être le numéro neuf. Si vous passez à travers et que vous regardez un ensemble de données et que vous trouvez qu'il diffère considérablement de cela, cela ne garantit pas nécessairement les données frauduleuses de voyage. Mais cela signifie qu'il est probablement prudent de vérifier la source de ces données et de décider par vous-même à quel point ces données sont dignes de confiance. Vous ne voudriez pas prendre de grandes décisions sans passer par le passé et être assez confiant que les données sont exactes. La loi de Ben Foods peut sembler simple, mais en réalité c'est un outil extrêmement puissant. Par exemple, dans une étude de recherche célèbre, les économistes ont montré que les données d'Enron et les données financières ne suivaient pas Ben pour la loi de Dieu . Si les auditeurs avaient examiné Ben Fritz Law en évaluant les livres d'Enron , disons simplement que le résultat de cette histoire aurait pu être très différent 6. Pitfalls dans la collecte de données: module. Cinq pièges dans la construction d'ensembles de données Il y a quelques problèmes majeurs que vous pouvez rencontrer dans les données et qui sont utiles pour comprendre comment traiter. En particulier. Le premier est ce qu'il faut faire pour manquer trop de données. Le second est Souness dans les données Ah, troisième est non observable variables et endoctriner. , Quatrièmement,quand on a un petit sous-échantillon qui pourrait conduire nos résultats. Tous ces problèmes peuvent être très difficiles à traiter, mais nous allons parler de quelques stratégies pour chacun d'entre eux en passant par ce module en particulier, commençons par penser à des ensembles de données qui manquent trop de variables. Si nous avons un ensemble de données qui manque trop de données, cela peut nous conduire à des conclusions erronées. Il n'est pas clair pourquoi les données manquent en premier lieu et sans savoir que nous ne savons pas si c'est un problème pour notre analyse. Vous devez donc être très prudent dans ce genre de situations. Par exemple, si nous étudions des données financières provenant d'entreprises étrangères, seules les données des plus grandes entreprises auront tendance à être disponibles dans la plupart des cas en dehors des exigences déclaration de déclarationdes États-Unis tout simplement ne sont pas aussi rigoureusement suivies, et elles ne sont pas rigoureuses qu'aux États-Unis . États-Unis Par conséquent, grandes entreprises Onley ont tendance à présenter des rapports précis et cohérents sur leurs finances. Les petites entreprises n'ont pas tendance à le faire. Les petites données des petites entreprises sont souvent manquantes. Par conséquent, si nous essayons de procéder à une analyse simple de la taille des actifs, par exemple, sur les entreprises en dehors , États-Unis,cela va produire une image déformée. Dans ce cas particulier, nous constaterons, selon nous, d'après notre analyse, que la plupart des entreprises étrangères sont beaucoup plus grandes qu'elles ne le sont en réalité. Et c'est ce que nous voyons en pratique. Cela pourrait donc nous acheter, par exemple, toutes les décisions que nous pourrions prendre quant à l'entrée ou non sur un marché étranger. Nous allons peut-être croire que les entreprises devront faire face sont beaucoup plus grandes qu'elles ne sont en réalité. En réalité, ce même type de problème peut se produire dans d'autres types d'analyse. En règle générale. Si vous manquez plus de 25 % environ des valeurs, variable donnée dans un ensemble de données, il est temps d'examiner ces données de plus près. Vous pouvez ou non être en mesure de corriger ce problème, mais si vous ne pouvez pas, vous devez décider si les conclusions que vous allez tirer de ces données seront vraiment valides. Ensuite, nous allons parler de nous incliner et de nous biaiser les données et les données pourraient être un problème, en fonction des données examinées. Ah, un exemple classique de ceci est le niveau de revenu. Si nous examinons le revenu moyen ou moyen de nos clients, par exemple, cela va produire une vue déformée. Personne n'a un revenu inférieur à 0$ alors que quelques personnes ont un revenu supérieur à 1 000 000$ . C' est que nous pourrait fausser une sorte d'analyse sur les prix optimaux utilisés dans un effort de discrimination des prix . Par exemple, dans un projet récent dans lequel j'étais impliqué, ah, société avait traversé et nous regardons leurs clients essayer de prédire quel genre de prix optimal ils pourraient facturer en utilisant les données moyennes. Ils avaient en fait quelques clients très riches, et ils croyaient que leurs clients étaient beaucoup moins sensibles aux prix qu'ils ne l'étaient en réalité. Dans le cas de l'entreprise qui a conduit l'entreprise à augmenter les prix trop, blessant leurs ventes. Bien que la différenciation des prix soit très utile dans ce type d'étude, nous devons nous assurer d'utiliser le paramètre métrique approprié. Le revenu moyen de nos clients est en fait la médiane est une bien meilleure indication de cela dans la moyenne. Si nos données sont biaisées, cela peut être un problème ou non. Quoi qu'il en soit, données ne peuvent pas être dévissées, donc nous devons utiliser certains outils statistiques lors de notre analyse financière et économique. Ces outils ne sont pas forcément si compliqués, mais vous pouvez être familier avec, hum, et il est donc important de peigner et de faire un peu de recherche avant d'arriver à ce point. 1/3 problème auquel nous pourrions faire face est des variables observables par l'ONU. Parfois, les résultats d'une décision d'entreprise sont simplement motivés par une variable ne peuvent pas être observés . Par exemple, si nous essayons de prédire quels candidats seraient les meilleurs employés, cela peut être une tâche vaine et frustrante. Il se peut que les meilleurs employés soient les plus intelligents. Mais nous ne pouvons pas mesurer l'intelligence directement, du moins à moins que nous ne commencions à payer les tests I Q correctement. Nous pouvons traiter ce problème à travers des variables non observables qui devraient être corrélées. Par exemple, avec l'intelligence, nous pourrions passer par S a T scores à l'université G p A pour obtenir des renseignements. Ce n'est pas parfait. Bien sûr, ni les scores collégiaux g p A ni S a T ne prédisent directement l'intelligence, mais ils sont liés. Il serait très inhabituel pour quelqu'un qui n'est pas très intelligent de marquer très haut sur son S, un ts ou d'un lycée très élevé. Encore une fois, ce n'est pas parfait, et nous devons être conscients de cela. Mais ce n'est peut-être pas le meilleur choix que nous ayons. Nous devons décider si nous pouvons trouver une bonne variable proxy pour notre facteur non observable. Si nous ne pouvons pas, nous allons devoir utiliser des techniques statistiques spéciales dans notre analyse. Un autre problème que nous pourrions avoir est la possibilité qu'un sous-échantillon conduise nos résultats. Parfois, un sous-échantillon de notre analyse vous fait remarquer nos conclusions. Par exemple, la majorité des rendements d'actions au cours d'une année donnée se produisent au cours de la semaine des réunions de la Réserve fédérale . La Fed se réunit périodiquement tout au long de l'année et, selon des études, la majorité des retours d'actions études se produisent au cours de la semaine précédant et suivant la réunion de la Fed. C' est une petite partie du nombre total de jours de négociation sur le marché, mais c'est l'échantillon le plus important de l'année. examen de la plupart des autres jours au cours de l'année conduira à moins de conclusions significatives sur les rendements globaux afin d'éviter des problèmes avec les sous-échantillons. Conduire nos résultats. Il sera toujours préférable d'exécuter notre analyse dans différentes périodes de temps. Par exemple, nous pourrions vérifier les facteurs qui, selon nous, prédisent les rendements des actions et voir s' ils ont ou non un pouvoir prédictif chaque mois de l'année, plutôt que seulement les mois pour les réunions de la Fed. Parlons de ce que nous avons appris au début. Lorsque nous évaluons les bases de données, nous devons être conscients des différences entre les bases de données commerciales coûteuses et savoir s' il y a ou non bon pour nous. L' autre solution consiste à utiliser des méthodes génériques de collecte de données. Ceux-ci ont cependant leur propre ensemble de problèmes, cependant leur propre ensemble de problèmes, et en particulier ils peuvent nécessiter plus d'efforts de la part de votre personnel. Ensuite, nous avons parlé de la collecte de données. Il est important de pouvoir regarder et combiner les données qui ont été construites, achetées et collectées à partir d'un tableau disparate de sources traversant et obtenir une prise en compte des données que nous avons recueillies et de les rassembler dans un seul ensemble de données utile est ce que nous appelons la fusion de nos données pour fusionner nos données. Nous devons décider ce qu'est l'analyse Univ, puis fusionner les données en conséquence. N' oubliez pas que notre unité d'analyse doit être unique, sorte que nous puissions fusionner correctement nos données. Ensuite, nous avons parlé du nettoyage de nos données. Ensuite, nous avons parlé du nettoyage de nos données pour nettoyer nos données. Nous devons passer en revue et tester toute une série de problèmes potentiels. Par exemple, des choses comme des données manquantes , des données asymétriques , des données potentiellement frauduleuses etc. Pour tester ces problèmes, il existe différents types de techniques statistiques que nous pouvons utiliser. Ceux-ci vont de choses comme les gains découlant et l'examen des moyens et des médians à des règles comme Ben Foods Law. Enfin, nous avons parlé des pièges dans les données. Il est toujours important de vérifier vos données pour détecter des problèmes potentiels et si vous trouvez quelque chose inhabituel, d' avoir une technique pour résoudre le problème. J' ai essayé de passer en revue un aperçu de nombreuses techniques dont vous aurez besoin pour faire ce genre d'analyse et ce genre de vérification dans cette présentation. J' espère que vous avez apprécié cette conversation. J' ai certainement apprécié cette occasion de vous parler. Merci d'avoir regardé. Cherchez bientôt des cours pratiques sur les techniques d'intelligence d'affaires. À la prochaine fois.