Business Intelligence - Strukturierung von Daten für die Business Analyse, BI #3 | Michael McDonald | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Business Intelligence - Strukturierung von Daten für die Business Analyse, BI #3

teacher avatar Michael McDonald, Business Intelligence and Finance

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Strukturierung von Daten für Business Intelligence

      1:29

    • 2.

      Übersicht der Strukturierungsdaten für die Analyse

      6:40

    • 3.

      Bewertung der Datengenauigkeit

      10:52

    • 4.

      Verhältnisse und Schlüsselmetriken in der Datenanalyse

      10:52

    • 5.

      Kategorische Variablen in Business Intelligence

      18:16

    • 6.

      Imputing Daten in einem Datensatz

      8:19

    • 7.

      Grundlagen der Datenanalyse

      7:21

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

127

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Dieser dritte Business Intelligence Kurs in der Folge bereitet die Teilnehmer vor, um Business Intelligence Projekte in ihrem eigenen Unternehmen zu beginnen. Der Fokus des Kurses liegt auf einem praktischen Ansatz zur Strukturierung von Daten einschließlich der Erzeugung neuer Variablen auf der Grundlage von vergleichenden und relativen Metriken. Die Strukturierung dieser Variablen erfolgt in Excel, SAS und Stata, um den Zuschauern ein Gefühl der Vertrautheit mit einer Vielzahl von verschiedenen variables zu geben. Der Schwerpunkt in diesem Kurs liegt auf Finanzdaten, obwohl die Techniken auch auf allgemeinere Formen von Daten wie in Marketing- oder management anwendbar sind.

Triff deine:n Kursleiter:in

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Kursleiter:in
Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Strukturierung von Daten für Business Intelligenz: Hi. Willkommen bei Business Intelligence Strukturierung von Daten für die Analyse. Mein Name ist Dr. Michael McDonald. Heute werde ich mit Ihnen über dieses Thema sprechen und was Sie wissen müssen. Während Sie sich auf Business Intelligence-Projekte mit Ihrer Firma vorbereiten, lassen Sie mich mit einem Überblick beginnen. Für diejenigen, die meine vergangenen Business Intelligence-Klassen verpasst haben , werden wir mehrere verschiedene Abschnitte in Modul eins durchlaufen. Wir werden über einen Überblick über die Datenstruktur sprechen, die Grundlagen und was Sie über Business Intelligence wissen müssen, dass der Rest dieser Sitzung sinnvoll im Modul zu Wir werden über die Bewertung der Datengenauigkeit sprechen. Wenn Sie einen Datensatz erhalten, wie gehen wir durch und finden heraus, ob es das ist, was wir tatsächlich brauchen, um mit dem Projekt in Modul drei fortzufahren , wird durchgehen und uns die Verhältnisse und Schlüsselmetriken in Daten ansehen und wie wir diese verwenden können, um sicher, dass wir unsere Datenanalyse in Montreuil vier optimieren wird die Verwendung von kategorialen Variablen betrachten. Was sind kategoriale Variablen? Wie werden sie gebildet? Wie sind sie nützlich in unserer Analyse, Montreuil five wird auf die Zurechnung von Daten eine der großen Herausforderungen und Business Intelligence wird oft fehlen. Daten-Daten-Imputation ist eine Möglichkeit, dieses Problem in Modul fünf zu umgehen, wir werden darüber sprechen, wie wir Aal mit verschiedenen fehlenden Datenstücken verurteilen. Und schließlich, in Modul sechs, gebe ich Ihnen eine Vorschau des Datenanalyseabschnitts, der im nächsten Kurs erscheinen wird . Lasst uns anfangen, sollen wir? 2. Übersicht der Strukturierungsdaten für die Analyse: -Datenstruktur. Übersichtsmodul eins. Was ist Business Intelligence? Nun, für diejenigen, die vergangene Klassen verpassen, lassen Sie mich Ihnen einfach erklären, worüber genau gesprochen haben, wenn wir uns auf Business Intelligence beziehen . Im Wesentlichen ermöglicht Business Intelligence einem Unternehmen, intelligente, faktenbasierte Entscheidungen zu treffen. Vermeiden von Rätselraten umfasst vier Schritte. Erstes Sammeln von Bereinigungsdaten. Zweitens: Analysieren von Daten. Drittens, Testen unserer Entscheidungen mit Daten und die vierte Entscheidungsentscheidung basierend auf diesen Daten, fällt die heutige Klassenstrukturierungsdaten am Ende der Sammlung sauberer Daten Abschnitt. Und kurz bevor Sie mit der Analyse von Daten beginnen, wie nutzen wir Business Intelligence? Nun, Business Intelligence ist in einer Vielzahl von verschiedenen Umständen nützlich. Insbesondere seine am besten verwendete Antwort. Die Art der quantitativen Fragen, die oft für Unternehmen auftauchen, wenn sie Fragen ansehen, die eine Vorhersage oder eine Analyse der aktuellen Leistung beinhalten sichFragen ansehen, die eine Vorhersage oder eine Analyse der aktuellen Leistung beinhalten. Einige Beispiele für Business Intelligence-Fragen umfassen Dinge wie zum Beispiel, welche unserer Kunden Rabatte auf ein Produkt angeboten werden sollten, um diese Kunden zu veranlassen, mawr zu kaufen, welche Kreditnehmer von unserer Bank am ehesten in Verzug sind. angesichts der Trends und der Wirtschaftlichkeit Was werden unsere Verkäufe oder Cashflowsangesichts der Trends und der Wirtschaftlichkeitin der nächsten Periode sein? Wo sollte sich ein neues Filialbüro befinden, um unsere Auslosung für neue Kunden zu maximieren . All dies sind Beispiele für Fragen, die mithilfe von Daten und mithilfe eines Business Intelligence-Frameworks beantwortet werden könnten . , Wie gesagt, der erste Schritt in Business Intelligence das Sammeln von Daten. Also, woher bekommst du die Daten? Nun, es gibt drei verschiedene Möglichkeiten, wie Sie die Daten für Ihr Projekt sammeln können. Sie können eine der drei verwenden, oder Sie können eine Kombination aus ihnen verwenden. Zuerst können Sie Daten kaufen. Dies schließt Dinge wie Namen und Adressen ein. Zum Beispiel für Kunden, die üblicherweise Finanzdaten über börsennotierte Aktien gekauft haben. Natürliche Ressourcen Zustand von Dingen wie Satellitenbildern für Ölgesellschaften, etc. All diese Daten müssen in der Regel über 1/3 Partei erworben werden. Zweitens können Sie Ihre eigenen Daten erstellen. Das Setzen von Daten zu Ihren Kunden ist oft die wertvollste für Ihr Unternehmen. Wenn Sie versuchen, vorherzusagen, was Ihre Kunden tun werden, haben Sie wahrscheinlich bessere Daten als alle anderen bei Ihren eigenen Kunden, und drittens können Sie sie kostenlos sammeln. In diesem Fall hat die Bundesregierung Reams von Daten zur Verfügung Dies gilt insbesondere, wenn wir über sagen makroökonomische Bedingungen oder Erhebungen der USA schneiden Verbraucher Dinge, die im Allgemeinen auf die allgemeine Wirtschaft. Sie können diese Daten nicht kaufen. Aber oft ist nur Azizi, um es von der Fed über eine der Federal Reserve Datenbanken oder über das US CensusBureau herunterzuladen Datenbanken oder über das US Census Census , sind eine der anderen vielen Regierungsorganisationen da draußen, die Daten sammeln und es der Öffentlichkeit wieder frei zugänglich zu machen, um mehr Daten, Unternehmen oder Informationen über all diese verschiedenen Aspekte der Datenerfassung für Business Intelligence-Projekte zu erhalten. Sehen Sie meine frühere Klasse zu diesem Thema. Als nächstes, nachdem wir unsere Daten gesammelt haben, müssen wir über den Aufbau einer Datenbank gehen. Um das zu tun, müssen wir mehrere Sätze von Datenvariablen zusammenziehen. Gelegentlich haben Sie alle Daten ordentlich an einem Tag organisiert, und Sie müssen nichts damit tun. Aber das ist ziemlich ungewöhnlich. Und ehrlich gesagt passiert es nur, wenn wir versuchen, eine sehr einfache Frage zu beantworten, wie sagen, was ist die Adresse des Kunden X y Z? Nun, wir würden uns wahrscheinlich nur unsere Kundendatenbank ansehen. Das ist nicht wirklich eine Business-Intelligence-Frage. Die meiste Zeit müssen wir verschiedene Datensätze zusammenziehen. Zum Beispiel, Daten über die Gesamtwirtschaft kombiniert mit Daten über unsere Kunden und passen diese beiden bis zum Beispiel zu sehen, sehen, wie sich die Gesamtwirtschaft und ihre Bedingungen auf unsere Kundenverkäufe auswirken, vielleicht lassen wir uns den Umsatz für unser Unternehmen in der Zukunft prognostizieren. Zusammenstellung dieser verschiedenen Datensätze klingt einfach, richtig? Nehmen Sie einfach zwei verschiedene Datenstücke und verschmelzen Sie sie zusammen. In der Tat ist es nicht, Zum Beispiel gibt es ein paar Probleme, in die Sie laufen könnten. Eines der ersten Probleme ist, dass Wirtschaftsdaten unterschiedliche Frequenzen haben. Ölpreise werden täglich ausgewiesen. Das BIP wird auf vierteljährlicher Basis gemeldet. Hausverkäufe werden monatlich ausgewiesen. Arbeitslosenansprüche werden entweder wöchentlich oder monatlich gemeldet, je nachdem, welche spezifischen Statistiken wir so oft betrachten werden, ist es schwierig, diese verschiedenen Sätze zusammenzuführen, um herauszufinden, wie man zusammenführt sie zusammen. Wir müssen herausfinden, was die Beziehungen zwischen Datenbanken sind, um sie am effektivsten zusammenzuführen. Sobald wir das getan haben, können wir unsere Daten strukturieren. Strukturierung von Daten ist das Thema für die heutigen Klassendaten muss richtig strukturiert werden, noch um die Analyse zu erleichtern. insbesondere, Dies bedeutetinsbesondere,zu bestimmen, welche Variablen in unserer Datenanalyse zu verwenden sind, welche Arten von Änderungen an den Daten vorgenommen werden müssen oder um deren Wirksamkeit zu maximieren. Eine schlechte Datenstruktur könnte ein wirklich bedeutendes Problem sein. Zum Beispiel habe ich kürzlich eine Schulung für Mitarbeiter mit einem Fortune 500-Unternehmen durchgeführt, wo ihnen ein erstes Projekt von einem der höheren Führungskräfte zugewiesen wurde. Und nach einem der Dinge, die wir in diesem Training gemacht haben, ist das, was sie das Projekt in den Kurs gebracht haben . Wir gingen irgendwie durch und schauten uns einige der Analysen an, die wir gemacht haben, als ich ziemlich schnell entdeckte, ist, dass sie es versäumt hatten, die Auswirkungen von Makroänderungen auf den Umsatz für ihr Unternehmen richtig zu quantifizieren , weil sie strukturieren Sie die Daten richtig überhaupt. Wenn es darum geht, die Daten zu strukturieren und diese Variablen in den richtigen Typ zu setzen, ist es ein großes Problem, wenn es darum geht, verschiedene Effekte in diesem Fall vorherzusagen, die Verkäufe für das Unternehmen. Wenn wir also unsere Daten nicht richtig strukturieren, bauen wir eine sehr schwache Grundlage für zukünftige Business Intelligence-Fragen. Nun, wenn es um Datenanalyse geht, wird das das Thema für einen zukünftigen Kurs sein. Kurz gesagt, wenn wir unsere Daten richtig strukturiert haben, können wir statistische Tools verwenden, um Geschäftsfragen vorherzusagen. diesen Werkzeugen gehören unter anderem Regressionsanalyse, Entscheidungsbäume, Szenarioanalyse, Monte-Carlo-Simulationen usw. Sie können nach einem zukünftigen Kurs zu diesen Themen suchen. 3. Datengenauigkeit: Modul zwei. Auswertung der Daten, um mit einer Verspätung Daten zu beginnen, die wir durchlaufen und ausgewertet werden müssen, entscheiden, ob wir irgendwelche Probleme mit unseren Datenbanken haben oder nicht. Insbesondere Datenbanken in Geschäftseinstellungen oft automatisch oder fast automatisch generiert. beispielsweise könntenbeispielsweise Daten aus Verkaufsberichten oder Anlagestatistiken direkt von einem anderen Teil des Unternehmens heruntergeladen werden . Daten aus Einzelhandelsstandorten, vielleicht mit unserem Unternehmen, werden oft automatisch durch Software generiert. Zum Beispiel auf einem Point-of-Sale-System. Es ist wichtig, diese Daten und ihre Genauigkeit auszuwerten, bevor wir sie analysieren. Daten, die automatisch generiert werden, wurden oft von keinem Menschen überprüft Daher können sie Fehler oder Auslassungen oder Probleme enthalten, die wir übersehen können. Wenn wir schnell weitermachen. Wenn wir Daten auswerten, gibt es ein paar wichtige Probleme, die wir zuerst betrachten möchten, scheint das Datum irgendeine Art von Lügnern zu haben? Zweitens, scheint das Datum genau zu sein? Drittens sind die Daten Konstrukt um Variablen, die wirtschaftlich sinnvoll sind. Zum Beispiel könnten wir Schulden als eine Variable haben und Vermögenswerte ist eine andere. Wenn wir zum Beispiel verschiedene Unternehmen betrachten, die Konkurrenten von uns sein könnten, oder einfach nur verschiedene Unternehmen, die öffentlich gehandelt werden. Nun, wenn wir uns die Gesamtsumme der Schulden ansehen, die von einer Firma gehalten wird, die uns nicht sehr viel sagt , alles,was es wirklich macht, uns einen Stellvertreter für die Größe zu geben. Größere Unternehmen im Durchschnitt solltenim Durchschnittmehr Schulden halten. Ich würde erwarten, dass General Electric als Beispiel viel mehr Schulden hält als, sagen wir, Ah, sehr kleiner Industriehersteller. G E ist groß. Sie können es sich leisten, viel mehr Schulden zu unterstützen, so dass Schulden an sich nicht sehr nützlich sind. Dasselbe gilt für Vermögenswerte. Es ist nicht wirklich klar, dass Vermögenswerte von selbst sagt uns etwas anderes, als uns einen Proxy für die Größe der Firma zu geben . Auf der anderen Seite, wenn wir jetzt ein Verhältnis von Schuldenvermögen nehmen, haben wir etwas Bedeutsameres. In diesem Fall geben uns Schuldverschreibungen einen Hinweis auf das Risiko der Firma. Darüber hinaus könnten wir auch daran interessiert sein, andere Lücken oder Diskontinuitäten in den Daten zu betrachten. Dies sind alle Schlüsselpunkte, die wir zuerst betrachten sollten, wenn wir einen Datensatz durchlaufen. Wenn es um Lügner geht, müssen wir uns fragen, wie die Daten aussehen? Scheint es so, als ob die Daten symmetrischer Test sind? Dies muss Berechnungen Term ausführen. Der Mittelwert und der Median für jede Variable von Interesse sind das Fleisch, das wir uns fragen könnten, Sind der Mittelwert und der Median ungefähr gleich? Wenn nicht, entscheiden wir über Skew Nissen. Die Daten sind ein Problem. Wenn sich der Mittelwert und der Median drastisch unterscheiden, sagt uns das, dass unsere Daten verzerrt sind. Wir können auch Berechnungen Term in der oberen und unteren Perzentile ausführen 1% die oberen 5% die oberen 10% und vergleichen Sie diese mit dem Mittelwert und Median. Wenn zum Beispiel bei, sagen wir, Umsatz für einige unserer Kunden, wenn die Top-1% unserer Kundenverkaufsdatensätze für das 100fache des durchschnittlichen Umsatzes sicher sind, vielleicht diese Metriken sind nicht sehr signifikant. Vielleicht werden diese Metriken unsere Analyse abwerfen, vielleicht zum Beispiel ist es zum Beispieleinfach ein Buchhaltungsfehler. Was auch immer das Problem ist, wir müssen durchgehen und entscheiden, ob diese oberen und unteren Perzentile in unsere Daten gehören. Setze alles auf „Compute“ bedeutet Mediane und Perzentile. Es gibt ein paar verschiedene Werkzeuge, die wir verwenden können. Ich werde kurz über SAS, Stada und Excel sprechen. Excel ist wahrscheinlich eines, mit dem fast jeder vertraut ist. Zur Berechnung bedeutet Mediane und Perzentile und Excel wird einfach die folgenden Funktionen verwenden . Durchschnittlicher Median und Perzentil Punkt Inc Jeder dieser Luft ziemlich unkompliziert, und sie werden uns gehen lassen und herausfinden, einige der Fragen, die wir in Excel betrachten möchten . Das Problem mit Excel ist jedoch, jedoch, dass Excel uns nur erlaubt, eine sehr kleine Teilmenge von Daten zu betrachten, relativ gesehen, je nachdem, welche Version von Excel Sie verwenden. Es ist überall von vielleicht 65.000 Datenzeilen bis zu 1.000.000 Datenzeilen. Ehrlich gesagt, selbst wenn Sie neuere Versionen von Excel haben, mit denen Sie bis zu 1.000.000 Zeilen von Daten analysieren können, Excel hat oft Probleme mit Big Data Datenbanken wie das sortiert Congar falsche v Lookups . Dinge wie, dass Sie ernsthafte Probleme mit Excel für sehr große Datensätze mehr als 50.000 Datenpunkte oder so haben können. Infolgedessen sage ich nicht, dass Sie Excel nicht verwenden sollten, aber Sie sollten sehr vorsichtig damit sein. Nun, wenn Sie Excel, eines der alternativen Programme, die ich wirklich mag, nicht verwenden möchten, ist dieser Zustand A sehr nett, weil er zwei Vorteile hat. Nummer Eins. Es ist preiswert. Die Softwarepakete gehen. Sie können eine unbefristete Lizenz für einige zwischen ein paar 100 vielleicht $1000 je nachdem, welche Art von Organisation Sie sind. State ist auch sehr benutzerfreundlich, nicht ganz so benutzerfreundlich wie Excel. Aber es ist viel leistungsfähiger, wenn Excel in etwa 50.000 Datenpunkten und nur ein paar Variablen stecken bleibt und anfängt, fragwürdige Ausgabe oder Ausgabe zu produzieren. Das ist tatsächlich geradezu falsch. Und Sie haben keine Möglichkeit zu wissen, ob es falsch ist oder nicht, weil Excel Ihnen keine Art von Warnung gibt. STADA vermeidet all diese Probleme. Status von beruht immer noch auf einer Tabellenkalkulationseingabe, was schön ist, weil Sie Ihre Daten in der gleichen Art von Framework durchgehen können , die Sie mit Excel gekauft haben. Es gibt Ihnen mehr Werkzeuge, um durch eine Analyse Ihrer Daten in einer robusteren Weise zu gehen. Sie können einen Teil des grundlegenden Codes sehen, den ich für eine Analyse unten geschrieben habe, jetzt im Zustand Wenn wir Mittel Mediane und Perzentile betrachten wollten, würden wir einfach die folgenden Funktionen verwenden. Zum Beispiel, eine Variable eine Variable zu etcetera. Wenn wir das einfach eingeben und unsere Variablennamen eingeben, wird state unsere Mittel ausspucken. Wenn wir eine Variable eine Variable zu Variable, drei usw. und dann Komma Detail am Ende eingeben, wird es ausspucken. Nicht nur Mittel, sondern auch unsere Mediane und unsere Perzentile an verschiedenen Stellen im Datensatz, so Zustand ist sehr einfach und einfach zu bedienen. Und das Schöne daran ist, dass Sie, sobald Sie ein Programm geschrieben haben, das gleiche Programm nehmen und es auf mehrere Datensätze anwenden können, so dass es mehr Arbeit im Voraus sein könnte. Im Vergleich zu Excel. Sobald Sie die Arbeit im Voraus erledigt haben, ist es sehr einfach, sie immer und immer wieder erneut auszuführen. Wieder. Es ist ein wenig teurer als Programme wie, sagen wir es, die Open Source sind. Aber ich denke, es ist benutzerfreundlicher, und so sind es oft Dollar gut ausgegeben. Das liegt an Ihnen, natürlich, jeder Mensch ist jetzt als Alternative im Besitz. Wenn Sie den Zustand aus irgendeinem Grund nicht mögen, ist SAS eine weitere gute Wahl. Stated hat viel leistungsfähigere Datenanalyse-Tools als Excel tut. Aber wenn Sie beginnen, Blick auf 5 10 2030 Millionen Beobachtungen Zustand, es kann oft verlangsamt werden. In diesem Fall benötigen Sie ein anderes Softwareprogramm. Sass ist jetzt eine gute Wahl. Sass wird oft mit einer Lizenz gekauft. Es ist ein bisschen teurer als Stada, aber es ist immer noch eine gute Wahl im Allgemeinen, genau wie State of the Oh SAS beinhaltet, ein Stück Code zu schreiben, was natürlich Vorarbeit mit sich bringt natürlich . Aber dann, wenn Sie das Programm geschrieben haben, können Sie es immer und immer wieder verwenden. Also im Vorfeld der Arbeit. Aber dann, sobald das Programm geschrieben ist, ist es sehr einfach, es auf eine Vielzahl von verschiedenen Datensätzen mit nur geringfügigen Änderungen anzuwenden . Also in diesem speziellen Fall habe ich dieses Programm geschrieben, das durchläuft und uns unsere Renditen zeigt. Insbesondere ist der relevante Satz von Code hier unten. Prock bedeutet Daten. Dies zeigt uns für unseren spezifischen Datensatz. In diesem Fall sind Work Dot s und P 500 Returns das mittlere Mittelperzentil für das 90. Perzentil, das 10. Perzentil die Männer und das Maximum im Datensatz, alle mit maximalen Dezimalstellen von drei. Wir könnten das natürlich ändern. Aber der Punkt ist, dass die Codierung relativ einfach ist, um diese verschiedenen Datenindikatoren herauszufinden , sie lassen uns feststellen, ob unser Datensatz richtig, korrekt und gut konstruiert ist oder nicht . Als nächstes, Wenn wir auf Datengenauigkeit suchen, eines der großen Bedenken ist immer gefälschte Daten. Ben, denn Gottes Gesetz ist einer der besten Tests für gefälschte Daten. Wenn Sie besorgt sind, dass Ihr Unternehmen Daten erhält, die aus irgendeinem Grund gefälscht wurden , würde ich dringend empfehlen, Benfords Gesetz durchzugehen und zu verwenden. Ben Friends Law sagt einfach, dass in realen Daten die Nummer eins die häufigste Zahl sein sollte. Die Nummer zwei sollte eine nächste, häufigste etcetera sein. Das klingt unglaublich, aber tatsächlich funktioniert es immer und immer wieder mit vielen verschiedenen Datensätzen. Um zu veranschaulichen, warum dies der Fall ist. Denken Sie an den Aktienmarkt. Es dauerte viel länger, bis die Dow Jones von 1000 auf 2000 Punkte gingen als von 17.000 Punkten. Die Art des Wachstums in Siris von Zahlen ist, dass man immer die häufigste Zahl in einem realen Datensatz sein wird , sollte die nächste häufigste etcetera sein. Die folgende Tabelle zeigt uns die Häufigkeit jeder Zahl in echten Daten. Denken Sie nun daran, natürlich gibt es einige Abweichungen davon in einem bestimmten Datenbeispiel. Aber im Durchschnitt für einen Datensatz sollten wir feststellen, dass die Nummer eins etwa 30,1% gegenüber allen Ziffern in realen Daten entspricht. Die Zahl zwei stellt etwa 17,6% aller Ziffern dar. Nummer drei, etwa 12,5% etcetera. So können Sie dies ein Tool verwenden, um festzustellen, ob Ihre Daten echt sind oder nicht. Echte Daten garantieren nicht, dass es keine Probleme mit den Daten gibt. Beispielsweise könnten die Daten fehlende Beobachtungen aufweisen, oder die Daten sind einfach zu klein von einem Stichprobenumfang . Aber es sagt uns, dass es uns zumindest einen Hinweis gibt, dass die Daten nicht manipuliert wurden . 4. Ratios und Schlüsselkennzahlen in Datenanalyse: Modul zwei. Auswertung der Daten, um mit einer Verspätung Daten zu beginnen, die wir durchlaufen und ausgewertet werden müssen, entscheiden, ob wir irgendwelche Probleme mit unseren Datenbanken haben oder nicht. Insbesondere Datenbanken in Geschäftseinstellungen oft automatisch oder fast automatisch generiert. beispielsweise könntenbeispielsweise Daten aus Verkaufsberichten oder Anlagestatistiken direkt von einem anderen Teil des Unternehmens heruntergeladen werden . Daten aus Einzelhandelsstandorten, vielleicht mit unserem Unternehmen, werden oft automatisch durch Software generiert. Zum Beispiel auf einem Point-of-Sale-System. Es ist wichtig, diese Daten und ihre Genauigkeit auszuwerten, bevor wir sie analysieren. Daten, die automatisch generiert werden, wurden oft von keinem Menschen überprüft Daher können sie Fehler oder Auslassungen oder Probleme enthalten, die wir übersehen können. Wenn wir schnell weitermachen. Wenn wir Daten auswerten, gibt es ein paar wichtige Probleme, die wir zuerst betrachten möchten, scheint das Datum irgendeine Art von Lügnern zu haben? Zweitens, scheint das Datum genau zu sein? Drittens sind die Daten Konstrukt um Variablen, die wirtschaftlich sinnvoll sind. Zum Beispiel könnten wir Schulden als eine Variable haben und Vermögenswerte ist eine andere. Wenn wir zum Beispiel verschiedene Unternehmen betrachten, die Konkurrenten von uns sein könnten, oder einfach nur verschiedene Unternehmen, die öffentlich gehandelt werden. Nun, wenn wir uns die Gesamtsumme der Schulden ansehen, die von einer Firma gehalten wird, die uns nicht sehr viel sagt , alles,was es wirklich macht, uns einen Stellvertreter für die Größe zu geben. Größere Unternehmen im Durchschnitt solltenim Durchschnittmehr Schulden halten. Ich würde erwarten, dass General Electric als Beispiel viel mehr Schulden hält als, sagen wir, Ah, sehr kleiner Industriehersteller. G E ist groß. Sie können es sich leisten, viel mehr Schulden zu unterstützen, so dass Schulden an sich nicht sehr nützlich sind. Dasselbe gilt für Vermögenswerte. Es ist nicht wirklich klar, dass Vermögenswerte von selbst sagt uns etwas anderes, als uns einen Proxy für die Größe der Firma zu geben . Auf der anderen Seite, wenn wir jetzt ein Verhältnis von Schuldenvermögen nehmen, haben wir etwas Bedeutsameres. In diesem Fall geben uns Schuldverschreibungen einen Hinweis auf das Risiko der Firma. Darüber hinaus könnten wir auch daran interessiert sein, andere Lücken oder Diskontinuitäten in den Daten zu betrachten. Dies sind alle Schlüsselpunkte, die wir zuerst betrachten sollten, wenn wir einen Datensatz durchlaufen. Wenn es darum geht, Lügner zu datieren, müssen wir uns fragen, wie die Daten aussehen? Scheint es so, als ob die Daten symmetrischer Test sind? Dies muss Berechnungen Term ausführen. Der Mittelwert und der Median für jede Variable von Interesse sind das Fleisch, das wir uns fragen könnten, Sind der Mittelwert und der Median ungefähr gleich? Wenn nicht, entscheiden wir über Skew Nissen. Die Daten sind ein Problem. Wenn sich der Mittelwert und der Median drastisch unterscheiden, sagt uns das, dass unsere Daten verzerrt sind. Wir können auch Berechnungen Term in der oberen und unteren Perzentile ausführen 1% die oberen 5% die oberen 10% und vergleichen Sie diese mit dem Mittelwert und Median. Wenn zum Beispiel bei, sagen wir, Umsatz für einige unserer Kunden, wenn die Top-1% unserer Kundenverkaufsdatensätze für das 100fache des durchschnittlichen Umsatzes sicher sind, vielleicht diese Metriken sind nicht sehr signifikant. Vielleicht werden diese Metriken unsere Analyse abwerfen, vielleicht zum Beispiel ist es zum Beispieleinfach ein Buchhaltungsfehler. Was auch immer das Problem ist, wir müssen durchgehen und entscheiden, ob diese oberen und unteren Perzentile in unsere Daten gehören. Setze alles auf „Compute“ bedeutet Mediane und Perzentile. Es gibt ein paar verschiedene Werkzeuge, die wir verwenden können. Ich werde kurz über SAS, Stada und Excel sprechen. Excel ist wahrscheinlich eines, mit dem fast jeder vertraut ist. Zur Berechnung bedeutet Mediane und Perzentile und Excel wird einfach die folgenden Funktionen verwenden . Durchschnittlicher Median und Perzentil Punkt Inc Jeder dieser Luft ziemlich unkompliziert, und sie werden uns gehen lassen und herausfinden, einige der Fragen, die wir in Excel betrachten möchten . Das Problem mit Excel ist jedoch, jedoch, dass Excel uns nur erlaubt, eine sehr kleine Teilmenge von Daten zu betrachten, relativ gesehen, je nachdem, welche Version von Excel Sie verwenden. Es ist überall von vielleicht 65.000 Datenzeilen bis zu 1.000.000 Datenzeilen. Ehrlich gesagt, selbst wenn Sie neuere Versionen von Excel haben, mit denen Sie bis zu 1.000.000 Zeilen von Daten analysieren können, Excel hat oft Probleme mit Big Data Datenbanken wie das sortiert Congar falsche v Lookups . Dinge wie, dass Sie ernsthafte Probleme mit Excel für sehr große Datensätze mehr als 50.000 Datenpunkte oder so haben können. Infolgedessen sage ich nicht, dass Sie Excel nicht verwenden sollten, aber Sie sollten sehr vorsichtig damit sein. Nun, wenn Sie Excel, eines der alternativen Programme, die ich wirklich mag, nicht verwenden möchten, ist dieser Zustand A sehr nett, weil er zwei Vorteile hat. Nummer Eins. Es ist preiswert. Die Softwarepakete gehen. Sie können eine unbefristete Lizenz für einige zwischen ein paar 100 vielleicht $1000 je nachdem, welche Art von Organisation Sie sind. State ist auch sehr benutzerfreundlich, nicht ganz so benutzerfreundlich wie Excel. Aber es ist viel leistungsfähiger, wenn Excel in etwa 50.000 Datenpunkten und nur ein paar Variablen stecken bleibt und anfängt, fragwürdige Ausgabe oder Ausgabe zu produzieren. Das in der Tat ist in der Tatgeradezu falsch. Und Sie haben keine Möglichkeit zu wissen, ob es falsch ist oder nicht, weil Excel Ihnen keine Art von Warnung gibt. STADA vermeidet all diese Probleme. Status von beruht immer noch auf einer Tabellenkalkulationseingabe, was schön ist, weil Sie Ihre Daten in der gleichen Art von Framework durchgehen können , die Sie mit Excel gekauft haben. Es gibt Ihnen mehr Werkzeuge, um durch eine Analyse Ihrer Daten in einer robusteren Art und Weise zu gehen. Sie können einen Teil des grundlegenden Codes sehen, den ich für eine Analyse unten geschrieben habe, jetzt im Zustand Wenn wir Mittel Mediane und Perzentile betrachten wollten, würden wir einfach die folgenden Funktionen verwenden. Zum Beispiel, eine Variable eine Variable zu etcetera. Wenn wir das einfach eingeben und unsere Variablennamen eingeben, wird state unsere Mittel ausspucken. Wenn wir eine Variable eine Variable zu Variable, drei usw. und dann Komma Detail am Ende eingeben, wird es ausspucken. Nicht nur Mittel, sondern auch unsere Mediane und unsere Perzentile an verschiedenen Stellen im Datensatz, so Zustand ist sehr einfach und einfach zu bedienen. Und das Schöne daran ist, dass Sie, sobald Sie ein Programm geschrieben haben, das gleiche Programm nehmen und es auf mehrere Datensätze anwenden können, so dass es mehr Arbeit im Voraus sein könnte. Im Vergleich zu Excel. Sobald Sie die Arbeit im Voraus erledigt haben, ist es sehr einfach, sie immer und immer wieder erneut auszuführen. Wieder. Es ist ein wenig teurer als Programme wie, sagen wir es, die Open Source sind. Aber ich denke, es ist benutzerfreundlicher, und so sind es oft Dollar gut ausgegeben. Das liegt an Ihnen, natürlich, jeder Mensch ist jetzt als Alternative im Besitz. Wenn Sie den Zustand aus irgendeinem Grund nicht mögen, ist SAS eine weitere gute Wahl. Stated hat viel leistungsfähigere Datenanalyse-Tools als Excel tut. Aber wenn Sie beginnen, Blick auf 5 10 2030 Millionen Beobachtungen Zustand, es kann oft verlangsamt werden. In diesem Fall benötigen Sie ein anderes Softwareprogramm. Sass ist jetzt eine gute Wahl. Sass wird oft mit einer Lizenz gekauft. Es ist ein bisschen teurer als Stada, aber es ist immer noch eine gute Wahl im Allgemeinen, genau wie State of the Oh SAS beinhaltet, ein Stück Code zu schreiben, was natürlich Vorarbeit mit sich bringt natürlich . Aber dann, wenn Sie das Programm geschrieben haben, können Sie es immer und immer wieder verwenden. Also im Vorfeld der Arbeit. Aber dann, sobald das Programm geschrieben ist, ist es sehr einfach, es auf eine Vielzahl von verschiedenen Datensätzen mit nur geringfügigen Änderungen anzuwenden . Also in diesem speziellen Fall habe ich dieses Programm geschrieben, das durchläuft und uns unsere Renditen zeigt. Insbesondere ist der relevante Satz von Code hier unten. Prock bedeutet Daten. Dies zeigt uns für unseren spezifischen Datensatz. In diesem Fall sind Work Dot s und P 500 Returns das mittlere Mittelperzentil für das 90. Perzentil, das 10. Perzentil die Männer und das Maximum im Datensatz, alle mit maximalen Dezimalstellen von drei. Wir könnten das natürlich ändern. Aber der Punkt ist, dass die Codierung relativ einfach ist, um diese verschiedenen Datenindikatoren herauszufinden , sie lassen uns feststellen, ob unser Datensatz richtig, korrekt und gut konstruiert ist oder nicht . Als nächstes, Wenn wir auf Datengenauigkeit suchen, eines der großen Bedenken ist immer gefälschte Daten. Ben, denn Gottes Gesetz ist einer der besten Tests für gefälschte Daten. Wenn Sie besorgt sind, dass Ihr Unternehmen Daten erhält, die aus irgendeinem Grund gefälscht wurden , würde ich dringend empfehlen, Benfords Gesetz durchzugehen und zu verwenden. Ben Friends Law sagt einfach, dass in realen Daten die Nummer eins die häufigste Zahl sein sollte. Die Nummer zwei sollte eine nächste, häufigste etcetera sein. Das klingt unglaublich, aber tatsächlich funktioniert es immer und immer wieder mit vielen verschiedenen Datensätzen. Um zu veranschaulichen, warum dies der Fall ist. Denken Sie an den Aktienmarkt. Es dauerte viel länger, bis die Dow Jones von 1000 auf 2000 Punkte gingen als von 17.000 Punkten. Die Art des Wachstums in Siris von Zahlen ist, dass man immer die häufigste Zahl in einem realen Datensatz sein wird , sollte die nächste häufigste etcetera sein. Die folgende Tabelle zeigt uns die Häufigkeit jeder Zahl in echten Daten. Denken Sie nun daran, natürlich gibt es einige Abweichungen davon in einem bestimmten Datenbeispiel. Aber im Durchschnitt für einen Datensatz sollten wir feststellen, dass die Nummer eins etwa 30,1% gegenüber allen Ziffern in realen Daten entspricht. Die Zahl zwei stellt etwa 17,6% aller Ziffern dar. Nummer drei, etwa 12,5% etcetera. So können Sie dies ein Tool verwenden, um festzustellen, ob Ihre Daten echt sind oder nicht. Echte Daten garantieren nicht, dass es keine Probleme mit den Daten gibt. Beispielsweise könnten die Daten fehlende Beobachtungen aufweisen, oder die Daten sind einfach zu klein von einem Stichprobenumfang . Aber es sagt uns, dass es uns zumindest einen Hinweis gibt, dass die Daten nicht manipuliert wurden . 5. Kategorische Variablen in Business Intelligence: Modul, drei Verhältnisse und Schlüsselmetriken. Nun, wenn wir Daten meiner Erfahrung nach durchlaufen und betrachten, ist das Problem Nummer eins, das Menschen bei der Datenanalyse haben, die falschen Variablen zu verwenden . Sie neigen dazu, die Variablen zu verwenden, die scheinbar das gewünschte Ergebnis erzeugen, auch wenn sie wirtschaftlich keinen Sinn ergeben. Nur gute Daten zu haben oder ein Werkzeug, mit dem Sie empirische Beziehungen analysieren können, reicht nicht aus Sie benötigen die richtigen Variablen. . Es gibt eine alte Geschichte, bei der wahrscheinlich apokryphal ist, aber immer wieder, dass es eine sehr starke Korrelation zwischen der Geburtenrate in Indien und den Windgeschwindigkeiten in Chicago gibt. Dies ist ein perfektes Beispiel für falsche Korrelation. Es gibt keinen vernünftigen Grund, warum die Zahl der Menschen in Indien geboren sollte irgendeine Beziehung zu der Geschwindigkeit des Windes in Chicago gekauft haben. Wenn wir uns genügend Datenstücke für uns angegebenen Stichprobenumfang ansehen, werden wir diese Korrelationen finden. Ob sie aussagekräftig sind, müssen wir unabhängig von den tatsächlichen Zusammenhängen selbst messen . Es ist also wichtig, sich anzusehen, welche Variablen verwendet wurden, und sicherzustellen , dass wir Variablen verwenden, die im Kontext des Problems sinnvoll sind, das wir zu lösen versuchen . zum Beispiel Denken Siezum Beispielan unsere Variablen, Schulden, Vermögenswerte und Schulden gegenüber Vermögenswerten zurück Schulden, . Wie ich bereits erwähnt habe, Schulden und Vermögenswerte selbst nicht notwendigerweise so bedeutungsvoll. Im besten Fall sind sie verschiedene Proxies für die Größe des Unternehmens. Schulden gegenüber Vermögenswerten jedoch als Kennzahl für die Risikobereitschaft eines Unternehmens aussagekräftig. Nun, in vielen Fällen, was uns das sagt, ist, dass rohe Variablen geändert werden müssen, um starke Beziehungen in den Daten zu haben , aber auch starke Beziehungen, die wirtschaftlich sinnvoll sind, über und über nur statistische Korrelation mit Variablen, die uns wichtig sind. Wie ich bereits festgestellt habe, sind weder Schulden noch Vermögenswerte gut. Proxy für Risikoschulden an Vermögenswerte ist jedoch, jedoch, jetzt werden variable Modifikationen in drei grundlegende Kategorien fallen. Bilden von Verhältnissen, wobei Änderungsraten in Daten anstatt Ebenen von diesen Daten und kategorialen Variablen genommen werden . Verhältnisse sind eines der nützlichsten Werkzeuge, die wir beschränkt haben. Beim Erstellen von Datensätzen. Rohe Geschäftsdaten sind in der Regel nicht so gut für die Vorhersage zukünftiger Ergebnisse. Es ist oft laut. Es hat eine Menge Variationen innerhalb der Daten, die es schwierig macht, Dinge zu schützen, und dann, wie wir mit Schulden in Vermögenswerten gesehen haben, ist es manchmal nicht besonders bedeutsam Es ist alles, wenn wir versuchen, abstrakter zu messen Konzepte wie das Niveau der Risikobereitschaft eines Unternehmens. Stattdessen ist es oft eine gute Idee, Verhältnisse basierend auf den Metriken zu berechnen, die uns wichtig sind. Zum Beispiel sehen wir hier ein Diagramm zeigt intrinsischen Wert mit Verhältnisanalyse, die wir interessieren könnten , sagen wir, den Wert eines gekauften Unternehmens, wenn wir Daten über Gewinne erforderlich Investitionen in Betriebskapital und Free Cashflow. Die allein erzählen uns nicht sehr viel von der Kanzlei. Stattdessen müssen wir durchgehen und Ende zählen. Kombinieren Sie diese Daten mit, in diesem Fall gewichteten durchschnittlichen Kapitalkosten. Wir bilden ein Verhältnis, und dieses Verhältnis bildet die Grundlage für ein diskontiertes Cashflow-Modell, das uns wiederum eine Bewertung über das Unternehmen gibt. Der Punkt hier ist, dass der einfache freie Cashflow an sich nicht allzu nützlich ist, um den Wert des Unternehmens gewichtet herauszufinden. Die durchschnittlichen Kapitalkosten an sich sind wiederum nicht allzu nützlich, um den Wert des Unternehmens herauszufinden . Stellen Sie diese Konzepte zusammen , , und wir erhalten etwas, das viel nützlichere ist und aussagekräftige Verhältnisse in Ihrer Organisation ähnlich nützlich sein könnten . Sie werden uns den Vergleich für ein Unternehmen im Laufe der Zeit für ein Unternehmen mit anderen Unternehmen erleichtern lassen. Ratios werden zum Beispiel von Kreditgebern verwendet , die Kreditwürdigkeitsaktionäre bestimmen, um zukünftige Cashflows und Risikomanager zu schätzen , wenn wir versuchen, Schwächen und Stärken in einer Organisation zu identifizieren. Lassen Sie uns also einen Blick auf einige der verschiedenen Verhältnisse werfen, die Sie in Ihrer Organisation verwenden könnten , wenn Sie Datensinn erstellen. Insbesondere gibt es fünf Kategorien von Finanzkennzahlen. Liquiditätsquoten, Vermögensverwaltungsquoten, Schuldenverwaltungsquoten, Rentabilitätsquoten und Marktwertquoten. Jedes dieser Verhältnisse wird unter verschiedenen Umständen nützlich sein, je nachdem, was wir analysieren wollen. Insbesondere müssen wir durchgehen, und wir müssen sicherstellen, dass wir die richtigen Daten in unserer Datenbank haben. Lassen Sie uns diese Verhältnisse berechnen. Abhängig von der Frage, die wir stellen, werden Liquiditätsquoten unsere Fähigkeit messen, aktuelle Verpflichtungen zu erfüllen. Asset Management Ratios sagen uns etwas über die ordnungsgemäße und effektive Nutzung von Vermögenswerten, ob das Unternehmen einen guten Job macht und diese Vermögenswerte verwaltet usw. Asset Management-Verhältnisse könnten also Dinge wie die Anlagenauslastung umfassen. Zum Beispiel die Gesamtumsatzquoten von Vermögenswerten. Das wird einfach ein Gesamtumsatz von Vermögenswerten sein. Gleiche Verkäufe dividiert durch die Bilanzsumme. Schuldenverwaltungsquoten werden uns etwas über das Ausmaß der Schulden in der Kanzlei in der Sicherheitsstufe erzählen , die den Gläubigern gewährt wird. Zum Beispiel, Schuldenauslastung Aktienmultiplikatoren Eigenkapitalmultiplikator-Ratio ist nur das Gesamtvermögen dividiert durch das gesamte Eigenkapital Rentabilitätsquoten werden uns etwas über die Auswirkungen von Liquidität, Vermögenswert Management und Schulden auf Betriebsergebnisse. Dazu gehören Dinge wie Spesenkontrolle, Gewinnmarge Gewinnmarge, natürlich, ist nur der Nettogewinn geteilt durch Umsatz. Schließlich wollten uns die Marktwertquoten einen Hinweis darauf geben, was die Anleger von den bisherigen Ergebnissen eines Unternehmens halten . Wie die Zukunftsperspektiven des Unternehmens aussehen, wenn wir es mit Liquiditätsquoten zu tun haben, stellten eine Reihe grundlegender Fragen darüber, ob das Unternehmen seine kurzfristigen Verpflichtungen mit der Ressource erfüllen kann , ist es derzeit zur Hand hat. Es gibt ein paar unterschiedliche, besonders relevante Verhältnisse. Die erste davon einfach die aktuelle Quote Umlaufvermögen geteilt durch kurzfristige Verbindlichkeiten. In ähnlicher Weise wird das schnelle Verhältnis Umlaufvermögen minus Inventar gegenüber kurzfristigen Verbindlichkeiten sein. Wenn wir also versuchen würden, zum Beispiel etwas über das Cash-Management oder die Wahrscheinlichkeit, dass ein Lieferant oder Kunde eine Art Verpflichtung ausfällt , würden wir daran interessiert sein, diese Arten von Verhältnissen, und wir sollten sicherstellen, dass sie in unserer Datenbank für Prognosezwecke enthalten sind. Als nächstes, wenn wir uns die Vermögensverwaltungsquoten fragen, Wie effizient nutzt das Unternehmen seine Vermögenswerte? Wie viel hat die Firma in ihrem Vermögen für jeden Umsatz gebunden? Wir können dies mit der Bestandsumsatzquote messen, also ist das einfach gleich dem Umsatz geteilt durch Lagerbestände. Ebenso könnten wir an unserer Effizienz des Anlagevermögens interessiert sein. Um dies zu berechnen, können wir unseren Anlagenumsatz nutzen. Das wird Umsatz geteilt durch Nettoanlagevermögen. Gesamtumsatz des Vermögens hingegen ist nur der Umsatz geteilt durch die Bilanzsumme. Also wieder, jedes dieser Verhältnisse misst verschiedene Aspekte unserer Asset-Management-Strategie gekauft . Wenn wir daran interessiert sind, vorherzusagen, wie gut das Unternehmen geht und wie Verkäufe in der Zukunft aussehen könnten , würden wir wahrscheinlich sicherstellen, dass diese Luft in unsere Datenbank Schuldenverwaltungsquoten einbezogen . Wenn wir Fragen darüber stellen, wie viel Schulden das Unternehmen hat, und ob das zu viel für das Unternehmen ist, und ob das Ergebnis des Unternehmens seine Schuldendienstanforderungen erfüllen kann, könnten wir an etwas interessiert sein wie die Schuldenquote. Die Schuldenquote ist lediglich die Gesamtzahl der Verbindlichkeiten geteilt durch die Bilanzsumme. Oder Sie könnten an der Bindungszeit Zinsen interessiert sein, die einfach e, aber geteilt durch Zinsaufwand. Der Punkt hier bei jedem dieser Verhältnisse ist, dass wir diese Verhältnisse vielleicht nicht in unserer Datenbank haben . Wenn wir einfach Finanzdaten aus einer Finanzdatenbank ziehen, , die da draußen ist, sagen wir von Campy, Stat oder Crisp, könnten wir insgesamt Verbindlichkeiten im Gesamtvermögen für unser Unternehmen oder für Konkurrenten Unternehmen. Aber wir müssen die Schuldenquote durchlaufen und berechnen, wie hier in der Datenbank selbst gezeigt. Wir müssen folgendes nehmen. Wir müssen mathematische Operatoren nehmen, die uns das geben und neue Variable für die Schuldenquote deklarieren . In ähnlicher Weise könnten Sie, wenn wir uns die Rentabilitätsquoten ansehen, wenn wir uns die Rentabilitätsquoten ansehen,an Dingen wie der Nettogewinnmarge interessiert sein, die einfach die Gewinnspanne gleich dem Nettogewinn dividiert durch den Umsatz ist. Wenn wir uns ansehen, was die Rendite des Unternehmens ist, könnten wir an der operativen Gewinnspanne interessiert sein, die einfach Ebert geteilt durch Verkäufe ist. Wenn wir an Kennzahlen dafür interessiert sind, wie gut das Unternehmen seine Vermögenswerte nutzt, könnten wir daran interessiert sein, die Vermögenswerte und die Eigenkapitalrendite auf Vermögenswerte einfach den Nettoertrag dividiert durch das Gesamtvermögen, wobei Eigenkapitalrendite Ist das Einkommen geteilt durch gemeinsame Eigenkapital Eines meiner Lieblingsverhältnisse, und es ist nicht wirklich ein Verhältnis. Um fair zu sein, es ist mehr von, Ah, mathematischer Operator ist die Altman Z-Score. Der Altman Z-Score wird die Wahrscheinlichkeit vorhersagen, dass die Front einer bestimmten Firma innerhalb von zwei Jahren bankrott geht . Das hier gezeigte Modell ist für Industrieunternehmen Point. Dies gilt auch für jede Art von Unternehmen, die eine Ware im Allgemeinen produziert oder produziert . Darüber hinaus jedoch gibt es jedochVariationen über die Altman Z-Score. Sie wurden optimiert für, sagen wir, Software-Firmen oder Einzelhändler, Firmen, die eine Art mehr Asset Light Geschäftsmodell haben. Der Altman-Z-Score basiert auf fünf verschiedenen Verhältnissen, die alle zu dieser einzigen Metrik zusammengesetzt werden. Das erste Verhältnis, das wir brauchen, ist das Betriebskapital geteilt durch das Gesamtvermögen. Das wird uns eine Metrik geben, wie flüssig die Firma ist. Verhältnis zwei x zwei In bewaffneter Formel wird beibehalten. Einnahmen Division Über das Gesamtvermögen Verhältnis. Drei ist das Ergebnis vor Zinsen an Steuern geteilt durch das Gesamtvermögen. So wie wir sehen, Verhältnis von zwei Jahren, die uns eine Metrik für die finanzielle Flexibilität aus dem Unternehmen geben, und seine Bewertungsquote drei gibt uns eine Metrik für seine Rentabilitätsquote. Vier wird uns etwas über die Bewertung der Firma erzählen. Insgesamt handelt es sich lediglich um den Marktwert des Eigenkapitals dividiert durch die Gesamtverbindlichkeiten und das Verhältnis. Fünf ist der Umsatz an die Gesamtwerte. Das sagt uns im Wesentlichen, im Wesentlichen, wie effizient das Unternehmen mit seinen Vermögenswerten ist, die wir durchlaufen, verwendet jeden dieser hier gezeigten Koeffizienten und multipliziert sie mit den Verhältnissen. So zum Beispiel berechnen wir zum Beispieldas Verhältnis x eins und multiplizieren es mit 1,2. Dann fügen wir zu diesem Verhältnis x zweimal 1,4 etcetera hinzu. Führen Sie alle diese mathematischen Funktionen durch und wir erhalten ein Z, wenn Z für das Unternehmen über 2,99 Das ist ein sicheres Unternehmen. Die Wahrscheinlichkeit, dass das Unternehmen innerhalb von zwei Jahren in Konkurs geht, ist ziemlich gering. Wenn das Verhältnis, wenn die Z-Score tut mir leid, fällt in den Bereich von 1.8122 Punkt 99 das ist, was wir die graue Zone nennen. Hier besteht ein gewisses Risiko. Und schließlich, wenn das Verhältnis unter 1,81 liegt, ist das die Notzone. Es besteht eine hohe Wahrscheinlichkeit, dass das Unternehmen innerhalb von zwei Jahren in Konkurs geht. Als Nächstes könnten wir uns um die interne Wachstumsrate kümmern. Vielleicht wollen wir durchgehen und eine Art Prognose über die Erträge des Unternehmens in der Zukunft durchführen . Dazu benötigen wir eine Datenbank, mit der wir unsere interne Wachstumsrate berechnen können. interne Wachstumsrate ist einfach gleich. Die Zeiten der Return on Assets sind vorgegeben, dass der Retention Prozentsatz. Dieser Retentionsprozentsatz ist die Höhe des Gewinns, die wir innerhalb des Unternehmens behalten , im Gegensatz zur Auszahlung an Investoren in Form einer Dividende. So ist die interne Wachstumsrate unsere Auswärtszeiten Retention Prozentsatz geteilt durch ein Minus sind weg mal Retention Prozentsatz. Wir könnten auch an der nachhaltigen Wachstumsrate interessiert sein. Die nachhaltige Wachstumsrate wird uns sagen, wie stark das Unternehmen wachsen kann, indem es seine intern generierten Fonds und die Ausgabe von Schulden nutzt, um eine konstante Schuldenquote im Laufe der Zeit aufrechtzuerhalten. Diese nachhaltige Wachstumsrate ist einfach gleich unserem A Wir mal unsere Aufmerksamkeit Prozentsatz geteilt durch ein Minus sind wir mal unsere Aufmerksamkeit Prozentsatz geteilt. Schließlich könnten wir an Marktwert-Kennzahlen interessiert sein. Marktwert-Kennzahlen geben dem Management einen Hinweis darauf, was Anleger von der bisherigen Performance des Unternehmens halten. Und Zukunftsperspektiven, einschließlich Marktwert-Kennzahlen, sind oft nützlich. Wenn wir versuchen, Maßnahmen vorherzusagen, könnten wir ergreifen, die den Wert unserer Firma verbessern . Zum Beispiel gehen wir durch und erstellen eine Datenbank, die unsere Firma und konkurrierende Firmen in der gleichen Branche aussieht und eine ganze Reihe von Daten im Zusammenhang mit Entscheidungen hat. Wir haben Entscheidungen getroffen, die sie getroffen haben. Wir können dann Marktwert-Verhältnisse berechnen, um uns eine Vorstellung vom relativen Wert jedes dieser Unternehmen zu geben , und wir können diesen relativen Wert als Vorhersagevariable für die Zukunft verwenden. Als nächstes sprechen wir über Veränderungsraten. Wie ich bereits erwähnt habe, können Veränderungsraten oft nützlich sein, wenn die Ebenen eines bestimmten Datenpunkts nicht nützlich sind. Selbst wenn ein Verhältnis nicht so offensichtlich als Ersatz für Rohdaten ist, ist es oft eine gute Idee, Änderungsraten anstelle von Ebenen, Daten nach Leveldaten zu verwenden. Wir sprechen über verschiedene Punkte. Zum Beispiel, gehen zurück auf meine Schulden in Vermögenswerten Beispiel. Wir könnten uns die Höhe der Schulden von General Electric oder die Höhe der Vermögenswerte von General Electric ansehen. Alternativ könnten wir uns die Rate der Veränderung der Schulden oder Vermögenswerte ansehen, und das sagt uns etwas darüber, wie schnell das Unternehmen wächst. beispielsweisedie Rentabilität beispielsweise ist beispielsweisedie Rentabilitätweniger nützlich als die Rate der Veränderung der Rentabilität. Für ein Unternehmen wird die Rentabilität, die Rentabilität, zumindest in Dollar, nur eine grobe Metrik für die Größe sein. Wir können es in Form eines Verhältnisses setzen und sagen uns etwas darüber, wie effektiv das Unternehmen geführt wird. Aber selbst wenn wir nicht daran interessiert sind, das zu tun, könnten wir an der Wachstumsrate der Profitabilität eines Unternehmens im Laufe der Zeit interessiert sein. Wenn wir Veränderungsraten berechnen, ist es im Allgemeinen nützlich, einen Computerbereich der Änderungsrate für jede große Variable zu durchlaufen , die wir in unsere Analyse aufnehmen möchten, nur eine gute Faustregel. Gehen Sie durch und berechnen Sie diese Veränderungsraten im Voraus und entscheiden Sie dann später. Wenn sie in Ihrer Analyse nützlich sind oder nicht auf wirtschaftlichen Überlegungen basieren, könnten wir vielleicht daran interessiert sein , herauszufinden, ob Veränderungsraten für uns sinnvoll sind oder nicht. Angesichts unseres Date wird das tun. Wir müssen damit beginnen, eine Korrelation zwischen unseren Niveaus und unseren Veränderungsraten und der Variablen herzustellen oder zu versuchen, vorherzusagen oder zu untersuchen, und das wird uns sagen, ob Raten oder Niveaus nützlicher sind. Wir wollen jeweils den Variablentyp mit der höheren Korrelation auswählen. Das ist nur eine allgemeine Faustregel. Das ist nicht immer der Fall. Es könnte einen Fall geben, in dem Sie falsche Korrelation haben, und wieder ist es wichtig über die wirtschaftliche Bedeutung hinter jeder dieser verschiedenen Arten von Variablen nachzudenken . Aber im Allgemeinen ist es in der Regel besser zu sehen und zu sehen, ob das Niveau oder die Rate enger mit der Variablen korreliert ist . Wir wollen jetzt über Veränderungsraten hinaus vorhersagen. Manchmal ist der Blick auf eine natürliche lange eine gute Wahl. zum Beispiel Wenn wirzum BeispielDaten mit großen Wertunterschieden betrachten, wie beispielsweise Größe der Assets bei verschiedenen Wettbewerbern, kann Natural Log sehr viel Sinn machen, ein Unternehmen zu vergleichen, das dieses Beispiel hat $1 Milliarde an Vermögenswerten zu einem mit 100 Millionen auf irgendeiner Ebene, ein Unternehmen mit $1.000.000.000$ an Vermögenswerten ist ziemlich ähnlich zu bestätigen, mit 900 Milliarden an Vermögenswerten, obwohl es 100 Millionen Gleichgültigkeit zwischen ihnen gibt. Diese beiden Firmen, die mit einem Vermögen von $1.000.000.000 und mit 900 Millionen Vermögenswerten, haben eine viel größere Ähnlichkeit als, sagen wir, eine Firma mit 100 Millionen Vermögenswerten gegenüber 200 Millionen NASA. Diese Differenz beträgt in beiden Fällen 100 Millionen, aber die prozentuale Differenz ist signifikant. Von 900 Millionen auf 1.000.000.000 zu steigen, ist nur ein 10% Wachstum der Vermögenswerte. Wachstum von 100.000.200 Millionen bedeutet eine Verdoppelung der Vermögenswerte. Natürliche Stämme können uns helfen, diese Probleme zu vermeiden, indem sie ihre natürlichen Protokolle von Vermögenswerten. Dann lassen Sie uns eine Skala dies angemessener 6. Imputing Daten in einem Dataset: -Modul. Vier kategoriale Variablen Bei der Analyse ist es oft sinnvoll, gruppierte Datencluster unter Verwendung einer kategorialen Variablen zusammenzufassen . Zum Beispiel. Anstatt uns Gedanken über eine genaue Altman Z-Score zu machen, könnten wir Lieferanten oder Kunden einfach in eine von drei Kategorien zusammenfassen, wie wir bereits erwähnt haben Gefahrenzone, Gray Zone und sicher Für die Zwecke unserer Datenanalyse Wir könnten diese Werte 12 und drei kennzeichnen, die die Gefahrenzone sind, um Grauzone zu sein, und drei sind die sichere Zone. Und wir könnten zum Beispiel vorhersagen, was nötig ist, um von einer Kategorie zur anderen zu wechseln, oder welche Auswirkungen jeder dieser verschiedenen Werte auf eine andere Metrik hat, die uns wichtig ist. Alternativ sind Byeon Eri Variablen spezielle Art von kategorialen Variablen. Insbesondere haben binäre Variablen nur zwei mögliche Ergebnisse. Eins oder eine Null. Zum Beispiel, gehen Sie zurück zu unserem Altman Z-Beispiel. Wir könnten die Punktzahl als drei verschiedene Byeon Eri Variablen mit jeweils einem Ein- oder Nullwert darstellen . Eine Firma hätte also ein Beispiel in Altman Z Punktzahl, und sie wären entweder in der sicheren Zone, in der grauen Zone oder in der Gefahrenzone. Wir erstellen drei binäre Variablen. Sicher, grau und Gefahr. Wenn das Unternehmen in die sichere Zone fällt, erhalten sie eine für den Wert der sicheren Zone. Wenn sie nicht in die sichere Zone fallen, bekommen sie eine Null. Wenn sie in die graue Zone fallen, erhalten sie eine für diese Variable. Ansonsten bekommen sie eine Null. Vorhersehbar, wie Sie vielleicht erwarten, könnten Sie nur eine in einer der drei Kategorien haben. Das heißt, wenn wir eine in der sicheren Zone für ein bestimmtes Unternehmen haben, sollte es in den Grauen in der grauen Zone Null und in der Gefahrenzone Null sein. General Electric kann nur in eine dieser drei Kategorien fallen. Byeon Eri Variablen dann nützlich, sind dann nützlich,um unsere Daten in verschiedene verdauliche Stücke aufzuteilen. Das wird es uns leichter machen, Werte in der Zukunft vorherzusagen. Warum verwenden wir also kategoriale Variablen? Werden kategoriale Variablen zwei Zwecken dienen? Erstens lassen sie uns qualitative Daten empirisch darstellen. Zum Beispiel die Geschlechterrennen oder Veteranenstatus für Mitarbeiter alle qualitativen Daten. Du bist entweder männlich oder weiblich. Du bist nicht 12345. Das ist kein Geschlecht. Stattdessen gehen wir durch und wir könnten einen Kauf in Eri Variable einfach sagen männlich eins oder Null Wenn es ein ist, wissen wir, dass bestimmte Mitarbeiter ein Mann ist. Wenn es eine Null ist, wissen wir, dass es weibliche zweite kategoriale Variablen gibt. Lassen Sie uns auch vermeiden, sich mit bedeutungslosen Unterschieden zu beschäftigen, und sie lassen uns auf das große Ganze konzentrieren, wenn statistische Techniken zur Analyse von Daten verwendet werden . zum Beispiel Wenn wirzum BeispielKonkurrenten mit 1.000.000.000-plus und Umsatz haben, sollten beide als große Unternehmen eingestuft werden. Ob man bei 1,11 Milliarden oder 1,14 Milliarden liegt, ist wirklich im wesentlichen. Stattdessen wollen wir uns auf die Big Picture-Analyse konzentrieren, und so könnte er diese einfach in jedem Fall als große Unternehmen klassifizieren, auf Alternative Way, anstatt binäre Variablen zu verwenden, um Daten und Gruppen zu berechnen zusammen ist es, den Tod zu benutzen. Seiler Quintil variiert die Luftperzentiltypvariablen, die kategorisch sind . Zum Beispiel ist es oft nützlich aussehen, der Perzentil-Rang für Stück Daten und nicht der absolute Wert. Das gilt insbesondere, wenn wir es mit Zeitreihendaten zu tun haben, zum Beispiel möchten wir in der Lage sein, unsere Top-10% der Kunden in einem bestimmten Jahr zu identifizieren, unabhängig davon, wie viel ihr tatsächliches Verkaufsvolumen ist. Wenn wir versuchen, unsere Top-Kunden im Jahr 1990 mit dem Jahr 2010 zu vergleichen, würden wir nur angesichts der Natur Inflation erwarten, dass der Wert der Verkäufe und jedes Jahr gewachsen wäre , damit er dies skalieren und es in C $1990 setzen konnte, um die Inflation anzupassen. Oder wir könnten einfach eine perzentile Typ kategorische Variable wieder verwenden, indem wir die Leiter tun. Mit diesen Perzentiltypvariablen, sagen wir, Todesstile oder Quintile, wird es uns erlauben, Probleme mit Inflation, Preisänderungen usw. zu vermeiden , Preisänderungen . Todesstile und Quintile sind in der Regel gute kategoriale Variablen für Schlüsselvariablen zu berechnen . Dezil-Rang-Variablen werden Daten in 10% Intervalle aufteilen, zum Beispiel, 0 10% 10 20% usw. Die Idee hier ist, dass wir alle Werte vergeben Variable auf. Wir teilen es in gerade Stücke auf, also würden wir es sehen, zum Beispiel, unsere Top-10% der Kunden und sie würden im oberen Dezil liegen, die nächsten 10% der Kunden würden in der neunten. Dezile, usw. Quintile werden Variablen einordnen, indem sie sie in 20% Intervalle aufteilen 0 20% 20% 40% usw. Jetzt können wir das Dezil-Ranking für jeden Kunden in einem bestimmten Quartal berechnen und dann als Beispiel betrachten , was das Verhalten von Kunden im oberen oder unteren Dezil antreibt. Dadurch können wir uns auf die Art der Kunden konzentrieren, die uns wichtig sind, denn es ist durchaus möglich, dass sich Kunden im oberen Dezil anders verhalten als die Kunden im unteren Bereich. Decile Unser Tod Seiler Quintil Variablen in der Regel 1 bis 10 bzw. 125 bezeichnet werden . Das zu tun, wird uns die marginale, effektive Bewegung zwischen den Kategorien herausfinden lassen. Mit anderen Worten, sind Top-Quintil Kunden anders durch eine Werbeanstrengung betroffen als, sagen wir, unten Quintil Kunden sind. Es wird es uns auch leicht machen, Unterschiede zwischen Datensegmenten zu berechnen. beispielsweise Was istbeispielsweiseder Unterschied in der Rentabilität zwischen den Firmen mit oberster Dezile und unterster Dezile basierend auf ihrer Gesamtgröße der Vermögenswerte? Kategorische Variablen, die um diese Prozent-Haus basieren, sind am nützlichsten, wenn wir mit Daten zu tun haben, die im Laufe der Zeit sehr unterschiedlich sind, zum Beispiel ein Wir sind und unsere Auswärts sind oft effektiver als prädiktive Variablen. Wenn sie in Form von kategorialen Variablen statt Verhältnissen sind, ist es wichtig, nicht zu viele Todesfälle zu haben. Seiler Quintilvariablen So können einige von Ihnen mit der Farm auf Französisch vertraut sein. Vier. Factor Model Eugene Fama ist ein Nobelpreisträger Ökonom und arbeitet mit Ken French aus Dartmouth zusammen , um dieses Modell zu entwickeln, und es ist nützlich, um Aktienrenditen basierend auf verschiedenen Arten von Variablen vorherzusagen. Aber anstatt absolute Werte für, sagen wir, sagen wir, Rentabilitäts- oder P-E-Verhältnisse oder solche Dinge zu verwenden, verwendet es stattdessen Death Siles und Quintiles in einigen Fällen. Aber es verwendet auch noch breitere Kategorisierungen wie Ter Siles. Warum tut es das? Nun, wenn wir nur Todesverkäufe oder Quintile verwenden, fangen wir oft an, unseren Datensatz zu viel zu zerlegen. Zum Beispiel, wenn wir vier verschiedene Todesfälle haben, werde ich Variablen. Im Vier-Faktor-Modell werden vier verschiedene Variablen verwendet, wie der Name schon sagt. Nun, wenn wir vier verschiedene Dezilvariablen hätten, würde das bedeuten, dass, sobald wir die 5000 Aktien in Gruppierungen unterteilt haben, die zu jedem dieser Todesfälle Siles passen . Wir würden Gruppen von fünf Aktien in jedem Portfolio haben, das 5000 Aktien geteilt durch 10 erhöht auf die vierte. Alternativ, indem wir Ter Siles verwenden, indem wir Quintiles Dinge wie diese verwenden, können wir größere Portfolios bekommen und somit eine genauere Vorhersagekraft innerhalb jedes Portfolios, das wir vorherzusagen versuchen. 7. Grundlagen der Datenanalyse: Modul, fünf implizierende Daten. Nun, wenn wir über die Probleme sprechen, die mit der Strukturierung eines Datensatzes verbunden sind, gibt es oft ein paar häufige Bedenken, die auftreten. Eines der häufigsten sind fehlende Daten. Fehlende Daten können manchmal abgeleitet werden, allerdings basierend auf vorhandenen verfügbaren Daten. Zum Beispiel, wenn Vermögenswerte sind Rekorder $1000 im Januar und dann 1300 April, ist es wahrscheinlich sinnvoll, fehlende Werte für Februar und März, die zwischen den beiden Datenpunkten fallen zu füllen . Dies wird als imputing Daten bezeichnet. Es gibt eine Reihe von Techniken, die wir aus dem Putting von Daten verwenden können. Die drei häufigsten sind die letzte verfügbare Wertmethode, die lineare Interpolationsmethode und die Regressionsprognosemethode. Die letzte verfügbare Meth, die letzte verfügbare Wertmethode zur Berechnung von Daten, wird einfach den letzten gültigen Datenpunkt anstelle fehlender Datenpunkte basierend auf der geeigneten Methode der Datensortierung verwenden . Zum Beispiel, wenn unsere Vermögenswerte unser Rekord, $1000 im Januar und dann 1300 im April, die letzte verfügbare Wertmethode füllt $1000 für Vermögenswerte für Februar und März, hat die Methode einen offensichtlichen Nachteil, obwohl es schrittweise Diskontinuitäten schafft. In unseren Daten gehen wir von $1000 im Januar, $1000 im Februar, $2000 im März 2 Spitzen bis zu 1300 im April, so dass manchmal ein Problem sein. Auf der positiven Seite machen wir mit dieser Methode weniger Annahmen über die Wachstumsrate im Laufe der Zeit. Alternativ wird die lineare Interpolationsmethode zur Berechnung von Daten ein Grady int an Ort und Stelle verwenden, dass fehlende Daten basierend auf welcher Methode der Datensortierung angemessen ist. beispielsweise Wenn unsere Vermögenswertebeispielsweiseim Januar und 1300 April 1000 Dollar betragen, würde die lineare Interpolationsmethode 1112 100 für unsere Vermögenswerte im Februar bzw. Märzausfüllen März . Das Problem bei dieser Methode ist, dass das Aussehen eines stabilen Wachstums in Werten für fehlende Variablen erzeugen kann . Im Laufe der Zeit vermeidet es jene Diskontinuitäten, die mit der letzten Wertmethode diskutiert wurden. Es erzeugt eine künstliche Glättung des Datenwachstums im Laufe der Zeit. Das ist nicht unbedingt wieder eine gute Sache, abhängig von den Problemen, die versucht haben, in den Daten zu adressieren. Schließlich verwendet die Regressionsprognostizierungsmethode zur Berechnung von Daten prognostizierte Werte basierend auf unserer Aggression anstelle von fehlenden Datenpunkten basierend auf der Methode der Datensortierung wieder angemessen ist , lassen Sie uns so tun, als ob wir haben $1000 in Vermögenswerten im Januar und 1300 im April. Die Regressionsprognostizierungsmethode würde Vermögenswerte für Februar und März basierend auf anderen verfügbaren Daten wie beispielsweise vorhersagen Umsatz und Anzahl der Mitarbeiter vorhersagen. Die Methode ist genauer, aber leider ist es auch komplexer und zeitaufwändiger. Die Alternative zur Berechnung von Daten besteht darin, die Daten einfach zu löschen, wenn ein fehlender Wert vorhanden ist . Löschen von Datenpunkten kann gut oder schlecht sein, abhängig von unseren Entscheidungen. Wie wir bei der Berechnung festgestellt haben, machten Daten in jedem Fall Annahmen, und es gibt Nachteile für jede der gekauften Methoden. Löschen von Datenpunkten ist auch keine perfekte Lösung . Es wird dazu führen, dass wir einen kleineren Stichprobenumfang mit weniger prädiktiver Trennschärfe haben. Wenn die fehlenden Daten nicht zufällig sind, auch durch das Löschen von Datenpunkten, die irgendwelche Schlussfolgerungen, die wir aus den Daten ziehen könnten, verzerren . Zum Beispiel, wenn wir versuchen, das Verhalten von Wettbewerbern zu untersuchen, fehlten höchstwahrscheinlich Daten über kleine Unternehmen im Vergleich zu großen Unternehmen. So, zum Beispiel, interessiert in Front seit der Rentabilität von unseren Konkurrenten, gut kleine Unternehmen können nicht Rentabilität Informationen zur Verfügung, wo große Unternehmen, die öffentlich gehandelt werden, haben würde, Informationen zur Verfügung. Durch den Abfall wurden alle kleinen Unternehmen systematisch eine ganze Reihe von Konkurrenten ausgeschlossen. Und das könnten für uns die relevantesten Konkurrenten sein , zum Beispiel der am schnellsten wachsenden Konkurrenten . Daher müssen wir vorsichtig sein, Datenpunkte zu löschen und die Vorurteile, die jetzt entstehen können. Ein weiteres Problem, das wir in Daten haben könnten, ist mit lauten Daten. Manchmal sind Daten zu laut, um in der vorausschauenden Analyse nützlich zu sein. Zeitreihendaten sind in dieser Hinsicht besonders problematisch. Wenn es einen hohen Grad an Variation gibt, könnte dies Vorhersagen aufgrund der zufälligen Schwankungen sehr schwierig machen. Glättung unserer Daten kann dann zu besseren Ergebnissen führen. Eine der besten Methoden zum Glätten von Daten ist die Verwendung eines gleitenden Durchschnitts. Ein Beispiel dafür ist, sagen wir, Fluss von Fondsdaten. Also habe ich kürzlich an einem Projekt mit einem Beratungskunden gearbeitet, bei dem wir versuchen, die Nachfrage der Anleger nach Anleiheemissionen für das Unternehmen vorherzusagen. Das Problem ist, dass, wenn Sie den Fluss von Gelddaten aus den Daten betrachten, die da draußen verfügbar sind , es sehr, sehr zufällig ist. Es gibt eine Menge Bewegung in jedem Monat, basierend auf Erfindung, Anlegerstimmung und solchen Dingen. Infolgedessen könnten Trends bei tatsächlichen Datenschwankungen im Laufe der Zeit durch die Rauschdaten verdeckt werden. Glättung mit einem gleitenden Durchschnitt hilft uns, dieses Problem zu vermeiden. Dies könnte leicht gemacht werden und Excel, SAS Data oder viele andere statistische Programme, die da draußen sind. Das Hauptproblem hier ist nur, um sicher zu sein, dass wir eine neue, glatte Variable erstellen , anstatt das ursprüngliche Variablenmodul sechs zu überschreiben. Vorschau der Datenanalyse. Okay, wir nähern uns dem Ende dieser Lektion, aber ich möchte in der Vorschau durchsehen, was wir in einer zukünftigen Lektion sehen werden, wenn wir es mit Datenanalyse zu tun haben. Nachdem wir einen vollständigen Datensatz erstellt und die Daten anhand der Fragen strukturiert haben, die uns wichtig sind , ist es an der Zeit, mit der Datenanalyse zu beginnen. Datenanalyse erfordert die Suche nach Beziehungen in den Daten, um die aktuelle Geschäftsleistung zu bewerten und die zukünftige Geschäftsleistung vorherzusagen. Dies kann mit einer Vielzahl von verschiedenen Werkzeugen durchgeführt werden. Insbesondere einfache Mittel, können einfache Mittel, Mediane und vortäuschende Perzentile leicht aus einem gut strukturierten Satz von Daten berechnet werden . Zum Beispiel wird es sehr einfach sein, den Umsatz zu berechnen, der für Verkäufer in Kalifornien erforderlich ist, , um unter den Top 25% der Kollegen zu sein,wenn wir Struktur oder Daten richtig haben. Wenn wir es nicht getan haben, könnte es sehr schwierig sein. Beantworten Sie sogar eine grundlegende Frage wie diese. Aber es ist oft nützlich, darüber hinauszugehen und zu versuchen, die Zukunft vorherzusagen , aber zum Beispiel, wie viel wird der Verkäufer in Kalifornien nächsten Monat verkaufen? Nun, die Antwort auf diese Frage, wir werden eine ausgeklügeltere Form der Datenanalyse verwenden müssen. Regressionsanalyse ist in diesem Fall wahrscheinlich die einfachste und intuitivste Methode zur Beantwortung dieser speziellen Frage. Das wird der Fokus für unseren nächsten Kurs sein. Ich hoffe, Sie zu sehen. Vielen Dank für die Beobachtung und halten Sie Ausschau nach zukünftigen Kursen in Business Intelligence-Techniken , die in Kürze kommen werden. Sprich dann mit dir. Tschüss.