Business Intelligence – Sammeln, Bereinigen und Zusammenführen von Daten, Collecting, #2 | Michael McDonald | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Business Intelligence – Sammeln, Bereinigen und Zusammenführen von Daten, Collecting, #2

teacher avatar Michael McDonald, Business Intelligence and Finance

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Datenerhebung und -reinigung

      0:58

    • 2.

      Datenbanken bewerten

      5:32

    • 3.

      Daten sammeln

      10:08

    • 4.

      Zusammenfassen von Datensätzen

      7:05

    • 5.

      Reinigen von Datensätzen

      8:47

    • 6.

      Fallen in der Datenerfassung

      9:12

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

209

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Dieser zweite Business intelligence in der Folge bereitet die Teilnehmer vor, um Business Intelligence-Projekte in ihrem eigenen Unternehmen zu beginnen. Der Schwerpunkt des Kurses liegt in der praktischen Herangehensweise beim Sammeln und Reinigen von Daten. Nach dem Abschluss dieses Kurses sind die Teilnehmer bereit, eigene Datenbanken zu erstellen oder die Erstellung von Datenbanken für ihr Unternehmen zu überwachen. Der Schwerpunkt in diesem Kurs liegt auf „Big Data“ Datensätzen, die überall von Zehntausenden bis hin zu Millionen von Beobachtungen enthalten. Während die verwendeten Tools für kleinere Datensätze von einigen hundert Datenpunkten geeignet sind, liegt der Fokus auf größeren Datensätzen. Der Kurs hilft auch Teilnehmern, ohne Erfahrung in der Erstellung von Datensätzen zu beginnen. Schließlich ist der Kurs hervorragend für die Benutzer von Salesforce, Tableau, Oracle, IBM und anderen BI geeignet, da er den Zuschauern hilft, die zugrunde liegenden Mechaniken von Business Intelligence zu sehen.

Triff deine:n Kursleiter:in

Teacher Profile Image

Michael McDonald

Business Intelligence and Finance

Kursleiter:in
Level: Intermediate

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Datenerhebung und Reinigung: Hi, ich bin Dr. Michael McDonald. Heute werde ich mit Ihnen über die Datenerfassung und die Reinigung des ersten Schritts in Business Intelligence sprechen. Beginnen wir damit, über die verschiedenen Phasen dieses Kurses zu sprechen und was Sie heute in Modul eins lernen werden, wird darüber sprechen, verschiedene Arten von Datenbanken zu bewerten und diejenige auszuwählen, die für Sie im Modul richtig ist. Wir sprechen über die Grundlagen, um Ihre eigenen Daten zu sammeln und Ihre eigenen Datenbanken für Ihre Verwendung innerhalb eines Firmenmoduls zu erstellen. Drei. Wir werden über das Zusammenführen verschiedener, eindeutiger Datensätze und einige der Fallstricke und Gefahren sprechen, denen Sie dabei in Modul vier begegnen können . Wir sprechen darüber, wie Sie den Tag bereinigen, an dem Sie gesammelt haben, und stellen Sie sicher, dass die Daten, die Sie betrachten, um Entscheidungen zu treffen, genau richtig sind. Modul fünf. Wir werden über ein paar weitere Fallstricke sprechen, denen Sie begegnen können, und einige Dinge, die Sie tun können, um diese zu bekämpfen. Lasst uns loslegen. Sollen wir 2. Datenbanken prüfen: Modul eins, der auf Datenbanken zugreift. Nun, wenn viele Leute über Datenbanken nachdenken, ist das erste, was sie tun, denken, sie sollten ausgehen und nach kommerzieller Datenbanksoftware suchen . Und das ist großartig, denn kommerzielle Datenbanksoftware ist sehr leistungsfähig und macht das Sammeln und Aufzeichnen von Daten einfach zu kaufen. Es ist kein Allheilmittel für die Probleme, mit denen Ihr Unternehmen konfrontiert ist, und zu viele Menschen erkennen nicht, dass insbesondere kommerzielle Datenbanken oft eine Blackbox erstellen können, über die Benutzer nur selten hinausschauen. Dies könnte ein großes Problem sein, für Ihre Organisation, insbesondere schafft Chancen für fehlerhafte Daten. Und das ist besonders wahr. Seine Unternehmen nutzen mobile APS, um Daten aus der Ferne zu sammeln. Es gibt eine Reihe von verschiedenen Arten von kommerziellen Datenbanksoftware da draußen. Sie können durch ein paar verschiedene Schlüsselmerkmale aufgeschlüsselt werden. Eine davon ist, ob Sie manuelle oder automatische Dateneingabe verwenden möchten. Probleme bei der manuellen und automatischen Dateneingabe, insbesondere bei der manuellen Dateneingabe, bestehen. Sie können Möglichkeiten für falsche Eingaben in Ihre Daten haben. Stellen zum Beispiel vor, dass Sie Dateneingabe individuell haben, und sie setzen Transaktionen in Ihre Datenbank und Emmanuel Mode. Es ist einfach für sie, Figuren oder solche Dinge zu transponieren und Fehler und potenzielle Probleme zu schaffen , die Sie betrachten können. In ähnlicher Weise können sie Protokolleinträge vermissen, die versehentlich ganze Datensätze erstellen, die einfach falsch sind. Bunt. Das Problem bei automatischen Dateneinträgen ist, dass es Benutzern leicht macht, Daten aufzunehmen und sie dort anzuwenden, wo sie nicht angewendet werden sollten. Zum Beispiel, in einem einfachen Beispiel, Verwendung von internationalen Verkaufsdaten in den USA in einem einfachen Beispiel,die Verwendung von internationalen Verkaufsdaten in den USA Mit automatischer Dateneingabe,können Sie eine bessere Datengenauigkeit, aber größere Probleme in Mit automatischer Dateneingabe, können Sie eine bessere Datengenauigkeit, Anwenden dieser Daten korrekt. Es gibt einige Punkte, die Sie bei der Auswertung von Datenbanken berücksichtigen möchten. Zuerst möchten Sie über die Einfachheit der Überprüfung von Daten nachdenken. Verschiedene Arten von Datenbanken können dies insbesondere einfacher oder schwieriger machen . Wenn Sie Daten in mehreren verschiedenen Blättern in einer Datenbank gespeichert haben, anstatt zu einem einzigen Blatt zusammenzuführen, kann es sehr schwierig sein, diese Daten anzuzeigen und zu durchsuchen und sie entweder per Sanity-Checks oder sogar grundlegende Analyse zu bewerten . Zweitens Sie die einfache Bearbeitung Ihrer Daten in Betracht ziehen. Es ist nicht einfach, die Daten hinzuzufügen, wenn Sie eine vorhandene Datenbank haben, diese aber regelmäßig aktualisieren möchten . Ist es einfach, durch ein Add-Dinge zu gehen? In ähnlicher Weise haben Sie vielleicht eine vorhandene Datenbank, aber Sie möchten eine neue Variable hinzufügen. Zum Beispiel haben Sie vielleicht eine Liste der Verkäufe, die Ihr Unternehmen getan hat, und Sie möchten durchgehen und eine Art Merkmal über den Kunden hinzufügen. Dies kann aufgrund der von Ihnen verwendeten Datenbank einfach sein oder nicht . Sie sind Vor- und Nachteile für verschiedene Datenbanken. Und, naja, es ist wahr, dass die einfache Unterstützung von Daten. Entschuldigen Sie, dass ich das nochmal sage. Sie sind Vor- und Nachteile verschiedener Datenbanken und die einfache Bearbeitung von Daten. Feature hebt dies vor allem hervor. Es kann zwar einfacher machen, Ergänzungen zu den Daten vorzunehmen und somit eine leistungsfähigere Datenanalyse zu ermöglichen , aber es kann auch zu Daten-Governance-Problemen führen, bei denen Daten falsch eingegeben werden, oder Sie können Probleme haben, die versehentlich erstellt, indem zu viele Daten hinzugefügt werden. sollten Sie außerdem Wenn Sie darüber nachdenken, welche Punkte in Bezug auf eine bestimmte Datenbank zu berücksichtigen sind, nach integrierten Tools suchen, mit denen Sie die Datenzuverlässigkeit testen können. Verschiedene Softwaresysteme verfügen möglicherweise über die Tools, die Sie möglicherweise weiter benötigen. Sie möchten darüber nachdenken, wie diese Software mit anderen Programmen integriert wird. Wird diese Datenbank es einfach machen, mit Excel, Order Net zu interagieren ? Interagieren Sie mit einer Art Analysesoftware, die Sie verwenden möchten. Schließlich möchten Sie darüber nachdenken, ob diese Datenbanksoftware eine Möglichkeit bietet, Analysen selbst zu handhaben . Vielleicht haben Sie ein System, das Sie von Anfang bis Ende gehen lässt. Das macht es sicherlich bequem und vermeidet so logistische Probleme des Verschiebens von Daten zwischen verschiedenen Arten von Software. Aber es macht es auch für Menschen einfacher, fehlerhafte Analysen zu verwenden, ohne es zu merken, da es Theme-Software anfänglich eher eine Blackbox macht. Jetzt gibt es einige Alternativen zu herkömmlicher Datenbanksoftware. Insbesondere die erste Möglichkeit darin, Ihre eigenen Datensätze zu erstellen. Excel ist die einfachste Lösung, die man in Anspruch nehmen kann. Diese Route ist sehr vertraut für die überwiegende Mehrheit der Benutzer da draußen, und es ist etwas, das leicht zu bearbeiten ist, und praktisch alle Unternehmen haben Zugriff darauf. jedoch Das Problem bestehtjedochdarin, dass einige Versionen von Excel nur 65.536 Datenzeilen verarbeiten können. Auch wenn Sie eine Version haben, die Mawr behandelt, weist Excel zahlreiche Transpositionsfehler auf. Wenn Sie versuchen, mehr als 20 oder 30.000 Datenzeilen und sehr viele Datenspalten zu sortieren, ist die Antwort hier oder die Lösung, dass Sie Excel für eine anfängliche Dateneingabe verwenden und dann die Daten aus ihren beiden komplexeren Daten übertragen möchten -Analyseprogramm. es liegt wirklich an dir am Ende des Tages Aberes liegt wirklich an dir am Ende des Tages. 3. Daten sammeln: -Modul zum Sammeln von Daten. Jetzt ist die erste Frage, die wir beim Erstellen unserer eigenen Datenbanken stellen, um damit zu beginnen, wo bekomme ich die Daten, die ich verwenden möchte? Nun, hier gibt es ein paar verschiedene Möglichkeiten. Zunächst könnte Ihr Unternehmen Daten kaufen. Dies ist besonders nützlich für einige Arten von Daten, bei denen es vielleicht einfach nicht einfach ist, sie selbst zu bekommen . Namen und Adressen in Mailinglisten zum Beispiel ein klassisches Beispiel. Es ist sehr einfach, Namen und Adressen von Anbietern von diesen Daten zu bekommen, und es wird in der Regel viel genauer sein, als die Daten selbst zu sammeln, vor allem angesichts der Tatsache, dass sich die Menschen so häufig bewegen. Ein weiteres Beispiel für Daten, die Sie kaufen möchten, sind Finanzdaten über börsennotierte Unternehmen. Während Sie sicherlich gehen und sammeln einzelne Stücke von Informationen aus Quellen wie Yahoo, unsere CNBC über diese Unternehmen sammeln Daten in großen Mengen und sammeln tiefe Mengen von Daten über die Finanzen hinter Unternehmen ist oft schwierig, wenn Sie es nicht kaufen. Ebenso ist natürliche Restore Stada oft sehr schwierig zu bekommen, es sei denn, Sie kaufen es. Die zweite Option in Bezug auf das Abrufen von Daten besteht darin, sie zu erstellen. Die Daten zu Ihren Kunden sind oft die wertvollste zweijährige Firma, und es ist unwahrscheinlich, dass Sie diese Daten von anderswo kaufen können. Stattdessen müssen Sie diese Datenbank höchstwahrscheinlich selbst erstellen. Darauf wird sich der meiste Rest dieses Moduls konzentrieren. Drittens und schließlich können Sie Ihre Daten kostenlos sammeln. Die Bundesregierung verfügt über unentgeltliche Datenreams zu makroökonomischen Bedingungen im ganzen Land. Erhebungen des U. S. Consumer. Grundsätzlich alle Daten, die Sie auf einer makroökonomischen Ebene können. Die Fed hat wahrscheinlich etwas für dich. Nun, wenn Sie bestimmte Datenanforderungen haben, welche Art von Daten sollten Sie suchen? Nun, der Datenbedarf für Ihr Unternehmen wird von Ihren speziellen Projektanforderungen abhängen. Sie möchten damit beginnen, darüber nachzudenken, was Sie zu modellieren versuchen? Finanzökonomen beginnen immer damit, ein Modell zu erstellen und dann die Daten zu erhalten. Sobald Sie damit fertig sind, möchten Sie herausfinden, was die treibenden Faktoren sind, die das Ergebnis beeinflussen, das Ihnen wichtig ist, wenn ich Datenanalyseprojekte mache. Als Finanzökonom beginne ich immer damit, ein grundlegendes hypothetisches Modell herauszufinden beginne ich immer damit, ein grundlegendes hypothetisches Modell herauszufinden, dann gehe ich durch und finde die Daten, nach denen ich suche, die dieses spezielle Projekt unterstützen. , dann gehe ich durch und finde die Daten, nach denen ich suche, die dieses spezielle Projekt unterstützen Das ist viel effektiver als das Sammeln der Daten und der Versuch, das Modell zu erstellen. Wenn ich zuerst die Daten erfasse und versuche, das Modell zu erstellen, könnte es sich herausstellen, dass mir einige kritische Teile fehlen, die ich tun muss. Meine Analyse. Zum Beispiel Vertrieb durch internes Marketing, neue Produktinnovationenusw. gesteuert neue Produktinnovationen . Aber sie werden auch von externen Faktoren, makroökonomischen Bedingungen, Wettbewerbsverhalten, Erwartungen an die Zukunft des Marktes usw. getrieben Wettbewerbsverhalten, Erwartungen an die Zukunft des Marktes werden. Wir können ein Modell erstellen, das all diese verschiedenen Faktoren berücksichtigt, aber es ist sehr wichtig, dass wir es getan haben. Wir haben dieses Modell im Voraus gebaut, so dass wir wissen, was zu sammeln datiert. Nun, wenn es darum geht, Daten zu sammeln, wollen wir wahrscheinlich mit den einfachsten Dingen beginnen. Die makroökonomischen Daten, die ich zuvor von der Fed erwähnt habe , sind sehr einfach zu bekommen. Das können wir aus der Wirtschaftsdatenbank der Federal Reserve, der Website, bekommen. Dafür ist diese Ressource hier. Alternativ können Sie dies tatsächlich durch eine einfache Excel Adam sammeln, die Annan Excel, sobald Sie installiert haben, wird es hier gezeigt. Nachdem Sie die Anzeige installiert haben und zum Fred Tab in Ihrem Excel Modell gehen, können Sie hier eine Vielzahl von verschiedenen Arten von Wirtschaftsdaten sehen. Alles aus in diesem Fall, Miss bestimmten Tab. Reales Bruttoinlandsprodukt, um zu sagen Bundesausgaben, Bundeseinnahmen und der Bundesüberschuss und Defizit. Wir haben auch Daten nicht nur über die USA USA , sondern auch internationale Daten. Ähnlich, wenn wir nach Daten über, sagen wir, Produktion oder Geschäftstätigkeitsuchen , Produktion oder Geschäftstätigkeit könnten wir Daten von der Fed zu diesem Thema in Bezug auf industrielle Produktionskapazitätsauslastung Gehäuse Starts finden , Baugenehmigungen, im Wesentlichen alle makroökonomischen Daten, die wir für eine bestimmte Branche benötigen, die wir von der Fed erhalten können . Sobald wir die Daten gefunden haben, die wir brauchen, verwenden wir einen pneumonischen Code, um sie zu sammeln. Lassen Sie mich eine Sekunde zurückholen. Zum Beispiel, wenn wir an Fahrzeugverkäufen interessiert waren, gehen wir, um beliebte US-Daten als Produktion und Geschäftstätigkeit zu durchsuchen und klicken Sie dann auf Fahrzeug-Auto-Verkauf und wie LKW. Wenn wir das tun, kriegen wir die Verkaufspneumonik als Nächstes. Wir gehen durch und klicken darauf, dass, wenn wir den Topf dio-die Daten auf eigene Faust bevölkern . In diesem speziellen Fall die Daten auf monatlicher Basis. Es beginnt 1976 und ist bis März 2016 verfügbar. Die Daten werden uns über den Verkauf von leichten Fahrzeugen für Autos und leichte LKWs erzählen, und sie sind vom U. S. Bureau of Economic Analysis. Der wichtige Punkt hier ist, dass, obwohl wir Daten durch die Feds-Excel sammeln, hinzufügen. Es sind eigentlich keine Daten aus der Federal Reserve. Das ist die Macht des Fred Tool für Excel lässt uns nutzen viele verschiedene Datenquellen wie in diesem Fall, die B E. T. T. A ist Daten durch eine einfache und in diesem macht es viel einfacher, Daten zu sammeln. Ich würde Sie dringend bitten, wenn Sie Interesse daran haben, es zu überprüfen. Die Anzeige Innisfree. Es kostet dich nichts, und da ist eine Menge ordentliches Zeug drin. lassen Sie uns weitermachen Aberlassen Sie uns weitermachen. Zusätzlich zu Fred können Sie auch versuchen, Daten vom U. S. Census Bureau zu erhalten S. . Dies ist besonders nützlich, um Eigenschaften von Zielkunden anhand von Zählblöcken zu identifizieren . Google-Trends eignet sich auch hervorragend für Umfragedaten. Wenn Sie versuchen, als Beispiel herauszufinden, was in bestimmten Branchen oder in sozialen Medien oder solche Dinge vor sich geht , werden Google-Trends Ihnen Daten darüber geben, wonach im Laufe der Zeit gesucht wird. Das Sammeln von Daten zu Kundenkommentaren und Social-Media-Daten online ist ein weiteres sehr heißes Thema. Es ist etwas, das ich gefragt bin, ist ein Finanzökonomen die ganze Zeit im Kontext der verschiedenen finanziellen Bedürfnisse für Unternehmen gekauft sammeln, diese Art von Daten erfordert textuelle Analyse Das wird das Thema für zukünftige Kurs sein. nun einen bestimmten Datensatz haben, Wenn Sienun einen bestimmten Datensatz haben,den Sie benötigen, zum Beispiel Unternehmensfinanzinformationen für eine breite Palette von großen börsennotierten Unternehmen, könnte der Kauf dieser Daten die einzige Option sein. Einige Daten, wie ich bereits erwähnt habe, sind über Yahoo verfügbar , finanziert durch CNBC usw. Aber das Sammeln dieser Daten auf diese Weise erfordert das Schreiben eines Python-Skripts. Kauf von Daten ist in der Regel die realistischste Option, vor allem, wenn Sie daran interessiert sind, diese Daten regelmäßig zu aktualisieren. Schließlich ist die Erstellung von Datensätzen aus eigenen Daten in der Regel die wichtigste Fähigkeit für die meisten Unternehmen. Sie können sicherlich auf Ihre Kundendatenbanken tippen, um dies zum Beispiel zu tun, aber Sie können auch über die Entwicklung Ihrer eigenen Methoden zur Datenerfassung gehen. Dies ist in der Regel großartig, weil die meisten Unternehmen täglich neue Daten generieren , die bei der Analyse und bei zukünftigen Geschäftsentscheidungen nützlich sein könnten. Umfragen von Kunden können oft eine gute Option sein, aber auch hier ist es etwas, das wirklich nur verfügbar ist, wenn Sie sich bemühen, Ihre Kunden zu befragen . Zum Beispiel habe ich kürzlich an einer Investmentbanking-Umfrage gearbeitet, um einer kleinen Boutique Investment-Banking-Firma zu helfen , die Merkmale vorherzusagen, die ihnen geholfen haben, Geschäfte zu gewinnen Wir gingen durch und wir sahen uns sowohl ihre Kunden als auch ihre Kunden an, mit denen sie den Deal nicht gewonnen hatten . Also betrachteten wir sowohl die Kunden, bei denen sie gewonnen haben, als auch die Kunden oder so, als ob sie potenzielle Kunden vortäuschen . Ich sollte sagen, wo sie gerne einen Deal bekommen hätten. Wir haben uns beide Sätze angesehen und konnten dann Business Intelligence-Methoden verwenden, um herauszufinden, welche Art von Deals dieses Boutique-Investment-Banking-Unternehmen in Zukunft anstreben sollte . Das ist nur ein Beispiel dafür, wo die Finanzindustrie und insbesondere das Investment Bankingvon Business Intelligence profitieren kann, von Business Intelligence profitieren kann, aber ich bin zuversichtlich. Wenn Sie ein wenig darüber nachdenken, finden Sie viele Beispiele in Ihrer eigenen Firma, wo eine solche Datenanalyse auch hilfreich sein kann. Nun, in Bezug auf diese Umfragen, gibt es viele verschiedene Tools, die Sie verwenden können. Zum Beispiel helfen Ihnen Surveymonkey-kritische Mischung und viele andere, sobald Sie Ihre Umfrage generiert haben um Antworten zu erhalten. Dies gibt Ihnen die Möglichkeit, Informationen nicht nur über Ihre eigenen Kunden, sondern auch über die Kunden anderer Menschen zu erhalten. Die Kunden, die Sie verpasst haben, mögen möglicherweise in diesem Fall, die Investment-Banking-Arbeit, die ich getan habe, oder potenzielle Kunden, die noch nie von Ihnen gehört haben, die Sie aber gerne in Zukunft anvisieren. Als Nächstes möchten Sie über Datenverzerrungen in Ihrer Umfrage nachdenken. Wenn ich versuche herauszufinden, wie ich verkaufen kann, sind die anderen Kunden meine bestehenden Kunden repräsentativ für den Rest der Welt. zum Beispiel Wenn ichzum Beispielim Ausland in Deutschland verkaufen möchte, eine Umfrage von U. S. kanneine Umfrage von U. S. Konsumenten, die mein Produkt kaufen, mir etwas Nützliches sagen. Der Punkt hier ist, dass es wichtig ist, sicherzustellen, dass alle Umfragedaten, die ich erfasse tatsächlich repräsentativ für das Problem sind, das ich erneut zu lösen versuche. Hier kann Ihnen ein gutes Mate-Modell Ihrer Daten helfen, wenn Sie darüber nachgedacht haben , bevor Sie die Daten tatsächlich sammeln. 4. Merging: -Modul, drei zusammengeführte Datensätze. Nachdem Sie die Daten gesammelt haben, die Sie zusammenziehen müssen, ist es wichtig, diese unzähligen Datenmengen zu verwenden und sie zu einem zusammenhängenden Ganzen zusammenzufassen, das für Ihre Analyse nützlich sein kann. Das klingt einfach, aber in Wirklichkeit ist es nicht. Zum Beispiel gibt es eine Vielzahl von verschiedenen Arten von Problemen, auf die Sie stoßen können. Wir haben uns früher die Verkäufe von leichten Fahrzeugen angesehen. Diese Daten waren auf monatlicher Basis. Wenn wir stattdessen das BIP betrachten, ist dieses Datum auf vierteljährlicher Basis. Ökonomische Daten wie diese können oft unterschiedliche Frequenzen haben. Das heißt, wenn wir versuchen würden, die BIP-Daten mit den Verkaufsdaten von leichten Fahrzeugen zusammenzuführen, stoßen wir auf ein Problem. Da man monatlich gemeldet wird, wird man vierteljährlich gemeldet. Wir müssen einen Weg finden, um dieses Problem in Einklang zu bringen. Ein weiteres Beispiel. Ölpreise, Luft täglich, Wohnungsverkäufe oder monatlich und BIP ist vierteljährlich. Wenn wir also versuchen, alle drei dieser verschiedenen Datenmengen zu betrachten, müssen wir entscheiden, wie wir damit umgehen wollten. Werden wir diese BIP-Daten täglich verwenden und sie einfach einmal 1/4 ändern? Sehen wir uns die Ölpreise an? - Onley vierteljährlich? Denn so oft wird das BIP gemeldet. Wir müssen die Beziehungen herausfinden, die uns wichtig sind, und dann entscheiden, welche Art von Datenbank wir hier aufbauen wollen. Sollte eine Datenbank, die das BIP enthält, auch unsere Kundeninformationen enthalten? Wie wollen wir, dass die Datenbank aussieht? Sobald Sie herausgefunden haben, wie diese Datenbank aussehen soll, basierend auf dem Problem, das Sie lösen möchten, sollten wir versuchen, eine große Tabellenkalkulation zu erstellen. Dafür gibt es zuerst ein paar Gründe, und vielleicht ist es am wichtigsten, einfach zu überprüfen und eine große Tabellenkalkulation zu analysieren. Aber das wird uns auch helfen, herauszufinden, was unsere Beobachtungseinheit ist. Wenn wir uns um Verkäufe kümmern sind Einheit der Beobachtung. Könnte Tage des Unternehmens sein, wie viele Verkäufe wir von Montag bis Freitag, jeden Tag, dass das Unternehmen offen war, oder es könnte sein, dass unsere Einheit der Analyse Kunden ist. Wenn wir versuchen, vorherzusagen, ob ein zukünftiger Kunde zurückkommt oder den Betrag, den ein bestimmter Kunde bestellen wird, könnten wir uns nicht um einzelne Tage des Verkaufs kümmern, sondern um bestimmte Kunden und ihre Eigenschaften. Hier sind zwei Beispiele in der Spitze. Wir haben zeitabhängige Daten, die Sie hier sehen. Fiktive Daten über die Anzahl der Verkäufe an einem bestimmten Tag im Zusammenhang mit der Rettung der staatlichen Arbeitslosenquote sind, ob wir laufen oder nicht, die Vermarktung der Anzahl der Verkaufspersonen, die wir in unseren Konkurrenten haben. Preise in der Unterseite. Wir haben statische Zeitdaten. Wir haben Kunden A, B , C , D E usw. Die Verkäufe an diesen Kunden, unabhängig davon, ob wir den Kunden ermäßigten Preis angeboten haben oder nicht, die durchschnittlichen monatlichen Bestellungen für einen bestimmten Kunden und der letzte Preis, den etwas an diesen Kunden in beiden Datensätzen verkauft wurde , könnten sehr nützlich. Aber sie lassen uns ganz andere Dinge vorhersagen. Wir sind eher versuchen, so etwas wie die Anzahl der Verkäufe vorherzusagen, die nächste Woche nächstes Jahr, nächstes Quartal,haben werden nächste Woche nächstes Jahr, nächstes Quartal, . Was auch immer unten war viel wahrscheinlicher. Versuchen Sie, etwas herauszufinden, wie die Art von Nachfrage, die wir von einem bestimmten Kunden erwarten können , wenn wir den Preis ändern, den Kunden in Rechnung gestellt. Beide Probleme sind wichtig, aber die Art der Datenbank und die Art der Daten, die wir benötigen, um sie zu beantworten, sind sehr unterschiedlich. Wenn wir Zeit verbringen, bevor wir tatsächlich unsere Daten sammeln, darüber nachzudenken, was wir unser Modell wollen, das Aussehen. Und was dann? Wir wollen, dass unsere Datenbank so aussieht, als würde es uns viel Zeit und Mühe sparen und, ehrlich gesagt, Frustration später auf der Straße. Sobald Sie sich für die U-Abschaltanalyse entschieden haben, müssen Sie die Fusionsdaten durchlaufen, Siri. Um dies zu tun, muss ich eine gemeinsame Variable oder Funktion finden, um in zeitabhängigen Daten zusammenzuführen, die wir durchlaufen möchten , zum Beispiel emerge on date . Die Idee ist, dass Datum wird unter verschiedenen Variablen gemeinsam sein, und daher können wir diese Variablen in einem einzigen großen, einheitlichen Datensatz als Ergebnis zusammenführen , für Zeit, unabhängige Daten Zeit statische Daten, Das heißt, wir könnten auf etwas wie Postleitzahl zusammenführen, zum Beispiel gibt es keine einzelne Univ-Analyse oder gemeinsame Variable, die wir zusammenführen möchten. Stattdessen wird die Fusion von den spezifischen Umständen abhängen, die uns wichtig sind, und was wir versuchen, gekauft zu analysieren, wenn wir unseren Datensatz überprüfen, müssen wir sicherstellen, dass die Zusammenführungsvariable einzigartig ist. Dies kann zu einem großen Problem führen, an das viele Leute nicht unbedingt denken. Zum Beispiel, in einigen der Finanzprojekte, an denen ich gearbeitet habe, werden Kunden oft sagen: Nun, Nun, lassen Sie uns an, sagen wir, Aktienticker zusammenführen sagen wir, . Jedes Unternehmen hat seinen eigenen Börsenticker, und das ist wahr. Aber was viele Menschen nicht erkennen, ist, dass Aktienticker im Laufe der Zeit wiederholt werden. Zum Beispiel könnte ABC Unternehmen heute auf eine bestimmte Firma beziehen. Nehmen wir an, wo es vor 10 Jahren auch auf ein anderes Unternehmen verwiesen hat . Das Unternehmen könnte in Konkurs gegangen sein oder ganz zu einer anderen Firma zusammengeführt worden sein. Wurde erworben, das heißt, und das Ticker-Symbol. ABC wurde wieder verfügbar, bis es heute von der Firma eins verwendet wurde. Infolgedessen sind Börsenticker keine eindeutige Variable, die beim Zusammenführen unserer Daten verwendet werden kann. Wenn wir uns eine Zeitreihe von Daten ansehen, könnten sie im Laufe der Zeit für verschiedene Unternehmen wiederholt werden, die wir keinen Klumpen zusammen wollen . Stattdessen müssen wir etwas namens Q Sips verwenden, wenn wir uns die Finanzinvestitionsdaten ansehen beschuldigen Sie einfach wie eine Sozialversicherungsnummer. Es ist spezifisch für ein bestimmtes Unternehmen, und es existiert für alle Zeiten, ob das Unternehmen aus dem Geschäft geht oder nicht, usw. Es wird nie neu zugewiesen, wie Ticker sind. Wenn wir ein Softwareprogramm wie Sasse verwenden oder Stada zusammenführen möchten, werden unsere Daten, die Code in Excel verwenden, ihn mit der V Nachschlagefunktion gehört. Wenn Sie mit der V Nachschlagefunktion zusammenführen, sollten wir immer überprüfen, ob sie nach dem Zusammenführen kommt. Sie könnten insbesondere fehlerhaft sein. Verwenden Sie immer den Bereich, suchen Sie den Wert in der V, suchen Sie die Funktion nach und geben Sie eine genaue Übereinstimmung anstelle einer ungefähren Übereinstimmung an. Wenn Sie nur eine ungefähre Übereinstimmung angeben, erhalten Sie zahlreiche Probleme. Sie können auch H Nachschlagefunktionen verwenden, aber es ist besser für eine Analyse, dass Variablen über die Spitze laufen und dann die Beobachtungen vertikal ausgeführt werden, anstatt umgekehrt. 5. Cleaning: Modul zum Säubern von Datenbanken. Wenn wir Daten bereinigen, ist es wichtig zu verstehen, dass fast alle großen Datensätze einige Probleme haben. Diese potenziellen Probleme können Dinge wie betrügerische Daten in den extremen Datenfehler die an einem bestimmten Punkt eingegeben wurden, in der Regel versehentlich echte Daten, einfach nicht repräsentativ für typische Umstände Daten trans Positionen. Nun, wenn Sie durchgehen und unseren Datensatz auf Fehler testen wollen, ihre spezifischen Verfahren, die wir verwenden können, um dies zu tun. Um also auf Datenfehler zu testen, möchten wir damit beginnen, alle Werte zu ersetzen, die keinen Sinn ergeben. beispielsweise Wenn wirbeispielsweiseden täglichen Umsatz oder das Firmenvermögen betrachten, sollte es niemals negative Werte geben. Es ist normalerweise am besten, fragwürdige Werte zu löschen, es sei denn, wir haben einen kleinen Datensatz In diesem Fall wird eine Ersetzung dieser Werte jetzt erforderlich sein. Im Allgemeinen werden wir über einen kleinen Datensatz denken ist weniger als 500 Beobachtungen. Wenn wir mindestens 500 Beobachtungen haben, sollten wir durchgehen und versuchen, unser Bestes zu erraten, was der richtige Wert ist und diese Daten ersetzen. Im Idealfall jedoch für nur 500 Beobachtungen. Wenn möglich, möchten wir zurückgehen und bestätigen, dass die Werte in unserem korrekten, das heißt, gehen durch falsche unseren Datensatz mit größeren Datensätzen von, sagen wir, 10 20 150.000 Beobachtungen. Das wird in den meisten Fällen einfach nicht praktikabel sein. Und wenn wir 100.000 Datenbeobachtungen haben, solange die meisten unserer Daten gut sind, wird Löschen einiger Werte keinen großen Unterschied machen, wenn wir mehr als 20% unserer Werte oder 10% unserer Werte fallen lassen solange die meisten unserer Daten gut sind, wirddas Löschen einiger Werte keinen großen Unterschied machen, wenn wir mehr als 20% unserer Werte oder 10% unserer Werte fallen lassen. Das natürlich schafft natürlichein Problem. Aber ehrlich gesagt, wenn wir mehr als drei oder 4% unserer Werte haben, die Fehler in ihnen haben, haben wir wahrscheinlich einen fehlerhaften Datenerfassungsprozess in erster Linie. Wir müssen also zurückgehen und uns die Politiken und Verfahren ansehen, die wir haben, mit denen wir diese Daten sammeln können. Es wird wahrscheinlich einige Probleme geben, die als nächstes korrigieren wollen. Um unsere Datenpunkte zu testen, wollen wir den Mittelwert und Standardabweichung für jede Variable durchlaufen und finden . Diese statistischen Maßnahmen werden entscheidend dafür sein, dass wir die Art der Hypothesentests, die ich bereits erwähnt habe, im Zusammenhang mit der Korrektur möglicherDatenfehler, durchlaufen Art der Hypothesentests, die ich bereits erwähnt habe, im Zusammenhang mit der Korrektur möglicher und durchführen. Insbesondere möchten wir eine Überprüfung durchführen, um alle unsere Datenpunkte zu kennzeichnen, die mehr als drei Standardabweichungen vom Mittelwert sind . Die Idee ist, dass bei einer Normalverteilung die meisten Datenpunkte insbesondere innerhalb dieser drei Standardabweichungen liegen sollten. Wenn wir darüber nachdenken, ist ein zweistöckiger Hypothesentest. Weniger als 1% unserer Daten sollten mehr als drei Standardabweichungen vom Mittelwert fallen, da dies nur ein sehr kleiner Teil unserer Daten sein wird. Es ist eine gute Idee, zu gehen und zu markieren, dass Datenpunkte sie nicht löschen. Sie sind nützliche Daten, und es gibt nicht notwendigerweise einen Hinweis darauf, dass sie falsch liegen. Aber wir wollen sie kennzeichnen, wenn wir feststellen,dass viel mehr als feststellen, 1% unserer Daten mehr als drei Standardabweichungen von dem Mittelwert sind, der darauf hindeutet, dass unsere Daten in gewissem Sinne ungewöhnlich sind, wo es ein Problem geben könnte, wenn unser mittlerer und Median sind dramatisch verschieden. Zum Beispiel wird uns das sagen, dass unsere Daten verzerrt sind. Wir müssen entscheiden, ob dies ein Problem ist, das auf dem Problem basiert, das jetzt dasselbe Verfahren untersucht hat, das die Anzahl der Standardabweichungen vom Mittelwert für einen bestimmten Datenpunkt untersucht, das Verfahren verwendet werden kann, um auf ungewöhnliche Werte in Variablen können die Realität nicht genau darstellen. Ein weiteres Problem in der Datenanalyse, die ich bereits erwähnt. In ähnlicher Weise wird es nützlich sein. Markieren Sie alle Beobachtungen in den oberen 1% unserer Daten und im unteren 1% unserer Daten. Das nennt man Siege. Diese Beobachtungen müssen nicht fallen gelassen werden. Aber wir sollten ohne diese Datenpunkte Analysen mit ihm durchführen, um sicherzustellen, dass sie unsere Ergebnisse nicht vorantreiben. Ein kritischer Fehler, den wir machen könnten, zum Beispiel, ist, zu gehen und zu denken, dass unsere Verkäufe dramatisch höher sein können, wenn wir X Y Z-Verfahren befolgen , wenn dies in Wirklichkeit nur für eine kleine Teilprobe unserer -Daten. Angenommen, die Top-1% unserer Kunden waren die unteren 1% unserer Kunden, die diese Daten kennzeichnen und dann unsere Analyse mit und ohne diese speziellen Datenpunkte durchführen. Lassen Sie uns diesen Test sicherstellen, dass die Daten für diese Winde, entstandenen Punkte oder diese Flaggenpunkte im Vergleich zum Massendatensatz insgesamt ähnlich sind. Und es lässt uns auch sicherstellen, dass unsere Ergebnisse nicht von einer Teilprobe unserer Gesamtdaten gesteuert werden. Dies führt zu einem weiteren sehr wichtigen Thema. Ben Friends Gesetz. , Eines der schwierigsten Dinge,mit denen man sich in der Datenanalyse beschäftigen muss, ist das Potenzial für gefälschte Daten. Eine der besten Faustregeln für das Testen großer Datensätze auf gefälschte Daten ist Ben Friends Law. Ben Foods Loss sagt, dass in echten echten Daten die Nummer eins am häufigsten sein sollte. Die Nummer zwei sollte die nächsthöhere sein, gefolgt von der Zahl drei, der Zahl vier usw. Um zu veranschaulichen, warum dies der Fall ist, denken Sie an den Aktienmarkt. Es dauerte viel länger, bis der Industriedurchschnitt von Dow Jones von 1000 auf 2000 ging als von 17.000. Es ist einfach eine Frage des Wachstums innerhalb der Märkte. Von 1000 auf 1100 zu gehen, ist eine 10% ige Bewegung in den Märkten in der Theorie, dass 10% bewegen, um ungefähr die gleiche Menge an Zeit zu nehmen wie von, sagen wir, 16.800. Auch eine 10% Bewegung, die noch von 1000 auf 1100 geht Onley bewegt uns einen Bruchteil des Weges zwischen den Datenpunkten von 3000 versus gehen von 16.800 bewegt uns die überwiegende Mehrheit der Entfernung zu den 9000 Punkten auf der Dow Jones Industrie Durchschnitt. So, wenn wir höher und höher gehen, die Bewegung dieser kleiner und kleiner auf einer prozentualen Basis, Ben Foods Gesetz erfasst dies einfach in einer eleganten Form. Beim Durchgehen und Betrachten von Daten sollte die Nummer eins die häufigste Zahl sein, gefolgt von der Nummer zwei usw. Suchen Sie nach diesem Muster in unseren Daten und wir können sagen, ob die Daten, die Israel oder die untenstehende Tabelle vortäuschen , uns die Häufigkeit jeder Zahl in echten Daten zeigen wird. Denken daran, dass es in jedem Datenbeispiel etwas Abweichung davon geben wird. Aber im Durchschnitt etwa 30,1% aller Zahlen alle Ziffern in echten Daten sollte die Nummer eins sein 17,6% sollte die Zahl zwei 12,5% sein sollte die Zahl drei 9,7% sollte die Zahl vier 7,9% Straße sein. Die Zahl fünf 6.7% sollte die Zahl sechs 5.8% sollte die Zahl sieben sein. 5,1% sollten die Zahl acht sein, und 4,6% sollten die Zahl neun sein. Wenn Sie durchgehen und Sie einen Datensatz suchen und feststellen, dass er sich dramatisch von diesem unterscheidet , garantiert es nicht unbedingt die Reise betrügerische Daten. Aber es bedeutet, dass es wahrscheinlich ratsam ist, die Quelle dieser Daten zu überprüfen und selbst zu entscheiden, wie vertrauenswürdig diese Daten sind. Sie würden keine großen Entscheidungen treffen wollen, ohne durchzugehen und ziemlich zuversichtlich zu sein , dass die Daten korrekt waren. Ben Foods Gesetz mag einfach erscheinen, aber in Wirklichkeit ist es ein extrem leistungsfähiges Werkzeug. Zum Beispiel in einer berühmten Forschungsstudie, zeigten Ökonomen in einer berühmten Forschungsstudie,dass Enrons Daten und Finanzdaten nicht Ben für Gottes Gesetz folgten . Wenn die Wirtschaftsprüfer Ben Fritz Law bei der Bewertung von Enrons Büchern angesehen hätten , sagen wir einfach, dass das Ergebnis dieser Geschichte sehr unterschiedlich gewesen sein könnte 6. Fallstricke in der Datenerhebung: -Modul. Fünf Fallstricke beim Erstellen von Datensätzen Es gibt einige wichtige Probleme in den Daten, auf die Sie stoßen können , die nützlich sind, um zu verstehen, wie Sie damit umgehen. Vor allem. Die erste ist, was zu tun ist, um zu viele Daten zu verpassen. Die zweite ist Souness in Daten Ah, dritte ist un beobachtbare Variablen und indoktrinierend. Ach, viertens, wenn wir eine kleine Teilprobe haben, die unsere Ergebnisse vorantreiben könnte. All diese Probleme können sehr schwierig zu bewältigen sein, aber wir werden über einige Strategien für jeden von ihnen sprechen, während wir dieses Modul im Besonderen durchlaufen . Lassen Sie uns beginnen, indem wir über Datensätze nachdenken, die zu viele Variablen fehlen. Wenn wir einen Datensatz haben, in dem zu viele Daten fehlen, kann dies zu fehlerhaften Schlussfolgerungen führen. Es ist nicht klar, warum die Daten überhaupt fehlen und ohne zu wissen, dass wir nicht wissen, ob es ein Problem für unsere Analyse ist oder nicht. Sie müssen also sehr vorsichtig in solchen Situationen sein. beispielsweise Wenn wirbeispielsweiseFinanzdaten von ausländischen Unternehmen studieren, werden nur Daten der größten Unternehmen in den meisten Fällen außerhalb der Berichtsanforderungen in den USA verfügbarsein der Berichtsanforderungen in den USA verfügbar , einfach und sie sind nicht streng wie in den USA. werden nicht so gründlich befolgt, und sie sind nicht streng wie in den USA. Infolgedessen neigen Onley größere Unternehmen dazu,genau und konsequent über ihre Finanzen zu berichten. Infolgedessen neigen Onley größere Unternehmen dazu, Kleinere Firmen neigen dazu nicht dazu. Häufig fehlen die kleinen Daten der kleineren Firmen. also versuchen, Wenn wiralso versuchen,eine einfache Analyse der, sagen wir, Vermögensgröße von sagen wir, Unternehmen außerhalb der USA , wird dies zu einem verzerrten Bild führen. In diesem speziellen Fall werden wir feststellen, dass wir , aufgrund unserer Analyse feststellen, dass die meisten ausländischen Firmen viel größer sind als sie tatsächlich sind. Und das sehen wir in der Praxis. So könnte uns zum Beispiel alle Entscheidungen kaufen , die wir treffen könnten, ob wir einen ausländischen Markt betreten oder nicht. Vielleicht werden wir glauben, dass die Firmen viel größer sind, als sie tatsächlich sind. In Wirklichkeit kann die gleiche Art von Problem in anderen Arten von Analysen auftreten. Als allgemeine Faustregel. Wenn Sie mehr als etwa 25% der Werte, eine beliebige Variable in einem Datensatz, fehlen , ist es an der Zeit, diese Daten genauer zu betrachten. Möglicherweise können Sie dieses Problem beheben oder nicht, aber wenn Sie nicht können, müssen Sie entscheiden, ob die Schlussfolgerungen, die Sie aus diesen Daten ziehen, wirklich gültig sind oder nicht . nächstes Lassen Sie uns alsnächstesüber Skew nous und Data Skew nous sprechen und Daten könnten ein Problem sein, abhängig von den Daten, die untersucht werden. Ah, klassisches Beispiel dafür sind Einkommensniveaus. Wenn wir zumBeispieldas durchschnittliche oder mittlere Einkommen für unsere Kunden betrachten, Beispiel wird das zu einer verzerrten Ansicht führen. Niemand hat ein Einkommensniveau weniger als $0, während einige Leute ein Einkommen über $1.000.000 haben . Das ist que nous könnte eine Art Analyse über optimale Preisgestaltung verzerren, die in einer Preisdiskriminierung Bemühungen verwendet wird . Zum Beispiel, in einem aktuellen Projekt, an dem ich beteiligt war, ah, Unternehmen hatte durchgemacht und wir schauen uns ihre Kunden an, um vorherzusagen, welche Art von optimalem Preis sie berechnen könnten, indem sie die mittleren Daten verwenden. Sie hatten tatsächlich ein paar sehr wohlhabende Kunden, und sie glaubten, ihre Kunden seien viel weniger preissensibel, als sie es tatsächlich waren. Im Fall des Unternehmens führte das Unternehmen dazu, den Preis zu viel zu erhöhen, schaden ihren Umsatz. Während die Preisdifferenzierung in dieser Art von Studie sehr nützlich ist, müssen wir sicherstellen, dass wir die entsprechende metrische Einstellung verwenden. Das durchschnittliche Einkommen unserer Kunden tatsächlich ist der Median ist ein viel besseres Indiz dafür im Durchschnitt. Wenn unsere Daten verzerrt sind, kann dies ein Problem sein oder auch nicht. So oder so, Daten können nicht abgeschraubt werden Daten können nicht abgeschraubt werden. Stattdessen müssen wir bestimmte statistische Werkzeuge verwenden, wenn wir unsere Finanz- und Wirtschaftsanalyse durchführen. Diese Werkzeuge sind nicht unbedingt so kompliziert, aber Sie können oder nicht vertraut sein mit, ähm, ähm, und deshalb ist es wichtig, durchzukämmen und ein wenig zu recherchieren, bevor Sie zu diesem Punkt kommen . 1/3 Problem, mit dem wir konfrontiert sein könnten, ist UN-beobachtbare Variablen. Manchmal werden Ergebnisse für eine Geschäftsentscheidung einfach durch eine Variable gesteuert, die nicht beobachtet werden kann . Zum Beispiel, wenn wir versuchen, vorherzusagen, welche Bewerber die besten Mitarbeiter sind, kann das eine fruchtlose und frustrierende Aufgabe sein. Es könnte sein, dass die besten Mitarbeiter die intelligentesten sind. Aber wir können Intelligenz nicht direkt messen, zumindest wenn wir anfangen, für I Q-Tests richtig zu bezahlen. Wir können dieses Problem durch unbeobachtbare Variablen lösen, die korreliert werden sollten. Zum Beispiel, mit Intelligenz, könnten wir gehen durch und schauen uns S a T Partituren College G p A. um Proxy für Intelligenz. Es ist nicht perfekt. Natürlich weder College g p A noch S a T Bewertungen direkt Intelligenz voraus, aber sie sind verwandt. Es wäre sehr ungewöhnlich für jemanden, der nicht sehr intelligent ist, sehr hoch auf seinem S, a ts oder von einem sehr hohen College G p. Auch hier ist es nicht perfekt, und wir müssen uns dessen bewusst sein. Aber es kann oder nicht die beste Wahl sein, die wir haben. Wir müssen entscheiden, ob wir eine gute Proxy-Variable für unseren unbeobachtbaren Faktor finden können. Wenn wir das nicht können, müssen wir spezielle statistische Techniken in unserer Analyse verwenden. Ein weiteres Problem, das wir haben könnten, ist die Möglichkeit, dass eine Teilprobe unsere Ergebnisse antreibt. Manchmal ist eine Teilprobe unserer Analyse auffällig Sie unsere Schlussfolgerungen. beispielsweise erfolgtbeispielsweise die Mehrheit der Aktienrenditen in einem bestimmten Jahr in der Woche der Sitzungen der Federal Reserve . Die Fed trifft sich regelmäßig das ganze Jahr über, und die meisten Aktienrenditen, Studien haben ergeben, finden in der einwöchigen Periode vor und nach der Fed Zusammentreffen statt. Es ist ein winziger Teil der Gesamtzahl der Handelstage auf dem Markt, aber es ist die wichtigste Stichprobe des Jahres. meisten anderen Tage im Jahr ansieht, wird dies zu weniger aussagekräftigen Schlussfolgerungen über die Gesamtrendite führen , um Probleme mit Sub-Samples zu vermeiden. Wir treiben unsere Ergebnisse voran. Es wird immer am besten sein, unsere Analyse in verschiedenen Zeiträumen durchzuführen. Zum Beispiel könnten wir die Faktoren überprüfen, von denen wir glauben, dass sie Aktienrenditen vorhersagen, und sehen, ob sie in jedem Monat des Jahres eine Vorhersagekraft haben oder nicht nur in den Monaten, in denen die Fed zusammenkommt. Lassen Sie uns durchgehen und darüber reden, was wir zuerst gelernt haben. Wenn wir Datenbanken bewerten, müssen wir uns der Unterschiede in teuren kommerziellen Datenbanken bewusst sein und ob es für uns richtig ist oder nicht . Die Alternative besteht darin, generische Datenerfassungsmethoden zu verwenden. Diese haben jedoch ihre eigenen Probleme, jedoch ihre eigenen Probleme, und insbesondere können sie mehr Aufwand von Ihren Mitarbeitern erfordern. Als nächstes sprachen wir über das Sammeln von Daten. Es ist wichtig, in der Lage zu sein, Daten zu durchsuchen und zu kombinieren, die aus einem unterschiedlichen Array von Quellen erstellt, gekauft und gesammelt wurden , die Daten, die wir gesammelt haben, zu nehmen und alles in einem nützlichen Datensatz zusammenzufassen, was wir als Zusammenführung unserer Daten bezeichnen, um unsere Daten zusammenzuführen. Wir müssen entscheiden, was Univ-Analyse ist und dann die Daten entsprechend zusammenführen. Denken Sie daran, dass unsere Analyseeinheit einzigartig sein muss, damit wir unsere Daten korrekt zusammenführen können. Als nächstes sprachen wir über das Bereinigen unserer Daten. Als nächstes sprachen wir über das Bereinigen unserer Daten, um unsere Daten zu bereinigen. Wir müssen durchlaufen und auf eine Vielzahl potenzieller Probleme testen. Zum Beispiel Dinge wie fehlende Daten, verzerrte Daten, potenziell betrügerische Daten usw. Um diese Probleme zu testen, gibt es eine Vielzahl von verschiedenen Arten von statistischen Techniken, die wir verwenden können. Diese reichen von Dingen wie Gewinnen und Betrachten von Mitteln und Medianen bis hin zu Regeln wie Ben Foods Law. Schließlich sprachen wir über Fallstricke in Daten. Es ist immer wichtig, Ihre Daten auf mögliche Probleme zu überprüfen und wenn Sie etwas Ungewöhnliches finden , haben Sie eine Technik, um mit dem Problem umzugehen. Ich habe versucht, eine Skizze viele der Techniken, die Sie benötigen, um diese Art von Analyse und diese Art der Überprüfung in dieser Präsentation zu gehen . Ich hoffe, Sie haben diesen Vortrag genossen. Ich habe diese Gelegenheit genossen, mit Ihnen zu reden. Danke, dass Sie zugesehen haben. Suchen Sie nach zukünftigen Kursen in Business Intelligence-Techniken, die in Kürze kommen. Wir sehen uns das nächste Mal.