Angewandte Datenwissenschaft - 4 : Datentechnik | Kumaran Ponnambalam | Skillshare

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Angewandte Datenwissenschaft - 4 : Datentechnik

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

6 Einheiten (1 Std. 12 Min.)
    • 1. Über angewandte Datenwissenschaft

      8:12
    • 2. Datenerfassung

      16:01
    • 3. Datenbereinigung

      10:50
    • 4. Datentransformationen

      11:09
    • 5. Text TF IDF

      14:53
    • 6. R Beispiele für die Datenverarbeitung

      11:14
  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Alle Niveaus

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

191

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Dieser Kurs ist Teil der "Applied Data Science Series" auf SkillShare von V2 Maestros. Wenn du den gesamten Kurs durchlaufen möchtest, melde dich bitte für alle anderen Kurse an und gehe in der angegebenen Reihenfolge durch.

Dieser Kurs konzentriert sich auf das Data Engineering. Es geht durch die Schritte der Datengewinnung, Reinigung, Transformation und Text

Triff deine:n Kursleiter:in

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Kursleiter:in

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Vollständiges Profil ansehen

Kursbewertungen

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%
Bewertungsarchiv

Im Oktober 2018 haben wir unser Bewertungssystem aktualisiert, um das Verfahren unserer Feedback-Erhebung zu verbessern. Nachfolgend die Bewertungen, die vor diesem Update verfasst wurden.

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen bei Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Über angewandte Datenwissenschaft: Hey, willkommen zum Kurs sind Datenzeichen mit unserem Dies ist Ihr Lehrer, Cameron Parnham gehören aus Video Mastro's Let's Go Through und verstehen, worum es bei diesem Kurs geht. Das Ziel des Kurses ist es, Studenten zu ausbilden, um vollwertige Datenpraktiker zu werden. Daher konzentrieren wir uns darauf, Menschen zu Praktizierenden zu machen, die in Ereignisdaten ausführen können, da das Projekt von Anfang an Daten bis hin zur Transformation, Laden in ein endgültiges später unser Ziel und dann Durchführung von Organanalysen auf schließlich Erreichen einiger Geschäftsergebnisse aus dieser Analyse, was tun Sie Was Sie, indem Sie diesen Kurs nehmen, ist Sie verstehen das Konzept und die Konzepte der Datenzeichen, Sie verstehen die verschiedenen Phasen in der im Lebenszyklus von einer Data Science -Projekt entwickeln Sie Fähigkeiten, um unsere ANDI nutzen zu können, sind in allen Phasen von ANALITICO direkt von explorativen Datenanalyse bis hin zur Direktive pro Stunde. Es dauert bis zum Modellieren der Zehe. Schließlich die Vorhersage mit maschinellen Lernalgorithmen lernten die verschiedenen Data Engineering-Tools und Techniken über die Datenerfassung und Bereinigung von Daten auf Transformation Daten. Erworbene Kenntnisse über den Freund Machine Learning Techniken auf auch lernen, wie Sie sie verwenden können und vor allem, dann können Sie sie zu einem vollwertigen Data Science Praktiker werden und wer kann sofort beitragen Daten aus dem realen Leben. Wissenschaftsprojekte nichtzu erwähnen, dass Sie dieses Wissen zu Ihrem Interview bringen wollen , damit Sie eine Position in Data Science bekommen können. Terry war diese Praxis, die wir dieses besondere Ding von Theorie gegen Praxis, Daten, Zeichen, Prinzipien, Tools und Techniken berühren wollten Praxis, Daten, Zeichen, Prinzipien, Prinzipien, . Bild aus verschiedenen Schildern und Ingenieurdisziplinen. Nein, sie kommen aus Informatik, Informatik , Information, Information, Terry Wahrscheinlichkeit und begann Sticks, künstliche Intelligenz und so eine auf theoretische Studie von Daten Zeichen es konzentrieren sich auf diese wissenschaftliche Grundlage und Argumentation aus den verschiedenen Mission Learning Gardens. Es konzentriert sich auf den Versuch zu verstehen, wie diese Mission Salgados Arbeit in einem tiefen Sinn lernen kann, um Ihre eigenen Algorithmen auf zu entwickeln. Entwickeln Sie Ihre eigene Implementierung dieser Algorithmen, um einen echten Ball Probleme vorherzusagen. Nur einer wohnt in viel weg in unseren Gleichungen und formell über Entbehrungen und Argumentation. Während der Pakt ist auf der Spitze spät an einem Teil der Daten, Wissenschaft konzentriert sich auf ein Spiel die Werkzeuge, Prinzipien und Techniken, um Geschäftsprobleme zu lösen bekommen den Fokus auf den Versuch vorhandene Techniken und Werkzeuge und Bibliotheken verwenden auf wie Sie diese nehmen und ein Spiel sie wirklich Probleme zu arbeiten und kommen mit Geschäft verdient. Dieser konzentriert sich auf ein angemessenes Verständnis der Konzepte und Kenntnisse darüber, was die Tools und Bibliotheken zur Verfügung stehen, wie Sie diese Tools und Bibliotheken verwenden können, um reale Probleme zu lösen . Dieser Kurs konzentriert sich also auf die Praxis aus späteren Zeichen, und deshalb heißt es Applied Data Science Neigung der Kurse. Diese Datenwissenschaft ist ein transdisziplinäres Thema, und es ist ein komplexes Thema. Es geht nicht vor allem um drei technische Bereiche, auf die man sich konzentrieren muss. Es gibt also Mathematik und Statistiken, die Mission Learning ist. Und es gibt Programmierung auf diesem Kurs ist darauf ausgerichtet. Wissen Sie, Programmierung orientiert sich an bestehenden Software-Profis. Es ist stark auf Programmierung und Lösungsaufbau fokussiert. Es hat begrenzt und verlangte erforderliche Explosionsbelastung. Die Mathematik und Statistiken auf sie deckt Überblick Off Machine Learning Konzepte gibt Ihnen artikulieren Verständnis davon, wie diese maschinelles Lernen alle bewacht sie Bücher. Aber der Fokus liegt auf der Verwendung des vorhandenen Tools zur Entwicklung der realen Welt Lösung. In der Tat, 90 95% andere Arbeit, die später Wissenschaft Zeit. Nur tun in der realen Welt ist die Praxis der Datenwissenschaft. Nicht wirklich, Terry, von größerer Wissenschaft und dieser Kurs ist bestrebt, die Dinge einfach und sehr leicht zu verstehen. Also haben wir das definitiv sehr einfach gemacht. Wir haben uns von einigen der komplexen Konzept ferngehalten. Entweder haben wir versucht, den Ton nach unten Diese komplexen Konzepte sind einfach von ihnen ferngehalten , so dass es leicht für das Verständnis für Menschen aller Ebenen aus Wissen im Bereich der Datenwissenschaft macht . Es ist also eine Art von einem großen Krankenschwester Kurs. Wenn ich sagen darf, dass die Kernstruktur es geht durch die Konzepte des größeren Sinnes zu Beginn, was genau ist ihre zugeordnet? Wie funktioniert Data Science? Es untersucht den Lebenszyklus der Datenheiligen mit ihren verschiedenen Lebenszyklusstadien. Es geht dann in einige Grundlagen der gestarteten Sticks, die für die Durchführung von Datenzeichen erforderlich sind. Es geht dann in unsere Programmierung. Es Frage nach vielen Beispielen, wie Sie unsere Programmierung für verschiedene Phasen in Data Science Projekt verwenden würden . Die verschiedenen Stufen in Daten gesendet verletzt Data Engineering, Teil Aufwand. Welche anderen Dinge, die Sie normalerweise dort tun, die eine der Best Practices im Bereich der wellenförmigen Daten entwickeln, deckt es diese Bereiche ab. Schließlich gibt es den Modellierungs- und Predictive Analytics-Teil, in dem wir in die Mission Learning oder Gott Adams einbauen . Wir betrachten auch Endo und Anwendungsfälle für diese maschinellen Lernalgorithmen, und es gibt auch einige fortgeschrittene Themen, die wir ansprechen. Schließlich gibt es ein Ressourcenbündel, das als Teil dieses Kurses kommt, und dieses Ergebnisbündel enthält grundsätzlich alle Datensätze. Die Daten reichten das Beispielgericht Beispiel Mantel auf jene Art von Dingen, die wir tatsächlich als Teil dieses Kurses unterrichten, der in den Beispielen behandelt wird, alle von ihnen sind im Ressourcenbündel angegeben . Also kenne ich nicht das Ressourcenbündel, das alle Daten enthält, die Sie benötigen, und alle Kernbeispiele , die Sie benötigen, damit Sie dieselben Dinge selbst experimentieren können. Richtlinien für Studenten, das Fasten dieser Zehe verstehen ihre Daten. Saints ist ein komplexes Thema. Es braucht erhebliche Anstrengungen, um es zu verstehen. Stellen Sie also sicher, dass, wenn Sie stecken bleiben, überprüfen und entlasten Sie die Videos und Übungen tut. Er rief Hilfe aus anderen Büchern über Landempfehlungen und Supportforen an. Wenn Ihre Anfragen 1000 Bedenken tun, und das ist eine private Nachricht, und das ist eine private Nachricht,haben wir diese Frage gestellt, und wir werden wirklich glücklich sein. Toe reagierte das so schnell wie möglich. Wir sind ständig bemüht, unsere Kurse zu verbessern, daher ist jede Art von Feedback, das Sie haben, willkommen. Bitte geben Sie Feedback durch private Nachrichten sind zwei E-Mails am Ende des Kurses . Wenn Sie den Kurs mögen, geben Sie eine Rezension. Bewertungen sind hilfreich für andere neue potenzielle Studenten, um diesen Kurs zu nehmen und Maxim Disc diejenigen von anderen zukünftigen Kursen von We Do Mastro zu erwarten , wollen wir das einfach für unsere Schüler Beziehung mit dem anderen zu machen. Wir tun Master-Kurse sind Kurse auf Data Science konzentriert, wirklich ein Themen im Grunde, Technologien, Prozesse, Werkzeuge und Techniken der Daten Heiligen auf. Wir wollen unsere Kurse so weit wie möglich autark machen, nicht wahr? Also, was das bedeutet, ist, wenn Sie ein bestehender, wir tun Master Student sind, werden Sie sehen einige Inhalte und Beispiele in allen Kursen wiederholt. Wir wollen uns zu einer Vision machen Also, anstatt das zu sagen, irgendein Punkt in dem Kurs? Okay, Mädchen, sieh dir despotisch an wie andere Kurse. Registrieren Sie sich für den anderen Kurs und erfahren Sie mehr darüber. Wir wollen uns lieber auf diesen Kurs selbst konzentrieren. Bewahren Sie zwei Dinge im selben Kurs auf. Es sei denn, das andere Konzept ist ein riesiges Konzert. Das selbst von separatem Kurs. Wir wollen nach Indien sie als Teil dieses Kurses selbst. So können Sie einige Inhalte sehen, die in allen Kursen wiederholt werden. Schließlich hoffen wir, dass dieser Kurs Ihnen hilft, Ihre Karriere voranzutreiben. Also viel Glück. Glückliches Lernen auf Bleiben Sie nicht in Kontakt. Vielen Dank. 2. Datenerfassung: Hallo. Welcome Zeh. Dieses Modell auf Datentechnik. Dies ist Ihr Lehrer, der hier üblich ist. Data Engineering ist ein wichtiger Teil von Datenzeichen auf es ist der schwierigste Teil der Datenzeichen . Abrufen von Daten aus der Quelle stellt sicher, dass die Daten gültig und zuverlässig sind und sie bei Transformationen bereinigen und in ein Repository einfügen, aber sie können richtig analysiert werden, ist eines der schmerzhaftesten Vertrauenswürdigkeiten, die Sie tun. Tat, Engineering ist es die schmerzhafteste, mühsamste, zeitaufwendigste, was Ihnen Kopfschmerzen in Ihrem Data Engineering Leben geben wird, Arthur, Ihrem Data Science Leben. Beginnen wir also mit dem Versuch zu sehen, welche Art von Datenquellen existieren auf unseren, welche Art von Datenquellen und Datenwissenschaftlern werden mit, äh, die Datenquellen spielen eine sehr wichtige Rolle bei der Bestimmung, welche Art von Datenverarbeitung Sie tun. Die Art der Daten, die Quelle der Rate der Domänen, welche Art von Datenverarbeitung Sie auf welche Art von Datenverarbeitung durchführen, Architekturen und Arbeitsabläufe Sie einrichten würden. Und das hängt davon ab, welche Art von Datenqualität in der Arbeit, die Exes für die Quelldaten. Ist damit verbunden wirklich zuverlässig? Es kann angenommen werden, dass Sie viele Überprüfungen und meine Anteile an Validierungen durchführen müssen, um sicherzustellen , dass die Daten tatsächlich neu gekennzeichnet sind. Dies wirkt sich auch auf Ihre Netzwerkplanung aus. Da die Größe der Daten und der Ort, an dem die Daten auf der Bandbreite vorhanden sind, die zum Verschieben der Daten von einem Ort an einen anderen erforderlich ist, wirken sich alle auf Ihre Netzwerkplanung aus. Möglicherweise haben Sie die Vorsicht der Fehlertoleranzfähigkeiten. Wenn die Daten zu einem gehen, was wir nennen und uh, wirklich riskantes Netzwerk, oder sind, dass die Daten kommen in Echtzeit auf, Sie können nicht weiter gehen wieder verarbeiten die Daten. So ist Ihr Abstieg von $4 Fähigkeiten Sicherheit eine wichtige Überlegung. Regel derRegelwerden viele Sicherheitsmaßnahmen eingeführt, insbesondere wenn die Daten überfließen. Organisationen sind Die Daten stammen aus den Clouds. Es gibt auch organisatorische Grenzen zu bewältigen, weil Sie vielleicht in einer Abteilung sitzen , dann müssen die Daten in einer anderen Abteilung sitzen und Sie müssen durch die organisatorischen Grenzen arbeiten , um Zugriff auf die Daten zu erhalten Holen Sie die Daten in Ihre Domain, um mit der Arbeit zu beginnen. Welche Art von Daten? Quellen, dass die erste Art von Datenquelle die Unternehmensdatenquellen sind, die die Datenquellen tatsächlich in Ihrem Unternehmen oder Ihrer Organisation vorhanden sind. Dies ist der einfachste Datenspeicher sind die bequemste Datenspeicher, die Sie auf dieser in der Regel auf unserem Baby haben könnte . Emmas Unternehmensdatenquellen sind in der Regel sehen Adam Systems oder jede Art von Systemen. Onda. Normalerweise sitzen sie dort in RGB Emmas. Sie werden typischerweise von einigen guten Anwendungen, gut gebauten Anwendungen bevölkert . Ich meine sie auch. Erstellen von Anwendungen ist, dass die Anwendungen in der Regel kümmern sich um die Validierung von Daten. Wenn der Benutzer Daten eingibt, verletzt der Applikator die USA normalerweise. Und stellen Sie sicher, dass die Daten sind und die bestimmte Regeln und Einschränkungen wie okay, die Tages-Dollar folgen. Ein paar Zeichen können Sie eine Auswahlliste von Werten unterziehen. Einige Spalte so obligatorisch, Sie wissen, dass es alle diese Prüfungen macht und stellen Sie sicher, dass die Daten, die eingehen, vollständig sind. Selbst Dinge wie Fremdschlüssel sind normalerweise vollständig mit der Fremdschlüsseltabelle verknüpft, so dass es ziemlich vollständig ist und ziemlich saubere Zugänglichkeit zu den Unternehmensdatenquellen einfach ist . Es gibt keine großen Grenzen. Wenn Sie sich Cloud-Datenquellen betrachten, gibt es Ratenbeschränkungen in Bezug darauf, wie viele Daten Sie an einem bestimmten Tag zugreifen können, sind in Argument 15 Minuten Fenster organisatorisch. Eine Datenquelle hat diese Tagesratenlimits nicht. Das ist ein Vorteil für Ihr Design. Die Datenflüsse zeigen, wie Sie Daten aus den Quellen extrahieren können. Es hat ausgezeichnete Qualität und Verfügbarkeit. Es gibt keine Fehler bei fehlenden grünen Karten, und fehlende fühlt sich normalerweise in einer Unternehmensdatenquelle an. Aber die Probleme sind, dass die Diät Ada Wächter können Sie Daten aus einer anderen Abteilung bekommen . Bekommen Sie vom Radar von I. D. und Sie haben die Antwort auf eine Reihe von Fragen, wo Sie diese Daten wollen. Wie werden Sie diese Daten verwenden? Weil sie sicherstellen müssen, dass die Daten in keiner Weise missbraucht werden oder die Sicherheit der Daten in keiner Weise beeinträchtigt wird. Sie müssen also diese organisatorischen Grenzen durchlaufen. Sie müssen diese organisatorischen Grenzen durchlaufen, um über Datenwächter zu kommen und die Daten fließen zu lassen, aber am Ende unterdrückt, oben. A Sources sind eine der saubersten und hervorragendsten Keenest Datenquellen, die Sie heute die zweite Art von Datenquelle erhalten können , die immer beliebter wird. Zehe Sie sind Cloud-Datenquellen. Eine Reihe von Organisationen verschieben ihre Anwendungen ins Internet. So offensichtlich gibt es die eher als mit interpretiert Anwendung, Sie von Cloud-basierten Anwendungen auf den Daten sitzt im Club und wie gehen wir Daten aus der Cloud zu bekommen ist eine große Herausforderung. So werden Daten alle im Web gespeichert Wie die Salesforce ist eines der beliebtesten Cloud-Anwendungszentren auf Sie haben früh das Haus. Heute nutzen eine Reihe von Unternehmen salesforce für ihre Vertriebsaktivitäten. Der Zugriff auf Daten in Salesforce ist in der Regel wahr. Soap verhaftet P s. Viele Unternehmen unterstützen Mitarbeiter mit Downloads, aber sehen Sie, ja, ja, wir haben keine Lords sind ein Schmerz und nicht so viel von einer Sicherheit, vor allem, wenn Sie programmieren müssen etwas eine Seife interessiert Besar für mehr Sicherheit, viel mehr Etikett und robust auf dem New Age, Cloud-basierte Datenquellen sind in der Regel unterstützt Open gekleidet Babyaugen. Sicherheit ist in diesen Fällen ein vorherrschender Faktor, da Sie Daten aus der Cloud erhalten und die Daten über das öffentliche Internet fließen. Sie müssen also sicherstellen, dass der Datenaustausch ohne jede Art von Sicherheit erfolgt. Kompromißzinsgrenze kann gelten für Es gibt Grenzen in der Regel, welche diese Wann in wie viele Daten können Sie an einem bestimmten Tag extrahieren? Und das ist auch der Geist durch die Art von Lizenzierung Sie die Art von Produkt Sie bart haben. Sie müssen also bedenken, dass auch, wenn Sie Ihre Datenerfassung aufbauen, wie viele heute genannt werden, können Sie bekommen, wie oft Sie bekommen können und solche Sachen. Okay, die Qualität der Daten wird in der Regel immer noch ausgezeichnet sein, weil die Cloud es tut. Das setzt auch Beschränkungen von Prüfungen und Salden, um sicherzustellen, dass die Daten sind, was ihre Bindungen, wie es sein sollte, und es stellen Sie sicher, dass die Daten tatsächlich so sind, wie das, was sind die gültigen Werte sortiert sind. Die Spalte, die nicht leer sein kann und bei jeder Art von Cross-Linking leer sein kann, wie Fremdschlüsselverlinkung, wird darauf geachtet, so dass die Qualität der Daten auch ziemlich gut ist. Dann dritte Art von Daten sind Social-Media-Datenquellen. Aber Sie versuchen, Daten von einer dieser Social-Media-Websites wie Facebook oder Twitter zu erhalten. Arlington sind Google zu reißen. Es gibt eine Menge von Data Mining auf dieser Art von Datenquellen, weil Sie meine Informationen über Menschen wollen , und dann versuchen Sie, sie zu analysieren. Vielleicht der Gebietskundant. Sie können potenzielle Kunden sein. Sie Hauptdaten über sie. Sie werden sie nicht analysieren und diese Analyse dann für weitere Recherchen verwenden. Es ist ähnlich wie Cloud-Datenquellen in den meisten Aspekten, wie sie es getan haben. Ah, sie haben ihre eigenen gekleideten A B, A und Sicherheit. Sie haben Tariflimits, all das Zeug. Aber die Sache ist, Zugriff auf öffentliche Daten über Personen und Unternehmen möglicherweise Datenschutzprobleme beinhalten kann. Eso gibt es das einzige, was Sie überlegen möchten, welche Art von Daten Sie wirklich extrahieren und über andere Menschen verwenden können , ohne ihnen zu sagen. Tariflimits sind in diesen Fällen ziemlich restriktiv, weil Sie nicht für sie bezahlen. Dies sind alle kostenlose Dienste, so dass in der Regel begrenzen, wie viel Sie erhalten können, wie viel von Daten Sie erhalten können in und raus. Sie müssen dies also berücksichtigen, bevor Sie alle Ihre Datenextraktionsprogramme erstellen. Unsere Daten sind meist profilbasiert und transaktionsbasiert in diesen Fällen eso Sie erhalten im Grunde Daten, die unsere Leute und finden alle ihre Links bauen ihr Netzwerk und solche Sachen auf. Auf dem letzten Weg ist ein roher erster Weg, der die Web Scrapping Way genannt wird, in diesem Fall sind Sie nur Crapping Website ist ein Stein war Sie wissen, wenn sie sehr Robbie nur bekommen die und sie vor HTML aus Website auf, dann wissen Sie, mit dieser Schätzung, extrahieren Stücke von Informationen innerhalb der Familie und dann spielen, um sie zu verwenden. Dies ist ein sehr umständlicher Tag, weil ein Dampferplatz wie alles sein kann. Es hat so viele Dinge und verwirrende Java-Skripte innen und so etwas. Also haben Sie wirklich den Felsbrocken in wirklich intelligentem Gericht, um diese Waffenverschrottung zu tun , es sei denn, das Web verschrotten sieht ziemlich viel in den extrem extrahierten anderen Links und dann gehst du zu anderen Links und weiter zu extrahieren -Daten. Ah, sehr schwieriger Weg. Ein sehr umständlicher Weg, um Daten und einen Tag zu bekommen, ist sehr schmutzig, weil es keine wirkliche Fähigkeit gibt . Es gibt keine Garantie, dass die Daten ausgeschaltet werden. Diese Art von Form ist die Kunst. Stellen Sie sicher, dass alle Spalten, die Sie benötigen, die Datenelemente sind, die Sie benötigen, immer vorhanden sind. Jetzt gibt es keine Garantie für diese Art von Dingen, also haben Sie nicht so ziemlich viel von Cross-Check und Balancing auf. In der Tat, viele Datenamputationen, wenn Sie Daten aus diesem Verschrotten erhalten möchten. Und das ist meistens Text und erfordert eine Menge von erheblichen Verarbeitungsressourcen, denn für die Verwendung dieser Daten für prädiktive Analysezwecke müssen Sie exe-Daten in Zahlendaten konvertieren, auf denen wir später in diesem Data Engineering Abschnitt, wie Sie das tun können. Es gibt eine Menge Sicherheit, Privatsphäre und geistiges Eigentum Bedenken, weil Sie nur rohe Gewalt mit Verschrottung ohne dem Besitzer alles zu sagen, was Sie tun werden, so dass Sie es sind. Haben wir jemals von dem, was auch wirklich bekommen, was auch wirklich Schrott, ohne Auswirkungen auf die Sicherheit, Privatsphäre und geistiges Eigentum Bedenken von den Eigentümern der Webseiten. Also, welche Art von Daten weit müssen daher Mertzes die Daten fließen heute können Sie Tabelle haben , die von unserem Baby Mutter kommen, ist die berühmteste und populärste Struktur Sehr strukturierte Daten, die in kommt. Sie haben Daten in CS Gebühren. Dies ist das häufigste Datum. Tauschen Sie Autobauern. In der Regel, wenn jemand Ihre Daten gefragt, ist dies die einfachsten Daten, andere verschiedene extrahieren und senden Sie die einfachsten Daten, die Sie erhalten können. CSC's können eine große Menge an Daten halten, aber dass die Verarbeitung ist eine Menge manueller Umzug der diesjährigen REFILES von den Arten auf der Dis NATO, das Ziel wird passieren. XML wird für die Brandung in Metadaten verwendet, aber manchmal kann es auch die tatsächliche später enthalten, die Sie verwenden möchten. Es hängt von der Quelle der Daten und von welchen Formaten die Quelle unterstützt. Jason ist das New Age Austauschformat, das immer beliebter wird. Viele der Anwendungen unterstützen heute Jason. In der Tat, alle Cloud-Datenquellen heute, wie menschliche Salesforce oder Twitter, unterstützen sie Jason. Jason ist der beliebteste neue Austausch für Mord, bei dem Daten im Internet verlangsamt werden. Es gibt Text, natürlich, ist der letzte Ausweg Versuch? Wenn Sie einen kleinen Künstler haben, beginnen Sie Text. Sie haben in der Regel eine Menge Verarbeitung zu tun, um die Takes und Verarbeitung zu bekommen, den Text zu reinigen und dann die Informationen, die Sie wollen, aus dem Text und den letzten vier Morden. Binär wie in Majors und Weiss Streams, wenn Sie versuchen zu versuchen, es sei denn, Bilder und Wörter streamen, das ist eine andere Art von Daten, die Sie an diesem Tag extrahieren und bewegen möchten, Tage wie riesiger Quarz der Größe des Tag stirbt. Typischerweise benötigen Bilder und Y-Streams viel Platz, so dass Sie all diese Anforderungen berücksichtigen müssen, z. B. die Speicheranforderungen für die Bandbreitenanforderungen. benötigen Bilder und Y-Streams viel Platz, so dass Sie all diese Anforderungen berücksichtigen müssen, Holen Sie sich den Zustand und verschieben Sie diese Daten um bewegen sich auf die Daten. Eine Frage. Welche Art von Trends, die sich in Bezug auf die Art und Weise beziehen Sie Daten von der Quelle ? Sehen Sie, wo Daten aus der Quelle. In der Regel können sie wie Batch mehr sein. Das ist der beliebteste Modus, in dem Sie jeden Tag eine Datendatei von der Quelle zum Ziel erhalten. In der Regel eine CSE-Datei auf. Dann beginnen Sie mit der täglichen Verarbeitung der CSE eingereichten täglich. Aber heute wird die Datenerfassung immer mehr in Echtzeit. In der Tat, wirklich, wirklich Echtzeit, wo Sie typischerweise Push-Trigger auf den Sohlen einrichten. So gibt es jederzeit keine Daten neue Daten und eine dunkle modifizierte normalerweise sofort von der Quelle zum Ziel auf, dann erhalten Sie sie und verarbeiten sie sofort. Echtzeitanalysen werden also gestreamt. Analytics wird heute immer beliebter, weil Menschen Informationen und Analysen in Echtzeit wünschen . So wird die Datenfrage auch in Echtzeit. In den Fällen, in denen Day Doc war, , gerade passiert. Bush löst Intervallerfassung geschieht wie alle 30 Minuten oder so. Es ist eine Art Balance zwischen dem Batch in Echtzeit, da ich manchmal Echtzeit-Trigger nicht möglich sind. Die Quellen, die keine Push-Technologie unterstützen. Dann müssen Sie eine intervallbasierte Akquisition haben, wo Sie alle fünf Minuten oder 10 Minuten dorthin gehen . Suchen Sie nach allen Datensätzen, die sich geändert haben, und ziehen Sie alle Datensätze auf dann können Sie tatsächlich ein Hybrid-System aus Batch-Echtzeit in Schwierigkeiten erstellen, wo Sie vielleicht eines Tages sagen können , der in Echtzeit kommt. Einige Daten kommen in Schwierigkeiten an einem Tag, der in der Charge und am Ende des Tages kommt . Oder Sie erhalten vielleicht das gleiche Datum gewinnen Batch bis Ende des Tages, um sicherzustellen, dass es abgeschlossen ist . Daher werden heute alle Arten von Datenfragen-Strategien weltweit eingesetzt, um Daten von der Quelle an den Ort zu verschieben , an dem Analysen stattfinden. Also, was bleibt Das sind Fragenintervalle. Sind die Analyseanforderungen. Wie oft essen die Leute das? Analytics, dann Verfügbarkeit. Ist das wirklich in Echtzeit verfügbar? Ist es nur verfügbar Ende des Tages, dann beten Geräte. Wie viele Daten können Sie an einem bestimmten Tag in einem bestimmten Zeitrahmen erhalten, der bestimmt, wie viele Daten Sie erfassen können, ob Sie Intervallerfassung oder Echtzeiterfassung durchführen möchten, und schließlich die Relationabilität aus diese Kanäle? Wie zuverlässig sind Echtzeit-Kanäle, sagt aber die Batch-Kanäle in Bezug auf Sicherheit in der Verfügbarkeit und sicherzustellen, dass die Daten in einem Stück von der Quelle zum Ziel kommen. All diese bestimmen also, wie Sie mit einem Erwerb kommen. Tragische Strategie für die Datenbefragung von Daten, wenn es um die Opposition geht. Der entsprechende Teil des Programmierteils ist nicht die Herausforderung. Ich meine, du bist es schon. Wenn Sie Programmierer sind, wissen sie normalerweise, wie man Daten von einem Ort zum anderen erhält. Auf diesen Anwendungen werden typischerweise als die Anwendungen Applikator erstellt. Java J zwei ee. Anwendungen kämpfen auf Anwendungen, die Daten von einem Ort zum anderen Industrieviertel die Anwendungen verschieben . Die Herausforderung ist mehr der nicht-technische Teil aus immer tagsüber. Durch all diese Einschränkungen zu arbeiten. All diese Herausforderungen, um sicherzustellen, dass Sie eine Datenerfassungsarchitektur haben einen Workflow, der kümmert, können viele dieser Probleme und Überlegungen ausschalten. Vielen Dank 3. Datenbereinigung: Ich in dem Abschnitt werden wir über Datenbereinigungsdaten sprechen, die in Ihren Datenverarbeitungsstrom kommt , könnte eine Menge Probleme haben. Sie müssen mit einigen Strategien kommen, planen Sie auf etwas Kälte, um die Datenbereinigung zu tun, bevor Sie beginnen, sie für jede Art von Analyse aus einem maschinellen Lernen Zwecke zu verwenden . Welche Art von Problemen gibt es also mit der Datenqualität? Es beginnt mit ungültigen Werten. Wie wenn Sie so etwas wie ein Geschlecht haben, Sie entweder erwartet, f r m sind männlich oder weiblich. Du könntest so etwas wie A und B dort haben. Es kann viele Gründe geben, warum Sie eine ungültige Daten in einer Spalte haben, aber sie kommen nicht in einem Datenstrom. Formate von Daten, die Standard sind die Datumsformate Datumsformate können auf mehrere Arten sein, wie DDM von William Ich bin wirklich weiwei auf, dann ist das eine Herausforderung zu verstehen, was genau die Daten Dinge wie die Namen. Der Nachname Vorname, Vorname , Nachname Former ist ein sehr klassisches Problem, der Regel mit Daten fließen in Attribut. Abhängigkeiten bedeutet, dass es eine Abhängigkeit von einem Attribut von einem anderen gibt. Beispielsweise kann es eine Spalte mit dem Namen dis Manager in einem Mitarbeiterdaten geben. Und dann gibt es noch eine Spalte, die besagt, dass die Leute gemeldet werden. Es wird also erwartet, dass jemand ein Manager ist, wird eine Reihe von Leuten haben, die berichten . Es könnte möglich sein, dass eine Spalte Daten enthält, die besagt, dass sie Manager Null ist und die Anzahl der meldenden Personen fünf ist . Es gibt also ein Problem damit, dass Daten irgendwo extrahiert werden. Es kommt von unserem Baby Emma aus, die aus einem CRM-System kommen. Regel diese Art von Problemen nicht auftreten, aber es gibt viele Probleme Fälle, in denen Daten sein können. Einige Probleme können mit Datum erstellt werden, entweder im Extraktionsteil auf dem Datenverarbeitungsteil. Das ist also immer eine Möglichkeit von Problemen mit Daten, Eindeutigkeit von Daten, die doppelte Datensätze in den Daten sein könnten, die in referenzielle integrierte Probleme kommen . Wenn Sie tun Datensätze und Sie erwarten, dass jedes Mal, wenn es einen Datensatz wie ein in der Foster sagte, gibt es Tribut-Übereinstimmung wie der zweite Datensatz, könnte es referenzielle Integritätsprobleme geben. Es kann Probleme mit fehlenden Werten geben. Einige Spalten, die leer sind, sind wie die Hälfte des Datensatzes leer. Es könnte viele Gründe dafür geben. Rechtschreibfehler Rechtschreibfehler Probleme mit der Rechtschreibprüfung haben erhebliche Auswirkungen, wenn Sie wie Textanalysen in Textile Takes tun, Sie versuchen, Zeichenfolgen zu verwenden, um Art zu vergleichen, wo diese Dokumente und verwandte Dokumente . Rechtschreibfehler sind also ein Problem Miss Feldwerte, in diesem Fall befinden sich die Werte im falschen Feld. Das passiert normalerweise in der CIA-Refile Wenn Sie die Spalte mit einem Mistel versehen. Die Säule Zehe, die das Auto zu schützen. Diese Spalte, zu der als pazifische Variable gehört, wird geändert werden. So passieren diese Art von Problemen auch und falsche Referenzen, ungültige Referenzen ungültig sind Sie, und all diese Art von Problemen passieren. Es gibt eine Menge Rabatt. Diese Probleme treten in Bezug auf die Datenqualität auf. In der Tat, wenn Sie tun eine Ingenieurarbeit. Wie finden Sie diese Probleme mit der Datenqualität zuerst? Es gibt eine Reihe von Möglichkeiten, wie Sie sie tun können. Die erste ist in der Regel Probe, die Inspektion einfügen wird. Sie nehmen eine zufällige Stichprobe von Datensätzen aus den Daten, die visuell geprüft werden, und sehen, ob es irgendwelche Probleme gibt. Ah, gute Art und Weise. Aber es ist ein mühsamer Bayer, und diese Art von System wird nicht skalieren. Der zweite Weg besteht darin, einen automatisierten Validierungscode zu haben, wie ein Schema von Anschuldigungen. Wenn Daten hereinkommen, geht jeder Datensatz durch eine Höhenziege namens Tschechen, wie sehr ähnlich wie Sie einen Dateneingabe-Bildschirm entwerfen, wenn jemand Daten macht , das ist Validierungscode, der , um sicherzustellen, dass die vom Benutzer eingegebenen Daten korrekt sind. Ähnlich wie, dass Sie eine automatisierte Validierung genannt haben, welche Daten, die fließen um jeden Datensatz und jede Spalte zu validieren, um sicherzustellen, dass die Daten kommen in diesem richtigen können Sie unsere Player-Analyse zu tun, sehen, wo ihre -Ausgänge vorhanden. Unsere Spieleranalyse ist ein ausgezeichneter Weg, um ihre Qualitätsprobleme zu finden. Angenommen, Sie haben eine Spalte mit dem Namen Alter am. Sie mögen eine Box Plot auf U. C. sagte, dass es Ausreißer wie die Zeitalter zeigt die Vergangenheit 300 oder 350. Es sagt Ihnen sofort, dass es ein Problem mit größeren, weil Sie wissen, dass das Alter nicht 350 so dass tatsächlich löst Sie zu gehen und herauszufinden, was mit dem Alter hier passiert . Also Ausreißer-Analyse ist eine gute Möglichkeit, zu finden Wenn es irgendwelche Probleme mit den Daten, die in kommen, können Sie eine heutige Donna-Analyse erkunden, einige Diagramme betrachten, einige Balkendiagramme einige X-Ray-Plots auf. Dann neigen sie auch dazu, anzuzeigen, ob es einige Daten gibt, die Ihnen bekannt sind, nicht innerhalb des Bereichs liegen, der der Umrissanalyse ähnlich ist . Und das hilft Ihnen auch zu erkennen, ob es Probleme mit den Daten gibt, die eingehen. Wie beheben Sie die Datenqualitätsprobleme, Behebung von Daten Quartey verwendet, wie auf einer regulären Codierung. Sie können das in jeder Sprache tun, die Sie bequem sind, aber in der Regel gibt es in irgendeinem allgemeinen Zweck laufen. Sprachen wie Java gibt es eine Reihe von 88 Engines sind ideale Frameworks von Produkten, die tatsächlich verwendet werden, um Daten von einem Ort zum anderen zu verschieben. Diese idealen Frameworks verfügen in der Regel über einige Funktionen, durch die Sie Probleme mit der Datenqualität lösen können . Sie können Datenqualitätsprobleme darstellen, aber diese sind ziemlich vorbildlich. Nach regulären, nach jeder Programmiersprache. Wir werden also keine konkreten Beispiele sehen. Wie beheben Sie diese Probleme in dieser Klasse? Weil es eine Art allgemeiner Galle bis Aufnahme ist und die, die sie das Problem identifiziert hat. Typischerweise wissen die Ingenieure, was sie damit zu tun haben. Mögliche Fehlerbehebungen sind, dass Sie die Quelle, wenn möglich, reparieren. Wenn Sie wissen, dass die Daten aus einer interpress-Datenbank stammen und Sie sagen, dass die Daten in dieser Datenbank tatsächlich falsch sind, bedeutet dies, dass eines der Systeme, die Daten in die Tabelle einfügen, sich nicht korrekt verhält . Also geh und repariere die Quelle. nach Finden SienachMöglichkeit mögliche Schlupflöcher in den Datenverarbeitungsströmen. Daher gibt es möglicherweise keine Probleme in der Datenquelle, aber Probleme im Datenverarbeitungsstrom können auftreten. Angenommen, Sie haben ein Programm, das Daten aus einem Datenbrot einer Basis extrahiert und dann zusammenfasst und an Sie sendet. Es ist möglich, dass dieser Code auch einige Fehler haben kann. So Sie So sehen Sie auch dort und sehen, ob Sie dieses Gericht beheben können, so dass der Fehler geht von einem. Sie können auch die Chargen analysieren, die kommen, und dann können Sie Automatisierung automatisieren. Sie können die Fixierung von Daten automatisieren, die eingehen, die ebenfalls möglich ist. Es gibt viele Bibliotheken und erzählte US-Tools für die Arbeit mit Datenqualität, vor allem, wenn Sie sich die Datenanalyse-Tools ansehen, die heute existieren, wie unsere beißen unsere oder sogar die idealen Indianer wie Brenda Ho. Sie werden sehen, dass sie einige Bibliotheken haben, in denen sie Daten auf mögliche Fehler untersuchen und sie dann beheben können. Das Letzte, worum du dich belästigt haben willst. Dies, was als Datenimputation bezeichnet wird, weil Datenimputation eine spezielle Fallbehandlung haben muss , weil es in Schuhen auf unserer Mission schwerwiegend ist. Lernalgorithmen arbeiten an ihnen. Sie die Zurechnung ist nichts. Aber wie beheben Sie das Mischen hat Wie tun Sie, wenn eine Spalte bestimmte Spalte keinen Wert hat , welchen Wert setzen Sie dort ein , ? Wenn eine Spalte leer kommt Wüste, wie zum Beispiel, haben Sie eine Spalte, die ist, die ist, dass ist ein ist über Geschlecht, männlich oder weiblich, und diese Spalte ist leer. Also, wenn es leer ist, was machst du damit? Und das nennt man Datenimputation. Eine Sache, die Sie sich immer daran erinnern sollten, ist, dass jeder Wert, der in einem Datensatz vorhanden ist, von maschinellen Lernalgorithmen als gültige Werte verwendet wird . Was bedeutet das, ist, dass, wenn Sie eine Datenbank in RTB Emmas haben, wenn der Wert jetzt ist, RGB wissen muss, wie man damit umgeht. Sie wissen, wie man es ignoriert, um null in einer richtigen Weise zu verwenden. Nicht so mit einem der Missions-Lernalgorithmen. Angenommen, Sie haben eine Spalte namens Geschlecht und es hat Werte männlich und weiblich, und wo es nicht existiert, ist es ein leeres auf vielleicht in Sachen Decke wie keine sind. Es spielt keine Rolle. Mission Learning Algorithmus Dent, dass. Diese Spalte hat drei verschiedene gültige Werte. Die drei Täler, die männlich, weiblich und keines sind, verwenden weiterhin null als Klasse aus Daten. Es wird also Dagnall als gültige Daten betrachten, also müssen Sie einen Weg finden, mit dem Sie diese Notizen durch einen richtigen gültigen Wert ersetzen müssen , wie ein Männchen oder eine Frau. Aber wie bevölkern Sie? Und woher weißt du, dass für ein Amerika, in dem das Geschlecht fehlt, ob das Sanfte männlich oder weiblich sein muss, welchen Wert haben wir da drin? Das nennt man Datenimputation. Fehlende Daten, die fehlende Daten füllen, werden also ein Schlüsselstreifen sein, da dies Ihre Vorhersage für Zellen beeinflussen wird. Also, was Techniken existieren, ist, dass Sie mit dem mittleren Median und mehr, wenn es sich um eine kontinuierliche Daten. Die Spalte. Diese bestimmte Spalte aus Daten ist eine fortgesetzte Daten wie Alter. Andi, jemand vermisst das Alter. Eine mögliche Möglichkeit, fehlende Daten zu ersetzen, ist mit dem Mittelwert zu gefüllt. Die zweite Sache, vielleicht mehrere Imputation aufrufen, was ist, Sie wissen, Sie können mehrere Imputationstechniken ausprobieren und dann eine Forschung erstellen, wie Sie Mittelwert verwenden können. Dann können Sie Regulierung verwenden, als Sie mehr verwenden können. Sie können sie so viel kombinieren, wie Sie wollen. Sie können auch den fehlenden Wert vorhersagen, damit Sie tatsächlich einen Vorhersagealgorithmus schreiben können. Verwenden Sie einen vorläufigen Schutz sie, um den fehlenden Wert basierend auf der anderen Spalte vorherzusagen. Sie machen also Predictive Analytics, um vorherzusagen, dass die fehlenden Daten so etwas wie Entscheidungsbäume oder so etwas verwenden . Das war also auch möglich. Es ist jedoch wichtig, dass Sie die fehlenden Datenbestände nicht auf belassen. Sie müssen sie durch die Verwendung von Datenimputationstechniken ersetzen. Vielen Dank. 4. Datentransformationen: Okay, Jetzt gehen wir zu den verschiedenen Transformationen, die Sie tun müssen, um die Datenvorbereitung der Daten für diese Analyse aus für die Mission Lernzwecke. Also, worauf sind sie wirklich? Eine Sache, die ich sagen möchte, ist, dass es vorwärts geht? Viele Gerichtsbeispiele für das, was Sie in direkten Bereinigungs- und Datentransformationsaktivitäten sehen , werden Teil der Anwendungsfälle sein, die Sie später im Kurs sagen werden , weil es sinnvoll ist, dass diese Dinge in der Ort, wo sie tatsächlich im Anwendungsfall benötigt, um zu zeigen, wie wichtig und unsere Hoffnung zielgerichtet auf diese Transformationen weit sind. Das ist also etwas Rechtfertigung. Wenn Sie auf der Suche nach viel mehr Gerichtsproben sind, finden Sie diese später in den Modellen als Teil der Anwendungsfälle. So haben unterschiedliche Sinne von Daten typischerweise unterschiedliche Formate, und daher ist eine Standardisierung erforderlich. beispielsweise erhalten SiebeispielsweiseKundendaten aus zwei verschiedenen Quellen. Nehmen wir an, Sie erhalten Daten über Kunden. Sie waren Kunden aus Ihrem Web CRM, um Daten über Ihre Telefon-Kunden von Ihrem Telefonsystem zu erhalten . Diese beiden Datensätze werden Dinge wie, du weißt schon, verschiedene Formate und verschiedene Strukturen und solche Dinge haben du weißt schon, . Und sie müssen standardisiert werden, bevor sie miteinander verbunden werden können. Und ich habe sie in einer einzigen Daten zusammengefasst, so dass sie als eine einzige Datenquelle für die weitere Analyse verwendet werden. Daten im gleichen Format im gleichen Maßstab machen den Vergleich und einige Rezisionsaktivitäten offensichtlich einfacher. Eso Was sind die verschiedenen Dinge, die Sie in Bezug auf die Generalisierung von Daten tun? Das erste, was Sie mit den Zahlen beginnen würden, im Falle von Zahlen, die Sie die Dezimalstellen standardisieren möchten , sind, wenn die Zahlen im Protokoll sind. Atomic ehemalige Willst du? Was basiert auf dem Protokoll? Das heißt, es gibt ein Protokoll, das auf Basis von 10 basiert auf Nein basiert, das im Fall von Datum und Uhrzeit normalisiert werden muss , kommt Datum und Uhrzeit typischerweise und verschiedene Formate, die Sie in eine richtige Struktur konvertieren möchten . In der Regel gespeichert sie als e Buch, die Zeitzone unempfindlich sind in der Umfrage. Sechs. Ehemalige. Sie möchten auch sicherstellen, dass dem Datum und der Uhrzeit, die Sie erhalten, eine Zeitzone zugeordnet ist. Und sind Sie tatsächlich angepasst Zeiten richtig so, dass alle, wenn Sie die Daten betrachten , die Sie die Daten in der richtigen Weise zu Datenquellen betrachten, am selben Tag in verschiedenen Zeitzonen aufkauen können . Sie müssen also nur für die Zeitzonen, bevor Sie mit dem Vergleich beginnen können. Dies sind also einige der Standardisierung, die Sie mit Daten Ex-Daten tun würden. Natürlich tun Sie Dinge wie Namensformatierung wie einige Namen bedeutete immer als Vorname, Nachname einige könnten uns Nachname kommen von uns Namen. Wenn Sie sie in ein einzelnes Format bereinigen möchten, könnte es Dinge wie Ihre Kleinschreibung R-Partei geben, die darin aufsteigend sind. Falls all diese Art von Dingen mit Text gemacht werden muss, bevor sie für die richtige Mission Learning verwendet werden können . Es gibt weitere Verarbeitung, dass Sie die Daten in eine richtige Form bringen, bevor sie für Analyse- und Machine Learning Zwecke verwendet werden können . Und eines der ersten Dinge, die Sie tun könnten, ist Biegen. Warum machst du binning? Sie möchten zahlreiche kontinuierliche Daten in kategoriale Daten umwandeln, die Newman es auch die Kategorien umwandeln möchten , die Newman es auch . Also in diesem Fall, zum Beispiel, das Beispiel, Auf der rechten Seite, Sie haben eine kontinuierliche Daten namens Alter, aber es readies den ganzen Weg von 11 an bis 65. Sie möchten sie in Kategorien, einige Klassen oder Kategorien von vier oder fünf Kategorien umwandeln . In diesem Rennen wirst du ihnen Ice Rangers machen. Sie erstellen eine neue Spalte mit dem Namen Altersbereich am. Dann reicht dieses Alter von 10 bis 1 bis 2020 bis 40 40 bis 60 und 60 bis 80. Das sind vier verschiedene Klassen. Und dann Regel sind Sie in der Regeleine neue Spalte basierend auf der orginalen Spalte. Sie füllen den Bereich in der neuen Spalte, so dass diese vor verschiedenen Rangers verwendet werden, sind, was wir uns Bins nennen. Also ist die Alterung oder das, was wir uns nennen. Bins auf einzelnen Datensätzen werden in diese Abschnitte auf klassifiziert. Platzierung ihrer Bins macht die Analyse in der Regel wesentlich einfacher. Es erleichtert die Verwendung von Klassifikationsalgorithmen für Prognosezwecke. Und, äh, das ist eine sehr beliebte Technik. Anstatt das Alter als eine einzelne Variable vorherzusagen, prognostizieren in der Regel oft auf Zehe nur den Bereich des Alters auf in solchen Fällen. Klassifizierungen Algorithmen funktionieren besser. Wenn der Altersbereich ist, steht der Agentenbereich als Klassifizierungsvariable für eine Klassenvariable und nicht als kontinuierliche Variable zur Verfügung. Die nächste Technik, die Sie dieses Wasser genannt Indikatorvariablen verwenden möchten. Im Falle von Indikator sehr Variablen. Was Sie tun, ist, dass Sie kategoriale Daten in Bullion-Daten konvertieren. Wie wandeln wir kategoriale Daten in Bullion-Daten um? So wird auf der rechten Seite ein Beispiel gezeigt. Aber Sie haben eine kategoriale Variable oder eine Klassifikationsvariable wie Druck. So Pash verhaften drei einzigartige Werte hoch, mittel und niedrig. Wie konvertierst du das? Die Indikatorvariable besteht darin, dass Sie zwei neue Spalten erstellen. Eine Spalte wird aufgerufen ist hoch. Der andere wird ISS Medium genannt. Beide sind boolesch eingeschaltet. Basierend auf dem Wert in der Druckspalte füllen Sie sie mit den anderen sind Nullen s. Was Sie hier tun, ist die Variable in verschiedenen Klassen hat. Anschließend erstellen Sie in minus einer neuen Variablen. Also Druck Straßenklassen, die hohen mittleren und niedrigen drei Klassen, die sie sind So erstellen Sie zwei neue in minus 12 neue Spalten ist High-End-persönlich. Es ist mittel, sie mit einem Schwert Nullen zu bevölkern. Die Sache ist, die Abwesenheit, die Art und Weise, wie niedrig für Sie gezeigt wird, ist, dass, wenn beide Kondome Null sind, es wird auf niedrig zeigen. Deshalb, wenn es irgendwelche Klassen gibt, die Sie erstellen und minus eine Spalten, weil die Abwesenheit von Wert in diesen beiden Karting wird zeigen, den dritten Wert Indikator, wo er manchmal besser in Vorhersagen als kategoriale Variable arbeiten. So etwas, wenn Sie Clustering-Indikatorvariablen arbeiten viel besser als die entsprechenden kategorialen Gegenstücke. Sie würden also ein für Sie ausgeben, um Indikatorvariablen auszuprobieren. Außerdem, um zu sehen, ob Ihre regulären Klassifizierungen Variablen nicht so gut funktionieren. Gehen Sie erstellen Indikatorvariablen und sensi, wenn es Ihnen besser geben wird. Dies ist so Das ist eine andere Sache, die eine andere Art der Datenverarbeitung, die Sie eine Datentransformation tun möchten , bevor Sie tun möchten, um Ihnen bei der Durchführung besserer Vorhersagen zu helfen. Die nächste Technik, über die wir reden werden, ist das, was wir als Zentrierung und Skalierung bezeichnen. Nun, wenn Sie zwei Sätze von Daten Zehenspitzen zu Datenspalten haben. Sie können sich in verschiedenen Wert-Rangern befinden. Wenn Sie Daten in verschiedenen Werterangern haben und versuchen, Zehe, setzen Sie sie in den Missions-Lernalgorithmen zusammen. Manchmal neigen sie dazu, das Verhalten von der Mission Learning Gardens zu verzerren. Das Beste, was Sie tun sollten, ist, diese Werte zu nehmen und sie zu standardisieren, indem Sie die Zentrierungs- und Skalierungsmethode verwenden. Wenn er also zentriert und skaliert, werden die Werte in Werte außerhalb der gleichen Skala konvertiert. Aber sie behalten ihre einzigartigen Signaleigenschaften. Also, zum Beispiel, wie geht es Ihnen? Auf der rechten Seite? Sagte, Sie haben zwei Spalten wie Alter und Höhe zu dem Alter reicht irgendwo zwischen 11 und 65. Die Höhenspalten liegen irgendwo zwischen 152 195. So kommen sie in verschiedene Ranger auf durch Zentrieren und Skalieren. Was Sie erreichen möchten, ist, sie in einen ähnlichen Maßstab umzuwandeln. Es macht den Vergleich beider Variablen ziemlich einfacher auf der Wie machst du? Zentrieren und Skalieren ist, dass Sie den Mittelwert und die Standardabweichung für Körpersäulen finden, so dass Körpervariablen über die Körperspalten hier das Alter als Mittelwert von 35 Standardabweichung 16,3. Das Hoch bedeutet nicht ab 1 70 Standardabweichung aus. Wellpoint, Phisix. Zuerst finden Sie den Mittelwert und die Standardabweichung. Dann hast du sie zentriert. Sie senden den Wert aus, indem Sie den Mittelwert vom Wert subtrahieren. Also hatte er den Wert. 35. Sie subtrahieren den Mittelwert , der ebenfalls von ihnen zertifiziert ist, und erhalten einen Wert von Null, der Zentrierung genannt wird. Du nimmst 23. Sie subtrahieren 23 von 35 es kommt mit minus 12, die Jahrhundert genannt wird. Wie skalieren Sie dann skalieren? Anschließend dividieren Sie diesen Wert durch die Standardabweichung. Das heißt Zentrieren und Skalieren. Sie subtrahieren also den Wert, den Sie jeden Wert annehmen, und machen dann einen Minusmittelwert dividiert durch die Standardabweichung, um den Mittel- und ST-Skalenwert zu erhalten. Also hier haben Sie 23 Sie wissen, 23 minus 35 dann geteilt durch 16,3, das ist Ihr Zentrum und Fachwert minus 0,74 Also, wenn Sie spielen diese krank bewacht sie toe all den Anruf alle Werte, die Sie hier sehen Sie das Zentrum und Skala Alter in der Mittel- und Skalenhöhe auf der dritten und vierten Spalte Hier sehen Sie, dass sie so ziemlich in der gleichen Klasse sind. Das Alter liegt zwischen minus einem Punkt für sieben bis plus 1,84 Aber auf der Höhe wird zwischen irgendwo zwischen Minuspunkten ausgestrahlt Zehe plus 1,92 Nun, das Wichtige, was hier passieren wird, ist, was Sie hier sehen, ist, dass es behält seine ursprüngliche Form. Angenommen, Sie haben Ah, wahrscheinlich nur ein. Also, wenn Sie eine Frequenzverteilung des Alters auf haben, dann komprimieren Sie die Frequenzverteilung der Hilfe Mit dem Zentrum Datum, werden Sie sehen, dass sie die hübsche könnte die gleiche -Form. Die Streuung der Werte ist in der Regel gleich. Wenn man sich die Quartiere anschaut, wird das Verhalten der Quartiere auch ziemlich gleich sein. So behalten Sie die Eigenschaften der Signale in den Daten bei. Der höchste Wert ist wirklich weiterhin der IRS-Wert. Die niedrigste Rallye ist weiterhin der niedrigste Wert. Der mittlere Wert ist weiterhin der mittlere Wert. Sie handeln mit den Signalen in den Daten, während Sie die Werte Toby auf der gleichen Skala anpassen. Und viele Male, wenn Missionslern-Algorithmen sie verwenden. Basten Maßnahmen, um Affinität zwischen verschiedenen Daten zu finden, Schrecken Zentrierung und Skalierung hilft diese Entfernung. Michelle ist eine Menge, um dir bessere Borsten zu geben. Zentrieren und Skalieren ist also eine sehr beliebte Verdickung, die Sie nicht als Vorverarbeitung an Ihren Daten durchführen, bevor Sie sie Pause einführen. Lernalgorithmen. Das ist es für eine Zentrierung und Skalierung. Und das ist es für Datentransformationen. Vielen Dank. 5. Text TF IDF: wollen wir nicht mehr den letzten Teil von den Datentransformationen bei der Verarbeitung, und dies wird Ext-Pre-Processing genannt. ist kein Text. Wir versuchen, mehr und mehr Text in unserer Datenverarbeitung, Mission Learning und Predictive Analytics zu verwenden . Aber Text hat ein paar Eigenschaften. Es hat eine Menge Probleme, die, regelmäßig in keinen Daten, sagte, dass aus einer Tabelle wie eine R B B kommt. Die meisten in der Lage hat nicht so Text hat toe eine Menge Vorverarbeitung unterzogen, bevor wir sie für Predictive Analytics verwenden können in diesem Abschnitt, wir sehen, welche Art von Verarbeitung auf Text durchgeführt werden muss, um es in eine frühere zu konvertieren . Das hilft, es für prädiktive Analysen verwendet zu werden. zunächst versuchen zu verstehen, Lassen Sie unszunächst versuchen zu verstehen,wie maschinelles Lernen Algorithmen arbeiten bemannte Mission Learning Wo Gott Adams kann man Lee mit Zahlen oder kontinuierlichen Daten arbeiten? Unsere Klassen in einem diskreten, sind kategorische Daten. Sie funktionieren nicht mit Text. Sie verstehen keinen Text in irgendeinem früheren. Die Herausforderung besteht also darin, dass alle sexuellen Daten, die sie in eine gleiche int numerische umgewandelt werden müssen , klassenlose Präsentation sind. Textdaten müssen in numerische unsere klassenbasierte Präsentation umgewandelt werden, bevor sie für jede Art von Maschine verwendet werden können . Das Lernen der Verwendung von Text wird immer mehr in der prädiktiven Analyse des vorgeschlagenen Textes . Deshalb braucht es viel Bedeutung und was Sie in diesem Fall tun möchten. Warum ist unsere Textvorverarbeitung? Immer wichtiger ist, dass wir eine Menge von textbasierten Klassifizierungen tun, wie wenn Sie E-Mails kommen, wollen Sie eine stilvolle Art und Weise dümmer und Spam oder nicht, Spam, die statt Klassifikationen stattfindet. Sie haben eine Reihe von Nachrichtenartikeln im Web und Sie wollen diesen Nachrichtenartikel nehmen und klassifizieren sie basierend auf welcher Domäne der Nachrichtenartikel gehört, wie Politik Sport oder Wirtschaft Dinge wie diese. All diese Klassifizierungen erfordern, Textdaten zu nehmen und dann Textdaten auf Teig zu klassifizieren , dass dieser bestimmte Text in eine Form umgewandelt werden muss, mit der diese Missions-Lernalgorithmen komfortabel sind. Auf. Das ist es, was wir sehen werden, was für Dinge, die Sie normalerweise dort tun. Es gibt eine Reihe von Textbereinigungsschritten, die Sie als Vorverarbeitung für jede Art von Textdaten ausführen, die in kommt. Also, was sind die verschiedenen Reinigungen, die Sie tun? Das erste, was Sie tun, ist, entfernen Sie Satzzeichen, alle Satzzeichen im Text. Angenommen, es ist ein Dokument. Es nimmt an, es ist eine E-Mail, die Sie nehmen, dann ihre E-Mail und entfernen Sie alle Satzzeichen ist in der E-Mail. Dann bewegen Sie wirklich Leerräume. Weißt du, Absätze sind, du weißt schon, Mut, es Online-Heldentaten und solche Sachen. Sie entfernen alle Leerräume in ihren zusätzlichen Leerzeichen. Sie behalten nur die Leerräume genug, um den Vert zu unterscheiden, und dann könnten Sie alles andere codieren. Sie konvertieren den gesamten Text in Kleinbuchstaben, so dass diejenigen, die Sie nicht tun möchten, gegeben wurden. Word kann in vielen Formaten vorkommen. Wie das gleiche Wort kann in einem pro Fall, Kleinbuchstaben , das gleiche s sein. Also in diesem Fall, wollen Sie nur schauen, welches Wort auftritt, ohne sich darum zu kümmern, ob es Groß- oder Kleinbuchstaben ist , Sie können alles Kleinbuchstaben konvertieren lassen. Sie sind in der Regel entfernt Zahlen die Zahlen wie, Sie wissen, in Bezug auf ein Stöhnen der Partitur oder so etwas, dass Sie Zahlen aus dem Text entfernt. Sie entfernen, was Stoppwörter genannt wird. Was sind Stop Forward Stop Words häufig auftreten. Wörter, die nicht sind, die keine Bedeutung haben als sich selbst, zum Beispiel, auf die all diese häufig verwendeten Wörter werden Stoppwörter genannt und sie sind in der Regel haben keine Bedeutung und ihre aktuellen alle Dokumente, auf die Sie sich konzentrieren Ihre konzentriert sich auf Vögel, die einzigartig in einem Dokument auftreten. Sie sind nicht auf diese häufig vorkommenden Wörter wie diese Andi Waas dann konzentriert, so dass Sie all diese Top-Wörter aus dem Dokument nennen könnten . Dann tust du, was man Stemming nennt. Was also Timing ist, ist, dass das gleiche Wort mehrere Formen hat und starr in Abhängigkeit von den grammatischen Anforderungen verwendet wird . Als hättest du ein Wort, das schnell heißt. Wie schnell verwendet werden kann, wie schnell, schneller, schneller, am schnellsten. Sie können ein Wort namens echt haben. Also kannst du sagen, wirklich sind wirklich Also was versuchst du zu tun? Wollten Sie nur die gerechte der Welt, so dass Sie nur halten Sie den Freund Teil der Welt und Sie hacken Sie die restlichen Portionen schnell, schneller und schneller. Alle von ihnen werden einfach schnell werden. So wissen Sie, dass es das gleiche Wort ist. Es hat die gleiche Bedeutung. Es ist nur so, dass Sie die grammatische Verwendung entfernen, basierend auf den gegenwärtigen Enden und zukünftigen Zelt und solchen Dingen, die als Stemming bezeichnet werden, und dann entfernen Sie alle anderen häufig verwendeten Wörter. Ich nehme an, wenn Sie E-Mails analysieren, die in Ihr Unternehmen kommen, werden normalerweise alle E-Mails Ihre eigenen Firmennamen haben. Du willst also nicht, dass das passiert, wenn du all deine Missionslern-Sachen störst. Also wollen wir nur diese häufig verwendeten Boote treten. Außerdem besteht der Unterschied zwischen diesem und Stop-Wörtern darin, zu stoppen, was wie eine Reihe von häufig auftretenden Wörtern ist, die global auf diesem verwendet werden, eher spezifisch für Ihren Anwendungsfall ist. Das ist nur anders. Also machen Sie alle diese Textverarbeitung zuerst auf. Dann tun Sie, was eine STD von IVF genannt wird, was wir im nächsten Licht sehen werden. Was ist D aus? Idee der DF Idee war die beliebteste Technik, mit der Text in eine Tabelle basierte Daten umgewandelt wird , so Textdokumente werden uns. Ich sprach über mehr und mehr in maschinellem Lernen ihre Verwendung für Nachrichten für Klassifikationen, E-Mail-Nachrichten für Spam-Erkennung und auch sexuelle basiert. Suche nach einem Text muss der Präsident einer anderen Rasse Distributor sein, die in Bezug auf Zahlen und Klassen für maschinelles Lernen Algorithmen richtig erkennt. Und Houston, wie tun Sie das ist, dass Sie diese Technik verwenden, die uns Begriff Frequenz inverse Dokument Frequenz genannt . Es heißt D F I D E F Dome-Frequenz in einem Dokument Frequenz auf das, was die Stickney für Sie tut , ist, dass es Text in eine Tabelle auf dem Schrecklichen umwandelt, im Grunde enthält Zeilen und Spalten, so dass jedes Dokument eine Rolle und jeder Wort wird zu einer Spalte. Jedes Dokument wird also zu Null und jedes Wort wird zu einer Spalte. Was meinst du mit einem Dokument hier? Dokument bedeutet nicht, dass es notwendigerweise ein Wortdokument ist. Jeder Text wird in der Textverarbeitung als Dokument bezeichnet. Da jedes Stück Text es nur ein Satz sein kann, kann es nur ein Tweet sein. Es kann eine SMS-Nachricht sein. Es kann eine E-Mail-Nachricht sein. Es kann ein indischer Nachrichtenartikel sein, die ganze Marke, alle Dokumente indiziert überqueren Sprachgebrauch. Jedes Dokument wird also zu einer Zeile auf jedem Wort, das in einem dieser Dokumente vorkommt, wird zu einer Spalte. Und dann, was passiert, ist essen, verkaufen einen Wert, der im Grunde die Stärke von diesem Vogel im Dokument ist. Also hast du dir vergeben. Word tritt häufiger in einem bestimmten Dokument auf. Der Wert in der Zelle ist viel höher, wenn er nicht in der dunklen Materie Puppe vorkommt. Natürlich wird es Null sein. Also die Fremden, die sich gegenseitig Zellen darstellen. Was Sie sehen, ist, dass es zu einer Tabelle wird, die durch die Zeilen einer normalen späteren Tabelle sehr ähnlich ist . Stellen Sie die Dokumente und die Spalte dar. Großer Präsident der Worte, und offensichtlich die Anzahl der Spalten, die Sie haben werden, ist eine Menge von Spalten. Und es ist nur, um die Anzahl der Spalten zu beseitigen, die Sie die Anzahl der Spalten reduziert haben , die Sie haben. Sie machen all diese Vorverarbeitung, wie das Entfernen der häufig verwendeten Wörter, und dann tun Sie Stemming, und dann entfernen Sie auch entfernt. Entferne das andere Zeug dort. Also versuchen Sie, die Daten zu reduzieren, sagte. Aber diese Techniken zu machen. Also, wie funktioniert dieses D der Idee aus? Wir beginnen mit dem, was sind die Formel für es war 40 der Idee auf dem ersten Wasser Die Formel für Texthäufigkeit Texthäufigkeit wird für jedes Wort für jedes Dokument berechnet. So gegeben gemittelt und ein Dokument klickt Frequenz von diesem Wort in diesem Dokument Textfrequenz aus. Das Wort in diesem Dokument entspricht der Häufigkeit, wie oft das Wort im Dokument auftritt geteilt durch die Gesamtzahl der Wörter im Dokument, oft das Wort in diesem Dokument auftritt, geteilt durch die Gesamtzahl der Wörter im Dokument. Das ist ziemlich einfach und unkompliziert. Es sagt Ihnen nur, wie oft Wasser curso die Anzahl der Male vergeben ein Kundendokument . Je höher wird dieser Wert sein. So zeigt es nur die Stärke von dieser Tafel im Dokument kommt als nächstes in Vers Dokumentfrequenz Inverse Dokument Frequenz gibt Ihnen eine Maßnahme aus Wie einzigartig dieses bestimmte Wort ist für wie einzigartig dieses bestimmte Wort ist. Grundsätzlich, wo es nur in wenigen Dokumenten im Norden alle Dokumente vorkommt. In Vers wird die Darkman-Frequenz vorwärts berechnet. Unsere durchqueren unsere Dokumente. Es ist nicht getan, Dokument für Dokument es über oder Dokumente auf dem Weg es Diners ist getan , Sie tun ein Log e off fruchtbare Anzahl von Dokumenten geteilt durch die Gesamtzahl der Dokumente Wo diese Urteile ist inverse Darkman Frequenz ist für ein bestimmtes Wort, das gleich toe das Gesetz G aus der Gesamtzahl der Hunde ist. Sie wurden von der Gesamtzahl der Hunde mit diesem Sport geführt. Was also passiert, wenn Sie in schlechterer Dokumentfrequenz berechnen, ist die geringere Anzahl von Docks . Dieses Wort tritt auf, desto höher wird die inverse Aktienfrequenz sein. Das ist alles, was diese Formel funktionieren würde, wenn ein Wort in allen Dokumenten vorkommt in war dunkel ein häufig Billig-Null, wenn ein Grenzübergang nur wie ein Dokument es war dunkel. Eine Frequenz wäre wirklich hoch. Es versäumt, die Einzigartigkeit an Bord in einem Dokument auf PF-Idee zu finden, hat nichts, aber Sie multiplizieren die Textfrequenz mit dem inversen Lager eine Frequenz. Das ist also die endgültige Formel, in die du einsteigen wirst. Also, was wir jetzt tun werden, ist, dass wir versuchen, eine Reihe von Dokumenten zu nehmen, und wir werden einfach all diese Dinge tun, über die wir als Beispiel gesprochen haben. Anwendungsfall. Also lassen Sie uns mit einer Reihe von Originaldokumenten reden oder diese anderen müden drei Dokumente, die ich gerade gemacht habe, sind die Sätze hoch. Also mach dir keine Sorgen um die Sätze. Stellen Sie sich vor, weil könnte wie E-Mails sein, dass dies aufgeladen werden könnte oder SMS was auch immer. Sie haben drei Dokumente hier. Dies ist eine Stichprobe von guten Worten. Er sagte immer wieder Das gleiche Wort nach Wortarbeiten kann nicht wirklich schaden. Und das erste, was du tust, ist, dass du die Reinigung machst, über die wir vorher gesprochen haben. Und nachdem Sie die Reinigung durchgeführt haben, ist dies die Zählung der Ausgabe, die Sie erhalten. Also, was Sie hier sehen, ist wert wie diese Augen und so die Welt Ein Dokument Dies ist eine Stichprobe von guten Worten ist Probe geworden. Gutes Wort. Siehst du, was alles rausgeworfen wurde? Das ist eine Luftpistole. Probenahme ist zur Probe geworden. Das ist, weil Sie tun Stemming Angebote gut gegangen wie behalten Worte sind vert geworden, die wieder stemming, weil Sie alle diese Singular Plural in der Vergangenheit zu beschichten umgewandelt, Gegenwart und Zukunft und nur konzentrieren sich nur auf das Gericht Wort. Das ist alles, was es wird. So ist das, wie die drei Dokumente Aktienmann. Ein Dokument auf Dokumentarianer, nachdem Sie alle Reinigung, über die wir gesprochen haben, getan haben. Dann bauen wir, was als Dokumentenfilm Matt Tricks genannt wird. Dies wird als Dokument Term Metriken bezeichnet, in denen die Dokumente in der Rose sind und die Begriffe sind die Wörter sind die Spalten. Dies wird also ein Dokument genannt. Oh, Metriken. Die Wörter sind tatsächlich Spalten hier, und die Dokumente sind erhöht. Das erste, was Sie mit tun, haben Sie versucht, eine Zähltabelle zu erstellen, die Zähltabelle. Was Sie tun, ist, dass wir nur zählen, wie oft jedes Wort im Dokument vorkommt, und so treten die Wörter auf. Dann versuchen Sie, Ticks Frequenz zu finden, das heißt, Sie nehmen diese Anzahl und geteilt durch die Gesamtzahl der Wörter im Dokument. Also in Dokument 1 gibt es drei Wörter Beispiel-Schließfächer, eins. Es ist also eins durch drei geteilt. Es wird 30.33 und Sie kennen die gleiche Form. Liebe für alle drei Dokumente für alle Worte. Und Sie enden mit diesem Begriff Häufigkeitstabelle. Sobald Sie den Begriff Häufigkeitstabelle haben Das nächste, was Sie tun, ist, berechnen Sie inverse Dokumentfrequenz mit diesem Farmgesetz Gesetz G aus unseren gesamten Dokumenten, die von den Dokumenten mit dem Wort auf entwickelt wurden , wenn Sie wissen, dass es inverse doc one Frequenzen gibt über alle Dokumente für jedes Werk. Also das ist der Wert in und von ihm Fremdwörter Hund Eine Frequenz für jedes der Wörter Wenn Sie diese Formel angewendet, dann ist es einfach für Sie. Jetzt berechnen pf Idee, die Sie den gleichen Begriff häufig nehmen, Tabelle. Ich könnte das durch die inverse Dokumentfrequenz spielen und Sie enden zu der Tabelle unten. Was siehst du? Interessant. Siehst du, das Wort Wort kommt in allen drei Dokumenten vor, und es ist ein Durchgang mit einer Punktzahl von Null, weil wir uns nicht darum kümmern. Es geht um Wörter, die alle Dokumente aktuell sind, denn das gibt uns keine Form der Differenzierung jetzt, wo wir über einzigartige Wörter fokussiert sind, die nur in einer Klasse und im Norden in der anderen aufgetreten sind. Also Wort wie wieder, es tritt nur in einem Dokument Dokument Dokument auf, weil mehrere Male im Dokument, so schneidet es eine ziemlich hohe Punktzahl. Die Analogie ist, dass, wenn Sie eine andere Ihre Dokumente wollen, Sie gehen nach dem einzigartigen schlechter im Dokument und die so Sie die einzigartigen Wörter gefunden und erzielte sie. Dies ist also die letzte Tabelle, Sie Ende davon, wo Dokumente sind und stieg und keine De Anführungszeichen sind in Spalten. Und die Partitur zeigt an, wie gut unsere einzigartige, dass bestimmte Grenzen an diesem Dokument dann als Eingabe dienen kann. Dies wird wie eine reguläre Tabelle spätere Tabelle, und dies kann als Eingabe verwendet werden, die alle Ihre vorausschauende Analyse maschinelles Lernen sind geschützte Begriffe, die den anderen Daten sehr ähnlich sind. Es gibt keinen Unterschied im Text. Handhabung war in diesem Fall eine Nicht-Text-Behandlung, weil alles, was Sie hier zu tun haben, unsere mit Zahlen sind. Dies ist also unser View-Prozesstext, und Sie werden einige Beispiele in den folgenden Anwendungsfällen sehen. Ich hoffe, das war hilfreich für Sie. Danke. 6. R Beispiele für die Datenverarbeitung: Hi. In dieser Vorlesung werden wir einige Beispiele aus Data Engineering betrachten, die einige Datenerfassung über Datenbereinigung und Transformation durchführen soll. Das wird ein paar Brennstoffe sein. Grundlegende Beispiele. Sie werden viel mehr Beispiele sehen, wenn Sie die Anwendungsfälle später in der Klasse durchlaufen. Das erste, was ich tun werde, ist, mein Arbeitsverzeichnis einzurichten. Es gibt keine Einrichtung, dieses spezielle Verzeichnis, das erste Beispiel. Wir zeigen Ihnen, wie wir Daten aus einer Datenbank und Vätern erfassen können. Ich benutze dieses Labor Rückruf sind meine S Cuba also, aber es wird sich mit meinem Schulgebiet verbinden und einige Daten daraus holen. Es gibt andere Bibliotheken für meine Fortsetzung. Wie gesagt, Unsere ziemlich reich an Begriffen aus seiner Bibliotheksunterstützung. Das erste, was ich mache, ist, dass ich eine Verbindung mit der Datenbank erstelle, und wie erstellen wir eine Verbindung mit diesem Befehl db Connect auf, die zu meiner Fortsetzung ist . Ich gebe mit dem Benutzernamen das Passwort, den Datenbanknamen auf veg Host antwortet. Dies wird also eine Verbindung erstellen und ich würde ihn trennen, dann mache ich, was sie über diese Verbindung gesendet werden, und ich werde diese Abfrage auswählen Namen von ihnen oder Tabellenlimit ausführen. Und so werde ich darauf Ranken nehmen. Ist das eine Karte, die ich jetzt Outfit kreiere? Sobald sie diesen Datensatz zu tun sagte, Ich bin ein Französisch auf diesem Datensatz auf dem ersten wilder getan Daten zu mir im Datenrahmen gesetzt tun. Also mache ich diese Französisch aus dieser Platte sagte, und machte ihre Daten zu einem Datum Angebot. Und jetzt kann ich mir die Daten ansehen und sehen, wie es aussieht. Also gibt es mir nur Namen. einen Datensatz auf. Wählerland. Ich habe gerade einen Spaltennamen ziemlich einfach ausgewählt, und das wird aus der Datenbank auf gezogen Es zeigt mir drei Datensätze, die aus der Tabelle kamen , dass sie nur einen drei Datensatz Tabelle, also das ist Arcade kam ziemlich einfach heraus. Sobald es ist, dann haben Sie die do gooders in nur sein abgeschlossen hat seine, um die Schnitte gesetzt zu schließen, und dann können Sie das Ergebnis löschen. Sie müssen buchen, dass Sie ein paar Hauswirtschaft hier machen, um vom Tisch und so was zu trennen . Dies ist eine Reihe von Schritten. Sie sind aufgrund toa schließen die Verbindung auf getrennt const Kunst und so etwas. Das ist also eine ziemlich grundlegende Datenerfassung von einer ness que eine Tabelle, Dann jeder Schritt weiter und sagen Wie kann ich Dateien aus dem Web herunterladen? Also hier ist eine CS drei Datei, die im Web sitzt. Es geht um Flugdaten, die Sie extrahieren können. Wir benutzen das. Du bist es. Und ich mache das mit dem Download, nicht mit der Datei. Also bekomme ich eine lokale Falco Ich gebe einen lokalen Fund Namen namens Download Filed RCs Wir nur die endlich auf, was ich mit Download dieser Daten aus diesem Web tun Sie sind und speichern Sie es in dieser lokalen Datei, aber mit diesem Befehl Download-Datei. Also laden Sie die Datei Web herunter. Sie sind lokale Datei wird das Essen herunterladen, die Web-Daten und speichern Sie es in diesem Download-Dateien. Ich werde es einfach blau machen. So sehen Sie, es versucht, auf die U andere zu gehen und holen die später wird es das Datum holen. Und jetzt sehen Sie die Zigarette hier ist kein Download geöffnet. Sie behaupten, heruntergeladen auf und begann dort auf einer Seite. Ein Student, dass ich diese Datei mit dem Reitz ESPN in diese Daten geladen lesen kann, sagte Arlen Daten. Und dann kann ich mir ansehen, wie der Inselstaat, der so aussieht in der str als Information eine Menge Informationen über die Luftwege und wie dieser Fortschritt, was die Startzeit in der Zeit und so etwas getan hat . Die nächste Sache darüber, wie verschrotten wir die Seiten? Ich benutze eine andere Bibliothek namens unsere Curl. Also, Lord of the Library und dann verstehe ich, dass Sie von der Rede sind. Also wird es die Endia Eile E-Mail-Seite hier abbekommen und sie in dieser Variablen namens Downpage speichern . Es ist nur Sjc Melo anziehen. Jetzt werde ich eine Katze von dieser bestimmten Variable machen. Schneiden Sie es einfach aus, dann wird hier eine Menge Müll drucken. Wie Sie sehen können, drucken Sie einfach den Kopf HTML-Inhalt von ihrer jeweiligen Seite. Jetzt müssen Sie diesen Inhalt nehmen und dann können Sie anfangen, einige Web-Scrapping und Dinge zu tun, die Sie auf diesem tun möchten. Das letzte Beispiel ist Wie greifen Sie auf den Rest zu? Daten vertrauensvolle Daten mit Ruhe Ruhe voll ap Augen. Und in der Regel heute unterstützen viele der Open-Source-Cloud-Systeme dies im Ruhezustand. Sie alle folgten so ziemlich dem gleichen Mechanismus. Also, um das zu tun, werde ich zuerst diese drei Bibliotheken laden, die Sie drds und beleuchten. Haben wir nicht gesehen, zu tun? Ach, Ruhe, Felipe A zuerst verwenden Sie ein was? Um einen Schlüssel für sich selbst zu bekommen. Also und dann müssen Sie im Grunde eine Anwendung erstellen. Es hat seine eigenen Prozesse, wie Sie gehen, erstellen Sie eine Anwendung auf der Website und dann aus dem Schlüssel. In diesem Fall werde ich mich verbinden Jet-Hub auf Holen Sie einige Daten aus haben Sie? Sobald ich also den Schlüssel bekomme, auf dem ich eine Anwendung habe , habe ich ein Geheimnis dafür. Welcher Schlüssel auf? Darauf basiert, werde ich das nur initialisieren. Holen Sie sich eine p eine Variable im Dienst. Sehr Baby wird dann verwendet, um mein was Token zu initiieren? Das sind also einige Schritte, die ich befolgen muss, um Abia zu verhaften. Sobald ich bekomme Haben Sie ein Token eingerichtet, dann kann ich mit diesem Token eine Beispielanforderung erstellen und eine Verbindung herstellen. Und sobald eine Verbindung und dann die Daten erhalten, kann ich eine andere Beispielanfragen bekommen, und es gibt mir Informationen über meine eigene Anmeldung. Das ist also, äh und dann kannst du etwas Inhalte rausholen. Die Probe Sache zu blasen, ein paar Sachen rüber zu holen. Härter, einfach. Also, Sie wissen, was ich tue, ist, dass ich einen Inhalt aus dieser setzen und es hat einen Blogger als einer der Einträge auf. Ich extrahiere nur diesen Blockeintrag und setze ihn hier alt. Dies sind also einige Schritte, die Sie tun müssen, um eine Pause Vollständige Daten zu erhalten. Wenn Sie auf Twitter Facebook gehen möchten, haben unsere Verkäufe für die alle ziemlich viel die gleiche Art off Schritte, die Sie tun müssen, um zu gehen registriert eine Anwendung. Hol dir einen geheimen Schlüssel. Befürchten Sie sich, dass der geheime Schlüssel sie in all Ihren Interaktionen mit dem Cloud-basierten Dienst zur Datenbereinigung verwendet werden soll. Woher wissen Sie das? Datenbereinigung? Das erste, was? Mal sehen. Wie finde ich es heraus? Spieler Lassen Sie mich in diesem Fall sagen, Sie sehen, dass ich einen Vektor aus Studentenalter erstellen werde. Und du siehst, es gibt einen negativen Tag, an dem Dia absichtlich angelegt wurde. Sobald ich eine Menge des Studentenalters gemacht habe, werden Sie sehen, dass es ein Jeder gibt, der sofort hier auftaucht. Sie wissen also, dass das Alter nicht kleiner als Null sein kann. Also, ich minus eins ist definitiv ein Ausreißer. Wir können nicht einmal das Gleiche finden, indem wir eine Box schweben. Dann werden Sie sehen, dass wieder zeigt, dass kein Spieler hat. Das Minus eins und den ganzen Weg, um sie zu extrahieren sind Ausreißer Soldaten, die einfach in das Studentenalter kommen Filter, die Schüleralter weniger als Null auf einem Lauf basiert die einfach in das Studentenalter kommen Filter, . Das hier. Ich sehe, dass alle Datensätze tatsächlich dann gefiltert und herausgenommen werden können. Und dann können Sie eine Säuberung auf diesen anwenden oder den Datensatz entfernen oder was auch immer Sie tun möchten . Gehen Sie auf zwei Beispiele für Datentransformationen. Ich werde den leeren Autodatensatz verwenden. Ich werde ihren Zeh beschützen. Dieser Datenrahmen namens Khar Data on. Wir haben das benutzt. Irgendwelche anderen Beispiele auch? Also wirst du dich hier ansehen. Das sind Kartendaten für dich, Onda. Es hat mpg sitzen dort angezeigt Minhaj Macht eine Menge Dinge wie das. erste Beispiel Hardaway konvertiert eine numerische Sache in einen Faktor, so dass eine Zylinderschiere die den Zylinder zeigt, in diesem Fall eine numerische Spalte ist, und ich werde dies in einen Faktor konvertieren, indem ich den Befehl als Startfaktor verwende. Dies ist wach Wort und zahlreiche Zehe eine kategorische Variable. Das nächste, was Lange wollte, werde ich Ihnen zeigen, wie man sich in unserer Biegung macht. Also schauen wir uns, in diesem Fall, das Krankenhaus an. Ich werde die Herzkraft in eine Kurvenkrankenhaus-Sache umwandeln. Also hatte sie die Quanten für die Herzen Macht. Wie Sie sehen können, Ihre Bereiche überall von $50 bis 335. Also werde ich sie mit dem Befehl „Schnitt“ binnen. Ich werde das Auto direkt bei Hart Sperber nehmen, und ich werde 0 200 102 103 103 100 zu 400 schaffen. So können Sie eine Karte machen, auf der Sie eine neue Spalte namens Schraffur sein auf, dass diese Informationen Indikatorvariablen wieder für die Anzahl der Zylinder erstellen werde ich Indikatorvariablen erstellen. Ich werde einen Indikator erstellen. Sehr. Aber so gibt es drei Arten von einem Zylinder zur Verfügung 46 und acht sagt die Musik oder die drei. Also werde ich zwei Spalten erstellen, die S Vierzylinder und seinen Sechszylinder genannt werden. Also offensichtlich, wenn beide Null sind, bedeutet es, dass es ein Achtzylinder ist. Wie erstelle ich sie? Ich erstelle Diese neue Spalte erzwingt ihre, indem sie diese erste Funktion verwendet. Wenn Kosten später Dollar, sitzen dort gleich vier. Dann setzen Sie den Wert von einem wird der Wert von Null gesetzt und dann, ähnlich, für sechs Zylinder. Wenn der Dollarzylinder des Autos gleich sechs ist, setzen Sie den Wert eines anderen. Setzen Sie den Wert Null zu tun. Diese beiden neuen Spalten werden eingedrungen. Die Genese ist ausgezeichnet, werden so erstellt, Sie führen sie aus. Gott, Gott ist größer, dann kommt Zentrieren und Skalieren. Hardaway tötet also. Es gibt einen Befehl namens scale in unserem kann verwendet werden, um Skalierung auf dann werde ich die Skala auf diesen Daten nur für MPG ausführen. Und ich werde die Skalierung auf dann die Ausgabe machen, die ich gerade nehme und in einem anderen speichere . Eine neue Spalte sind neue Spalten hier Scaled Mpg genannt. Jetzt ist das erledigt. Also, jetzt, sobald alles fertig ist, fühlen Sie sich an Sie wissen, die Struktur off guard Daten, und Sie werden sehen, dass die vier Spalten hinzugefügt wurden. Das ist ein Faktenzylinder, der mit hinzugefügt wurde, was ein Faktor von drei Ebenen ist. Es gibt eine große Hecke von Juden zum Binning. Jetzt haben wir vier Ebenen in ihren 0 200 100 zu 200. Hinzugefügt zu werden, dass zwei Säulen sind vier sitzen dort unschuldig. Sechs Es da drin, die US-Indikatorvariablen bestellt sind. Und schließlich sind die qualifizierten MPG-Werte in dieser speziellen Skill-Spalte verfügbar. Nachdem Sie diese neuen Spalten erstellt haben,können Sie möglicherweise hart gehen und die alten Spalten löschen. Nachdem Sie diese neuen Spalten erstellt haben, Wie die ursprünglichen Spalten, die Sie nicht geboren werden, indem Sie sie aufsteigen, ist der Wert von nicht einmal ein Auto Daten Dollar MPD gleich nein, und das wird diese Spalte aus dem Datenrahmen nehmen, die alles ist, was Sie den Tag nehmen. Ich rufe ihn frei aus den Daten. Dies sind also Ihre Beispiele aus der sehr gut anhaltenden Aufgabe, die wir gesehen haben. Und das ist all diese Dinge sind ziemlich einfach und unkompliziert, und Sie werden mehr Beispiele in den Anwendungsfällen sehen. Danke.