Big Data Lösungen - Use Cases und Szenarien | Kumaran Ponnambalam | Skillshare

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Big Data Lösungen - Use Cases und Szenarien

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

37 Einheiten (5 Std. 21 Min.)
    • 1. Einführung in ABDS

      4:26
    • 2. Traditionelle Datenlösungen

      11:34
    • 3. Big Data Lösungen

      7:57
    • 4. Aktuelle Big Data Trends

      8:33
    • 5. Einführung in Big Data Lösungen

      11:53
    • 6. Architecture

      6:22
    • 7. Einführung in die Technologieoptionen

      5:32
    • 8. Herausforderungen mit Big Data Technologien

      8:55
    • 9. Übersicht erwerben

      9:42
    • 10. Optionen SQL und Dateien erwerben

      8:23
    • 11. Optionen erwerben REST und Streaming

      8:28
    • 12. Transport

      9:55
    • 13. Transportoptionen SFTP und Sqoop

      11:44
    • 14. Transportmöglichkeiten Flume und Kafka

      10:01
    • 15. Ausdauer Übersicht

      9:58
    • 16. RDBMS und HDFS

      11:36
    • 17. Cassandra und MongoDB

      11:48
    • 18. Persist Neo4j und ElasticSearch

      8:53
    • 19. Transformationsmodul

      10:39
    • 20. MapReduce und SQL umsetzen

      11:12
    • 21. Spark und ETL transformieren

      11:42
    • 22. Reporting-Modul

      8:58
    • 23. Reporting Impala und Spark SQL

      7:17
    • 24. Reporting Dritter und elastisch

      5:53
    • 25. Erweiterte Analytics Übersicht

      10:01
    • 26. Erweiterte Analytics R und Python

      7:27
    • 27. Advanced Analytics Apache Spark und kommerzielle Software

      6:33
    • 28. Case 1 Datensicherung von Enterprise verwenden

      6:17
    • 29. Case 2 Mediendatei speichern verwenden

      7:36
    • 30. Case 3 Social Media Sentiment Analysis verwenden

      9:50
    • 31. Use Case 4 Kreditkartenbetrug erkennen

      10:00
    • 32. Anwendungsanalyse von Fall 5

      11:28
    • 33. Case 6 Nachrichten Artikel verwenden Empfehlungen

      7:54
    • 34. Use Case 7 Kunde 360

      9:47
    • 35. Use Case 8 IOT angeschlossenes Auto

      8:05
    • 36. Übergang zu Big Data

      3:23
    • 37. Verfassen von Bemerkungen ADBS

      1:38
  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Alle Niveaus

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

243

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Das Big Data fegt in der IT-Landschaft ein. Neue Technologien entstehen und neue Möglichkeiten der Datenanalyse entstehen und jeden Tag neue Geschäftseinnahmen werden entdeckt. Wenn du dich im IT-Bereich befindest, sollten Big Data dich schon in gewisser Weise beeinflussen.

Big Data-Lösungen zu erstellen unterscheidet sich grundsätzlich von der Art der traditionellen Softwarelösungen ab. Du kannst nicht das in der traditionellen in gelernt und sie verbal auf Big Data-Lösungen anwenden. Du musst die einzigartigen Problemmerkmale verstehen, die Big Data antreiben und auch die unendlichen technology kennenlernen, die zur Verfügung stehen, um sie zu lösen.

Dieser Kurs zeigt dir, wie Big Data-Lösungen durch Zusammennähen von Big Data-Technologien erstellt werden. Es erläutert die Module in einer Big Data Optionen für jedes Modul und die Vorteile, kurze Kommentierung und Anwendungsfälle für jede Option.

Dieser Kurs ist eine großartige interview für Big Data ! Jeder - frischer oder erfahrener sollte diesen Kurs nehmen.

Hinweis: Dies ist ein theoretischer Kurs. Es gibt keinen Quellcode / Programmierung inbegriffen.

Triff deine:n Kursleiter:in

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Kursleiter:in

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Vollständiges Profil ansehen

Kursbewertungen

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%
Bewertungsarchiv

Im Oktober 2018 haben wir unser Bewertungssystem aktualisiert, um das Verfahren unserer Feedback-Erhebung zu verbessern. Nachfolgend die Bewertungen, die vor diesem Update verfasst wurden.

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen bei Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung in ABDS: Hi. Willkommen zu diesem Kurs. Architekt für Big Data-Lösungen. Das ist dein Lehrer Cormorant hier. Zunächst einmal vielen Dank, dass Sie sich für diesen Kurs registriert haben. Ich hoffe, dieser Kurs wird Ihnen in Ihrem Träger helfen. Beginnen wir mit dem, was das Ziel aus dem Kurs ist. Das Ziel des Kurses ist es, Studierende über Big Data-Lösungen, ihre Architektur und Technologieoptionen aufzuklären und sich selbst bei realen Problemen zu helfen. Wenn Sie sich all das Schulungsmaterial ansehen, das Sie da draußen haben, werden Sie feststellen, dass es eine Menge Material über einzelne Technologien gibt. Kein Hadoop-Funken, große Daten , keine Fortsetzung, solche Sachen. Aber das gibt es nicht. Nicht kaum. Sie werden alles finden, was darüber spricht, sie alle zusammenzubringen, um eine komplette Lösung zu erstellen . Dieser Kern konzentriert sind eine viel höhere Ebene, nicht auf die Integrität ist aus, wie jeder funktioniert, sondern haben Sie würde auf jede dieser Technologie-Optionen auf nehmen Sie sie und zusammengenäht Zehe, eine Big-Data-Lösung entwickeln und ein echtes Problem lösen. Was machen Sie eigentlich, indem Sie diesen Kurs nehmen, schätzen Sie den Unterschied zwischen traditionellen Datenlösungen und großen Dinner-Lösungen. wie sie sich wirklich voneinander unterscheiden. Sie verstehen die Modelle von dem, was eine Big-Data-Architektur bedeutet. Was ist eine Big-Data-Architektur? Was sind die verschiedenen Teile in diesem Puzzle? Dann schauen wir uns verschiedene Technologieoptionen an, die für jedes dieser Modelle verfügbar sind, die Sie auswählen und auswählen können, und dann können Sie sie alle zusammen begradigen, um eine Lösung zu erstellen. Dann erfahren Sie über jede dieser Optionen, was die Vorteile sind. Es gibt Vorteile auf, aber verwenden Sie diese Technologie-Optionen? Sie implementieren dieses Lernen dann in acht riel World Use Cases Wir gehen von einem einfachen Anwendungsfall ist zu komplexe Anwendungsfälle versuchen, sie die Dinge, die wir zusammen gelernt haben, in den Aufbau von Enterprise-Anwendungsfällen zu setzen . Und dann, im Allgemeinen, Sie lernen, sind einen Überblick über die verschiedenen bestie Big Dinner Technologien gibt. Im Allgemeinen, dass Vorteile, Mängel und Anwendungsfälle auf, dass wird Ihnen helfen, in Ihren Vorstellungsgesprächen, weil die Art von Fragen, die Menschen in der Regel in Vorstellungsgesprächen gestellt werden, ist zu vergleichen und Kontrast diese verschiedene Technologien und ich glaube, das wird Ihnen helfen, einige Interviews zu nehmen. Was haben wir in diesem Kurs. Was ist die Kernstruktur, mit der wir beginnen? Der Vergleich herkömmlicher Datenlösungen war seine Big-Data-Lösungen. Wir betrachten unsere Architekturvorlage, wie sich eine typische Big-Data-Architektur entwickelt hat . Dann schauen wir uns verschiedene Modelle in dieser Architektur für jedes der Modelle an, was soll das machen, dass wir dieses Modell brauchen? Welche Funktion sollte da sein? Welche Art von Dingen, die Sie brauchen, um aufzupassen. Und dann natürlich werden wir natürlichüber Best Practices für jedes dieser Modelle sprechen. Wir erhalten dann für jedes dieser Modelle Technologieoptionen. Welche Optionen stehen zur Verfügung? Wir betrachten die Vorteile und Mängel jeder Option auf Wann verwenden Sie welche Option? Leider in der großen Gettable gibt es in der großen Gettablekeine Einheitsgröße für alle Arten von Lösungen. Eso müssen Sie den Anwendungsfall durch Anwendungsfall gehen, um zu bekommen, wie nicht ganz Option sind und dort hineinlegen und es verwenden. Und dann schauen wir uns endlich an atrial links und der Preis Use Cases Art von nehmen die Erkenntnisse waren von der früheren natürlich Material und ich spiele sie, um diese Lösungen zu bauen . Und wenn Sie unsere Zeichenbrett-Ebene bauen wollen, wie die Lösung aussehen würde wie Gehirn versuchen, alle Teile zu bekommen und sie alle zusammen zu dehnen , Dinge nicht abgedeckt. Es gibt keine Programmierung in diesem speziellen Kurs behandelt. Dies ist eher eine allgemeine Ebene oder Überblick Ebene Kurs, die mehr auf einer Zeichenbrettebene ist , um herauszufinden, wie Architektur aussehen wird auf. Wir werden uns in diesem Kurs nicht auf irgendeine Art von Programmierung konzentrieren, wir konzentrieren uns nicht darauf, eine Big Data-Lösung von Grund auf neu zu erstellen. Wenn ich sage, wenn kratzt, bedeutet das, dass du nicht sitzen wirst und die ganze Lösung angerufen hast. Ihr Sohn lieber werden Sie auf bestehende Technologie-Option suchen, nehmen Sie sie und verwenden Sie sie auf einem Pass einen Teil Ihrer Lösung. Und dieses Selbst. Heute sind fast alle Big-Data-Lösungen nummeriert. Wir hoffen, dass diese Sache Ihnen bei Ihrem Träger helfen wird. Viel Glück bei der Teilnahme an diesem Kurs und auch in Ihrem Träger. Ich hoffe, dass dieser Kurs für Sie wirklich nützlich sein wird. Vielen Dank. Tschüss. 2. Traditionelle Datenlösungen: Hey, willkommen zu diesem Vortrag, wie traditionelle Datenlösungen funktionieren. Nun, wenn Sie versuchen, Big-Data-Architekturen zu betrachten, ist eines der ersten Dinge, die wir verstehen müssen, wie sie sein werden? Unterscheiden sich von den herkömmlichen Datenlösungen, die es in den letzten 2025 Jahren gibt? Eso Lasst uns vor Ort angefangen. Werfen Sie einen Blick auf Water Dick. Verschiedene Merkmale traditioneller Daten Bei herkömmlichen Daten handelt es sich um Zahlen. Das ist, wo die ganze Computerindustrie begann, wie es darum ging, Computer als Zahlenaufträge zu betrachten, viele der jährlichen Anwendungen und viele Verpflichtungen, die in den 1980er und 19neunziger Jahren entwickelt wurden , wo auf uneben zu Tausenden waren meist über Zahlen zählen. Jetzt reden wir über, ah, Geschäftsnummer, die Dinge wie, wissen Sie, Finanzen, Verkauf und Gehaltsabrechnung, wo eine Menge Zahlen erstellt werden, und diese Computer wurden verwendet, um Zahlen zu knirschen. Einige Strahlen Zahlen addieren Zahlen und sowas. Diese traditionellen Daten hatten auch sehr gut anderes Schema, wenn Sie sagten, Schema der Struktur der Daten ist sehr klar. Okay, es gibt eine 90, die eine Zahl von Größe 20 ist. Es gibt einen Namen aus, das ist ein Zeichen aus Größe 45. Weißt du, das ist sehr, sehr anderes Schema auf. Typischerweise sind die Daten bestätigt, um das Schema aus unserer, auf die es vorbereitet wurde, für Es ist ziemlich verteidigen Verknüpfung zwischen den Daten, wie sie in der Lage waren, um Daten zu verknüpfen uns. Zum Beispiel betrachten wir ein Paar in der Lohn- und Gehaltsabrechnung. Wie funktioniert die Lohn- und Gehaltsabrechnung mit anderen Mitarbeitern Datensätze verknüpft So dass es einen I. D. Link gibt. Wir sprechen über all diese Fremdschlüssel, die sie an Linda gewöhnt sind, dass untereinander ziemlich definiert und gut definiert ist. Und es ist alles bekannt, bevor der Verbrecher überhaupt in Kraft gesetzt wird. Die Attribute der Daten haben sich kaum verändert. Es ist schon irgendwie ziemlich zu finden, denn das sind ziemlich Standardanwendungen. Andi. Jeder weiß, welche Art von Köder in diesen Anwendungen erzählt hat. Diese Daten, die die Verpflichtung verzerrt haben, ändern das Baby nicht. Regel derRegelsind der Staat die Standorte innerhalb eines Unternehmens. Es gab kein Konzept aus einer Cloud oder so etwas wie ein zentralisiertes Rechenzentrum Später Standorte innerhalb des Unternehmens, Rita gehört zu einem Unternehmen und rezitiert innerhalb des Unternehmens von Kurs. Wenn das Unternehmen wächst große Zahlen wie die Banken, die auf der ganzen Welt sind, wissen Sie, dass er die Daten verbreiten kann A Aber in der Regel in einem mittelgroßen Unternehmen, es sitzt alles innerhalb und unter Preis auf vielleicht an einem einzigen Ort. Es gibt einen zentralen Ort für das Daten-Repository-Center, an dem alle Daten gespeichert werden. Es gibt vielleicht einmal über einen riesigen Server, der alle Daten auf Dallas verwaltet den Ort. Aber jeden Tag, der eingeht und gespeichert wird und das Backup, das früher passiert ist, sind diese off-lane back, Upstate basierte Backups werden erstellt, und dann sie an einem separaten Ort gespeichert. Die Mitarbeiter der Backups können so viele Stunden in Anspruch nehmen, wenn es erforderlich ist. Das ist also eine Art, wie die traditionelle später, die aussieht und funktioniert, als ob ich traditionelle Datenverarbeitung war . Es gibt sehr kleinen Abstand zwischen der Quelle auf verschiedenen synchron eine Quelle. Du redest von der U Y und der Single, die über die Datenbank spricht. Also der Abstand zwischen dem U und den hinteren Basen, wo es typischerweise die Daten Hendry passiert und Rechenzentren auf dem Weg assoziiert in den gleichen Datenbankzentren. Typischerweise handelt es sich um eine Drahtverbindung. Typischerweise ist es eine landähnliche Verbindung. Die Daten sind nicht über meine und normalerweise ist das sehr kleine Entfernungen zwischen der Quelle und der Senke auf der Datenübertragung ziemlich augenblicklich. Weißt du, es ist nicht so, dass die Daten archiviert und verschoben werden müssen und dann so inszenieren und leben müssen. Das tat die Daten Studenten war eine einfache und unkomplizierte zwischen der EU und der Datenbank. Die Datenbank zum Datenverarbeiter zurück zur Leserbasis, unsere Abschlussball-Datenbank toe the reporting place. Sie wissen, Polizei, sehr kleine Entfernungen, sofortige Übertragungen, Daten bewegen sich an das Bewerbungsgericht oder die Verarbeitung. Dies ist ein großer Unterschied zwischen herkömmlicher Datenverarbeitung und Big-Data-Verarbeitung, bei der die Daten in der Datenbank in den Speicher als Modus über das Netzwerk zur Anwendung sieben gebracht werden. Und es ist der Anwendungsserver, der an den Daten arbeitet. Und dann, sobald die Daten verarbeitet wurden, die Daten wieder in den Datenbankserver für Story gespeichert. Also das ist ah ah ah, groß. Unterschiedliche Datengrößen sind klein. Sie sind Stimmung über die Leitung zum Anwendungsserver von Prozessdaten. Validierung geschieht an der Quelle, als er sagte, die Offenbarung geschah. Die Quelle, wissen Sie, typischerweise, Daten haben uns und auf dem sehr, in dem Daten durch ein Sie in die Systeme gelangen, ich jemand sitzt dort und Daten durch die U Y auf der Uber eingibt, macht seine Validierung der Daten, um sicherzustellen, dass es keine schlechten Daten, die in das System bekommen, Zum Beispiel, wissen Sie, gibt es ein Feld namens Land sind Typischerweise gibt es eine Dropdown-Liste der Länder , die Sie kann nicht in das falsche Land gehen und falsch, wirklich, für das Land. Gleiche mit, sagen wir, jemand steht in einem Date. Das Datum wird auf der Einstiegsebene validiert, die Sie für Mord in Kraft gesetzt haben, in der das Datum eingegeben werden muss . Jemand hat das falsche munter falsche Gebot gegeben. Wirst du geworfen werden? Ausnahmen, die der Zustand nicht akzeptiert hat, daher müssen Sie sicherstellen, dass Daten sauber in das System gelangen. Es gibt also keine unvollständigen Daten. Es gibt keine Tochterdaten in einigen Feldern. Eine obligatorische in den USA Die U. S schreien produzieren I Einheit eingegeben diesen Wert. Die U. Sonst werde ich den Tag nicht retten. Auf diese Weise betrachten wir ein traditionelles System, das nicht ausgibt unvollständig, veraltet es, dass sie nicht zurückgekommen sind. Wenn Sie Big-Data-Lösungen betrachten, sind sie sehr als Build für Zahlenknirschen? Deshalb sind sie heraufgekommen. Es gab eine Reihe knirschender Missionen. Sie waren schlecht, ein Textübergang, aber die ausgezeichnete Zahl knirscht Missionen. Und sie sind immer noch eine große Anzahl knirschender Missionen. Aber werden Sie gefragt, nicht in der Kunst von Emma in Bezug auf Anzahl, Land Fähigkeiten schlagen . Ah, vorgefasste und vor Computerdaten. Sie wissen, traditionell Datenverarbeitung. Sie lieben eine Menge vor zusammengefassten acht Durchschnittswerte. Sie haben all diese Transaktionsdaten, und dann berechnen Sie jemanden und speichern Sie in Übersichtstabellen. Weißt du, die Hälfte in unserer Familie. Jemand kaum jemandes tägliche Zusammenfassungen, jährliche Zusammenfassungen, Zusammenfassungen nach Abteilung. Jemandes Produkt, das wir kannten, speichern all diese Pre-Computer und vorgetrennt. Wenn es um die traditionelle Datenverarbeitung geht, ist das Reporting in erster Linie nicht möglich, wenn Sie sagen, Pre-Offenheit ist bereits vordefinierte Berichte, Sie gehen zu unserem Berichtssystem, dass Reporter Kinos wie 50 Berichte bereits berichten . Dort gehen Sie in die Umfänge, die Ihnen diesen Bericht in einem vordefinierten Format zurückgeben, das Sie nicht übernehmen können, Regel bestimmen, welche früheren möchten Sie die Berichte sein. Natürlich gibt es Beharrlichkeit kam übertrieben, dass Sie Ihren eigenen ah flexiblen Bericht erstellen können, dass meist die Berichte waren sehr viel vor Konserven. Was ist mit traditionellen Lösungen? Architektur? Wenn Sie also als Architekt versuchen, eine herkömmliche Lösungshohl zu entwerfen, sahen sie so aus, als ob es im Allgemeinen einen einzigen zentralen Datenspeicher in der Mitte gibt, in dem alle Daten gespeichert sind. Es gibt typischerweise das, was man die drei Reifenarchitektur des gesamten Aktbildes nennt. Wo es eine Präsentationsebene gibt, gibt es einen Business Lee, und es gibt eine Datenschicht. Bauen Sie es. Architekturen haben normalerweise keine Präsentation, die es geben könnte, aber es gibt nicht. Nicht sehr einfach, wie Sie sehen konnten, ein attritionales Datenbanksystem, das mehr Gericht gelassen wird. Nein, Sie werden fünf verschiedene Produkte kaufen und versuchen, sie zu kombinieren. Das ist ein riesiges Gericht seiner Rückkehr von Grund auf neu, wie Uriel, so etwas wie Java R C plus plus, oder so etwas wie Artikel Farm für die Boote, um ein moralisches Stück Gericht direkt von Grund auf zu bauen sind Sie kaufen ein Produkt aus dem Markt, und dieses Produkt ist in der Regel ein einzelnes Produkt, das alles für Sie wie s a P R Artikel Finanzen tut . Sie sind in der Regel Monolith-Produkte, ein Schuhprodukt, das Sie kaufen und bereitstellen, und es tut alles für Sie. Es gibt kaum eine Integration zwischen Produkten, auch wenn die Integration ist, dass es durch benutzerdefinierte Schnittstellen. Standard a p ace Nicht vorhanden. Hausmeister Anders gibt es nicht. Eso jeder möchte Produkt A mit Produkt integrieren, das in der Regel ein kundenspezifisches Integrationsprojekt erfordert . Wie oft möchten Sie die Lösung ändern? Es ist Funktionalität mit Daten. Es brauchte vollständige Lebenszyklusprojekte. Nein, es gibt, ähm, es gibt immer anfangen mit einem Dodo zu waschen, als wir uns gefragt haben One Wonder Toe Tochter. Wir machen weiter und es gibt Projekte, die dort laufen. Jedes Projekt an seinen Anforderungen. Es ist geschäftlich und dokumentiert. Es geht um Projektplanung, -ausführung, -verfolgung, alles zurück zu reparieren. So ist dies eine traditionelle Architekturen sind Lösungen, Architekturen, Datenlösung, Architekturen, Web. Was waren die Herausforderungen, denen die Menschen in Bezug auf traditionelle Daten gegenüberstanden? Eine der größten Herausforderungen ist, dass Takes nicht bearbeitet werden können. Ein Groß ist es nicht in wirtschaftlicher Weise verarbeitet werden kann. Herkömmliche Datenlösungen können nicht mit unvollständigen Daten unserer Babys umgehen. Sie gehen davon aus, dass, wie die Daten in das System kommen, die Daten bereits vollständig auf sie wurde bereits töten auf ihrem Off-Kurs. Hohe Kosten aus Stonings geschrieben. Wenn Sie sich eines der rtb my systems ansehen, sehen Sie, dass in der Regel die Kosten für das System selbst variieren in Bezug auf die Anzahl der Daten, die Sie starten. Text ater braucht viel Platz bekämpfen die Zahlen Andi es in Bezug auf Hardware und Software, wie viel Geld es brauchen wird, um zu produzieren. Als Nächstes gestanden. Wiederherstellung der Datensicherung ist zeitaufwendig. Große Quacker selbst waren zeitaufwendig. Weißt du, die traditionelle Art und Weise ist, dass sie funktionieren müssen. Ist das in Ordnung? Sie haben einen Prozess zurück, dass Frankreich jeden Tag darauf Dinge wie inkrementelle Backups hat . Aber wann immer Sie in die Wiederherstellung vertrauenswürdig, der Wiederherstellungsprozess ist immer zeitaufwendig. Geben Sie aus den Shop-Daten. Bei herkömmlichen Datenlösungen fallen hohe Verwaltungs- und Lizenzkosten an. Typischerweise, wenn Sie einen RBB Amos haben. Es hat eigene Verwaltungs- und Lizenzkosten. Wenn Sie kaufen ein Produkt aus dem Regal wie ASAP oder eine dieser ah Art von e r P Lösungen, sie haben eine Menge großer, große Kosten mit ihnen verbunden. Sie brauchen geschulte Menschen in allen Lösungen, um Dinge für Sie zu tun. Und natürlich natürlich nehmen Schemaänderungen erhebliche Zeit in Anspruch. Wenn Sie eine Spalte toe eine Tabelle in einem Produktionssystem hinzufügen möchten, die bereits hat, ah, Millionen von Datenzeilen und alles, was durch eine Menge Prozess geht, bevor Sie auf einem Make diese Änderungen gehen können . Es gibt also viele dieser Herausforderungen, die einen neuen Teil von ihnen erfordern. Deshalb kamen Big Data ins Spiel. Dies sind also die traditionellen Daten-Herausforderungen. Es gibt natürlich natürlich noch mehr. Ich meine, du kannst dir noch viel mehr einfallen lassen. Ich habe nur einen Brief. Ah, einige bedeutende hier. Ich hoffe, das Auserwählte war nützlich für Sie. Danke. 3. Big Data Lösungen: Hey, willkommen zu diesem Vortrag darüber, wie Big Data-Lösungen aussahen und wie stapeln sie sich gegen die traditionellen Datenlösungen? Beginnen wir also mit dem, was Big Data ist. Wir hören diesen Begriff immer wieder. Große Daten. Was bedeutet es genau, dass es viele Definitionen gibt, sind viele überlappende Definitionen über Big Data. Aber lassen Sie uns mit dem gehen, was Gartner über Big Data gesagt hat. Big Data ist ein großes Volumen hohe Geschwindigkeit auf unseren vielfältigen Informationsressourcen, die kostengünstige, innovative Formen der Informationsverarbeitung erfordern , die eine verbesserte Entscheidungsfindung und Prozessautomatisierung ermöglichen . Es gibt eine Menge Sachen, die in einem einzigen Liner hineingehen, ein Satz, also lasst uns anfangen, ihn zusammenzureißen. Also, wenn man sich Big Data anschaut, wurden zuerst darüber gesprochen, wo ich von Daten, nicht nur Zahlen, die Sie sprechen über Text, Video, Audio und eine Menge von Missionsdaten. Außerdem gibt es Volumen. Es gibt eine Menge an Daten. Es gibt Volumen im Bereich der Terabyte sind Petabyte von Daten, die wir sprechen. In diesem Fall gibt es Geschwindigkeit, die Geschwindigkeit, mit der die Daten in das System gelangen. In der Regel liegt die Geschwindigkeitsangst nicht unter Ihrer Kontrolle, da Sie nicht die Anzahl klugen und welche Personen gehen und Daten eingeben. Dies wird in der Regel von Missionen von Quellen durchgeführt, die nicht unter Ihrer Farbkontrolle stehen. Die Geschwindigkeit ist also nicht wirklich unter deiner Kontrolle und du hast den Plan dafür. Es gibt Wahrhaftigkeit der Datumsdurchschnitt ist eine andere Baylies impfen, schmutzig, unvollständig und Einheit ableto Ah, sitzen und nehmen Sie es aus All diese Art von Dingen, bevor Sie die Daten in einem ziemlich gut vorhersehbar verwenden können . Beginnen wir also mit dem, was zu Big Data geführt hat. Warum kam dieses ganze Konzept von Big Data ins Bild? Was hat diesen ausgelöst? Das erste, was ist die Cloud-Akzeptanz. Das Letzte, was begann, die Menge an Daten, mit denen Menschen zu tun haben, in die Cloud zu wechseln . Keine multipliziert, weil eine Cloud-Bereitstellung in der Regel endgültig mehrere Unternehmen , die eine soziale Medien, die zu einer Explosion von Daten geführt, die im Web erstellt wird. Es gibt eine Menge Leute, die twittern, dass die Dollar-Leute Kommentare und dann das schafft so viel von Social-Media-Daten. Es gibt eine mobile Explosion. Jede mobile Debatten wird zu einer Benutzeroberfläche, in der Daten generiert werden und jeder macht etwas auf seinen mobilen Systemen, das erfasst und analysiert werden muss. Das sind also eine Menge von Daten, die maschinell generierte Datendaten sind, die nicht von Benutzern eingegeben , sondern durch Emissionen erzeugt werden. Normalerweise sind Tracker Sensoren, die Daten analysieren, etwas analysieren, jede Nanosekunde etwas lesen und dann jede Nanosekunde einen Datensatz generieren . Und das schafft eine Menge von Missionsdaten, die in all diesen Trackern kommen, die Fitbits, viele Sensoren und Flugzeuge und die Sensoren überall in Geschäften und Autos und dient in jeder Art von elektronischen Missionaren, die viel erzeugen der Beta. Und das natürlich ist natürlichein datengesteuertes Management, das eingetreten ist. Typischerweise treffen Menschen Entscheidungen auf der Grundlage von Intuition, aber nein, sie wollen Daten analysieren und die Daten verwenden, um ihre Entscheidung zu treffen. Es besteht also generell ein Bedarf an mehr und mehr Datenanalysen. Immer mehr Analysen auf neue Art von Daten, eine neue Art der Analyse von Daten, die vorangetrieben wird, sind das datengesteuerte Management in den Staaten. Sie alle haben geführt. Also dieses Konzept von Big Data. Was definieren Sie also als Big-Data-Anwendung? Weißt du, es ist eine sehr großzügige, sanfte Zeit. Jeder spricht Unterstützung, aber im Allgemeinen muss eines der folgenden Dinge über eine Big-Data-Anwendung zutreffen. Zunächst sprechen wir über Daten in Terabyte von Petabyte. Es sollte mindestens mehr als eine Quelle geben. Unsere Form aus besseren Daten erzeugt mehr als eine Seele, da in Bezug auf das System und eine Form, oder dass die Einsätze sind Ihre Video-Nummern diese Art von Zeug. Sprechen wir über eine Menge von Text- oder Mediendaten? Nordeste Nummern. Wir sprechen von enormen Verarbeitungslasten, und wenn Daten in Terabyte und Predebatte sind, versuchen Sie, die Daten zu setzen und eine riesige Transformation für die Raiders durchzuführen. Sie sprechen über riesige Verarbeitungsherren, die nicht in nur einen Prozessor passen sind nur ein paar Sätze von Prozessoren. Es gibt Echtzeit-Stream-Verarbeitung, die beteiligt ist , nachdem Daten in das System kommen. Sie verarbeiten einige und generieren einige innerhalb, sagte angeboten. Das ist fortgeschritten. Noch ein Schwänze. Wenn sie über Fortschritt in unseren Hälsen sprechen über Missionslernen. Es gibt also Missionslernen, die in der Zeit versucht werden, Daten zu analysieren und einige Einblicke in die Daten zu erhalten. Es gibt einen großen Deployment-Footprint in Bezug auf außerhalb der Heimat mit der Hardware, die verwendet werden würde . In der Regel sprechen wir über Ah, wenige Hunderte, ein paar Tausende von Servern, wenn Sie versuchen, eine große in der Anwendung zu verwenden, die Benutzer Anforderung Menschen ändert. Ihre echten Anforderungen sind sehr fließend und flexibel in Bezug auf das, was sie nicht tun weil in den alten traditionellen Führern und die Daten sind fixiert. Also, was die Benutzer von den Daten erwarteten, wurde auch behoben. Aber in diesem Fall ändern sich die Daten. Es ist unberechenbar, da die Daten angezeigt werden. So, wie Benutzer in die Daten suchen, sind sie erkennen, dass es eine neue Art von Analyse erforderlich ist , weil die Toten zeigen etwas Neues und sie wollen etwas anderes auf den Daten Hunde der Analyse tun . Und sie können nicht sitzen und noch sechs Monate warten, bis du einen neuen Bericht erstellst. So gibt es eine sich ständig ändernde Benutzeranforderungen entwickeln Benutzeranforderungen basierend auf dem was die Daten ihnen geben. Und natürlich natürlich sollten diese Big Data bei der Anlagenanwendung verwandt sein. Lee. Billiger zu bauen auf Brandon Maintain So gibt es eine andere geborene Eigenschaften für Big Data-Anwendung. Also, wie zu groß es up Produkte in der Marktaktie? Es gibt viele Big-Data-Produkte oder Technologien, die auf den Markt kommen. Typischerweise sind sie alle offene Brandung. Das ist ziemlich gut, denn das senkt Ihre Kosten deutlich, fast auf Null. Sie unterstützen offene Integration, offene Exgressionstechnologien und offene Integration. AP eine Reihe von Standards an Ort und Stelle, die es Ihnen leicht macht, mit jedem anderen Produkt zu integrieren . Sie verfügen über sehr hohe Interoperabilitätsfähigkeiten, so dass es für Sie leicht ist, ein paar Kompetenzen einzubeziehen. Du weißt schon, bleib stumm und klebt sie leicht. Gibt es sehr ständig weiterentwickeln gut und schlecht, weil sie sich ständig weiterentwickeln, weil es ein neues Produkt ist. Produkte haben gerade ein neues auf dem Markt. Sie bauen immer noch Fähigkeiten auf. Sie entwickeln sich ständig weiter. Gut, weil Sie bekommen eine Menge neuer Funktionen schlecht, weil durch dort jede Version hat erhebliche Änderungen und Sie war sehr schwierig, mit ihnen auf Schritt zu halten. Diese sind auch ich würde unreif nennen, wenn ich sage unreif, unreif. Es ist keine schlechte Sache, in der einfach bedeutet, dass das Produkt immer noch entwickelt. Produkte sind produktiv. Immer noch nicht herausfinden, was es genau tun soll. Das ist, was, wenn man in Reifen sagt , beginnt man mit dem neuen Konzept. Sie beginnen, Features zu bauen und dann verwenden Sie den Start fragen nach neuen Kreaturen und Sie sind immer noch nicht. Ich meine, es ist nicht wie ein Produkt wie unser Habemus, sagen wir. OK, die Artemis muss diese Eigenschaften haben. 12345 Wohingegen wie sieht ein Big Data Positive aus? Wie, was für ein Funke sollte unser Wasser tun. Wie soll ich das machen? Denkst du, dass die Leute noch debattieren? Das ist das Wasser sollte ständig hinzufügen Funktion. Sie ändern die Funktionen und alle möglichen Dinge passieren. So nennen Sie es unreif, dass dies die Big-Data-Produkte gegen interationale Datenlösungen sind. Vielen Dank 4. Aktuelle Big Data Trends: Hallo. Willkommen zu diesem Vortrag über Colin. Big Data-Trends. Das ist deine Instruktor-Kamera. Lassen Sie uns also reden, um zu sehen, was im Jahr passiert. Big-Data-Welt. Wie formt sich das Produkt? Die Technologie ist also klug. Was sind sie? Schauen Sie sich die Big Data-Technologien an. Es gibt zahlreiche Unternehmen und Projekte, die heute auf Big-Data-Technologien kommen. Es gibt viele Unternehmen, die sich mit einer Vielzahl von neuen Produkten auseinandersetzen. Sie sind nicht einmal ein Dato Justin ernannt oder 2.2 Dinge. Viele Inkubator-Produkte, die kommen und sie sind alle hauptsächlich Open Source wurde nur bekommen, weil, wissen Sie, es ist ziemlich einfach, sie zu betrachten. Schauen Sie sich an, Königreich aus und probieren Sie sie an. Meistens gibt es auf Cloud fokussiert. Sie wurden von einem Bereitstellungspunkt aus für die Cloud von einem Verwaltungspunkt aus erstellt, an dem sie für die Cloud waren. Viele dieser Technologien konzentrieren sich auf eine Sache. Sie kommen nicht mit der Straße, die tut. Viele Dinge sind vollwertige Produktangebot, dass sie sich auf einen bestimmten Bereich auf ein bestimmtes Problem konzentrieren und kommen mit dem Produkt am Tag typischerweise offene Schnittstellen für die Integration haben . Also konzentrieren sie sich auf eine Sache. Hat es gefragt? Ist das in Ordnung? Sie können dies als Modell in Ihrer Lösung auf verwenden. Wir können sehr gut mit anderen Modelle integrieren, sind andere Lösungen auf dem Markt. So kommen sie. Ein besseres Beispiel ist, wenn Sie sich die keine SQL-Marke ansehen, wissen Sie, dass es niemanden gibt, die keine Fähigkeitenlösung gibt, die alle Ihre Bedürfnisse erfüllt. Sie wissen, jeder von uns ist Ihre Lösung adressiert verschiedene Anwendungsfälle auf ihren sehr spezifischen Anwendungsfall und konzentriert sich auf den Anwendungsfall. Das ist es, was sie versucht haben, so dass das überall passiert. Sie wissen, dass das zahlreiche Produkte sind, zahlreiche Unternehmen, die über die Produkte kommen, und Sie wissen nicht, welche Sie wirklich wählen sollten. Sind keine von ihnen, die wirklich reif für die Adoption ist. Es gibt phänomenale Wachstum in der Annahme, diese neuen Technologien von anderen neuen Technologieunternehmen beobachtet, die vorbei ist. Dies passiert, jemand kommt mit Huddle auf Dope wird als Basis für das Kommen mit anderen verwendet, vor allem unter einer Reihe von Unternehmen, ist eine Menge von Annahme innerhalb der Startups von Sie holen eine Technologie und versuchen, kommen mit einer anderen Technologie, und das ist los. Es gibt eine Reihe von unreifen Alternativen und essen Segment wieder und sagen reife Maßnahme. Es ist nicht unbedingt, dass es nicht ist. Es ist keine schlechte Sache. Es ist nur die Produktentwicklung. Und es Jedes Produkt neues Produkt, das auf den Markt kommt und die neue Technologie, die in den Markt kommt , wird durch einen Reifezyklus gehen. Und derzeit sind viele dieser Produkte auf einem unreifen Niveau. Sie sind nicht wirklich in einem reifen Niveau. Das ist es, was es bedeutet. Was passiert also in Software-Produktorganisationen, wenn es sich um ein Softwareprodukt handelt? Unternehmen sprachen über Unternehmen, die Software produzieren, kommen mit selbstrechten Produkten wie Microsoft, zum Beispiel, Apple erzählt über die beiden besten Unternehmen der Welt. Aber viele Unternehmen wie das. Also, was machen sie? Neue Produkte. Die Minen treiben neue Produkt-Futures, also Cloud Social Media Mobile. Dies treibt neue Funktionen im Produkt an. Jeder will in der Cloud aktiviert sein, soziale Medien aktiviert mobile, und das treibt eine Menge von Produktfunktionen in ihren Organisationen. Und wie Sie wissen, generieren all diese Jungs eine Menge Daten, und das ist es, was sie tun müssen. Big Data wird für Kosteneinsparungen als notwendig erachtet. Typischerweise jedes dieser Software-Produkte werden Sie sehen, dass sie eine Datenbank auf ihrer Basis benötigen, kommt zu einer Menge Kosten. Eso versuchen sie, Anfängertechnologien zu verwenden, weil sie Open Source sind, nehmen und nehmen Big Data-Technologien und tatsächlich wickeln sie in das Produkt, bieten fast keine Kosten. Also versuchen sie, Big Data als kostensparende ah Funktion innerhalb des Produkts zu betrachten. Anstatt auf herkömmliche Daten mit Lösungen setzen zu müssen. Die Menschen verlangen nach flexiblen Analysefunktionen in ihren Produkten. Also jedes Produkt auf der Welt braucht eine Art von I Analytics dafür auf. In Ordnung, also versuchen sie, flexible Analysefunktionen zu entwickeln, die ein flexibles Schema erfordern . Auch so ein einfaches Beispiel. Beginnen wir mit Ihrem Betriebssystem. Das Betriebssystem erzeugt eine Menge von Protokollen, zerstörte Protokolle Warnung, und wenn Sie diese Protokolle und Warnungen von unserer so Maney PCs sammeln wollen sind so viele Laptops und bekommen sie verstehen Platz Platzierung auf Spitze als in Richtung geht eine, die braucht eine Menge von einer dunklen Analyse Fähigkeiten sowie Big Data-Funktionen. Jeder möchte erweiterte Alex-Funktionen in seine Berichterstattung für die Lösung hinzufügen . Also beginnt es mit, wenn Sie die Realität des Finanzsektors bekommen, wollten Sie die Daten verwenden, um etwas vorherzusagen. Wenn Ihr Band Sie Hardware-Produkte oder Software-Produkte machen, wissen Sie, dass es auch die Notwendigkeit für Sie. Holen Sie sich ein Protokoll von verschiedenen Bereitstellungen und analysieren Sie sie und versuchen Sie, Fehler vorherzusagen. Und ich werde versuchen, vorherzusagen, welches System wahrscheinlich scheitern wird, und dann gehen Sie es vor dem Gesicht und eine Menge Dinge wie dies geschieht in Bezug auf erweiterte Analysen, auch in jedem der Software-Produkte. Sehen wir uns nun die andere Seite der Welt an, die die Unternehmensidee Unternehmensideen in Ihrem Dokumentarpreis ist. Und wir sprachen von einer Firma, die in erster Linie keine Computerfirma ist. Wenn du sagst, dass es eine Bank ist, dann ist es ein Geschäft, andere Art von Geschäft, richtig? Andi, sie sind all diese Unternehmen in ihnen haben, und der Preis, den ich in der Abteilung nenne sie sogar i D Abteilung und ein E, D. P oder was auch immer. Menschen waren die Farbe auf das, was in diesen Abteilungen über Big Data geschieht. So sind sie neugierig und ängstlich zugleich. Und sie schauen auf Big Deal, weil diese Ideenorganisationen in der Regel auf einem sehr langsamen und stabilen fairen Raum bewegen . Sie haben nicht auf adoptieren Produkt einfach so gehen. Sie verbringen in der Regel viel Zeit damit, sich neue Produkte anzuschauen. Arzt neue Produktion, wenn sie produktive Produkte angenommen, bleiben in ihrem System für eine lange Zeit. Sie kaufen nicht ein neues Produkt, weil Ihre Abfrage neue Produkt würde sie etwa sechs Monate dauern . Und danach entwickeln sie eine Lösung für das Produkt und setzten diesen Text jemand zu zwei Jahren ein, und dann bleibt die Lösung dort, für weitere 10 Jahre eingerichtet, bevor sie es unter dem neuen Produkt betrachten. Also gibt es ein ziemlich langsames Tempo denken, und jetzt schauen sie auf den Markt alles. Es kommen so viele Dinge auf sich, und sie haben Angst davor, was auf der ganzen Welt passiert. Sie sind beauftragt, zu tun schneiden Social Cloud und Mobile später, weil ihre Unternehmen, die Mutterorganisationen müssen in diesen Bereichen wie eine Bank beteiligt sein, zum Beispiel, heute haben sie keine Option. Sie müssen in der mobilen Welt dort sein, um in die Cloud zu gelangen, werden ihre regelmäßigen in die Social-Media-Welt, weil das ist, wo die Kunden sind. So wie ein Service-Unternehmen Ideen oder müssen auch bis zu all diesen neuen Datenquellen addieren, erhalten Sie die Daten und beginnen, sie zu analysieren. Es ist kompetent zu Druck heute Daten in der Management-Welt getrieben werden. Dass dies das neue an Flussmanagement beabsichtigt ist, ist die neue Sache und ich Daten gesteuert, wenn nicht Ihre Art aus wirklich alt. Das ist ein Teil von einem Volk, das gesagt hat. So sind sie auch in einer Uhr und warten, bis die Technologie in der Regel reift, und der Preis, den ich Idee. Unternehmen kommen nicht in unreife Technologien, die in der Regel warten, bis die Technologien ausgereift sind. Also gibt es diese ganze Sache über sie wollen nicht der Sündenbock aus dem Meerschweinchen für eine neue Technologie, die in der Regel warten, bis Waschen zu verrotten oder drei toto, bevor sie anfangen adoptieren. Aber dann bewegt sich die Welt ziemlich schnell. Dort sind sie neugierig und ängstlich zugleich, weil sie die Rate für weitere fünf Jahre nicht kennen. Dinge, um sicherzustellen, weil ihre eigene Firma nicht vielleicht sie mit ihnen und vorwärts zu bewegen , so dass ihre Verbreitung in. Sie beginnen eine Menge Proof of Concept Projekte. Das ist, wenn es eine große Menge an Nachfrage nach Big Data-Profis gibt, weil jeder in die Big Data kommen will. Sie wollen mit einigen Projekten beginnen und sehen, wie Big Data in ihre Organisationen passen können . Und sie schauen auch auf den Weg in die Cloud, um Kosteneinsparungen zu erreichen. Das ist es, was wir in der Enterprise passieren. Ich d Welt. Ab sofort war die Auswahl ziemlich hilfreich für Sie. Danke. 5. Einführung in Big Data Lösungen: Hi. Herzlich willkommen zu diesem Vortrag über einen Einführungszettel. Big-Data-Lösung Architektur. Das ist dein Lehrer Gemeinsame Angst. Sie sind also entweder ein bestehender Architekt von unserer herkömmlichen Lösung. Sind Sie nur ein Schüler, der versucht zu verstehen, wie Big Data-Lösungen entwickelt werden? Big Data-Lösungen unterscheiden sich radikal von regulären. Traditionell ihre Lösungen dafür, was wir in diesem Vortrag sehen werden und wie sie anders waren . Beginnen wir mit dem, was ist ein Big-Data-Lösungen sind sogar ein großes Datum der Anwendung oder wenn Sie es so nennen möchten, ist das Ziel einer Big Data-Lösung, eine Assemble zu erwerben. Big Data, Big Data sind die Definitionen, die wir vor den vier weise gesehen haben, werden Sie auf Daten aus Sie waren Quellen von unserem Baby A durcheinander flache Kämpfer zu sozialen Medien zu mobilen auf. Es wird auch aus unseren verschiedenen Formaten sein, wie es textbasierte Daten sein könnte. Jason-Nummern, Medien, wie, wissen Sie, ah Weiss Dateien Videodateien. Es kann alles sein, was unser Prozess ist, und persistente, skalierbare und flexible Datenquellen. So werden Sie die Daten in ziemlich großen, skalierbaren Datenspeichern verarbeiten und beibehalten , wie für weniger flexibel in Bezug auf das Schema, sind flexibel in Bezug auf das, was Sie mit getan tun können. Das werden wir in einer großen Absolution machen, die Sie für flexibel sorgen. Öffnen Sie ein P Ass für das Beenden ist, dass es eine SQL-Schnittstelle ist oder es wird verhaftet. Sie bieten einige gute offene AP ist, durch die Personen Daten abfragen können. Eine Sache, die sich an die Big-Data-Lösungen erinnern wird, ist, dass Big Data-Lösungen sich nicht wirklich auf den Dateneingabeteil konzentrieren noch wirklich eigene auf die Berichterstattung besitzen. Aber das sind Endanwender-Funktionalität wurden weitgehend auf der Rückseite fokussiert werden und wir haben Sie die Daten bekommen und bewegen, dass es diesen großen riesigen Anhänger um verschiedene Orte zu bewegen und Dinge zu erledigen. Stellen Sie erweiterte Kenntnisse X-Funktionen bereit. Dies ist die Vorhersage des Missionslernens, diese Art von Fähigkeiten. Denn Big Data wurde schon immer fast immer mit diesem verbunden. Du könntest anfangen, du machst. Selbst wenn Sie ohne diese Fähigkeit starten, werden Sie so ziemlich erkennen, dass gefragt, das Ding geht weiter. Sie möchten diese Funktionen hinzufügen, da alle Unternehmen heute erweiterte Analysen suchen , um ihr Geschäft zu unterstützen. Andi verwenden große Gator-Technologien, um die Lösung zu stricken, als Boden aufzubauen. Also niemand keine Unternehmen sitzen in der Entwicklung einer Big Data-Lösung von erwachsen ganz allein, ob sie gehen und einige Lösungen, die auf dem Markt sind und irgendwie sie zusammen gemacht , um eine Lösung zu schaffen, das ist, was Wir werden eine später in den Diskussionen sehen. Wie unterscheidet sich eine herkömmliche Anwendung von einer Big Data-Anwendung? Es wird anders sein und eine wahre Art und Weise. Nun, wenn Sie sich die Datenerfassung ansehen, wie wir ruhig sind, unsere traditionellen Anwendungen der Dateneingabe durch Indiens gibt es ein U, in dem typischerweise Menschen weitergehen, einige Daten eingeben und es könnte gesammelt werden auf diese Weise, während in Big-Data-Anwendungen, es ist frisch, als Grundlage für Missionsprotokolle oder soziale Medien. Nun, im Großen auch, könnten Sie argumentieren, dass die Daten und es gibt eine Art von Dateneingabe, die möglicherweise wie jemand wie Amazon, zum Beispiel gibt es Leute und verwandelte es in ein U. N. Aber eine große, bessere Lösungen für Sie umfasst in der Regel nicht aus dieser Anwendung. Sie werden in der Regel als eine andere Anwendung betrachtet. Die Daten und der Bericht über den Datenerfassungsteil, den sie typischerweise nennen, gehen in einen betrieblichen späteren Speicher über die Jahre auf Ihre Big Data Solutions beginnt mit dem ODS nicht wirklich von der U I-Dateneingabe. Sie es, weil Sie Leute keine Daten können und sie nicht auf Hunderten von Servern gestohlen werden können. Und die Big-Data-Lösungen beginnen. Aber es fängt an, Daten von diesen Hunderten von Servern zu sammeln und dann zu überqueren. So ist dieser Eintrag, könnte man argumentieren, ein Teil der großen Auflösung. Aber es ist besser, es getrennt zu halten, weil die Technologien die Art der erforderlichen Fähigkeiten beinhalteten . Die Anwendungen von Belinda sind völlig anders als diese Art von Anwendungen. Datenvalidierung in traditionellen Lösungen sind normalerweise Jordanien während der Dateneingabe, nicht, sie haben in der Regel A Sie kaufen ein Formular sehr schneller, geben Sie einige Werte ein und es gibt eine Validierung dann in dort, wenn Sie geben Sie das falsche Datum, Sie sofort aufgefordert weitere intakt verhindert, dass Sie von etwas falsch. Besser, indem Sie eine Liste von Werten geben, sind die Optionen zur Auswahl, anstatt nach neuen Freiformtext zu fragen , während Big Dirt Anwendung neigen dazu, mit vielen schmutzigen Daten umzugehen, weil es in der Regel Freiformtext ist, und das kann viele fehlende Daten in ihnen sein. Viele Daten, die auf einer Rechtschreibung sind, alle Arten von Sachen. Eso, wenn es darum geht, eine herkömmliche Datenlösungen zu bereinigen, haben keinen Säuberungsschritt, da es bereits während der Dateneingabe validiert ist, während eine da es bereits während der Dateneingabe validiert ist, größere Anwendung der Daten vom Bären kommt. Aber Social Media, es ist eine Menge Reinigung beteiligt, wenn es um Transformation geht. Traditionelle Lösung. Diese Transformation des Geldes. Regel derRegeltun Sie mit einigen mehr Daten, Sie wissen, konvertieren Transaktion gleicht zwei Datensätze und Datensätze, die einem jemand täglich jemand angeboten . Das ist, was Sie normalerweise in einer herkömmlichen Anwendung tun, während Sie in einer großen Anwendung wie Texturnummern, Konvertierungsbildung, Erlernen einer Datenanreicherung tun Konvertierungsbildung, . Sie machen auch etwas mehr Ignation, dass Sie eine Menge Transformationsarbeit und Big Data-Persistenz tun. Große traditionelle Lösungen verfügen in der Regel über ein einziges zentralisiertes RBB Emma, und das ist es, was sie normalerweise tun. Während Big Gate-Anwendungen würde ich verteilen und eine Poly Clock persistent, was bedeutet, dass Sie einen anderen Datenspeicher-Typ verwenden würden. Sie könnten kombinieren und ich bin ein Muss ohne SQL-Datenbank. Ich habe genug, um die Dinge zu bekommen, die du willst. Viele flüssige Anwendungsarchitektur, eine traditionelle Lösungen, die in der Regel, was Sie drei müde Architektur gesamte Architektur nennen . Es ist auf im Besitz der Unternehmen Lier zentriert, während bigot Anwendungen unser Rechenzentrum und Integration orientierte Geschäft Lee eine Anwendung, die eine zentrale Business-Schicht, auf die Daten als Stimmung. Es wurde also aus dem Datenspeicher zur Geschäftsschicht verschoben und dann zurück. Während große Anwendungen bekommen, werden Sie nicht dorthin ziehen. Das ist ziemlich kostspielig. Vielmehr werden Sie das Gericht verschieben, um schließlich ihren Datenzugriff zu tragen und sich die Verwendung herkömmlicher Anwendungen anzusehen . Sie sprechen über Reporting Analytics, gesetzliche Datenberichterstattung und so was auf Big. Sie konzentrieren sich mehr auf Vorteile, , Vorteile Politik, Missionslernen, Missionslernen, prädiktive und präskriptive Analysen. Verschiedene Arten von Anwendungsfällen, Antriebsboot, traditionelle und große Lösungen. Es ist wichtig, dass Sie verstehen, wie sie anders sind. Wir haben einen Architekturarchitekten. Sie werden sie auf eine andere Weise betrachten, im Vergleich zu jeder Art von traditionellen Lösungen. Eines der größten Dinge, die Sie konzentrieren werden, sind konfrontiert, wenn Sie Big Data betrachten. Ist diese Unterscheidung zwischen historischem und echtem Radar? Nun, traditionell, wenn Sie sich eine normale traditionelle Geschäftsanwendung ansehen, was passiert, es ist, dass Sie Daten nur in Echtzeit sammeln, und dann werden diese Daten dann für alle Arten von historischen Zwecken auch verwendet. Aber angesichts des Datenvolumens, mit dem Sie arbeiten, ist es nicht möglich, dass Sie wirklich alles in Echtzeit in einer Big-Data-Lösung erledigen. Aufgrund des Datenstroms, der Geschlecht ist, wurde die Wallet generiert. Es ist nicht wirklich möglich für Sie, mit der Lösung zu tun, die jedes Stück Daten in drei zu verarbeiten und zu finden, denn das ist selbst, wenn Sie es wollten, wird es wirklich, wirklich teuer sein , weil Sie ein Design haben. Ihre Lösung. Achten Sie auf die maximale Belastung. Das könnte wirklich hoch sein, wenn du darüber sprichst. Das liegt auch daran, dass Sie in herkömmlichen Anwendungen den Datenfluss kontrollieren können. beispielsweise Wenn Siebeispielsweiseeine herkömmliche Finanzbuchhaltungsanwendung erstellen, in der Regel Dateneinträge verwendet werden. Das ist in der Regel viel langsamer. Und du kontrollierst die Anzahl der Kunden, weißt du? Okay, es werden 50 Leute geben, die zu jedem Zeitpunkt Daten eingeben, Maxwell Lord. Während Andrea, wenn wir uns die sozialen Medien ansehen, wissen Sie nicht, wie viele Leute über Ihr Unternehmen twittern werden, und Sie können es nicht wirklich kontrollieren. Es könnte wirklich Spikes geben, in Bezug auf die Daten kommen. Es gibt also einen Unterschied, den Sie zwischen Echtzeit und Historisch erkennen müssen. Sie können eine Lösung erstellen, die beides gleichzeitig erledigt. Aber weißt du, das wird wirklich teuer auf dem Weg, wie ich vergleichen würde, dass eine Echtzeit später wie ein Sportwagen ist. Historische später ist eher wie ein Lastwagen. Sie haben sehr unterschiedliche Funktionalitäten. Ja, Sie wollen sie miteinander kombinieren, als das bedeutet, dass Sie versuchen, ein Fahrzeug zu bauen, das die Fähigkeiten eines Sportwagens auf die Kapazität eines Lastwagens hat . Und das wird eine und mögliche Sache sein. Und selbst wenn Sie einen bauen, der ein sehr kostspieliges Essen sein wird. Großartig. Also schauen wir uns an, wie historische und Echtzeitdaten die Freundschaft zwischen sich selbst. Historische Daten werden gespeichert und weitergeleitet. Echtzeitdaten werden gestreamt. Irureta kommt rein. Du weißt schon, Du weißt schon, sitzt und hörst Daten an. Und es gibt eine Menge Lord Historical. Sie gehen in der Regel ziehen Sie die Datenschiene Zeit wird in Sie geschoben historischen. Später betrachten Sie wirklich die Verarbeitung am Ende des Tages oder das Ende unserer Verarbeitung als Stapelverarbeitung , während Echtzeit, es sogar Basis ist die letzten ausgefallenen Gleichungen auslöst. Die Dinge werden in Sie geschoben, und als Ereignisse geschehen, haben Sie reagiert historisch, dann auch sprechen Sie mit abgeschlossen Rekord geradeaus. Zum Beispiel, Sie sprechen von der Besessenheit. Historische Aufzeichnung wird erstellt, nachdem die Besessenheit des großen Einschnitts eines Benutzers vorbei ist. Also, das ist danach gemacht. Während in Echtzeit Live-Updates, wie der Benutzer auf jeden Link im Rep Grat klickt, werden Sie immer ein, obwohl es Leben Ricard gepflegt wird. Wenn Sie Aufrechterhaltung Wunder für die Entscheidung aufgerufen Sie erstellen, dass aufgetreten, wenn der Verlierer sich anmeldet und Sie werden ständig aktualisieren die Rekorder. Die Updates als mehr und mehr Aktion geht von der Benutzerseite. Historisch, Wann immer Daten fehlen, Sie tun einen vollständigen Verlag erneut veröffentlichen, Sie wissen, eine Echtzeit. Dies ist immer das Delta, das veröffentlicht wird. Sie veröffentlichen nicht die gesamten Daten, sondern Ihre Publishing-Deltas und Sie wissen nicht, wie Delta-Daten Historisch behandelt werden sollen . Eine der Voraussetzungen wird kein Datenverlust sein. Wissen Sie, Sie können langsam sein, aber Sie können keine Zeit für die Datenbahn verlieren. Die Voraussetzung ist, dass es schnell sein muss, aber es könnte einen möglichen Datenverlust geben. Sie sehen, in Echtzeit Daten in Echtzeitnur für einige wichtige Berichtszwecke verwendet werden. Sie könnten also kleinere Datenmengen betrachten und es ist in Ordnung. Es gibt ein wenig Unterschied in Bezug auf Zahlen. Historische Daten werden für detaillierte Analysen verwendet, während Echtzeitdaten für Snapshots Intraday verwendet werden. Analytics sind sofort und nehmen, was Sie es nennen wollen, wenn es um fortschrittliche Analogic geht . Historische Daten wurden für den Modellbau verwendet. Wenn es um Mission Learning geht. Historische Verspätungen. Wird nur für Modellbau verwendet. Sie bauen ein Modell, um etwas unter Ihrer Zeit vorherzusagen Raider tatsächlich verwendet wird, um eine Vorhersage zu machen . Es gibt also viel Unterschied zwischen der Art und Weise, wie historische Daten erstellt werden verarbeitet und verwendet werden sobald Israel Zeitdatum. Also nur für Sie, um ein Bild davon zu bekommen, wie sie anders sind, uh, hoffe, das war hilfreich. Wir bewegen uns weiter auf dem Zeh. Weitere Diskussionen wie diese, wenn wir zur Architektur kommen. Vielen Dank. 6. Architecture: Hi. Willkommen zu diesem Vortrag über Architektur Vorlage für eine Big Data-Lösungen. In diesem Vortrag werden wir sehen, wie die Gesamtlösung von Big Peter aussieht. Und was sind die verschiedenen Modelle in einem großen bekommen eine Lösung? - Onda. Wir werden in den späteren Vorlesungen an Details dieser Modelle arbeiten. Also lassen Sie uns mit dem beginnen, was sind die verschiedenen Modelle aus einem Big Data-Lösungen. Was sind die verschiedenen kompetenten jetzt im Fall von regulären herkömmlichen Datenlösungen? Wenn Sie Modelle ausgeschaltet haben, sieht die traditionelle spätere Lösung in Bezug auf Code Besar viel ähnlich zueinander sieht die traditionelle spätere Lösung in Bezug auf Code Besar viel ähnlich zueinanderaus. Wie die USA so aussahen, liegt daran, dass Sie sie alle von Grund auf neu bauen. Sie haben nur unterschiedliche Funktionalität. Und die Arten von Big Data-Anwendung haben uns viele Unterschiede zwischen dem gemacht, was diese Modelle in Bezug auf ihre sind, die ich Form, Größe und diese Art von Sachen nennen würde . Sie würden für jedes dieser Modelle unterschiedliche Technologien verwenden. Beginnen wir also mit dem ersten Modell, bei dem das Erfassungsmodell handelt, das Modelle hinterfragt. Job ist die Verbindung mit Ihren Datenquellen auf die erfassten Daten. Dieser Fokus hier ist es, sie zu verbinden und die Daten zu erhalten. Und natürlich können die Verbindungen beides sein. Batch mehr streamen mehr, und es kann mehrere Landwirte für sind die Daten, die kommen in. Dann geht es um den Transport Lee, und das ist eine große Transportschicht, die in Big Data involviert ist. Da die Transpiration ist, sind die Quellen der Daten sehr weit zu verstehen, wo die typischerweise das Ziel ist. Das ist also eine bedeutende Transportbemühungen im Transport über das Internet über organisatorische Grenzen beteiligt , um größer zu werden, weil die Sammelpunkte ziemlich zahlreich sein können, sie können im Web sein, kann es in der Cloud sein, sie können sich in verschiedenen Rechenzentren befinden und die Daten müssen verschoben werden. Dies ist ein großes Date oder nicht klein später, und das muss mehr über all diese Organisationsgrenzen hinweg sein, um zum Ziel zu gelangen . Dann kommt persistent, so dass Persistenz die Speicherung von Daten auf persistenten in einer größeren Auflösung polic gesperrt werden kann, was bedeutet, dass Sie verschiedene Arten von Daten verwenden würden. Also, so tut mir leid, Daten sinken. Ich habe gerade verschiedene Arten von Daten erzählt, so dass es nicht nur eine Lösung geben wird, die für alle passt. Leider würden wir in den Raid Vorlesungen sehen, dass wir keine Lösung einer Einheitsgröße für alle Lösung haben. Sie können also verschiedene Datenbanktypen verwenden, um verschiedene Arten von Daten zu speichern. Transformation ist ein langer Prozess Gin Wall die Daten zu erhalten, die Daten zu bereinigen, verknüpfen, zu übersetzen, zusammenzufassen. Es gibt eine Menge von Aktivitäten in der Übersetzungsebene aus einer Big Data-Lösung. Das ist also eine deutlich in einer renovierten Lösung. Dann gibt es Berichte. Also, natürlich, wollen Sie natürlich, die U. S. Das S. Radar für eine Art von Ihnen ein basiertes Reporting und auch Sie wollen einige A PSB H Drittanbieter-Anwendungen oder andere Anwendungen bieten können und nutzen Sie diese -Daten. Also, das ist eine Berichterstattung mehr Deal dort. Und schließlich gibt es ein fortgeschrittenes Wissen Ex-Modell im Voraus Analytik, mehr Deal, andere Kerzen Dinge wie Mission Lernen Aussicht, die Richtungen, umsetzbare Handlung, umsetzbare Schutzmaßnahmen und Diese Art von Zeug. nun Wenn Sie sichnunall diese Schichten ansehen, nicht alle Schichten unseres Militärs für eine Big Data-Lösung, hängt es davon ab, was Sie in den Big Data-Lösungen erreichen möchten. Manchmal hat es einfach verbracht Manchmal ist es komplex. Dies sind also die verschiedenen Modelle, die typischerweise an einer großen Lösung beteiligt sind. Und schließlich gibt es ein Management Lee. Die Management-Layer-Aufgabe besteht darin, all diese Dinge auf meiner Managementschicht zu verwalten. Es gibt ziemlich wenige Optionen zur Verfügung gereizt auf. In der Regel bieten Ihnen alle individuellen Technologie-Optionen einige Management-Funktionen. Und dann möchten Sie vielleicht, dass O eine Managementschicht aufbaut, um alle Daten zu erhalten und ihren Halbmond, die Gründe für die Datenverwaltung, darzustellen . Schauen wir uns also noch einmal an, wie die Vorlage aussieht. So beginnen wir mit Akquisitionsmodell, dessen Aufgabe es ist, Daten von überall zu erwerben, wo die Quellen sind. Dann gibt es den Transport. Mehr doulas Job war es, die Daten zu bekommen und über verschieden transportiert, um zu bekommen, wo Sie sind Gruß. Ziel befindet sich im Ziel. Als ein Big Data Store auf dem Big Data Store, werden Sie Party glücklich, hartnäckig, möglicherweise, weil Sie sie in einer anderen Basis speichern könnten. Dann gibt es eine Transformationsschicht, die eine Reihe von Jobs ist, die eine Reihe von Aktivitäten ausführen können. Ist der Heck da? Wir werden in der Regel Daten aus der dauerhaft transformierten Daten und setzen sie zurück in die Persistenzschicht. Manchmal kann eine Transformation auch in der Transportschicht selbst erfolgen. Frag jungen Film D. Ein anderer ist auch möglich, wenn es wirklich Zeit Art von Datensystem ist. Aber in der Regel ist Trance am Transformationsmodell ein ernsthafter Off-Batch-Prozess, der an den Daten in der Position arbeitet , die Spieler gelesen von Es transformiert es ging direkt zurück zu ihm. Dann, natürlich, gibt es die Manage-Layer, die nur Lee verwalten, die gehen und verwalten können all diese verschiedenen dort in einer Arbeit auf ihnen getestet und sehen, wie sie alle passen zusammen. Es gibt eine Berichtsschicht, deren Auftrag mit Do ist eine Möglichkeit, mit der Benutzer die Daten in der persistent betrachten und einige Berichte ausführen können . Nehmen Sie ein, um die Daten heraus zu machen einige Grafiken. Es kann einfach visuell sein. Die Dinge sind, es ist ein AP für Sie, um die Daten aus dem System zu holen. Und schließlich gibt es den Analyse-Layer. Fortgeschrittenes Wissen. Ex-Spieler, der diese Daten lesen kann, führt eine Manal Biggs und dann direkt zurück auf die gleiche Persistenzschicht. So gibt es eine Menge, das sind all die verschiedenen Modelle und sie beginnen Ihre Suche. Uh, unser Diagramm zeigt Ihnen, wie die einzige in der Regel zusammen arbeiten, ist ein Big-Data-System wird so aussehen, als ob dies die verschiedenen Modelle sind. Und je nach Ihrem Schrecken, könnte ein Modell groß sein. Einige Modelle können klein sein. Einige Modell kann Existenz bekannt sein, aber das ist das Gesamtbild auf. Wir werden jedes dieser Modelle in den kommenden Abschnitten ausführlich untersuchen. Vielen Dank. 7. Einführung in die Technologieoptionen: Hey, willkommen zu diesem Vortrag über Technologie-Optionen. Während dieses gesamten Kurses werden wir viele Technologieoptionen für den Aufbau von Big Data-Lösungen diskutieren. Wir geben ein wenig Interaktion als Zehe, was wir in diesem Bereich tun werden . Also über Technologieoptionen in diesem speziellen Kurs werden wir nur populäre Optionen diskutieren. Dies ist so Geld-Optionen, die heute verfügbar sind. Viele von ihnen kommen vor. Viele von ihnen sind in russischer Null, nicht 10 oder zwei. Irgendwie kommen alle mit einer Big Data-Lösung. Onda, , es gibt eine riesige Liste und wir wollen nicht jeden von ihnen durchmachen, weil Cornerback okay, ziemlich langweilig. Wir werden uns nur ein paar beliebte Optionen ansehen, und das wird nicht im Weg stehen. Wenige Diskussion, denn jede dieser beliebten Option ist ah Kurs an sich. Wenn Sie die Grenze wirklich ins Detail bekommen wollen, worauf wir uns konzentrieren werden, sind die herausragenden Funktionen dieser speziellen Technologie-Option . Unsere Produktvorteile und Mängel wurden versucht, mehr in eine vergleichende Motoren zu suchen , was ist der Unterschied zwischen einigen Produkten und wo sind sie ziemlich nützlich, um ? Wir konzentrieren uns auf die Vorteile, Mängel und Anwendungsfälle, in denen wir sie verwenden werden. Wir erhöhen Sie auf jeden Fall, um andere Ressourcen zu suchen, um das Lernen dieser Technologien, an die wir nicht denken, tiefer zu verknüpfen . Okay, lassen Sie uns mehr Inhalte hinzufügen. Aber dann haben wir darüber nachgedacht, wie viel bequemer wird, besonders wenn dies ein Frottee auf Spirituosen sein wird. Und es hat keinen Sinn, einen 30-stündigen Vortrag für Anfänger-Technologien zu finden. Regelmäßige Lösungen. Natürlich können Sie immer einen anderen suchen, ist einfach zu unser Zeh. Erfahren Sie mehr über diese Technologie-Optionen. Es gibt einen großen Unterschied in der Art und Weise, wie herkömmliche Lösungen gebaut werden. Will uns, wie Big Data-Lösungen gebaut werden. Die traditionellen Lösungen sind in der Regel von Grund auf neu gebaut. Dies sind mehr analytische Anwendungen, wie eine riesige Anwendung, die selbst entwickelt wird. Sie bauen die gesamte Lösung im Haus. Sind Sie durch die Holding von einem Markt, wenn Papa wie typischerweise Sie aßen Fähigkeit und ihre Luft pre Lösung im Haus, mit so etwas wie Artikelformen und Sachen wie das sind Sie? Kaufen Sie sie von einem Anbieter, aber es wird eine monolithische Anwendung sein. Es ist in der Regel Rückkehr und eine einzige Programmiersprache. Tausende von Viertelzeilen. Gerichtsbeschlüsse kehren in der monolithischen Anwendung Zehe zurück. Bauen Sie alles, was Sie wollen. In der Regel gibt es eine einzige zentralisierte Daten in dieser Anwendung gespeichert gibt es in der Regel hohe Entwicklung und Wartung Auto. Dies ist eine traditionelle Anwendungen haben Bean bisher gebaut, ob durch eine einzelne Anwendung oder durch unsere durch sie auf. Und diese Art von tut alles für Sie, von Anfang bis Ende. Weißt du, das ist alles. Bisher wurden Anwendungen erstellt. Aber die neue Art, das große Datum eines zu tun, ist montieren und Stich Weg, wenn sie zusammenbauen und nähen Weg, anstatt zu versuchen, alles von Grund auf neu zu bauen, versuchen, Stücke von Technologien aus verschiedenen von verschiedenen Optionen zu montieren, und dann nähst du sie zusammen. Einer der Gründe, warum Sie dies montieren und nähen müssen, ist, dass es keine Lösung gibt . Passt. Alle sind eins. Technologie passt den ganzen Rest heute in das Brett, es könnte später kommen, aber heute ist das nicht der Fall, dass Sie das Beste der Rasse für jedes Modell, das Sie haben, wählen müssen, und dann montieren und nähen Sie sie. So große Datenverarbeitung uns zu gemeinsamen Anforderungen eine Skalierbarkeit in einer massiven Skalierbarkeit und Zuverlässigkeit in dieser Fähigkeit auf beiden sind Dinge, die nicht sind, dass Sie leicht vom Himmel bauen können . Sie brauchten wirklich eine beträchtliche Menge an leisten und Programmierung. Sie wissen, dass dies ein Grund ist, warum Sie keine Big Data-Lösungen von Grund auf neu erstellen möchten . Vielmehr möchten Sie sich auf eine Technologie zurückziehen, die bereits verfügbar ist. Aber was bereits verfügbar ist, ist, dass es heute eine Reihe von Produkten und Technologien gibt, vor allem als Open Source. Ich weiß, dass es gut ist, dass sie Open Source sind, aber zur gleichen Zeit gibt es zu viele von ihnen. Es gibt viele Möglichkeiten. Viele Menschen bauen aktiv Lösungen. Eso haben Sie viele Optionen in dort an Tagen in der Regel unterstützen ausgezeichnete offene Integration . Das ist gut, dass sie dort ziemlich offen sind. Diese Technologien funktionieren gut miteinander. Sie haben Unterstützung füreinander, so dass Sie leicht dehnen können sie und Andi nähen sie zusammen. Also, wie willst du gehen und gehen? Los, mach weiter. Ihr Anwendungsaufbau ist, dass Sie zuerst weitergehen, die am besten geeignete Kompetenz für Ihre Lösung erwerben. Sie verstehen zuerst Ihre Lösung unter Ihrem Anwendungsfall und kommen dann mit einer Lösung und sagen, Dies sind die beste Kompetenz für meine Lösung und dann gehen Sie auf. Dann dehnen Sie sie aus und integrieren sie, um eine Lösung zu erstellen. Sie erhalten sie, genäht und integrieren sie, um eine Lösung zu schaffen. Auf diese Weise gibt es minimale benutzerdefinierte Arbeit. Sie möchten sich auf minimale benutzerdefinierte Arbeit konzentrieren. Das bedeutet auch, dass es eine sehr schnelle Produktionszeit gibt. So große Projekte sollten nicht für zwei Jahre oder drei Jahre laufen, dass es mehr wie ein zweimonatiges Projekt geben sollte. Aber Ihre Aufgabe besteht darin, eine Architektur zu entwickeln, die viel vorhandene Kompetenz nutzt , sie zusammenzieht und dann die Lösung implementiert. Und so werden Sie ziemlich schnell in die Produktionszeiten kommen. Vielen Dank. 8. Herausforderungen mit Big Data Technologien: Hi. Herzlich willkommen zu diesem Vortrag über Herausforderungen mit Big Data Technologien. Jetzt sind wir immer aufgeregt über dieses ganze große Tor der Welt in unserem so neuen und es ist eine große und wir alle wollen in der Welt zu bekommen und es zu tun. Aber es gibt eine Menge Herausforderungen, wenn es darum geht, diese großen Gator Technologies aus unternehmerischer Sicht auf Indien zu nutzen . Ein Blickwinkel auf, das werden wir in diesem Vortrag sehen. Das erste Problem ist, dass es zu viele Optionen Jetzt, wenn Sie sich so etwas wie eine Datenbank in jedem unser Baby in den meisten Datenbanken betrachten , gibt es nur sehr wenige Optionen. Richtig ist der Artikel, der meine Fortsetzung ist. Es gibt M. Eine Fortsetzung wird Post Crest sein. Weißt du, es gibt nur sehr wenige Optionen waren sehr klar definiert. Ah, Markt für sie, außer Rom. Andere, wenn die andere müssen wir das Gefühl begonnen haben, wenn Sie wieder gehen 2025 Jahren, gab es wie 20 seltsame vielleicht die meisten Produkte zu dieser Zeit, weil das Feld war neu und jeder kam versuchen, mit ihren eigenen zu kommen oder sind sie nicht Baby in diesem Produkt, aber dann, nach einiger Zeit, Sie wissen, dass sie sich niederlassen. Einige Produkte haben sich zum Marktführer entwickelt. Einige Produkte wurden nach unten eso Dinge wie, wissen Sie, verwendet , um hier über das Eindringen und sagen Bienen. Und dann gab es, als hätten Hetch B und B sein eigenes RD Bemis Produkt und Sohn auf seinem Kram und den ganzen Tag unten auf Big Gators heute, in einem ziemlich ähnlichen Stadium. Wo sind Daydreamers Waas vor 24 Jahren darin, dass es ein neues Feld ist. Jeder versucht, ein Produkt zu finden, und es gibt zu viele Optionen an dieser Stelle, so dass jeder in Ordnung denkt, ich denke, ich kann hier etwas tun. Lassen Sie mich ein Produkt bauen, das meiner Meinung nach neu und spannend auf jeder Produkt-Adressen und engen spezifischen Feed sein wird. Es gibt niemanden, der ein Produkt baut, was okay ist, ich werde die gesamte Bandbreite von Big Data abdecken. Other Everybody baut ein Produkt für einen bestimmten Anwendungsfall für ein bestimmtes Modell. Es gibt nichts, was alles abdeckt, und es gibt keine Einheitsgröße ein Produkt passt in alle Situationen. An dieser Stelle versucht jeder, sich auf andere Anwendungsfälle zu erweitern. Das ist es, was normalerweise passiert. Und jeder beginnt mit dem Produkt, das einen bestimmten Anwendungsfall, unsere Domain, abdeckt . Und dann versuchten sie, es zu erweitern, um alles andere abzudecken. Also, das ist eine Bühne, viele dieser Produkte sind auf. Das Problem ist auch, dass Ersatztechnologien in einem sehr schnellen Tempo erfunden werden wie Wenn Sie vier Jahre vor vier Jahren zurückgehen, Sie wieder Arzt über Demokratie war das alles sein und beenden alle Big Data-Verarbeitung. Aber keine Leute finden einen Vampir heraus, meinen Produzenten bei seinen Problemen, und sie kamen mit einem Partyfunk auf. Jetzt ist jeder wie, OK, OK, Apache Funke ist das Ding auf meinen Produzenten sterben? Und bevor Sie sagen, dass es etwas namens Flink die beste kommen oder mit Funken konkurrieren und Ihr Bein halten auf einer Minute, dieser Teil, das ist gut. Aber warum ist das ein Schleudern? Die Menschen versuchen, neue und neuere Technologien zu diesem Zeitpunkt zu entwickeln, an dem sich die Dinge nicht niederlassen. Das ist ein großes Problem für Big Data Architekt, denn wenn Sie versuchen, eine Lösung zu finden, wollen Sie eine Lösung, die dort für weitere fünf Jahre bleiben und arbeiten kann. Zumindest werden Sie nicht eine Lösung entwickeln, die nur für sechs Monate funktionieren kann und dann Tag eso Sie eine Lösung wollen, die für fünf Jahre oder so funktionieren kann. Das bedeutet, dass das Produkt, das Sie als Teil der Lösung verwenden, auch robust sein sollte und während des Zeitraums leben und wachsen sollte. Die meisten dieser Produkte sind unreif und unvollständig in der Reife. In einem Produkt ist nicht unbedingt eine negative Sache. Es sagt nur, dass das Produkt immer noch in einem sehr kindlichen Stadium ist, wissen Sie, es wurde nur geboren und es wächst immer noch. Es ist in Bezug auf seine Fähigkeiten nicht vollständig ausgereift. Es ist nicht sicher, was es in Bezug auf Stabilität gehen soll. Da sind wir drin. Und sie sind unvollständig, weil die Produkte nur tun, was sie tun, auf der Hauptsache . Sie haben keine Dinge wie Verwaltungsfunktionen und einige Überwachungsfunktionen und solche Sachen. Diese Produkte sind immer noch wie, wissen Sie, ein Kleinkind oder ein Teenager Art von mehr. Sie müssen immer noch wachsen und reifen. Diese Produkte haben eine sehr hohe Veränderung. Die Dinge ändern sich sehr schnell, was bedeutet, dass unsere Bibliotheken neue Bibliothek in ihnen ersetzt werden oder Bibliotheken ersetzt werden, die Schnittstellen wirklich schnell ersetzt werden. Das ist also eine Menge Abwanderung in Bezug auf das, was wir verwenden wollen. Fühlen Sie sich unterstützende Dienstleistungen. Eine sehr primitive noch, Das ist ein Problem mit, wenn Sie eine große Lösung erstellen. das die Produkte, die sie in Ihrer Lösung verwenden? Sie möchten Unterstützung und Service haben? Sie müssen immer noch Dinge wie Administration und Usability adressieren. Es wird einen Mangel an Geschick und Erfahrung geben. Persönliche. Wenn Ihre Einheit Leute, um Ihre Architektur zu implementieren, müssen Sie Zehe. Sei bereit, etwas Geld auszugeben, um die guten Leute dafür zu bekommen. Es ist schwierig, die Zukunft vorherzusagen, unsere Zukunft aus eine Menge dieser Produkte, weil die Dinge sehr schnell auf sie ist auch nicht Zukunft sicher, weil Technologien gehen aus großen vor der ersten Veröffentlichung der Anwendung vor der schnelleren bitte, ich spreche über die eine Tochter Release. Ein Großteil der schützt unsere Instill in Sub ein Dato mehr. Sie werden immer noch adoptiert und Juden, aber die Dinge ändern sich ziemlich schnell über Unternehmen in der Regel wie ihre Investitionen, um mindestens 10 Jahre sicher zu sein. Sie wollen in westlicher Technologie. Sie wollen, dass die Technologien auf dem Markt bleiben und weitermachen. Wachsen des Marktes. Das Gute an Big Day stirbt. Es ist alles Open Source von billiger. Aber dann hat meine Mutter dort auch Kosten im Zusammenhang mit dem Erwerb der Technologie in Kraft gesetzt und mit der Technologie auf. Die Menschen wollen nicht in einer Situation sein, dass ihre Technologie ziemlich schnell wird. Unternehmen, die diese Technologien unterstützen, sind meist kleine und Startups. Weißt du, das ist ein wenig besorgniserregend für dich, denn Startups können sich ändern, aber ziemlich schnell können sie erworben werden und sie können die Richtung ändern. Das Produkt, das Sie verwenden möchten, kann plötzlich verlieren Support-Muster, nachdem Sie ein Produkt verwenden, das kostenlos ist. So gibt es keine Verpflichtung des Anbieters, dass ja, wir werden. Sie werden das Produkt weiterhin unterstützen. Also denke ich, das ist eine kleine flüssige Sache, an der du arbeiten musst. Natürlich, Marktgröße Bereitstellungsgrößen. Du weißt, wie viele Menschen verdampft sind. Diese Technologie ist auch ziemlich Treibstoff. Andi, wenn Sie versuchen, zu wählen und gehen Technologie, müssen alle diese Dinge zu berücksichtigen, weil Sie die Technologie verwenden wollen, die stabil ist. Und was Sie in den nächsten 5 bis 10 Jahren erwarten wollen, ist, dass es nur wenige Produkte geben wird , die zu Marktführern werden. Wir wissen nicht, welche, aber es werden einige Produkte sein, die wachsen und Marktführer werden. Vielleicht können Sie eine Wette auf bestimmte Dinge basierend auf einer breiteren Annahme nehmen. Je mehr Menschen versuchen, die Technologie zu nutzen, besteht die Chance, dass ihre Technologie bleibt und wächst. Es gibt eine Menge von Zusammenführung von Produkten, die Sie sehen können, beginnen zu geschehen, so dass sie näher und näher an das eine Gesicht passen alle Situation. Sie werden weniger Reife bei Ihren Optionen auf Afghan möglicherweise stabile Funktionen haben. Weißt du, die Dinge sind Erbsen, die sich nicht ändern werden. Bibliotheken werden sich nicht auf diese Weise ändern. Die Dinge sind viel stabiler. Wie machen Sie dann Ihre Investitionen für die Zukunft sicher? Ich meine, wie die Sie als groß eine gezielte Auswahl von Technologien, die auf dem Markt bleiben wird, ist Westen entwickelt. Suchen Sie nach Produkten und Entwicklern. Support für Unternehmen, die Produkt- und Entwickler-Support anbieten, haben in der Regel eine lange Chance, auf dem Markt zu sehen und zu bleiben. Suchen Sie nach Cloud-Optionen, die eine gute Option, mit zu gehen, denn wenn Sie suchen Abholung einer Cloud-Option, in der Regel gibt die Chance, dass sie eine Menge aus genommen wurden. Sie wissen, die Upgrades und Änderungen und Kompatibilitätsprobleme und solche Sachen. Suchen Sie nach Anpassungen von führenden Unternehmen und Produkten, dass die Technologie von einigen führenden Unternehmen des anderen Produkts verwendet wird , bedeutet dies, dass es in der Regel gibt es ein Support-Netzwerk gibt. Es gibt Menschen, die bereit sind, Geld zu zahlen Zehe, halten das Produkt am Leben. Das ist also etwas Gutes. Und suchen Sie nach einem P-Ass und offenen Daten für Monate. Falls Sie Technologien wechseln müssen, wird es einfach für Sie, diesen Spieß zu tun. Als Architekt des großen Gates kannst du sagen, OK, ich werde fünf Jahre lang einmarschieren. Das ist in Ordnung, aber das bedeutet, dass Sie viele Geschäftsmöglichkeiten verlieren könnten. Sie wollen das nicht tun, aber zur gleichen Zeit, die Technologie ist immer noch in einem sehr schönen und Bühne, und bis die Technologien reifen, müssen Sie in der Arbeit um sie herum sitzen, arbeiten durch , um diese Lösungen zum Laufen zu bringen. Das ist also eine große Herausforderung für einen großen Architekten an dieser Stelle. Hoffentlich war diese Vorlesung nützlich für Ihre, die mehr Details über diese Technologien in den späteren Vorlesungen bekommen . Vielen Dank. 9. Übersicht erwerben: Hallo. Willkommen zu diesem Vortrag über die Akquisition. Oder lassen Sie uns einen tiefen Einblick in das, was dieses Modell tun soll und was sind die Best Practices? Beginnen wir also mit dem, was sind die Verantwortlichkeiten für das Akquisitionsmodul. Die Hauptverantwortung des Erfassungsmodells besteht erster Linie darin, mit der Quelle hergestellt wird, Verbindung mit der Quelle hergestellt wird,sodass Sie möglicherweise mehr als eine Quelle für jede Quelle über eigenes Verbindungsmodul verfügen können. Eso. Sein Namensauftrag bestand darin, eine Verbindung herzustellen und die Verbindung aufrechtzuerhalten, daher ist es manchmal ein schlechter Prozess. Sie verbinden sich einfach, um Dinge zu tun und trennen Sie die Verbindung mit Echtzeitquelle. Du wirst eine Verbindung herstellen und diese Verbindung für immer weitermachen. Sie müssen Protokollzuständigkeiten ausführen, das heißt, Sie wissen, wenn Sie eine Verbindung zu einem herstellen. So gibt es einige Protokolle in unserem abhängig vom Typ der Quelle beteiligt. Es ist die Verhaftung eines P I s Kuba gegen die Verantwortlichen. Diese Legree verbindet Händedruck. besserer Umgang mit all dem muss durch das Akquisitionsmodell erfolgen. Daten für meine Konvertierung sind eine Schlüsselverantwortung, da Sie die Daten höchstwahrscheinlich in einem Format speichern möchten , das für Big Data und Analysen geeignet ist. Es könnte wie ein Jason-Former sein, das ein Sequenzdateiformat auf den Quelldaten möglicherweise nicht bestätigt. Wahrscheinlich könnte nicht davon kommen, dass die Bauern. Sie könnten also eine Formatkonvertierung durchführen. Außerdem kann das Fragenmodell zuerst filtern. Keine Daten, die es nicht benötigen, können lokale Einlösung durchführen. Wenn das, was normalerweise passiert, ist, wenn Sie sich eine Quelle in Echtzeit später ansehen. Die Quelle erzeugt Daten mehr als das, was die Pipeline auf der Transportschicht verarbeiten kann . Du machst vielleicht ein lokales Einlösen. Auch, Kompression ist eine Schlüsselverantwortung, weil, wenn Sie Daten übertragen, vor allem SMS, ah, was der Draht. Sie möchten es so komprimieren, dass es weniger Bandbreite benötigt und sich viel schneller bewegen kann. Und das ist natürlich Verschlüsselung . Sie möchten die Daten verschlüsseln, wenn Sie Daten übertragen oder was? Der Draht, damit Sie wissen, dass die Daten nicht. Es gibt keinen Diebstahl von Daten, was Sie tun diese Übertragung. Also müssen Sie sich Sorgen über dieses hier machen, weil es eine Menge abgelassen wird, die eher das passiert, wenn sie auf dem Draht hinabsteigen. Wenn Sie etwas mit sensiblen Daten tun, wie Ihre Kundeninformationen Kreditkarteninformationen . Das ist eine Möglichkeit, dass es nach was getan werden könnte? Mit welchen verschiedenen Quelltypen beschäftigen Sie sich jemals? Sie haben einen Deal mit Datenbanken? Sind Baby Emmas Datenbanken gerade, oder Fortsetzungsdatenbanken? Sie werden sich Daten ansehen, die als tot und Datenbanken unter einem Tauchgang in Dosen, könnten Sie mit Daten in Dateien zu tun haben, so dass Dateien Daten alles sein könnten, was wie Mediendaten sein könnte, wie Aufnahmen sind Videos und Majors und so so. Oder es könnte so etwas sein, könnte auch so etwas wie, Sie wissen, die RBB-Massendaten dort für Sie in Dateien zur Verfügung gestellt werden, weil es 1/3 Partei ohne Verbindung zum Dritten geben könnte , aber Datenquelle . Aber sie geben Ihnen vielleicht Daten und Dateien. Es könnte hier sein, Http und Ruhe im Falle dessen, was eine Echtzeit-Raiders sein wird, könnte es benutzerdefinierte Datenquelle, Echtzeit-Datenströme, die von jeder Art von Anwendungen kommen. Und es könnte kundenspezifisch sein, wenn es in beiden Anwendungen Ihren eigenen Custom gibt , dass Sie den Tag generieren möchten, an dem Sie ihn über einige benutzerdefinierte Interferien verbinden und auch Daten erhalten, so dass die Quelle eine Menge von , dass Sie den Tag generieren möchten, an dem Sie ihn über einige benutzerdefinierte Interferien verbinden und Typen, wie Sie sehen können, Wollen Sie als Architekt, was andere Dinge, die Sie brauchen, um einen Architekten zu betrachten. Wenn Sie ein Akquisitionsmodell aus erstellen, müssen Sie darüber sprechen, wie Sie ein neues Datum identifizieren können. Es gibt also eine Datenquelle. Es wird nicht ein einmaliges Mal sein, das Sie jeden Tag oder jeden anderen zurück zur Datenquelle gehen und Sie werden gut in neuen Daten sein. Die wichtigste Frage ist, wie identifiziere ich, welche Daten neu sind, typischerweise in einem RGB-Durcheinander. Sie könnten sich einen Primärschlüssel ansehen, bei dem es sich um ein fortlaufendes Geschlecht handelt, die Nummer und verfolgen Sie, welche Nummer es letztes Mal getan hat. Also, wo sollen wir von unserer Aufklärung anfangen? Schauen Sie ein paar Zeitstempel und tun Sie es. Dies ist eine ziemlich wichtige Sache, weil Sie nicht gut in doppelten Daten sein wollen Sie möchten keine Daten fehlen, also sind Sie sehr wichtig. Dies wird im Überblick gehalten und eine sehr klare und sehr sauber. Große drei Akquisition und wieder übertragen. Als ob der Fall. Es gibt einige Fehler, die es als Fragenfehler übertragen. Wie gehst du dazu, den Tag nach unten neu zu erwerben? Wiederübertragen in der Tat, wieder beginnen. Sicher, dass Sie keine Daten über Ihre nicht doppelte Übertragung etwas verpassen? Dies ist also eine weitere, wichtigere Sache, die Sie berücksichtigen müssen, wenn Sie Architekt in einer Lösung sind. Datenverlust. Wie der Weg, Datenverlust zu verhindern? Wie verpassen wir keinen Trick? Ist es. Und das ist eine andere Sache, die Sie als Architekt betrachten, während Sie es bauen, Pufferung an der Quelle für den Fall, dass die Transportschicht nicht handhaben kann. Es wird wie Spikes aus Daten geben. Spikes der geladenen kommt von der Quelle. Wird der Transportierte. Ich werde es auf andere Weise bewältigen können. Sie müssen eine Art Pufferung an der Quelle durchführen. Pufferung bedeutet auch starten, wenn Sie puffern. Es wird auch auf eine sehr sichere Art und Weise erzählt, und auch auf zuverlässige Weise, damit wir keine Daten im Flug verlieren. Speichern von Daten im Speicher könnte riskant sein, denn was ist mit der Box Küste auf What's the boxcar beginnt zu ersticken und dann verlieren Sie die Daten. Das Wichtigste hier ist nicht, die Daten zu verlieren, wenn Sie ihre Sicherheit puffern , damit der Quellanbieter möglicherweise über eine eigene Sicherheitsrichtlinie verfügt. Das Soziale. Wahrscheinlich könnte das eine db a. ein interner dbn sein. Äußerlich 1/3 Partei sein. Sie könnten einige Politiken als Zehe haben. Was für eine Art von? Es gibt einige Sicherheitsanforderungen, die Sie berücksichtigen müssen, und andere Zehe. Denken Sie daran, dass, wenn Sie Daten über das Verschieben von Daten über den Rest erhalten, große Sicherheitsbedenken von jemandem Diebstahl Daten. Dies ist also etwas, was Sie brauchen, um Privatsphäre zu berücksichtigen. Wenn Sie die Daten anderer Leute erhalten, nehmen wir an, Sie erhalten Daten aus dem Internet von Twitter oder so etwas. Betrachten Sie eine Privatsphäre. Sie stellen sicher, dass Sie nicht stehlen ein gutes in für alle Informationen, die Sie nicht aus angehoben sind , um zu bekommen. Du drängst nicht in die Privatsphäre der Menschen ein. Das ist etwas alles, was man als Architekt im Auge behalten muss, und schließlich braucht man den Architekten, der so engagiert ist, dass etwas schief läuft. Es muss einen Assistenten geben, durch Sie wissen, dass einige Warnungen von Alarmen ausgelöst werden, durch die Administratoren das System überwachen können , und falls einige Dinge schief gehen, können sie einen Blick darauf werfen schnell. Alarmierend ist also eine wichtige Management-Zukunft, die Sie abnehmen müssen, wenn Sie eine Lösung verbinden. Welche Best Practice sind, wird für die Erstellung des Fragemodells empfohlen. Fasten ist involviert. Quelle. Besitzer, um guten Händedruck zu etablieren. Also, wenn Sie eine Anwendung erstellen, die mit Dick Source-Besitzern diskutiert wurde, können Sie diese ah Frage Mahdi neu kennzeichnen , weil Dinge wie Handshakes, Protokolle und die einzige Möglichkeit, sie robust zu machen. Es ist eigentlich, mit den Eigentümern zu sprechen, sie in die Lösung einzubeziehen, damit sie auch Ihnen helfen, ein Protokoll zu entwickeln, das wirklich sicher und sicher ist, Sicherheit, Privatsphäre und solche Dinge in einem Arzt, die Quelleneigentümer und gründete sie. Stellen Sie sicher, dass Sie mit ihnen arbeiten und ich verteidige neue Daten. Also, wenn Sie mit den Schemata kommen, um zu sagen, das ist, wie ich die neuen Daten unterscheiden werde, müssen sie auch die Idee validieren, dass es so funktionieren wird. Außerdem können sie nicht zu gehen und ihre Quelldatenschema uns ändern, ohne eine neue Information Sie. Diese Dinge müssen also funktionieren. Bagdad mit den Quellenbesitzern gehen für zuverlässige und offene A P ist immer offen und öffnen Sie einen pH-Wert anstatt Kundenstamm, wo immer möglich. Der Grund ist, dass diese öffnen eine p A ist da, bereits Art von gebaut und von den Menschen verwendet. Da ist viel, viel Freiheit los. Außerdem ist es einfach für Sie, Produkte herumzuschalten, denn wenn sie dem Öffnen eines P entsprechen, ist es einfach, ein separates anderes Produkt zu verwenden und dasselbe zu verwenden? Vielleicht ist es wieder und Dinge tun. Also gehen Sie zum Öffnen des Labels AP ICE Native AP ist informant. Sie werden also 80 Wege Piers bekommen und früher oft sollten sie so früh wie möglich standardisiert werden , so dass Sie möglicherweise Daten aus vier Quellen haben und vier verschiedene Formate sie so schnell wie möglich terrorisieren . Bedeutet, dass Sie sie stützen möglicherweise an der Quelle selbst standardisieren. Es war eine konvertierte oder so etwas wie es, um sie in Standard-Former zu konvertieren, bevor Sie sogar übertragen, je früher Sie die Konvertierung machen , desto einfacher ist es für Sie, sie später zu behandeln, denn wenn Sie vier verschiedene Landwirte und in schreiben vier verschiedene, möglicherweise vier verschiedene Transport-Leben für verschiedene Transformationsschichten später. Also wollten Sie sie so früh wie möglich in Standard-Former konvertieren. Echtzeit. Auf historischen, gibt es eine Tendenz, auf den gleichen Kanal zu gehen, nicht über das Gebiet. Aber denken Sie an Bord, wie Sie einen Kanal selbst nutzen können, um alle Echtzeit-Reaktionszeiten sowie die Zuverlässigkeit des East Article Channel zu erhalten, denke ich, möglicherweise separate Kanäle wieder konvertieren. Schauen Sie sich die Anwendungsfälle darüber an, was in Echtzeit tun soll und historisch zu tun, wenn sie sehr unterschiedlich sind, als möglicherweise denkt, dass Gebetskanäle Ondo achten , Zehe Privatsphäre und Sicherheit. sind ziemlich wichtige Dinge, die Sie jederzeit später beißen können. Denk an sie bei Staatsanwalt. Basierend auf diesem Design, Ihr Akquisitionsmodell Vielen Dank 10. Optionen SQL und Dateien erwerben: Hi. Herzlich willkommen zu diesem Vortrag über Möglichkeiten zur Datenerfassung. Ich musste anfangen, sich anzuschauen. Welche Möglichkeiten haben wir, um eine Verbindung zu Datenquellen herzustellen und Daten zu erfassen? Wir sprachen über eine Liste von Dingen, die wir brauchen, die Architekten, einige der Best Practices. Aber das ist alles nur möglich, wenn die Quelle der Unterstützung eine Art offway, mit der diese die erste Option implementieren können , über die wir als SQL-Abfrage sprechen werden. Eine Fortsetzung. Kredi, aber Sie wollen es Andi nennen, Auch die Soldaten und seltsam, viel Fortsetzung wird auf Fortsetzung gegeben. Es ist wirklich mächtig, mächtig, dass es eine Menge Dinge für Sie tun kann, auch wenn Sie sagen, es ist Big Data wirklich Mühe über Fortsetzung, sondern um Daten zu erwerben , weil das ist das Baby von einem RGB zu gehen, Miss. Finden Sie heraus. Das ist eine traditionelle Methode, Daten aus relationalen Datenbanken zu extrahieren, und das Gute an Fortsetzung ist, dass es eine ausgereifte Technologie ist. Es gibt Bean für eine sehr lange Zeit, ist wirklich reif in Bezug auf seine Fähigkeiten. Ah, viele dieser Implementierungen sind wirklich, wirklich optimiert. Es hat die Fähigkeit, Daten zu transformieren, wie Sie können Gelenke wachsen durch Würfel und Filterung weil dies große Fähigkeiten sind, weil Sie sie an der Quelle tun können. Es ist ein zum Beispiel, Sie können Gelenke zu tun. Sie können Daten unter Quelle normalisiert werden, anstatt sie bei der Transformation durchführen zu müssen . Lee bei, dass minimiert die Menge von dem, was Sie tun müssen. Also, wenn Sie Daten haben, müssen verbunden werden. Gefiltert Ari ging zusammengefasst, Es ist besser, gleich selbst zu verwenden, um alle, die Arbeit für Sie up Freund zu tun. Auf diese Weise wird die Nachricht, dass die Menge der Daten, unter der er die Übertragung bestellt hat, einen der Transformationsfreigabeschritte einführt , die Sie später in Ihrer Verarbeitung fällig haben, so dass ein Gitter mit Fortsetzung von Kurs die Indizierung unterstützt, die sich um Leistung. Sie können sie alle ohne Programmierer tun. Nun, Programmierarbeit, die Sie dafür auf DA tun müssen, unterstützt auch die Verschlüsselungskomprimierung . Also das ist eine gute Sache s O, dass eines der Dinge, die Sie mit Sequel tun können, wenn Sie Daten aus Fortsetzung extrahieren, Sie können sie tatsächlich auf ihrem Weg direkt übertragen, oder Sie können sie tatsächlich in Kämpfern auf Bewegung setzen das Modell Fortsetzung gibt Ihnen auch die Möglichkeit, nach inkrementellen Daten zu gehen. Das ist eine tolle Sache mit Sequel, denn du würdest mich und ich mit der Zeit unterstützen. Die Zeiten sind mit I D fühlt, so dass nicht mag einige der guten Dinge, die Sie mit Sequel tun können . Lassen Sie uns nun versuchen, die Vorteile und Mängel der Fortsetzung zu betrachten. Die Vorteile der Fortsetzung sind also, dass es umfangreiche Unterstützung durch verschiedene Programmierung, Sprachen, Tools und Produkte hat. Dies ist eine ausgereifte Technologie, was bedeutet, dass Sie eine Menge Werkzeuge finden werden, die gleich Jerry beschäftigt, nur beschäftigt Konnektivität und so etwas unterstützt . Und natürlich gibt es viele Leute, die wissen, wie man es benutzt. Es ist eine sehr beliebte und ausgereifte Technologie. Sie können die einfachsten Fähigkeiten und Produkte finden, die Dover darauf inkrementelle Funktionen sowie Filterung unterstützt . Das ist eine gute Sache an Fortsetzung ist, dass Sie eine Menge von ihnen tun können. Ein Freund mit Fortsetzung Was sind die Mängel Off Fortsetzung ist, dass es begrenzt ist, so dass tägliche Basis nicht alle Datenquelle der Unterstützung Fortsetzung, die eine Art von Sache ist, weil, Sie wissen, Fortsetzung ist sehr mächtig . Sie können eine Menge Dinge tun. Dinge mit sehr minimaler Arbeit an der anderen Sache ist in ihrem organisatorischen oder ihrem Rücken . Eso vermeintlich. Wenn Sie versuchen, es zu erwerben, sind Sie nicht alles, was Sie nicht immer die Möglichkeit erhalten, direkt mit einer Datenbank zu verbinden. Sogar du bekommst diese Art von Option. Ja, Sie können gleich verwenden, aber nehmen Sie an, Sie sind gezwungen, nicht. Nicht viele Leute geben keinen direkten Zugriff auf die Datenbanken, so dass Sie eine Anwendungsschicht auf einer P-A-Schicht durchlaufen müssen, sind gerade. Man würde sagen, es gibt keine direkten Steuern. Vielmehr wurden sie Daten in Dateien Stammzellen extrahieren und geben Ihnen die Dateien. In diesen Fällen können Sie nicht wirklich auf Ihre Fortsetzung in diesen Fällen gehen, wissen Sie, das ist eine der Einschränkungen der Einschränkung ist, dass die Fortsetzung selbst sehr prop mächtig ist. Aber ich habe nicht viele Möglichkeiten bekommen, sie zu verwenden, es sei denn, die Datensortierung selbst wird von Ihnen gesteuert und Sie können direkt zur Datenquelle gehen und ziehen Sie die Daten Anwendungsfälle für die Fortsetzung Unser Baby. Die meisten Quellen, vor allem, wenn die HABEMUS Quellen in den Preis. Sie können gehen und schnell Daten durch Sequels ziehen und, natürlich, sogar Tag, an dem das Sitzen in hohen Quellen von körperhydratisierten Quellen durch eine Fortsetzung gezogen werden kann . Es ist ziemlich mächtig, außer Darting auf. Manchmal wird uns die Schauspielerin nicht zur Fortsetzung zur Verfügung gestellt. Das ist das einzige Problem, das wir eine Fortsetzung haben, aber es ist ein sehr leistungsfähiges Werkzeug, das Sie für die Datenextraktion verwenden können. Die nächste Option. Sie haben eine XFILES, die Daten als Dateien und Datei abruft, genau wie eine einfache und gängige Art, Daten auszutauschen und zu verschieben. Jeder Datenquellenbesitzer, den Sie kennen, ist bereit, Ihnen zu geben, wird bereit sein, mit Daten und Dateien zu geben . Nein, Sie müssen uns nicht systematisch vernetzen. Es gibt kein Problem, dass sie Dinge wie fühlen, Okay, wirst du dich mit der Datenbank verbinden und mit größeren rummachen? Es gibt keine Fragen wie diese an jedem Tag. Ich werde in der Lage sein, Ihnen die Daten in unserem HABEMUS für Sie und Dateiformat in der Anwendung für den Mord sind in der Regel eine Datenextraktionsfähigkeit, wo es Ihnen Daten und Dateiformate der Datei geben könnte , ist ein sehr häufiger Weg zum Austausch von Daten, vor allem in einer interorganisatorischen Situation. Und es ist ein sehr Standard-Tools zum Verschieben von Dateien, Verschlüsseln von Dateien und solchen Dingen. Es ist also eine sehr einfache und gebräuchliche Methode, mit der Sie es austauschen können. Und viele dieser Anwendungen können diese Daten in Dateien konvertieren, wie Sears überprüft XML-Dateien . Jay ist auf Dateien auf sogar denkt, wie Mediendateien nur sein können. Dennoch können Medien nur auf fünf Medien gespeichert werden. Wie Sie wissen, Weiss Aufnahmen mit Ihren Aufnahmen in Majors in der Regel nur in Dateien gespeichert. Also Datei ist ein sehr beliebter Weg, durch den Führer zwischen verschiedenen Organisationen ausgetauscht wird, Vorteile aus Feuer, alle Systemanwendungen aus einer Datei Basierend auf dieser Xander Sache, können Sie unter jedem gehen, den Sie und ich sagen, Okay, Sie haben eine Anwendung, die Daten hat, können Sie extrahieren und mir ein A C S. C. Fünf geben S. C. ? Ja. Das ist also eine große einfache Sache, mit Dateien zu arbeiten, und es funktioniert leicht mit interorganisatorischen Grenzen. Immer wenn die Leute zweimal nachdenken. Okay, ich brauche diese Daten können sich nicht direkt mit einer Datenbank verbinden, und die Leute sind wie, Nein, sie stellen säkulare Probleme und Sie geben mir die gleichen Daten und Brände. Ja, das ist also eine tolle Sache an Kämpfen. Und es gibt gängige Tools Dienstprogramme für die Arbeit mit Dateien zum Extrahieren von Daten und die Dateien sind Kopieren von Dateien, Verschieben von Dateien, Zip Dateien, Sicherheitsdateien Sie wissen, dass Sie sich verlassen können. Legen Sie einen Reisepass auf Teber. Führen Sie ihre dunklen Farmer und alle Betriebssysteme Feuer Unterstützung Dateioperationen. So viele Dinge, die Sie mit Dateien tun können, das ist eine sehr häufig verwendete Methode, mit der Menschen Daten austauschen können aufgenommen. Kommen mit Dateien ist, dass wir riskieren niedrige Männer Bedingungen haben Sie Dateien in einem verwandten Lee-Speicher zu verschieben . Langsam kommen Sie zu einigen anderen Methoden zurück. Es gibt so viele manuelle Schritte und aufhören zu kaufen. Also sind Sie umso mehr Akten. Okay, jemand kopiert die Datei über zwei Punkt dort, um B es zu planen, und dann verschiebt jemand sie von Punkt B nach Punkt C ist eine Menge von diesen manuellen Schritten, die in Dateimoment-Daten beteiligt sind, verfügbar gemacht werden, weil ihre Textdateien Daten ausgesetzt sind es sei denn, es Pop richtig verschlüsselt. Also, das ist etwas, das man nehmen muss, wenn man mit Bränden verliert. Anwendungsfälle für Dateien sind interorganisatorische Daten Moment. Wenn Sie also die Verschiebung von Dateien zwischen Organisationen haben, egal ob es ist, sind Unternehmen, ob zwischen Abteilungen innerhalb des Unternehmens gleichmäßig zwischen zwei Anwendungen sind . Dies ist ein sehr beliebter Bauer. Dies ist der einzige Weg, mit dem Sie keine Mediendateien von zu Hause oder auf Mediendateien auf Finanzen tun Unterstützung Funktionen für eine größere Verschlüsselung und Komprimierung. sind sehr Standardwerkzeuge verfügbar. Das ist also eine gute Sache, die Sie mit Dateien tun können. Vielen Dank. 11. Optionen erwerben REST und Streaming: Fortsetzung auf die Akquise Optionen. Die nächste Option, die wir uns ansehen, ist der Theoretiker AP. Augen I Trust ist ein basierter AP ein Standard für den Austausch von Daten für tiefgreifende für die Durchführung Kurt Operationen Gladstone für Create Read Update und Delegierten Festnahme Rückzahlungen wie, ah Fortsetzung Art der Fähigkeit. Sie können entweder zum Abrufen von Daten verwendet werden. Nein sind auch für die Aktualisierung von Daten. Und und Restaurants sind sehr beliebt, Standard über das Web, mit dem Sie Daten austauschen können es Paare sein, die Verbraucher von den Produzenten. Das ist das Gute an Restaurants, die die Verbraucher von den Produzenten entkoppeln und Ihnen eine einfache Möglichkeit geben, auf Daten von jeder unterstützten Quelle zuzugreifen, die es für staatenlose Existenz sorgt . Oder dass jede Abfrage, die Sie sagen, als zustandslose Abfrage senden und sie mit dem Ergebnis am reichsten, eigenständigen zurückkommt Ergebnis am reichsten, . Es gibt keinen Status, der zwischen mehreren Anforderungen beibehalten werden muss. Das macht eine Arbeit viel einfacher, und es bietet eine schöne Uniformschnittstelle, die auf Hass basiert. DP-Standards für eine get post zu tun, setzen eine fleißige verschiedene Operation, die Sie mit bei Estate B A durchführen können Es unterstützt erweiterte Sicherheit. Verwenden Sie in der Regel das automatische Schema aus Authentifizierung für den Datenabruf, was tatsächlich ein gutes Schema ist, weil es ein p A-Schlüssel war, anstatt Benutzernamen Passwörter zu verwenden , die es viel sicherer auf es unterstützt Inschriften über Wenn Sie sind Verschieben von Daten über das Web, es hat viel sicherer und sagte, Sie sind auf, dass soll es von den meisten Cloud abbrechen, basierend auf mobilen Datenquellen wie Twitter, Facebook, Salesforce, alle von ihnen bieten Sie gedrückt AP ist Daten zu extrahieren. Werden die Daten, die dies zum De-facto-Standard im neuen Web wird? Oder die Cloud und strukturiert? Dasselbe real, wie SQL verwendet wird. Ruhe wird für entwickelt. Die Vorteile von Ruhe sind nicht, dass es ein Standard für Internet-Datenaustausch ist, dass wir zum De-facto-Standard werden. Es hat ausgezeichnete Sicherheit und Skalierung, Fähigkeit einbauen. Es ist ziemlich einfach zu bedienen, einfach zu integrieren, eine ziemlich einfach zu erlernen und auf fast allen Programmiersprachen zu verwenden. Unterstützung Rest, Eigentlich, auch wenn sie nicht unterstützen, alles, was Sie brauchen, ist weitere Programmiersprache der Unterstützung hat BIP, und Sie können den Rest ziemlich leicht tun. Ah, Shark, Cummings Weiss zur Ruhe. Es gibt redundante Informationen, die möglicherweise wegen der Staatenlosen weitergegeben werden müssen. Jede Anfrage muss selbst vollständig sein, autark, so dass das eine der Einschränkungen sein könnte. Ein größerer Kopfschmerz mit Rest Champions ist Angst Einschränkungen. Also, wenn die Requisite bis ein großer Anbieter geben Ihnen Ruhe, Abgeordnete mögen es mit ihren Facebook oder Umsatz. Denn das ist eine Grenze, wie viel Diane Geld Ruheabfragen. Sie können innerhalb einer bestimmten Zeit gehen und wie viele Daten Sie abrufen können, die groß sind. Was ist ein großer Kopfschmerz bei dir in Bezug auf die Abschottung? Sie müssen Ihre Anwendung angemessen optimieren, damit Sie diese wiederholten Einschränkungen nicht treffen müssen, müssen Sie extra bezahlen, um zusätzliche Daten zu erhalten, was wiederum bedeutet, dass Sie der Architekt in einer Weise sind, mit der Sie nicht zu viel Geld für den Zugriff auf diese. Ruhe erschien. Das ist ein großer Kopfschmerz für dich. Es unterstützt keine Echtzeit-Unterstützung. Das ist ein Kopfschmerz, den Sie brauchen, um Streaming-AP separat zu verwenden. Wenn Sie Echtzeitdaten abrufen möchten, sind die Anwendungsfälle für Escapees Cloud-Social-Media-Datenquellen. Sie wissen, wann immer Sie Daten aus der Cloud erhalten unsere sozialen Medien. Sie müssen für uns dort einen anderen Weg verwenden. Wenn Sie Daten aus mobilen Datenquellen erhalten, wird auch Ruhe immer beliebter. Es kann auch intern für den Datenaustausch verwendet werden. Echtzeit. Meta-Daten können Austausch England Staples sein. Das ist ein weiterer Anwendungsfall, aber die meisten verlassen. Du bekommst Daten aus der Cloud. Du wirst das Restive benutzen. Die vierte Option ist Streaming. Nein. Streaming ist ein Echtzeit-Datenabonnier- und Veröffentlichungsmodell, was bedeutet, dass Sie einen Abonnenten haben und einen Publisher haben. Der Abonnent , der in der Regel Ihr Client ist, geht und unterkratzt eine Quelle und sagen, ich brauche Echtzeitradar von Ihnen, und Sie stellen eine dauerhafte Verbindung her, wenn neue Daten für ein Thema oder ein Objekt, das selbst auf die Daten geschabt wird, um Sie nicht einen Pull weg in den Busch Weg geschoben. Kunden sind also Steptoe. Ein bestimmtes Thema sind eine Teilmenge von Daten auf http-Verbindung wird ständig offen gehalten, und Server Push esta Daten, um abzulehnen, wenn neue Daten verfügbar sind. Zum Beispiel, wenn Sie Echtzeit-Twitter-Füße wollen, öffnen Sie einen Abonnenten Zehe-Twitter und sagen, Ich möchte jeden Twitter-Feed, der auf dieser speziell Kerze geschieht. Und wenn drei jemand auf diesem speziellen Handle behandelt, werden die Daten an Sie gesendet und Sie erhalten das Datum und beginnen mit der Verwendung der Daten, so dass es sichere Schlüssel und Verschlüsselung verwendet . Das ist ziemlich ähnlich. Die restliche API ist auch rühmt, dass die Rate ziemlich sicher ist. Es hat wieder Einschränkungen für große Einschränkungen. Das gleiche bien este pia hat auf ich meine Tassen Streaming, vor allem aus allen beliebten Datenquellen wie die Social Media Datenquellen gibt es wieder, Einschränkungen, welche Art von Daten gestreamt wird und wie viel Daten geträumt hat, natürlich, aber das ist ein Weg, mit dem Sie Daten für jede Art von Arie erhalten würden, jede Art von sozialen Medien, NATO-Quellen, Vorteile von Streaming ist, dass es eine Echtzeit-sofortige Datenübertragung. Ja, jetzt ist es wirklich in Echtzeit. Streaming kann auch von Ihnen in Ihrer eigenen Anwendung auf den benutzerdefinierten Streamer implementiert werden, aber es gibt Ihnen eine Echtzeit in sudanesischer Datenübertragung. Es kann Ihnen nur def geben. Das ist eine ganz wichtige Sache. Es kann sich nur weiter auf dich ausbreiten. Bei den Änderungen handelt es sich nicht um die gesamten Datensätze, die die Datenmenge einschränken, die Pläne über den Draht hinweg waren, und es wird von einer großen Cloud unterstützt. Anbieter wie Twitter, Facebook, Salesforce. Jeder unterstützt Streaming ein Schuss Cummings von Streaming. Dieser Verlust von Daten, die ich habe, ist unterbrochen. Die Verbindung muss ständig am Leben gehalten werden. Wenn die Verbindung zwischen dem Zeitpunkt, zu dem Sie die Verbindung zu der Ruhezeit verlieren, verloren geht Ihre Verbindung und in Uniter, die auftritt. Das ist also ein Problem mit Streaming, das Verspätungsraten ist. Wieder einmal kann es kommen auf beeinflussen Sie in Bezug auf, wie viel Daten geträumt wird. Möglicherweise müssen Sie dies mit historischen späteren Ziehungen ergänzen, da wieder das Größenproblem. Sie möchten also, dass nur Ihr Streaming Daten erhält, die Sie für jede Art von Echtzeitaktivitäten verwenden müssen . Und Sie ergänzen das mit historischen Daten, um sich von allem anderen zu erholen. Sie wissen, anstatt zu versuchen, sich vom Streaming abhängig zu machen, um Ihnen alle Daten zu geben, sind nur Ihr Streaming für temporäre Daten sofort. Das Datum ist minimal. Auto minimal. D. Vielmehr ist für Sie für Echtzeitaktivität erforderlich, und Sie ergänzen das mit dem historischen Kanal, der Ihnen den Rest der Datenverwendung geben kann . Fälle, die Streaming waren, sind Echtzeit-Sentimentanalyse. Zum Beispiel, ich. Ich möchte die sozialen Medien abonnieren und sehen, worüber die Leute twittern. Über Ihr Unternehmen handeln über Ihr Unternehmen in Echtzeit. Dies ist ein großartiger Anwendungsfall. Reporting wieder in Echtzeit. Willst du Zeh? Erhalten Sie einige Echtzeit-Berichte, die auf Echtzeit-Aktivitäten basieren, die stattfinden. Beispielsweise haben Sie möglicherweise ein Twitter-Handle für den Kundensupport, und Leute schreiben über Ihr Unternehmen. Vielleicht möchten Sie das für echte Berichterstattung über jede Art von Echtzeit verwenden. Aktion, die auf Benutzerverhalten oder Streaming basiert, ist streng ein wirklich Ich bin verwendet. Ich würde nicht empfehlen, nur abhängig vom Streaming, historische Daten zu vergessen, weil ich jede Art von Verlust von Daten sagte. Jede Art von Verbindung ist unterbrochen. Art Anführer ist in der Mitte verloren. Sie müssen damit sowieso mit historischen Datenfeeds ergänzen. Also das sind die verschiedenen Optionen sind nicht für Sie zur Verfügung für Akquisitionen, die beliebten Optionen, die wir Art von besprochen noch kann es andere geben. Außerdem werden wir sie nicht durchmachen. Aber hoffentlich deckt das so ziemlich alle Anwendungsfälle ab, an denen Sie hoffentlich interessiert sind . 12. Transport: Hey, willkommen zu diesem Vortrag über das Transportmodell. Das Transportmodell spielt eine große Rolle in Big Data im Vergleich zu einer regulären Anwendung, da Transport fast nichts ist, wenn es um reguläre Anwendungen geht, nicht Big Data-Anwendungen. Aber in der Big-Data-Welt gibt es eine riesige Menge an Daten, und diese riesige Menge an Daten muss verschoben werden. Das ist wirklich eine große Aufgabe. Wollte uns die große wie riesig. Und zweitens der Abstand zwischen der Quelle am Ziel ebenfalls größer. Es ist in der Regel über mehrere Organisationsgrenzen und so etwas. Die Transportschicht spielt eine sehr wichtige Rolle, wenn es um Big Data geht. So gibt es in der Regel zwei Arten von Transport frühen Mahdi Oh, Transportmodelle, die in der Regel an Ort und Stelle sind. Am schnellsten ist der Store- und Forward-Typ des Moduls, in dem die Daten gespeichert und weitergeleitet werden. Es hat sich von einem Ort zum anderen Bein bewegt. Schritt für Schritt. Sie beginnen, ist fast so, als würden Sie einige Teile von durch einen Kurierdienst direkt schicken. Also haben Sie das Paket am Quellort verlassen, und dann gibt es einen Transport-LKW oder etwas, das es von einem Ort bringt, um die anstatt eine andere Spur sechs von diesem Ort an einen anderen zu fallen. Das ist wie ein Geschäft und Vorwärtsmechanismus, wo Sie eine Daten von der Quelle erhalten Red Data empfangen adressiert die Quelle. Es ist mehr von Ort eins nach dem anderen, es und Grenzen in der Regel Stimmung und Tonnen von Einheiten wie Dateien oder Verzeichnisse, die Verfolgung der Fertigstellung ist . Und es gibt eine erneute Übertragung von der gesamten Einheit für den Fall, dass es einen Übertragungsfehler gibt. Auf der anderen Seite gibt es den Streaming-Typ Off-Transport von Modellen, bei dem die Daten kontinuierlich über den Fußgänger bewegt werden. Dort gibt es eine Lebensverbindung zwischen der Quelle und dem Ziel auf Daten fließt fast wie eine Pipe. Es gibt fast wie ein Rohr, in dem Wasser fließt. Die Daten müssen an der Quelle gedrosselt werden, damit sie die Pipe nicht überflutet. In ähnlicher Weise müssen die Daten für das Ding gedrosselt werden, damit die Senke die Daten empfangen kann. Asset wird uns von der durch die Transportschicht zur Verfügung gestellt gestellt. Das Kämpfen wird hier ziemlich wichtig, so dass, Sie wissen, dass es nirgendwo überläuft und sie verloren gehen. Und es gibt auch die Notwendigkeit für in Fluglagerung. Falls es viel verblüffendes passiert, können Sie die Daten nicht so schnell wie möglich schieben. Letzte e Dinge können für uns getan konsumieren, um aufgeblasen Geschichten zu sein. Außerdem sind dies die beiden Typen von Transportebenen, die normalerweise auftreten würden. Die 1. 1 wird gestohlen nach vorne ist in der Regel für historische getan. Später, während Streaming für Echtzeitdaten in Bezug auf die Verantwortlichkeiten der Transportschicht durchgeführt wird, ist es seine erste Aufgabe, die Verbindung mit dem Anschaffungsmodell aufrechtzuerhalten. Übersetzen Sie Daten Toe Protokoll, optimales Format. Manchmal müssen Daten, die dort vorhanden sind, in Protokoll optimal übersetzt werden. Früher, wissen Sie, wenn Sie Textdatei verschieben, dass keine der Fall sein mag, aber manchmal möchten Sie vielleicht die Datendateien sitzen, wissen Sie, also ist ihre Ernährung gekommen. Es ist kompakt und fördert weniger Bandbreite für sie. Transport-Daten. Also weißt du all diese Art von Zeug. Sie natürlich müssen natürlichdie Daten verschieben. Die Transportschicht muss außerdem sicherstellen, dass die Daten während der Modierung sicher sind. Ist es nicht. Es öffnet sich nicht für niemanden, um die Daten zu stopfen und zu identifizieren, was da ist. Sie müssen eine Verbindung mit dem Persistenzmodell pflegen. Das ist der Senke Teil, der auf Speichern der Daten im Positionsmodell angeboten wird und natürlich bestätigen, dass die Daten korrekt für korrekt erfasst und vollständig durch das persistente Modell erworben wurden . Bevor die Transportschicht es abfällt. Sie müssen die Daten verfolgen, während sie sich bewegen. Sind der Pass Lee? Und so musst du Wacky aufspüren. Das ist genauso, wie ein Karrieredienst. Bereit wollen. Gewinnen Sie derzeit Wertpakete. Sie benötigen also die Spur, die Datenkomponente, die von der Quelle bis zum Ziel beginnt. Sie müssen eine Möglichkeit haben, für den Fall, dass dies Fehler und Transport sind, erneut zu übertragen. Und natürlich das muss natürlichdarüber berichtet werden, wie viele Pakete empfangen werden. Unser Geld Transporttransporter, Hominy Weiterleitung ist passiert. Wie Geld verloren Paket, wo es keine Ereignisse, dass, so dass Administrator schauen und sehen, ob alles funktioniert wie gewünscht aus. Das muss etwas sein, was in der Architektur behoben werden muss. Welche anderen Dinge, die Sie abnehmen möchten, schützen Sie die Transportschicht. Du brauchst den Architekten für Schnelligkeit. Ja. Sie möchten sicherstellen, dass Sie die Daten so schnell wie möglich verschieben können. Es muss reisen, vor allem, wenn es um ein Echtzeitsystem geht, weil Sie nicht möchten, dass die Quelle tiefe Transportschicht überflutet und Sie nicht möchten, dass die Transportschicht diese Senke überflutet. Sie müssen also sicherstellen, dass die Daten wahrscheinlich Pflanzen erschreckt sind. Es muss Zuverlässigkeit der Daten geben, damit es keinen Datenverlust und keinen Transport gibt. Dies ist eine ziemlich wichtige Sache, vor allem, wenn Sie das mit kämpfen koppeln, denn wenn Sie etwas kämpfen , müssen Sie eine Art von Speicher in einem temporären Speicher haben, wenn Ihre Kehle drosselt Daten auf. Sie können nicht einfach den Tagesspeicher die ganze Zeit behalten, weil Ihnen ziemlich bald der Speicher ausgeht und dann beginnen Sie Duda zu verlieren. Du weißt, dass es an dir liegt, eine Art Vertriebene zu haben. Unsere Daten haben Persistenz für Reisezwecke zu sind in der Regel die Produkte, die immer verwenden parade diese Art von Reisen. Wenn Sie das Standardprodukt verwenden, benötigen Sie Redundanz. Eso, dass Sie wissen, dass es mehrere Kanäle gibt und der Übersetzer Transport passieren kann. Eine Notiz ist fehlgeschlagen. Das bedeutet nicht, dass die gesamte Pipeline zum Stillstand kommt. Es muss skalierbar sein, so dass Sie eine große Menge an Daten transportieren können und dann eine Reihe von Dingen tatsächlich die Daten empfangen können . Skalierbarkeit wird vor allem in Bezug auf Echtzeitdaten zu einem wichtigen Teil . Es muss einen Status geben, der natürlich alarmierend meldet , weil Sie wissen, dass Sie darüber berichten müssen, was vor sich geht. Sie benötigen einige gute Berichtssysteme, um Ihren Administratoren zu helfen, die Anwendung der Lösung wie gewohnt, Architekt für Komprimierung zu überwachen Anwendung der Lösung wie gewohnt, . So gibt es weniger Band mit Verbraucht auf Unit 2, Architekt für Verschlüsselung, auch so dass die Daten nicht säkulär sind, wie sie sich über die Transportschicht bewegen. Die gewünschten Dinge. Sie würden sich als Punkte in die ConStOR betrachten, während Architekt am Transport Lee. Wenn Sie richtig abholen, werden die meisten von ihnen für Sie ausgewählt. Aber wenn Sie versuchen, eine benutzerdefinierte Transportschicht zu schreiben, müssen Sie irgendwie Fabrik in all diesen Dingen. In deiner Vorhersage. Best Practices für die Transportschicht erfinden das Rad nicht neu, besonders wenn es um Bewegung geht . Big Data und Big Data ist groß auf seine Skalierbarkeit und Zuverlässigkeit sind riesig. Es ist nein. Das sind keine einfachen Dinge, die Sie selbst ausprobieren können. Mit ist besser, immer auf einige Pro waren Messaging und Pläne für Frameworks und Partikel Huckepack . Es gibt eine Menge von Messaging-Protokollen zur Verfügung. Diejenigen, die in diesem in den Partituren diskutiert werden, sowie diejenigen, die es keine nordiska gibt. Es stehen viele Messaging-Protokolle zur Verfügung. Großer auf Biggie Back an einer Tür. Der Versuch, es von Grund auf neu zu schreiben, ist eine Menge Arbeit für Sie. Ich suche nach Integrationen zwischen Verkehrstechnologien mit anderen Modellen. Sie wissen, wenn Sie eine Transportschicht auswählen, ist die Transportschicht sehr gut in die Frageebene, die persistente Schicht und die Transformationsschicht integriert . So müssen Sie sehen, wie gut das Produkt, das Sie für den Transport von Modell Fritz wählen . Eigentlich, mit all diesen anderen Modellen, die Entscheidungen aus wie mischen sich zusammen, und sie sollten ziemlich gut zusammen arbeiten. Also, das ist etwas, auf das Sie achten wollen. Beachten Sie die Kosten für den Datentransport. Transportkosten sind ein erhebliches um, offensichtlich als eine signifikante Kostenauswirkung, weil Sie dort bewegen, dass über Ihr Internet als es mit Anforderungen verboten sind, die in Kraft kommen. Wenn Sie ein VPN wieder entfernen, müssen Sie für diese Art von Bandbreite mit der Art von Daten profitieren, die Sie verschieben werden . Andernfalls werden Sie Probleme mit Schwierigkeiten haben, also müssen Sie für diese Art von Bandbreite profitieren. Sie müssen sich bewusst sein, wie viel es kostet, denn oft, wenn Sie einen Kanal für das Verschieben von Daten widmen möchten , könnte es zu einem Preis kommen. Vielleicht möchten Sie sich Techniken wie und die Komprimierung ansehen, um sicherzustellen, dass Sie das Mindestverbot einhalten. Aber wie möglich, ist es all dieses Einheitskonzert für Ihre Architektur verwendet, um in Flugspeicher zu beschriften. Sie verschieben Daten von einem Ort an einen anderen. Stellen Sie sicher, dass sich in der Mitte Haltepunkte befinden. Kein dateibasierter Stopppunkt. So gibt es Sie, aus irgendeinem Grund der Prozess Kerl stürzt in der Mitte von so etwas, Sie verlieren nicht alle in Flugdaten? Nein. In Flint ist die Datenverwaltung in der Transportschicht ziemlich wichtig. Entweder müssen Sie die Möglichkeit haben, Daten erneut zu übertragen, die im Flug verloren gegangen sind. Sind Sie brauchen, um die Fähigkeit, es abzurufen und weiter von verheirateten links haben, oder beide erforderten einige herbe Kreuze für Architekt ing gesetzt werden. Diese Lösung berücksichtigt Sicherheitsmaßnahmen zur Verhinderung von Datendiebstahl wird zu einem sehr wichtigen Thema, vor allem in der Internet-Welt. Also Ihr Auto, Ihre Daten, Unternehmen, Daten müssen sicher sein, wenn sie sich durch die Transportschicht bewegen. Typischerweise, sobald es die anhaltende später erreicht diese Art von sicher, weil, wissen Sie, es fühlte sich nie sicher Umgebung. Aber wenn es der Transport ist, mehr, wenn es über bewegt, organisatorische Grenzen sind Die Daten haben sich über das Internet bewegt. Es gibt Sicherheitsprobleme, die Sie benötigen, um Kalb zu nehmen. Hoffentlich ist dies hilfreich für Sie. Wir werden ausgehen und uns jetzt die Transportmöglichkeiten auf dem nächsten Beinbild ansehen. Danke. 13. Transportoptionen SFTP und Sqoop: Hi. Herzlich willkommen zu diesem Vortrag über Transportmöglichkeiten. Das ist dein Lehrer, Cameron. Also in dieser Vorlesung, wir beginnen zu sehen Was sind die verschiedenen Optionen für den Transport von Daten von der Quelle in die Spüle. Und wir werden mit dem einfachsten aus allen beginnen, das ist die Datei verschieben oder kopieren Befehl. Das ist etwas, das du oft benutzt worden wärst. Und du fragst dich vielleicht, warum das überhaupt hier auftaucht? Ja, es ist ziemlich einfach und unkompliziert, aber es ist immer noch ein guter Weg. Festmachen speichert unsere Daten zwischen zwei Standorten. Es wäre das möglich. Es ist eine der einfachsten Art, große Dateien zu verschieben. Es wird auf allen Betriebssystemen unterstützt. Wenn Sie Daten zwischen Betriebssystemen verschieben, bei denen es sich um Interbetriebssystemübertragungen handelt , kann dies einige erfordern. Du bewegst Daten zwischen Windows und Linux-Hälsen und so was. Es kann einige Adaptersoftware erfordern, aber es ist immer noch möglich. Andi, es kann schnell geplant werden. Eine automatisierte alle Programmiersprachen unterstützen Bibliotheken zum Verschieben und Übertragen von Dateien. Das macht das Leben also ziemlich einfach. Wenn der Abstand zwischen der Quelle und dem Ziel ziemlich geschossen ist, ist es innerhalb des gleichen Netzwerks und so etwas. Dies ist eine der einfachsten Möglichkeiten, Dateien zu verschieben. Ah, letzte Kopie. Was sind die verschiedenen Vorteile? Vorteile, die es einfach und unkompliziert zu bedienen sein wird. Es erfordert keine Specials. Es erfordert keine besonderen Fähigkeiten. Jeder weiß, wie es geht. Es hängt jedoch vom Betriebssystem und ziemlich einfachen und unkomplizierten Mängeln ab, , wenn dass, wennSie Daten zwischen verschiedenen Betriebssystemen verschieben, die Adopter erfordern würden , ich Adapter meine. In Bezug auf die Regierung werden spezielle Software benötigt, um diesen Film zu tun. Wir bewegen uns über Daten in einem Transporter, der zu einem frühen Zeitpunkt in Schuhen führen könnte. Es ist ein Kampf Cop bewegen Kopie von selbst nicht gibt Ihnen viel Sicherheit und Verschlüsselung, so gibt es eine Art von Problem. Auch Verwaltung von großen Dateien und großen Dateien, die schwierig werden können, wenn Sie sich besonders auf langsame Bandbreite bewegen , langsam brennen mit Kanälen, so dass alles ein Problem wird. Also, wenn es eine ziemlich einfache und unkomplizierte zwischen zwei Missionen ist, ist dies eine ziemlich einfache Sache zu verwenden, was wir versuchen, über einen Van über das Internet zu bewegen , die ziemlich schwierig werden könnte. Anwendungsfälle, unser gesamtes Unternehmen innerhalb Ihres Unternehmens zwischen den Toe-Servern innerhalb Ihres Netzwerks. Dies ist der einfachste Weg, um Daten zu verschieben. Dies ist vielleicht die einzige Möglichkeit, Daten innerhalb Ihres Unternehmens für Medienfreunde zu verschieben, die überreicht und kopiert wurden. Ziemlich einfach und unkompliziert. tust du. Es hat seine Anwendungsfälle, jede Rasse, auch in der Big World. Das nächste beliebteste Tool für den Transport ist sftp sind sichere Dateiübertragungsprotokoll. Sftp ist ein Netzwerkprotokoll für Dateizugriff und -übertragung, und dies wird von unseren Betriebssystemen unterstützt. Eso Dies nutzt einen sicheren Kanal für den Datenschutz. So verwendet es intern uns eine sichere Shell zum Verschieben von Daten, so dass standardmäßig Ihre Verschlüsselung vorherrscht und die, die Ihre Daten schützt. Es hat Unterstützung für die Autorisierung bei der Authentifizierung. Das ist also wieder gut. Also kümmert sich um die Sicherheitsprobleme, die Sftp in eingebauten Datenintegritätsprüfungen hat, dass, wenn es versucht, Daten zwischen einer Quelle oder einem Ziel zu verschieben, es die Datenintegritätsprüfungen durchführt, all diese Kreuzprüfungen und Onda all diese Prüfungen um und so was. Stellen Sie also sicher, dass Rita Bean korrekt bewegt hat, kann es Interrupter-Transfer annehmen. Das ist eine tolle Sache mit der Sicherheit Teil Ihrer bewegten Daten zwischen zwei Standorten , wo der Kanal selbst eine langsame Bandbreite. Aber die Datei ist riesig, da dies ein Schlüsselmerkmal für Dateien sein wird, die grundlegende Attribute haben, wissen Sie, normalerweise Dateien dort draußen auf Attributen wie Zeiten, Zeiten und auf den Namen und so etwas. Die übertragen werden. Das ist also ein Stück Information, die das Ziel aus verschiedenen Gründen verwenden kann hat eine weiße Unterstützung für rund über das Betriebssystem, dass eine Reihe von Tools, die es tun, von PP, die Sie erstellen, ist, welche tun von PP ist. Es gibt Bibliotheken, die tun können, ist FTP Also dies ist ein sehr beliebtes Protokoll, das für Bewegung Kämpfe verwendet werden kann . Was sind die Vorteile von sftp ist, dass dies eine weiße Unterstützung aus ist, off akzeptabel über uns alle und Tools und Dienstprogramme. Jeder von uns hat ein paar verschiedene separate Leser, eine Menge Open-Source-und kommerzielle Art, wo das als sftp für Sie tun kann. Das ist ein großer Vorteil. Es ist ausgereift und weithin akzeptiert als eine sehr wichtige Sache, weil, vor allem, wenn Sie versuchen, jede Art von Datenübertragung zwischen zwei Organisationen einzurichten und Sie müssen mit einem Verständnis dafür, was die gegenseitige angenehmes Werkzeug, um täuschende sftp böse trank Top-Moment zu verwenden, weil Sie über alles andere, was er anfangen zu reden oder wissen über Sicherheit ein darüber zu sprechen. Was ist mit dem? Aber Sftp ist in der Regel ein sehr häufig verwendbares Protokoll, das die Leute normalerweise sofort zustimmen . Und das ist ftp Art von Handshake und Schnittstelle zwischen zwei Organisationen. Das ist also ein ziemlich beliebt für den Anruf, den Sie im Auge behalten möchten, eine Datensicherheit über Internet, VPN und Van. Das ist auch ein großer Vorteil mit diesem FTP, sogar Daten, die es in unserem Baby Emma gibt. Manchmal möchten Sie sie und Dateien abladen und dann ftp sie über, um eine sehr beurteilen zu beginnen, ein sehr beliebter Weg weg von Daten, Austausch von Daten zwischen in den Preisen Mängel, Firewalls könnten Probleme haben, die f außer sftp so ah, Einheit oder abgenommen, wodurch Feuerboote geöffnet werden können, um ein Sicherheits-Rindfleisch zu ermöglichen. Sie bewegen sie in den Preisen. Pässe müssen zwischen Parteien geteilt werden, und mögliche Freigabe gilt als eine weniger sichere bekommen in diesen Tagen. Wenn Sie sich ansehen, wie die Cloud an diesen Tagen funktioniert, wird dies normalerweise durch einen P A-Schlüssel und solche Sachen erledigt. Die Vergangenheit zum Schreien gilt als weniger sicher. Ah, langsamere Übertragungsgeschwindigkeiten, weil es eine Verschlüsselung gibt, die Kreuzhuhn vor sich geht . Jackson geht eins. Es führt zu einer langsameren Übertragungsgeschwindigkeiten. Auch Anwendungsfälle unter Enterprise-Dateifreigabe. Dies ist eine der beliebtesten Möglichkeiten, in denen Unternehmen für den Austausch von Informationen vereinbaren können , dass eine gute Möglichkeit, Informationen zu teilen, weil beide Parteien, sowohl die I D Abteilungen, wäre in Ordnung mit uns oder geben akzeptiert sftp Art des Zugriffs auf jeden anderen. Mediendateiübertragungen ist eine DVD Mit mir wieder ist großartig, weil Mediendateien sind riesig und groß auf Sftp kümmert sich um sicherzustellen, dass ihre eigenen eingezogen hat Cross-Check, um sicherzustellen, dass die wildesten korrekt Sender und Sachen wie das. Und schließlich, natürlich, wenn Sie Log-Dateien verschieben ist wieder, eine großartige Option werden mit einer Sicherheit die dritte Option entfernt, die wir uns ansehen werden . Apachen Koch. Was macht Apache eine Party? Scope ist ein Kommandozeilentool für die Übertragung von Daten zwischen relationalen Datenbanken und Apache Hadoop. Sie haben also Daten in einer relationalen Datenbank, bei der es sich um Tabellen handelt. Spalten auf Sie können eine Fortsetzung Abfragen schreiben und dann wollen Sie es. Nehmen Sie diese Daten und übertragen sie in Apache Hadoop als Paillettendateien. Ah, Badji Scoop ist das Werkzeug, um dich jetzt zu benutzen. Scope ermöglicht es Ihnen, Pläne aus ganzen Datenbanken zu erstellen. Tabellen sind die Ergebnisse einer SQL-Anweisung, so dass Sie eine Fortsetzung Anweisung schreiben können, die einen Gruppen-Buy-Filter und solche Sachen hat , und Sie können Filter spielen auf diesem Stuhl übertragen können . Ich habe keine Programmierung überhaupt. Es ist ein Kommandozeilentool. Sie bieten eine Reihe von Para Meter für das Werkzeug, das ist, Sie wissen, Dinge wie, wo ist meine Quelle? Ihr Basisname, Treiber, Name, Benutzername, Kennwort. Welche Tabelle oder Datenbank? Oder eine erfahrene Hinrichtung und dann mein Ziel verschieden. Mein Herz nach oben System ist, was die Port-Nummer für Herz offen Zeug wie das auf diesem macht die Magie für Sie. Und Sie können dann das Skript für diesen Befehl lesen und dann automatisieren, dass mit s Scheduler und das wird wieder Dateien auf einer regelmäßigen Basis übertragen. Es hat Unterstützung für verschiedene Dateiformate wie eine Bro-Sequenz. Park Weizen sind einfache Textdateien auf dem harten Kopf. Es kann tatsächlich Daten in hohe Kunst übertragen. HP ist auch und es kann Daten von High Manage-Basis erhalten, auch im Dienst. Rivers wollen auch, dass es Parallelität unterstützt, so dass sie Skalierbarkeit mit Apache-Bereich sind. Andi. Es unterstützt inkrementelle Übertragungen. Wer kann eine neue Anweisung identifizieren, die die Spalte ist, die für die Verfolgung elementarer neuer Daten verwendet werden soll, um sicherzustellen , dass Sie den Überblick von selbst zu behalten. Wo kann Was sind die neuen Daten, die die Tabellen jedes Mal, wenn ein Transit den Norden hält was zusätzliche Führer laufen diese Zeit? Was für ein Dump, bis das, was ich brauche, als Prozess dieses Mal zum nächsten Mal begann es wird von dort und Firma eins starten . Also gibt es eine große Fähigkeit, die Schule bietet Ihnen auf. Schließlich, US-Unterstützung für Blobs. Auch, dass wieder eine größere Brundage. Wenn Sie Daten in die Schaufel verschieben ist etwas, das das Entschuldigungskomitee Amud im Herzen der Gemeinschaft, kam mit uns eine große Auszahlung bewegen vorhandene Daten in der Huddle. Und es war ein einfaches, unkompliziert gesagt, das funktioniert großartig auf Mal sehen, was sind seine Vorteile. Der Vorteil ist also, dass es einfach und unkompliziert zu bedienen ist . Es ist nur eine Befehlszeile. Sie können einfach in Ihre Para-Meter gehen und beginnen, wie Magie zu arbeiten. Es hat Parallelität, um Übertragungen zu beschleunigen, und es ist tatsächlich nach Richtung, und Sie können tatsächlich Daten aus ihrer Duke Backtoe Relational Datenbank auf Dies ist großartig , denn was normalerweise passiert, ist, dass, wenn ein Lot ziehen Datum Augen typischerweise in hado geschoben auf eine Menge Verarbeitung geschieht innerhalb harter Arbeit auf. Danach werden die Daten sortiert zusammengefasst und zusammengefasst. Dann können die zusammenfassenden Daten dann zurück in die relationale Datenbank von sehr verschoben werden kann für Reporting-Zwecke verwendet werden . Es ist also bidirektional. Es gibt eine tolle Aussicht, Mängel. Es ist überwiegend liegen nächste basiert. Also das ist wie OK auf, dann offene Sicherheit, dass es keine starken Sicherheitsmaßnahmen wie der Pass für die Datenbank hat, muss im Klaren und so etwas gegeben werden. Es gibt etwas, was die Leute daran arbeiten. Er hat keine eingebaute Transformationsunterstützung . Sie können mehr übertragen, verwandelte eine die Fliege hinunter. Sie können natürlich das natürlichin der SQL selbst tun. Es in der Schule. Sie können nicht wirklich, dass SQL, das verwendet, um zu holen, dass es sagt, zeigt, dass Sie eine Transformation durchführen können. Diese Schaufel selbst hat nicht viele große Vorteile. Es hat auch keine Streaming-Unterstützung. Es wird also ein historisches Werkzeug sein, dass Sie es von Zeit zu Zeit ausführen und weiterhin Datenmengen abrufen . Was sind die verschiedenen Anwendungsfälle für scoop Hado basierte Backups auf den Daten von Eros ist so, wenn Sie Daten von unserem Baby bewegen wollen müssen hart für Backups. Möchten Sie Daten in Hedge Pays oder High verschieben? Sind Sie auf einem Umzug Tag, dass von ihrem Job zurück zu Barbie Geschäft jederzeit sind sie Mrs. Ob die Quelle die Spüle sind, ist ein Patrick Schaufel der gesagt zu verwenden. Das ist alles, was so kommt, also ist dies ein weiterer großer Vorteil eines Party-Bereichs. Großartig. , Behalte nicht im Kopf,wann immer du Daten aus unseren Libyern zu Herzen bringen willst. Öffnen Sie den Rücken. Danke. 14. Transportmöglichkeiten Flume und Kafka: Hallo, Können Sie nicht Diskussionen über verschiedene Transportmöglichkeiten. Das nächste, was wir uns ansehen Apache Grippe. Jetzt ist eine Parteigrippe ein verteilter Dienst zum Sammeln, Aggregieren und Verschieben großer Mengen von Log- und Streaming-Daten über Ihre Flume wurde speziell mit dem Anwendungsfall aus Protokolldateien und meiner erstellt, wo Sie haben, wissen Sie, eine Reihe von Webservern, zum Beispiel, Sie haben eine Farm von Beobachtern, Hunderte von ihnen auf. Dann gibt es drei Blöcke, die in diesen Webservern betreut werden, und Sie möchten in der Lage sein, diese Protokolle von jedem dieser Beobachter zu sammeln und sie dann über einen zentralen Ort für große Verarbeitung zu senden . Es gibt einen Anwendungsfall, auf dem geflogen wurde gebaut. Die Venenflöße funktioniert ist, dass es einen Nicht-Ursprung, einen Kanal und eine Senke hat . Eso Arjun ist eine Quelle kompetent. Es ist ein Modell, das auf jedem Server bereitgestellt wird, von dem aus Daten lokal gesammelt werden kann, und die lokal erfassten Daten werden dann über den Kanal gesendet, und es gibt eine Senke, in die die Daten dann abgelegt werden. Dies ist eine Art historische spätere, längste Sammlerstimmung über den Kanal und Einleger in der Spüle. Die Quellen können sich über eine große Anzahl von Servern erstrecken. Also haben Sie eine Farm von Beobachtern, von wo aus Sie diese Daten Township über sie tatsächlich angebliche Menschen Arten von Quellen sammeln können . Es kann sein, dass die Quellen Dateien sein können oder es kann eine Zeichenfolge sein. Es könnte also eine Anwendung geben, eine lokale Anwendung, die Strings im tow, der lokalen Flammen-Client-Instanz, ablegt . Oder es kann tatsächlich gebildete Völker tun. Und Sie können http Post in sie einrichten und dann Thema keine senden Sie das Auto, den Inhalt des Beitrags über verschiedene Dinge, die es tatsächlich mit ihren Streams unterstützen kann . auch Das istauchdie Unterstützung meines Volkes. Denken Sie Typen, wissen Sie, kaum fehlen. Hadoop singen fangen basing. Es hat mehrere gleiche Typen. Es unterstützt auf der out of the box. Und Sie können tatsächlich benutzerdefinierte Quellen und Senken durch Gericht hinzufügen, so dass Sie Fluto tatsächlich Transportdaten verwenden können, wenn Sie Ihre eigene Anwendung haben . Sie wissen, dass Sie Ihre eigenen Pläne haben, die auf verschiedenen Servern ausgeführt werden, und dann möchten Sie Daten in Ihre eigene Senke transportieren. Sie können Flume trotzdem verwenden, indem Sie diese benutzerdefinierten Quellen von Dingen lesen , die Ihre eigene Anwendung Flume als Kanal verwenden kann, um Daten an Ihre Anwendungen entlang der Senke Seite zu senden Anwendungen entlang der Senke Seite . Anpassung, die mit Flume möglich ist. Es ist robust. Fehlertolerant hat sich als Failover und Recovery-Funktionen zu kämpfen ziemlich beeindruckend. Us A. Setzen Sie hier Funktionen auf. Ich unterstütze auch bei der Flugdatenverarbeitung. So sterben sie auf dem durch den Kanal bewegen, während er sich auf dem Kanal bewegt. Sie können auch einige Datenverarbeitung durchführen, wenn möglich, und das wird durch das Schreiben einiger Abfangmantel auch getan. Es gibt also einige Möglichkeiten, Daten zu verarbeiten, während sie sich auf dem Kanal bewegen. Wie stapelt sich ein Parteiflume in Bezug auf die Vorteile in diesem Brandbrand? Sie gingen Damaris hoch konfigurationsgesteuert. Du gehst einfach nach rechts. Ein Haufen von der Art von Feuerlöschdateien, die in Bezug auf das, was es tun kann, sehr konfigurierbar sind. Es ist massiv skalierbar. Wie gesagt, wurde es zurückgegeben, um Protokolldateien von verschiedenen Rep-Servern zu sammeln. Es ist also massiv skalierbar, und Sie können eine Menge Anpassungen vornehmen, indem Sie benutzerdefinierte Quellen und benutzerdefinierte Sings in Java lesen , die eine Menge benutzerdefinierter Verarbeitung für Sie tun können. Benutzerdefinierter Zustand, unsere Quellen und benutzerdefinierte Leser denken, dass es möglich ist. Hat Cummings erschossen. Es gibt keine Ordnung und Frieden. Dies ist die großen Kopfschmerzen mit Apache Flume, und ich glaube, sie arbeiten hart, um loszuwerden angeboten ist, dass es keine Bestellgarantien in dem Sinne, dass Sie einen Satz setzen weg. Sie setzen einen Satz von Ereignissen in etwas Wasser und die Quelle, die sie nicht kommen öffnen die gleiche Reihenfolge auf der Spüle Website. Sie müssen also einen großen eigenen Weg von der Verwaltung haben, Bestellung auf der singen Seite Sobald Sie es erhalten, die dowdy bestellen die Daten. Es ist möglich, mit doppelten Daten zu enden, die gleiche größere wird zweimal übertragen. Es gibt keine Replikationsfunktionen, die in Bezug auf für einen Party-Film verfügbar sind, aber es ist wirklich erfahrene Anwendungsfälle dort blockieren Versand. Shipping Log Frankreich ist einer der wichtigsten Anwendungsfälle für Apache Froome. Twitter-Streaming ist ein weiterer Anwendungsfall, aber es kann das Twitter verbinden und Daten erhalten und auch propagieren, und es kann auch tun, was als Edge-Server-Passing bezeichnet wird, vor allem, wenn Sie ein mobiles System suchen, haben Sie möglicherweise gealtert Service H Andere sind diejenigen, die am Rande des Netzwerks sitzen und mit der realen Welt in Bezug auf die Interaktion mit der Drahtstunde für solche Sachen interagieren , können Sie Ereignisse an diesem niedrigeren an diesem Punkt bekommen und sie auf die Grippe setzen. Mann. Daraus entspringt eine formelle Entnahme von Felsbrocken zum zentralen Repository. Es gibt einen der anderen Anwendungsfälle für Obst. Schauen wir uns ein weiteres Kribbeln an. Apache Kafka. Eine der Fragen, die Sie stellen würden, ist, warum gibt es etwas namens Apache Flume und eine Magie aus dem Auto und die Art der Überlappung in der Funktionalität? Genau. Und das ist, worüber wir früher gesprochen haben, ist, dass es so viele Produkte kommen, Dollar von verschiedenen Leuten, und alle von ihnen in Open Source gesetzt und sie werden unabhängig entwickelt, und irgendwo auf der Linie erwarten Sie, dass einer von ihnen auf einem anderen wächst, um herunterzufallen. Sind sie einfach viel zusammen und schaffen ein einziges Produkt? Wir wissen es nicht. Aber das sind eine Art überlappender Produkte. Sie haben gemeinsame Fähigkeiten. Sie haben separate individuelle Fähigkeiten. An dieser Stelle haben wir deshalb so viele Möglichkeiten. Ein Patrick Afghanis sind Open-Source-Nachrichten-Broker-Plattform für Echtzeit-Radar-Feeds von CAF-Autos , die mehr auf Echtzeit als Froome fokussiert sind. Obwohl flume Streaming unterstützt, konzentriert sich Kafka wirklich mehr auf Build und Feeds. Es hat eine Publish Subscribe-Architektur. So Cathcart veröffentlicht Themen, veröffentlicht Tag unten zu Themen, die Abonnenten sind oder abonnieren Sie diese Themen auf als und wenn einige neue Informationen in Kafka für ein bestimmtes Thema als diese Informationen sind getreu cento alle Abonnenten, die das Thema erhalten und dann bearbeiten. So arbeitet Kafka an der US Publish Subscribe-Architektur, die es bei Lincoln entwickelt hat, und es ist redundanter Maßstab. Andere sagt Ihnen, Sie wissen, es wurde bereits für einige reale Fähigkeiten verwendet. Themen werden veröffentlicht. Es gibt mehrere Abonnenten, die für jedes Thema sein können, das die Daten erhalten hat. Eine neue der Führer Kafka gibt Ihnen Bestellung Garant Stück, das ist nicht da in Froome. Zoff Bestellung in Echtzeit. Bestellung einer Beta ist wichtig für Sie. Äh, weißt du, ist es, obwohl du das eine ziemlich wichtige Sache ist. Wenn wir möchten, dass Daten in Echtzeit bestellt werden, dann können Sie. Ich habe Kafka für diesen Zweck verwendet, nach Bedarf für Verlage. Subscriber Toe Interface zu Husten Kann nicht Kafka unterstützen bestimmte Standard-Husten-Auto unterstützt einige Standard-Publisher als Abonnent, aber wenn Sie schreiben etwas wenig benutzerdefinierte schreiben Sie etwas Code. Winter Phrase mit Kafka ist nicht sehr stark Brandung angetrieben wie, dass wir flog verpassen auf für ein paar Audio unterstützt Replikation. Es unterstützt hohe Verfügbarkeit, so dass andere anders sind, nur für Kafka frei zu bekommen, was es von einem Differenzierungspunkt von, ähm, was sind die Vorteile von Kafka? Vorteil ist, dass es sehr skalierbar ist, wirklich. Zeit-Messaging-System. Ah, ein einzelnes Thema kann an mehrere Abonnenten gesendet werden, die eine größere Bandage haben. Es verhindert auch, dass Sie einige Bestellgarantien der veda, die in Ihr System kommt. Sobald Sie die gleiche Reihenfolge, in der Sie die Daten setzen, wird es in der gleichen Reihenfolge kommen, so dass das ein großer Vorteil ist. Mängel der Kafka-Codierung sind für Verleger und Abonnenten erforderlich. Es gibt einige Codierung erforderlich, die Art von Overhead war, den Sie für die Verwendung von Kafka in Bezug auf die Unterstützung von der Unterstützung, über die wir sprechen, treffen müssen. Technischer Support, technische Unterstützung für Wadenmänner. Nicht so hoch. An dieser Stelle nehme ich die Vorlesung auf, wenn die Flume verglichen wird. Es gibt also eine Einschränkung. Natürlich kannst du gehen. Und wissen Sie, natürlich, die Rebellen dort für Sie immer ein paar Abfragen stellen und dann stapeln Überlauf eins. Holen Sie sich einige Antworten und Sachen, die immer verfügbar sind. Aber wenn Sie weitermachen wollen, kooperieren Unterstützung, dann, ja, es gibt einige Einschränkungen für diese Anwendungsfälle für Kafka, Echtzeitanalyse. Es ist ein großartiger Anwendungsfall, in dem Sie Daten von, ah, großen Orten in vielen anderen Publishern und vielen Abonnenten erhalten. Und du willst das alles in Echtzeit machen. Kalb hat einen großartigen Motor gegossen. Es stellt Betriebsmetriken bereit. Aggregation. Das ist einer der Anwendungsfälle, für die es verwendet wird. Wann sind Ihre Betriebsmetriken? Wir haben im Grunde so, als ob Sie ein Rechenzentrum betreiben. Sie haben Tausende von Servern der EMS laufen verschiedene Dinge und Sie wollen Leistung zu akkumulieren und sie wissen Fehler und Verbündeten Warnungen über alle Server und sammeln sie an einem zentralen Ort und Aggregat und Schönheit in einem CAF Autos eine große so groß gesagt , für diese Art von eine Sammlung zu verwenden, und es kann für komplexe, sogar Verarbeitung wie wir verwendet werden . Zum Beispiel, Sie haben alle Ihre mobilen Systeme sind Sie bekommen eine Menge von Ereignissen von verschiedenen mobilen Client und sie sind gesammelt und auf verarbeiteten Kalb Jungs wieder gesammelt werden. Eine gute Option dafür auch. So haben Sie hier so viele Möglichkeiten, wie wir sehen, um den Transport zu machen, jeder hat seine eigenen Fähigkeiten. Ist seine eigenen Vor- und Nachteile für Sie. Müssen Sie die richtige Kompetenz für Ihre Architektur auswählen, basierend auf dem, was Ihr Anwendungsfall benötigt? Hoffentlich ist das die Hölle für dich. Danke. 15. Ausdauer Übersicht: Hey, willkommen zu diesem Vortrag über Beharrlichkeit. Mehr Deal. Aber das ist dein Lehrer, Cameron. Die Persistenz von Big Data ist eine große Herausforderung, da es, wie Sie wissen, wie Sie wissen,Big Data sind, und das Datenbanksystem, das wir verwenden werden, muss in der Lage sein, auf diese Ebene zu skalieren, um Petabyte an Daten, Terabyte von Marktführer, der für die Verwaltung des Big Data-Systems benötigt wird, so dass es begann und sehen, was sind die verschiedenen Verantwortlichkeiten aus einem Persistenzmodell, vor allem in der Big Data Wort. Das erste, was es das Persistenzmodul zu bieten hat, ist zuverlässig. Datenspeicherdaten, die sofort in die Vordächer gelegt werden, können in keiner Weise verloren gehen. Dann kommen saure Eigenschaften, da es Eigenschaften eine Liste von Eigenschaften sind, als jedes Datenbanksystem sich beschweren muss. Das waren Atomstädte Konsistenz, Isolation und Langlebigkeit auf verschiedenen Datenbanksystemen bieten diese Fähigkeit auf verschiedenen Ebenen. Ein großes Abendessen Nein, SQL-Datenbanken fehlen typischerweise. Wenn es darum geht, die RTB Massad, die meisten, die Sie kennen, diesen Aspekt verdünnt. Sie müssen also sehr vorsichtig sein, was Sie nehmen können und was Sie verlieren können, wenn Sie eine Datenbank für Ihr Anwendungsfallschema auswählen. Das Datenbanksystem sollte in der Lage sein, ein Schema bereitzustellen, mit dem es Bedeutung zuordnet, so dass die Daten, die in der Datenbank angegeben werden, die es benötigt, und in der Lage sind, Transaktionen zu unterstützen , bei denen , insbesondere wenn Sie versuchen, Daten in mehrere Tabellen, sollten Sie in der Lage sein, sie zu einer logischen Transaktion zu kombinieren. Auf diese Weise können Sie wahrscheinlich richtig kontrollieren, wo sie gegessen haben. Das geschah, wo Preise passieren, auf Sie wissen, wenn etwas sehr klar scheitert. Unsere Datenzugriffsfunktionen, ein Dock später, Zugriff über SQL oder AP ICE, dann deren Zugriff auf J. D. B C-Treiber. Wenn wir versuchen, Programmierung zu tun, sind diese Art Off-Funktionen auch erforderlich, um durch eine Datenbank-Antwort bereitgestellt werden. Zeiten, in denen Sie Daten erfassen, sind ein weiterer sehr wichtiger Aspekt und die Reaktionszeiten für Ihren Anwendungsfall erforderlich sind. Gator Minen als starker Einfluss auf die Kriegsdatenbank. Sie wählen für Ihre Datenspeicherung und schließlich, ihre Fähigkeiten Fähigkeiten, Big Gate und seine Skalierung Multi Cluster nichts geteilt. Es gibt viele Architekturen, die kompetent sind, um eine wirklich skalierbare Architektur zu schaffen , etwas, das nicht abhängig ist, da einzelne CPU eine einzige Mission sind, die Sie in der Lage sein müssen , horizontal zu skalieren , horizontal zu skalieren am Ende sind die Anzahl der Boxen in. Die Anzahl der Volumes ist in Rechenzentren verteilt, um das wahre A auf der Ebene der Datenspeicherung bereitzustellen . Also, was ich denke, Sie brauchen, um als Architekt zu Architekt, aber die meisten der Fähigkeiten, die Sie erwarten würden, bieten wir durch eine Lösung, die Sie von der Open-Source der kommerziellen Welt erhalten würden . Das erste, was ist natürlich, natürlich, kollaborative Big Data Nichte, Kayla Brady. Das ist unser Zuhause mehr. Aber das wollten wir. Es braucht Konsistenz in Bezug auf die Datenspeicherung Daten müssen konsistent sein. Lesen Sie konsistentes Recht Konsistorium Wissen Sie, dass all diese Dinge durchgesetzt werden müssen. Fähigkeit, Transaktionen zu unterstützen. Nein, die Datenbank bietet keine Transaktionsunterstützung. Dann müssen Sie eine klare Vene haben, die Sie nach eigenem Ermessen implementieren können, um konsistente Transaktionen bereitzustellen, müssen Sie sich leseintensive Anwendungsfälle ansehen. Schlimmeres stimmt. Intensive Anwendungsfälle und Juden und Architekturen Eigentum Italien. Manchmal ist es Lesen und Silber pünktlich. Es ist der richtige Eingang, je nach oben in Ihrer Situation müssen Sie sich bemerkenswert war seine unveränderliche Später und unveränderliche Daten kämpfen, sobald Onley, unveränderliche später ändert sich richtig intensive und unveränderliche Daten, die typischerweise in einem wirklich Tank Szenario, wo am selben Tag, die aufgetreten, vielleicht wieder abgescheuert, basierend auf dem, was passiert. Also, das ist etwas, das Sie den Architekten für die Datenkatalogisierung haben, das ist wie Schema sind Metadaten unsere Daten über Daten. Sie müssen in der Lage sein, einen schönen Katalog zu bekommen, was diese Daten in ein richtiges Datenreservoir konvertiert, das Sie auf dem Vieh am 1. August verpasst haben . Sie gehen auf Dual-Acquiring und so etwas in spät und sehen Anforderungen. Weißt du, du siehst dir eine echte Zeit an. War eine historische Agentur Anforderung in Echtzeit Definitiv müssen nachträglich Agentur eso Es gibt etwas, das Sie bitten müssen, um Sie von dem Moment an Sie die Daten bis zu Ihrer Berichterstattung zu erstellen , wiegen Sie die Briefe, die er sein muss in Sekunden sind ein oder zwei Sekunden. Das ist etwas, das Sie den Architekten haben, um Daten zu verschieben, die schnell und neue Menschen tun. Ah, speichern Sie Daten über Transformationsrate an diesem ersten ist eine Anforderung. Eine statische Kräfte sind dunkle Lords, schmale Mutter in einer Big Data-Situation, werden Sie eine Menge aus begegnen. Ich würde kaum laden. Das ist, wenn Ihre Datenwissenschaftler sitzen darin, die Daten zu verlassen, einige Analysen durchzuführen, einige Transformationen auf Dock-Basis durchzuführen, wo kein Schließen passiert ist. In der Regel haben sie versucht, eine riesige Menge von Daten zu scannen, und das wird Ihre Datenbank ersticken. Sie müssen also für diese Art von Dunkelheit auch in Bezug auf Skalierbarkeit bereitstellen. Wissen Sie, wenn jemand Praktikanten geht und eine Arztlast, die keine hat, sollte nicht eine sein, die Ihre regulären Daten beeinflusst Passing bereits eine regelmäßige Berichterstattung Aktivitäten. Eine dunkle Belastung für Big-Data-Datenbanken kann enorm sein. Eso Wir müssen sehr vorsichtig sein, wann und wie sind nicht in der Nähe eines Laufs. Regel bieten diese Datenbanken Funktionen für die Ressourcenzuweisung, wie viele Notizen Sie zuweisen möchten und wie maney CPU Sie auf dem Kabel wollen, müssen Sie in der Lage sein, zu vergessen und führen Sie sie direkt. Ah, flexibles Schema sind etwas, das Sie Architekt wirklich klar wollen, weil, wissen Sie, Big Data Probate für eine Menge von einer Dock-Analyse. Viele neue Datenattribute meine guten Arad im Laufe der Zeit weiter, so müssen Sie für die Fähigkeit, einen flexiblen Schemmer eso zu haben, dass Ihre Data Scientists Data Analyst Sie Programmierer Data Engineers halten neue Attribute hinzufügen war nicht das Auftauchen, ohne irgendeine Art von Daten durchlaufen zu müssen. Grundsätzlich sind Design Regnery-Bevölkerung so etwas? Best Practices für die Auswahl eines Persistenzmodells Pferde für Kurse. So gibt es keine Einheitsgröße. Alles ist alles auf Datenbanktechnologie, die heute für die großen Habe ich Anwendungsfälle verfügbar ist ? Es gibt eine Reihe von Datenbanken, gute Bewertung, aber sie sind alle Pferde für Kurse, die alle Strategien von ein paar Jahren Fällen. Also müssen Sie eine wählen, die zu Ihrem genauen Anwendungsfall passt, und manchmal müssen Sie gehen und nur mehrere von ihnen. Sie wissen, dass die gleiche Lösung tatsächlich mehrere verschiedene Datenbanktypen verwendet. Sind die Beemers und eine keine obskure Art von Armin-Mitgliederzeit abhängig von den Spezifikationen Fall und haben Sie wollen Architekt die Lösung? Das ist, was wahrscheinlich Clark-Assistent genannt wird, was ist, dass die Daten auf mehreren verschiedenen Datenbankservern auf den A-Eigenschaften gespeichert werden, die jemals Joe's sind. Und basierend auf dem Anwendungsfall, halten Sie Ihr Schema Anders und flexibel eso, dass das Schema jederzeit ändern kann, wenn Sie neue Attribute jederzeit hinzufügen können. Wenn Sie sich also keine SQL-Datenbank ansehen, sind diese diejenigen, die Ihnen die Fähigkeit geben. Selbst wenn Sie einen RGB Emma verwenden müssen, ist es immer noch möglich, Zehe als eine Art flexibles Schema zu haben. Wenn Sie beginnen, in Namenswertteile zu gehen, die gespeichert werden, anstatt auf einem starren Spalten für Dinge zu erstellen , behalten Sie Daten die niedrigste Granularität möglich. Weißt du, du redest von Transaktionen, die ein Datentransaktionsniveau halten, damit jemand auf Stufe ist . Der Grund ist, dass, wenn Sie über flexible Abfrage sprechen München über eine dunkle tragen Sie nicht wissen, wissen, welche Art von Anwendungsfällen Sie Data Scientists auf unserer Liste werden später kommen . Ich habe nicht vor einigen erhöhen die Daten, halten Sie es ein gonna Niveau lesen, so dass es ihnen die Flexibilität versprochen, irgendwo sie gefragt sie wollen und wenn sie zusammengefasste Daten nur wollen, wenn sie zum Beispiel benötigt werden, wenn Sie einige Standard-Verwendung Fälle, Standard-Berichte, die nach dem Lauf auf denen nicht auf eine schnelle genug Ehre auf den Grendler Daten . Dann erstellen Sie vielleicht drei verschiedene Zusammenfassungen, aber achten Sie darauf, wenn Sie jemanden erstellen. Erstellen Sie nicht blind viele Zusammenfassungen. Weißt du, das ist Big Data Onda. Typischerweise hat dieses schreckliche System Berryville skaliert. Wenn Sie nicht das Gefühl haben, dass Sie diese Art der großartigen Berichte aus dem Gander heraus finden, die nicht genug erschrecken, dann gehen Sie nur Daten zusammenfassen. Berücksichtigen Sie Ihre Echtzeit-Anwendungsanforderungen, wenn Sie erstellen. Verwenden Sie Ihre große Gator-Basis, um sowohl in Echtzeit als auch historische Fälle zu betrachten und zu sehen, auf welche Verwendung Untersetzer mehr Priorität haben. Manchmal haben Sie vielleicht zwei Systeme, eines für Echtzeit. Ein anderer für hat begonnen, dort zu leben. Dieses Board wird vom System benötigt. Versuchen Sie nicht, zu viel in die Erstellung einer Lösung für alle zu drängen, da Sie am Ende in Anzahl und Tanks mehr Arbeit tun , um diese eine Lösung zu erstellen, als tatsächlich in verschiedene Lösungen gelöscht . Machen Sie weg mit Backups in Big Data über. Es gibt keinen Platz für Backup, da diese sehr zeitaufwändig wären. Und das Wiederherstellen von Daten ist auch sehr zeitaufwändig. Deswegen kam der Hado rein. Es kam mit dem Konzept aus. Ah, mehrere Kopien Falk Datum und es gibt keine Notwendigkeit für Sie, wieder zu nehmen. Das ist also einer der Gründe, warum aus sich selbst in das Bild kam, und Sie möchten diesen Prozess fortsetzen und keine Art von Backup-Systemen vor sich haben. Achten Sie also auf diese und stellen Sie sicher, dass Sie keine Backups für Ihre Daten benötigen . Kein Architekt in einer Weise, dass die Daten von selbst über mehrere Kopien repliziert werden, und sie können an anderen Kopien arbeiten, wenn, wenn eine Notiz nicht verfügbar ist, Vielen Dank. 16. RDBMS und HDFS: Okay, Willkommen zu diesem Vortrag über Optionen für Beharrlichkeit. Dies ist Ihr Lehrer Kormoran hier, wählen Sie eine persistente Schicht als eine der wichtigsten Entscheidungen. Du machst uns zu einem großen Gator Architekt, weil ah, viele der Probleme, dass der große Gator 11 Zeh der Persistenzschicht ist. Also, was sind die Möglichkeiten? Wir haben keine Hilfe. Die 1. 1 ist unser Baby. Imus. Sie könnten überrascht sein. Man zeigt sich in der Liste der Big Data, weil es die Probleme mit unserer Baby Mutter tatsächlich ausgelöst die Entwicklung von Big Data persistente Lösungen wie harte Dope und solche Sachen. Aber Big Data hat immer noch eine große Rolle in einer Big Data-Architekturen zu spielen. Entschuldigung. RGB Muskel hat eine größere Rolle in einem Big-Data-Architekturen zu spielen, weil einige der einzigartigen Vorteile, die die Bemis noch nicht ist, Sie wissen, repliziert auf den Big Data-Lösungen sind Technologien, die wir haben so noch eine große Rolle in großen Gator-Architekturen zu spielen. Es ist gespeicherter Zustand und Tabellen und Spalten. Sie durch. Niemand hätte das gewusst. Was? Wie geht's ihnen? Bemis funktioniert und so ziemlich jeder in der Idee, wir werden etwas Erfahrung ohne das Wesen haben . Die meisten sind nicht einmal vermisst ein gebaut für Nummer Crunching. Das ist es, was sie geboren wurden. Das waren sie wirklich, wirklich gut. Dass sie eine ausgezeichnete Abfrageleistung, hervorragende Abfrageleistung haben. Ihre Technologie ist wirklich, wirklich optimiert, um das Beste aus Ihren Ressourcen herauszuholen, um die beste Qualität Leistung zu erzielen. Die größten Einschränkungen unseres Babys müssen in Bezug auf Skalierbarkeit kommen, denn fast alle sind zweifelhaft über Produkte basieren auf einem einzigen ah-Server, der alles verwaltet. Da kommt die Beschränkung ins Spiel. Schema muss aus neu definiert werden. Was über unsere Diplomaten. Es ist alles schemabasiert, so dass Sie nicht wirklich flexiblen Dampfer Ahmad Opinsky haben können. Mine I d. Seien Sie Fehler kann einige Zeit und Ressourcen in Anspruch nehmen und einige stoppen, um die verschiedenen Operationen , die Sie tun, auf. Es hat sehr wenige ausgereifte Optionen auf Artikel meine Fortsetzung, Post Grass Skipper und dann Microsoft Fortsetzung, so dass Sie sehr wenige ausgereifte Optionen und rd Beamer auf höchstwahrscheinlich in Ihrem Unternehmen bekommen. Sie haben bereits eines davon sind die Mitglieder, die in irgendeiner Weise verwendet werden. So kommen unsere Dämonen aus vorteilhafter Sicht zurück. Es ist eine sehr ausgereifte Technologie seit 25 Jahren auf Dwight ist gewachsen und gewachsen und absolut optimiert für was auch immer Staub, ausgezeichnete Abfrageleistung auf ausgezeichnete Dritte und sagte Unterstützern fast und schon , Wir sehen Jenny beschäftigt Unterstützer dort bei jeder Berichterstattung. Ein weiteres nimmt ideales Werkzeug, das Sie ziemlich unkompliziert auf ausgezeichnete Säureunterstützung finden . Aber wenn Sie wollen, sind nicht wirklich die Mühe über Datenkonsistenz und Integrität, das ist die gesagt, mit denken gehen, denken Sie über unsere Davey vermisst das. Vor allem, wenn Sie, wie Hunderte von Kunden versuchen, auf dem gleichen Tisch arbeiten. Weißt du, das ist, was Dämonen wirklich ins Leben kommt. Wenn Sie sich alle Big Data ansehen, verwende ich Fälle, die Sie normalerweise haben. Sie haben nicht, wie wie 100 sind verschiedene Clients versuchen, an der gleichen Tabelle zu arbeiten und Datum einfügen. Ich weiß, das ist in der Regel ein paar von Kunden in einem großen Date einer Welt, die etwas Appeal macht , überquert und versucht, eine aktualisierte einfügen Ich schaukel meine Sorge nach oben. Das ist nicht ganz ist. Unser Baby muss wirklich glänzt, wenn Sie so viele Kunden versuchen, das gleiche zu aktualisieren. Unser Tisch verwirrt die gleiche Platte. Da muss unser Baby wirklich ins Spiel kommen. Mängel sind skalierbar. Seien Sie in der Größe mit Respekt, Terabyte und Gigabyte. Es hat ein ziemlich starres Schema, das heißt, es wird erschossen. Sie müssen ein Vorabverteidigungssystem haben. Sind mit Tabellen und Spalten für zwei. Arbeiten Sie eindeutig an DA Jedes Mal, wenn Sie ändern möchten, wird das Schema eine sehr kostspielige Angelegenheit sein. Kosten, natürlich, wenn Sie Artikel kaufen, die eines der kostengünstigsten Produkt können Sie heute auf Dog Auch Microsoft Fortsetzung kaufen . Wann immer du über Skalierung sprichst, sind das nur Bemis. Es kommt mit einer Menge Hardware-und Software-Kosten damit verbunden sind die Wir müssen nicht gut mit Tech-Speicher, auch wenn sie heute Blobs und so etwas unterstützen. Sind sie immer noch in Bezug auf eine Menge von Textverarbeitung, Text-Tragefähigkeit, so dass das nicht da ist? Ich die USB aus nicht Baby Messina Argumente ist alles über Anzahl Knirschen Anwendungsfälle für unser Baby muss. Wann nutzen wir unsere Demus ist, wollen wir meine Daten speichern. Wenn Sie Ihre eigene benutzerdefinierte Anwendung erstellen und Daten in einem Big-Data-Repository haben. Big Data war nicht so gut mit der Pflege von Metadaten. Selbst wenn man sich so etwas wie hi hi anschaut. Intern verwendet. Sind sie am meisten, um den Überblick über seine wichtigsten Modifikationen und Sachen zu behalten? Das wird also für Andre Bemis dort verwendet. Selbst wenn Sie Ihre eigenen benutzerdefinierten Reporting-Lösungen verwenden, sind ideale Lösungen. Sie können weiterhin Argumente zum Speichern des Moderators verwenden. Moderator ist in der Regel klein auf, dass macht ein großes Reservoir, vielleicht macht es sehr einfach. Multi-Update-Fälle sind Work-in-Progress-Daten. Was das bedeutet, ist, dass, wenn Sie Datensatz haben, die ständig aktualisiert werden müssen, vor allem mit Multi-Clients tun . Das ist, wo unser Baby muss verwendet werden, wenn wir monatlich aktualisieren unsere Work-in-Progress-Daten verwenden . Wir sprechen nicht von wirklich Terabyte an Petabyte Daten, weil wir nicht wirklich über ein Jahr Nüchternheit sprechen. Wir sprechen über Daten, die im Gange sind, aber genauso wie leichte, leichte Transaktionen, die lebendig sind, unsere Sitzungen nutzen. Nein, das ist nicht unentschlossen Terabyte. Typischerweise ist das nicht Ort vor allem tembisa Maximum jeebies. Also, was machst du mit dem Einsatz und bist Tagträumer wie ein temporärer späterer Laden. Also, wann? Sagen wir, jemand Drogen in Besessenheit, Sie erstellen eine Platte für ihn und nicht zu verpassen. Und Sie können den Datensatz kontinuierlich aktualisieren, wenn die Sitzung Entscheidungen und Fortschritte waren , weil Sie diesen Datensatz nicht aufnehmen würden, legen Sie ihn auf einen Big Data-Speicher. Und wir wissen, Derrick Ultramar dbm ist, dass wir die Anzahl der Datensätze und unser Baby vermissen wird wie, sehr minimal sein wie, . Während Sie nur können, können Sie es einfach für Multi-Operation-Szenario verwenden. In diesem können Sie es verwenden, um zusammenfassende Daten zu speichern, das ist, dass Sie big get out für alle Verarbeitung verwenden können, die Sie gehen möchten und möchten, dass Sie uns drücken. Alden, Die Zusammenfassung, die Mühe kommt vielleicht können Sie und unsere Deb Amos wieder verwenden. Die Größen sind möglicherweise nicht so groß, wenn Sie einige der Datenergebnisse betrachten. In ähnlicher Weise, wenn Sie sich eine Analyse ansehen und dann einige Ergebnisse zusammenstellen und sie dann in einer Tabelle speichern möchten , ist das wieder ein guter Ort für arktische Zahlungen, weil denken Sie daran, dass die Berichterstattung aus unserer Baby Muskeln sehr einfach. Also, jemanden zu setzen, das ist alles Staat und unser Baby muss Sinn machen, vorausgesetzt, dass Entscheidungen nicht so groß sind. Ich meine, in der Regel, wenn Sie eine RD-Mitglieder verwenden und rbb emotional, das ist ein sehr viel von Technologie. Das war etwas, das für Sie in jedem Anwendungsfall funktionieren wird. Die nächste Option, die wir haben, ist HD Fest, das Dateisystem, das mit Huddle geliefert wird. Nun, das ist derjenige, der die ganze Big Data-Musterung revolutioniert hat. Hier hat alles angefangen. Wenn man sich Hoekstra hier zuerst anschaut, der Zweck, für den der hohe Davis erstellt wurde, Dateien im Dateisystem zu speichern, das nicht beschränkt ist, wie eine Box an einem Zeichen oder so etwas wie an diesem Samstag. Dies ist ein verteiltes Dateisystem, das sich über Tausende von Knoten erstrecken kann. Es kann wie sehr große Dateien speichern, und die Dateien können, wie, wirklich, wissen Sie, über so viele Norden erstrecken. Eine einzelne Datei darauf hat auch eine gute Möglichkeit, mehrere Kopien derselben Datei zu speichern, was bedeutet, dass es die Notwendigkeit für jede Art von Backups überflüssig macht. Es kann auf Commodity-Servern laufen, die es nicht benötigt, wie eine teure gleiche Art von Einrichtung. Es kann einfach auf Commodity-Servern ausgeführt werden. Das macht es viel kostengünstiger. Es ist ein sizilianischer Norden Misserfolge. Möglicherweise haben Sie Tausende von Noten von ein paar Noten zu einem beliebigen Zeitpunkt fehlschlagen. Das ist in Ordnung. Es wird weiterhin ausgeführt, da es nach den Daten verfolgt und Kopien sendet und gesichert wird . Es kann ein bisschen sinken. Also hat es all diese Dinge. Weißt du, jeder von uns war ein Bad. Es wurde ursprünglich erstellt Zehe Griff, Geburt Crawling Art von Projekten, wo Sie wissen, jemand ruft die verbale Google's und Yahoos. Sie begannen, das Internet zu kriechen und so viele Daten zu sammeln. Sie brauchen einen Ort, wo sie alle Daten setzen wollen, und das ist, wo sie tatsächlich Bemühungen Greater HD Evers haben ähnliche Systeme für Speicherung von Daten über so Geldserver auf, dass ein Handel Anwendungsfall ist. Futter hier war auch heute noch, es ist eine Open-Source-Party-Projekt. Natürlich ist es kostenlos. Sie können es einfach herunterladen und beginnen Sie mit dem Datum und wir wollen auf. Es kann von einem Server auf eine beliebige Anzahl von Servern skaliert werden. Es hat eine Einschränkung von der Theke und Windows, aber die anderen Leute versuchen, Wege um es herum zu finden. Eigentlich waren die Server Burton Java oder einfach zu übersetzen, und alle Ebenen, die Sie in einem Verlust für die parallele Ausführung meines produzierten sehen wollen, beim Lesen einer Karte produziert uns, die Daten und tatsächlich FSO auf meinem Produkt verarbeiten können Aufgabe sind in der Lage auf so vielen verschiedenen Noten und im Kampf laufen, und das gibt es und phänomenale Fähigkeiten. Wenn du nächstes Jahr zuerst mit anderen zurückkommst. Was sind die Vorteile ist, dass es massiv skalierbar und reabel es auch richtig Datenverarbeitung . Das ist großartig, und es braucht keine Backups, und es ist sehr kostengünstig. Also kein Backup, sehr kostengünstig. Ihre Finanzen Gray wird erlauben, dass es auch teilweise spätere Verarbeitung. Das macht die Dinge wirklich schnell. Selbst Steven toe die Menge der Daten, die gespeichert ist ziemlich hoch. Die Mängel hat es keine Indizes. Du, wenn du irgendeine Art von Suche haben willst, die sehr langsam sein wird, willst du es für eine Platte verkaufen? Ja, es wird wirklich langsame Sicherheitsbedenken sein. Ein Sklave ist nicht so sicher. Daher müssen Sie uns mit externer Sicherheit umgeben, um sicherzustellen, dass die Daten nicht leicht verletzt werden. Die Karte produzierte Programmierung auf ihrem Weg über diese Art von beschränkt auf Gela-Programmierung der anderen Programmiersprachen haben einige Pipes und Zeug, aber intern ist Java der optimistischste. Eine für Sie, um mit Down-HD-Bemühungen zu arbeiten. Das ist eine Einschränkung. Anwendungsfälle, Sperren von Bränden. Jedes Mal, wenn Sie rohe Protokolldateien haben und sie speichern möchten, ist dies der richtige Weg. Geh einfach los. Und dann danach, Sie können sie vielleicht verarbeiten und wird verwendet A J Besuche auf ausländischen entweder es nur über eine Geschichte in den Reserven. Aber sobald man den Datenstab bekommt, kämpft er. Dies ist der Ort, um ihm Mediendateien wie Aufnahmen, weise Dateien, Videophilen, Audiophile. Das ist der Ort, um sie anzuziehen. Es kann tatsächlich dienen uns Online-Backup für unser Baby, mein Staat behauptet, in einem Ihre Daten in einer Debatte, Emma und auf, anstatt ein Backup-System wie ein Band-Backup zu verwenden, sind adressiert, zurück von Ihnen können Extreme verwenden hat auf Online-Backup für die Jagd Frauen Daten Das ist auch sehr gut Verwenden Kiss aus dem Studio. Unser Baby. Stellen Sie sich vor, als nächstes geben Sie uns die eine aus der alten Welt und eine aus der Neuen Welt. Sehr unterschiedliche Anwendungsfälle sind so, dass Sie sehen können und wir werden weiterhin sehen mehr, äh, äh, Beispiele aus, äh, grünere Geschäfte von 17. Cassandra und MongoDB: Hallo. Fortsetzung der verschiedenen Optionen für Persistenz. Ihr Lager Über Cassandra Cassandra ist eine weiße Spalte Big People Leader Shop. Es ist keine Fortsetzung. Es ist als ein weißer Säulenspeicher klassifiziert. Wenn Sie sagen, es ist ein weißer Stoffspaltenspeicher, es hat Tabellen auf. Die Spalten sind sehr flexibel, da Sie beliebig viele Spalten hinzufügen können. Sie brauchen keine NA-Operation wie alle Tabellen so etwas. Wenn Sie Daten einfügen, geben Sie nur einen neuen Spaltennamen an, und es wird von selbst übernommen, damit Sie weiterhin neue Spalte hinzufügen können . Es gibt keine speziellen Operationen wie das Hinzufügen neuer Spalten. Wenn Sie das einfügen, gebe ich einen neuen Spaltennamen und es wird abholen, und es wird anfangen zu verwenden. Auf diese Weise können Sie eine beliebige Anzahl von Spalten für eine bestimmte Zeile zwischen den Zeilen haben. Jede Zeile kann einen eigenen eindeutigen Satz von Spalten haben, wenn Sie möchten. Oh, es gibt keine Notwendigkeit, dass alle Spalten all dies mit demselben Spaltennamen haben sollten, also ist es ziemlich flexibel, welche Art von Daten Sie innerhalb einer Zeile speichern können. Also mit jeder Zeile hat, was Sie einen Schlüssel für die Straße und dann eine Liste von Attributen, die als Namenswert bezeichnet werden. Aber das ist ein Schlüssel für die Zeile und dann eine Liste von Attributen, die keinen Valley Teil benötigen. Das Wichtigste in Cassandra ist also, dass ein Schlüssel, der Schlüssel für die IRO. Solange Sie diesen Schlüssel bekommen, richtig, richtig, Castle versucht eine wirklich nützliche Datenbank zu sein. Es ist eine Open-Source, die von Facebook entwickelt wurde, die Ihnen die Menge aus sagt, Ah, Skala, Fähigkeit es als Gebäude in das System. In der Tat, viele der Big Data-Technologien werden intern von einer dieser entwickelt, einer neuen Internet-Welt, James wie Facebook, Linden mit ihrem Google Yahoo. Und dann machten sie sie Open Source. Und das sagt Ihnen, dass sie für wirklich große Skalierbarkeit verschraubt sind. Es hat, dass Animus kam, wie Sie in jedem Do seine Attribute gesprochen haben. Betrachten Sie den Namen kaum bestanden. Sie können beliebig viele Attribute hinzufügen. Es hat eine schöne dezentrale Architektur, die Asthma's ous weiter skalieren kann. Sie wollen, dass Nordausfälle nicht die Gesamtleistung beeinflussen, sind die Zuverlässigkeit Es hat absolut größere Haftung. Ah, das Größte. Unsere Impotenz in Cousin trocknet, dass es einen einzigen Index für jede Tabelle gibt. Es gibt nur einen Index und dieser Index als basierend auf den Rocchi und reden darüber, solange Sie verwenden, dass brach. Ian, deine Queries Qualitäten werden absolut großartig und absolut schnell sein. Wenn Sie unsere defekten Argumente nicht verwenden können, die in der Abfrage gebrochen sind, wurde es ein vollständiger Tabellen-Scan gewesen . Das wird wirklich langsam sein. Die Anwendungsfälle von Cassandra, die wir später auch sehen werden, sind, dass sie irgendwie beschränkt sind, wo Sie diese nette Single haben können. Äh, ich habe für jede Reihe. Wenn Sie auf Facebook schauen, Ich glaube, dass Ideen im Grunde Ihre Verwendung bereits. So haben sie ein dro für jeden Benutzer identifiziert, der idee verwendet. Und innerhalb dieser Zeile können sie jede Art von Informationen über den Benutzer speichern, wie so viele Spalten und jeder in Gigabyte Daten über diesen Benutzer. Aber die Holding basiert auf diesem. Ich d. Es hat eine ausgezeichnete einzeilige Abfrageleistung, wenn Sie basierend auf der Idee beenden. Also, wenn ein Facebook-Benutzer liebt, und Sie sind nimmt, dass Benutzer anmelden i t und Qualität für dunkle, spezifische Aufnahme ihrer Tabelle. Ja, du wirst passen. Holen Sie sich die Daten einfach so und Sie können mit den Daten alles tun, was Sie wollen. Es hat eine schlechte Reichweite Scan-Leistung. Wenn Sie nach einer Reihe von Daten suchen, werden Sie nach Geben Sie mir alle Benutzer, deren Daten über die große mit ihnen so und so scannen . Okay, das ist gut, für immer wieder zurückzukommen. Es hat keine Aggregationsunterstützung. Wie du weißt, du, wir brauchen dich. Condo wuchs um einige Mittelwerte. Hören Sie, haben irgendeine Art von Operationen wie das? Wie gesagt, ist dies wie eine ganz besondere Art von Tabelle, wo es alle Informationen über einen Benutzer oder ein Objekt hat . Es ist eher wie ein Objekt. Später, im Grunde, gibt es ein Objekt, das ein Objekt ist, Eddie und eine Menge anderer Waren für das Objekt. Solange du das Objekt benutzt, das Ian ist, wird es funktionieren. Wirklich große Vorteile von Cassandra ist, dass es eine ausgezeichnete Skalierbarkeit und Leistung hat . Große Skalierbarkeit. Es ist keine Fortsetzung. Es wurde für die neue Welt und ist wirklich skalierbar. Sehr starke Sicherheit, Aufbau mehrerer Rechte mit ausgezeichneter Leistung. So lange uns wieder, wenn Sie Aktualisierungen an Datensätzen tun und das Update trägt, dass einzelne wachsen ich d. Sie können die Datensätze beliebig oft Sie gehen und entfernen möchten aktualisieren. Tragen Sie dazu bei, dass Afrika Ihnen all diese Fähigkeiten mit hervorragenden Leistungsmängeln geben wird . Es gibt keine Transaktionsunterstützung, daher haben Sie doppelte Transaktionsunterstützung in Ihre eigene Anwendung. Es gibt keine ausreichenden Fähigkeiten, die Sie nicht schreiben können, und, na ja, eine Art von Abfrage gegen jede Art von Spalte, weil es ewig dauern wird, um zurückzukommen. Es gibt keine Unterstützung für Gruppierung nach. Es gibt keine Unterstützung für Riesen, also sind das die Grenzen von Cassandra. Wenn Sie zu einer dieser keine Fortsetzung Datenbanken gehen, werden Sie dies und später sehen Sie sind irgendwie sehr begrenzt und funktional verglichen. Toa Bestellung nicht Baby muss CanDo. Diese sind wie für bestimmte Anwendungsfälle gebaut, und Sie müssen Daddy Os Fall identifizieren und es für sie auf andere Weise verwenden. Weißt du, es gibt keine Einheitsgröße. Es ist alles an diesem Punkt in der Nord-Nachfolger-Welt. Die Anwendungsfälle für Cassandra wollen Sie einen Kunden bauen? 3 60 Ein Kunde 3 60 ist wie eine Betrachtung, um eine 3 60 Grad Sicht aus einem Kunden zu bieten . Der Kunde. 3 60 Blockflöten Und wenn ich die benutzerdefinierte bereits auf die Daten kaufe, können Sie jede Art von Daten, die Sie über den Kunden im Zusammenhang mit dem Kunden wollen. Und der Auslöser hier ist etwas. Dies ist ein sehr guter Anwendungsfall, eigentlich, weil Sie zu jedem Unternehmen gehen, wo es dieses Konzept eines Objekts oder eines Kunden gibt, ? Eso sind Sie in der Nähe des Kunden? Bereit und um ihre Brauch. Bereit. Sie möchten jedes Ende der Daten über den Kunden behalten, und dies ist ein großartiger Anwendungsfall dafür, weil das Aufgeben für diesen Kunden sehr einfach wird . Also, jedes Mal, wenn Sie eine Abfrage über einen Kunden wollen, gehe ich hier und Sie bekommen den Jet. Ich mag das einfach, auch wenn Sie Millionen von Kunden haben. Dies gilt insbesondere, wenn Sie größere Websites wie Amazon oder Facebook betrachten. Lincoln ist der Moment der Benutzerprotokolle, und Sie gehen einfach und vielleicht zog den Datensatz für den Benutzer und Speicher. Und dann ist das ziemlich schnell Überwachung Status-Sticks und Analysen. Dies ist in Operationen Analytics, wo jede Notiz zu einem Objekt wird. So wird jeder Notre jeder Server, den Sie haben, zu einem Objekt. Also gibt es Wonder Card Partner, und dann behalten Sie den Überblick über alles über diesen bestimmten Server in diesem Datensatz. Ah, standortbasiert Suchen Sie nochmal nach oben. Standorte können zum Index werden, und dann können Sie jede Art von Informationen über den Standort tragen. Also gibt es all das, unsere Cassandra-Anwendungsfälle. Sie sehen die meisten der gegebenen, die auf Facebook gebaut wird. Sie werden sehen, dass die Anwendungsfälle sehr ähnlich sind toe Was Facebook die nächste verwenden könnte wir sehen werden, ist Mongo DB eine andere sehr beliebte keine Fortsetzung Datenbanken. Mongo DB ist eine dokumentorientierte Datenbank. Mit anderen Worten, Sie werden Daten als Dokument speichern. Diese Dokumente sind im Jason-Format, und Jason, wie Sie können, wie Sie wissen, ist es hat Attribute und Werte. Sie können auch Nestor-Dokumente in Jason haben, so dass Sie eine Menge Fähigkeiten in Bezug auf das, was Sie beginnen können, sogar wie, ah, mehrere Beziehungen in einer Eins-zu vielen Beziehungen und solchen Dingen in Mongo DB Es hat ziemlich starke Konsistenz in Tag, dass, wenn man sich die Säure Eigenschaft leichter, gibt Ihnen Strunk. Verstehen, Siehe, es gibt Ihnen eine ausdrucksstarke Abfrage Sprache. Erwerben von Optionen in Mongo DB ist ziemlich gut, und Sie können schnell auf jede Art von Spalte, die Sie wollen, und Sie können viele Dinge in der Abfrage tun. Es unterstützt mehrere Indizes. Das ist gut. Sie können mehrere Indizes für dieselbe Tabelle für Spalten erstellen, die Sie häufig zum Beenden verwenden würden . Es hat Unterstützung für Aggregationen wie einige, die Sie tragen werden wuchs um einige durchschnittliche min. Max hat Gott große Skalierbarkeitsoptionen. Anwendungsoptionen schlagen unsere Optionen fehl. Es verwendet ein Master-Slave-Modell auf. Dann kann ich über Tiermenschen eine Reihe von Knoten skalieren, und es ist ein ziemlich guter Tag einer allgemeinen Datenbank. In der Tat, der Nord-Fortsetzungswelt, ist dies das nächste, was Sie zu einem RGB-Muss bekommen können. Wenn Sie also versuchen, unsere Deb Amos zu ersetzen, könnte dies Ihre engste Übereinstimmung sein. Es erfüllt nicht alle Anforderungen aus auf unserem Baby viel, aber das ist die engste Übereinstimmung, die Sie unter gehen, um Vergleichsvorteile es Es soll mehrere Indizes sein . Das ist ein großartiger in einem, richtig, so dass das Gleichsetzen auf jede Art von Aktivität ziemlich einfach macht. Es unterstützt. Es ist eine Open Source. Natürlich bedeutet das, dass diese kostenlos, damit Sie es bekommen und anfangen können, es zu benutzen. Und ich bezahle dafür Geld. Es hat eine starke und erreichbare Fortsetzungsunterstützung, so dass die Abfragesprache sehr teuer ist, um viel außerhalb des Gerichts zu schreiben, um es über die Abfragesprachen herauszuholen . Ziemlich ausdrucksstark, und es ist wirklich sehr einfach zu bedienen. Es ist weg Unterstützung und viele Programmiersprachen. Bibliotheken sind in einer Menge Programmierung verfügbar. Sprache ist nicht ziemlich einfach, Mängel zu verwenden. Es gibt keine Transaktionsunterstützung. Wie Cassandra gibt es keine Fremdschlüsselunterstützung, daher müssen Sie Fremdschlüssel in Ihrem Code erzwingen. Das ist etwas Arbeit, nach dir. Es unterstützt auch keine Gelenke. Wenn Sie sich das Gelenk ansehen,werden Sie anfangen zu leiden. Wenn Sie sich das Gelenk ansehen, Der Weg ist, dass keine Riesen auf das ist so ziemlich, weil in der Nase, gleiche Welt Ihre eigene erwartet, um John's, äh, es gibt nicht, als dass Sie typischerweise Daten speichern und es normalisiert werden Weg. Sie erwarten nicht, Riesen so zu tun, wie Sie es tun in relationalen, was auch immer. Das ist, warum die Menschen nicht setzen, dass leisten, um Gelenke in der Nase gleiche Welt zu schaffen. Sie müssen also auch sicherstellen, dass ihre Anwendungen, wenn Sie Sie verbinden, Sie Art von d normal sind alle Ihre Daten und speichern Sie sie in einer d-Normalisierung. So gibt es keine Notwendigkeit für gemeinsame für Sie. Das ist etwas, was uns ein Architekt. Ich muss sicherstellen, dass, wenn diese keine Fortsetzungsdatenbanken verwendet werden, Anwendungsfälle für Mama. Würden sie Recht haben? Eine Geschwindigkeit, viele Datenspeicher. Du kannst das also tun, wenn du das richtig machst. Eine Straße, viele später. Das ist also sehr Möchtegereien es verwenden, das heißt, Sie tun alle Ihre Verarbeitung komplett nur unterdrückend. Dann gehen Sie und setzen Sie die tagsüber mongo db Sie möchten Dokumente starten? Das ist ein großartiger Ort. Irgendwas. Ich habe Dinge gespeichert, Dokumente wie auf Sie werden bekommen einige Benutzer-Tweets sind Pose von sozialen Medien und Sie wollen sie speichern. Willst du eigentlich extrahieren? Und sie sind blawg Text von den Webseiten von den Waffen sagte ihnen, Dies ist ein großartiger Ort, um zu beginnen. Unter wäre eine gute Option für Sie tun Echtzeit-Analysen, weil es ziemlich schnell ist . So wollen Sie ein Es hat Zehe zeigen das Recht in Texas, und dann können Sie es für einige Echtzeit-Analysen verwenden, und es ist eine mögliche sind sie am meisten Ersatz, dass Sie es auch verwenden können, So dass dies einige der Gute Dinge, die es zu meinem eigenen Wohl gibt. Ziemlich beliebt, allgemeiner Zweck als Cassandra. Es hat seine Grenzen. Ich glaube, sie würden daran arbeiten, uns alle zu lösen. Die Massenzeit geht weiter, als hätten wir über alle gesprochen. Beginnen Sie mit einem bestimmten Anwendungsfall und dann versuchen sie, den Bereich zu erweitern, werden über unseren Mehrfachanwendungsfall erreicht . Danke. 18. Persist Neo4j und ElasticSearch: weiter auf weitere Unterstützungsoptionen. Lassen Sie uns Tonio Forgy Neo vier J ist eine grafisch orientierte Datenbank, und es baut mit Beziehung. Wenn Sie also sagen, dass es ein Diagramm ist, sprechen wir über eine Reihe von Objekten, wie sie miteinander verwandt sind. Dies ist also nicht nur 1 zu 1 Beziehung, sondern auch, wie sie sich wie eine Gruppe verhalten. Das beste Beispiel für Geselligkeit in der Nähe für Jay,wissen Sie, wissen Sie, Facebook-Freunde sind Facebook, Friends Circle oder die Lincoln-Beziehung. Also, wo Sie sind eine Person später Zehenduft von anderen Menschen. Wir gingen früh zu einigen anderen Leuten, die miteinander verbunden sind. Es ist wie eine fortlaufende Beziehungskette oder ein Diagramm, wie so viele Menschen, die mit so vielen anderen Menschen verwandt sind. Um, Neo vier J ist eine Datenbank, die nützlich ist, um jene Art von Beziehungen zu speichern, in denen Sie viele Notizen haben und es Beziehungen gibt, und diese Beziehung selbst hat einige Attribute. Regel, wenn Sie diese Art von Dingen in einem seltsamen Frauen speichern möchten, werden Sie eine Menge von Kindertabellen haben, die versuchen, diese Beziehung zu gestohlen. Aber in der Nähe von vier j gibt Ihnen einen guten Weg aus dem Laden in Bezug. Jupiter sehr spezialisierte Datenbank, die zum Speichern dieser verwendet wird, wird für Anwendungsfälle verwendet, in denen Beziehung wichtig ist, wie wie ein Objekt mit einem anderen Objekt verwandt ist. Es ist eine Säure beschwert, dass dies einige der größten Dinge über in der Nähe für Jade. Sie finden überraschend in der Nase gleiche Welt, dass Sie eine Datenbank, die in der Nähe von unserem Baby Emma ist . In einigen dieser Attribute, wie diese saure Beschwerde, ist es Gott Transaktionsunterstützung. Es hat eine ausgezeichnete Graph Abfragesprache. Es ist zur gemeinsamen Unterstützung gegangen, also das ist alles gute Dinge an mir. Du bist weit J. Aber dann ist es begrenzt, wie du willst. Oh, Beziehungen speichern. Es hat sehr schnelle Beziehung Travers bekommen und sehen Sie eine von Travel drei Noten, obwohl finden Beziehung zwischen NB. Angenommen, Sie wollen nur eine Frage stellen. Ich war, ah, Person hat Person Bay unterstützt. Gibt es sogar eine Beziehung Rettungsschwimmer Lind Wenn Sie zeigen, dass Okay, das ist wie der leisten Kreis des fünften Kreises, in dem Sie mit einem verwandt sind. Manchmal sagst du, du bist mit ihm verbunden, und es wird deinem Baum zeigen, wie du mit Neo vier verbunden bist. J hilft Ihrem Zeh Informationen zu speichern und solche Informationen zu beenden. Das ist es, was es Hauptzwecke ist. Vorteile von neo four J Transaktion und als seine Unterstützung. Okay, einer hatte Kopfschmerzen weniger. Wenn Sie diese kompakte verwenden, ob keine Fortsetzungsdatenbanken vorhanden sind und eine ausgezeichnete Abfrageunterstützung hat, hat es großartige Reisen. Ein Liebeszettel. So können Sie dies tun Reisende alle in Echtzeit und erhalten einige Informationen aus ihm auf sie. Mapping einfache Toe objektorientierte Anwendungen. Normalerweise werden, wenn Sie jede Art von Datenbanken sagen, die Sie verwenden möchten, nicht direkt auf das Objekt zuordnen oder in die Welt eingetreten. Sie wissen, dass das ist, wo Sie all diese relationalen Objekt-Beziehungsmodelle, die Menschen in der Zehe-Toe-Map erstellen. Der relationale Felsbrocken, das Objekt mit im Fall von New York für Homosexuell, es paßte ziemlich leicht und arigato das Objekt oder in Drogen, weil es über Objekte in Beziehungen und Handlungen spricht . Schuss Cummings. Es hat keine Gebäudebenutzerverwaltung. Ich glaube, dass etwas, das sie bekommen wird, verkauft werden, wenn du weitermachst. Es hat keine Aggregationen auseinander. Oh nein, keine Gruppe. Ich kenne eine durchschnittliche Art von Dingen, und es ist in der Regel nicht für Daten geeignet. Nein, es gibt nicht viele Beziehungen. Wenn Ihre Daten also keine Beziehungen haben, sind Beziehungen für Ihren Anwendungsfall nicht wichtig , gibt es keinen Sinn, Ihre Fudges zu verwenden. Dies ist also eine sehr spezialisierte Datenbank, die Sie nur verwenden möchten, wenn Sie sie wirklich brauchen. Anwendungsfälle. Ein Stammdatenmanagement in der Stammdatenverwaltung Sie versuchen, Informationen über Beziehungen wie zwischen Datendaten zu speichern . Versuchen Sie, über ein Objekt oder gar zwischen Newt Nora zu sprechen? Es gibt eine Menge Muskel. Datenmanagement ist ein Ort, an dem in der Nähe von 40 Jahren kein Rock auf Jedes Mal, wenn Sie das Wort Netzwerk hören , das ist die Sache zu gehen. Um Ihr Wassermodell und 19 Netzwerk zu leben, haben Sie eine Idee für Mädchen. Also Geldscheine und Server und Switches und dann wollen Sie finden, welche im Zusammenhang mit dem, was dies ist ein Ort, den Sie es verwenden können. In ähnlicher Weisewollten Sie, wollten Sie, oh, soziale Netzwerke modellieren, wie Facebook den Lincoln am besten macht. Das ist unter dem Platz. Dies ist eine sehr gute es gibt Möglichkeiten, für diesen Anwendungsfall zu verwenden. Und auch, wenn Sie es für Identitätsmanagement verwenden. Weißt du, du hast so viele Benutzer. Sie haben so viele Anwendungen, wissen Sie, das ist, dass Wasseranwendung verwenden kann. Welche Zulassungen haben sie für jede dieser Bewerbungen? Sind Authentifizierungsautorisierung? Wenn Sie diese Art von Informationen auch stoppen wollen, wissen Sie, denn GE ist Ihr Sohn in letzter Zeit, ich habe das nicht in dieser Datenbank bestellt. Im Ermessen ist spezialisierte Datenbank. Sehr Wunder noch Beziehungen, Sie wissen schon, eine große Anzahl von Menschen, eine große Anzahl von Menschen, vor allem, wenn Sie diese Art von Beziehung Karte erstellen möchten. Dies ist derjenige, zu dem es überall sonst scheitern wird, weil Sie die gleichen Dinge in RIA-Argumenten tun möchten , zum Beispiel könnten Sie in weniger Anzahl von John's schreiben, um die gleichen Informationen zu erhalten. Das wird also nicht funktionieren. Als Nächstes. Wir wollen eine andere spezialisierte Datenbank, die elastische Suche genannt wird. Jetzt habe ich letztes Exert ist eine Volltext-Suchmaschine. Es ist eine Vier-Text-Suchmaschine. Wo habe ich es uns gesagt? Text wie in unseren Tributen gespeichert Namen frühe Teile. ich. Sie können im Grunde nach jedem Text suchen, den Sie wollen. Es ist ein verteilter Dokumentenspeicher, die hoch skalierbare so viele Knoten scheitern sicher und all das Zeug kommt mit ihm. Und es sind diese Dokumente auf Dokument als Text, und Sie können alles auf diesem Text suchen. Das liegt daran, dass jedes Feld indiziert und durchsuchbar ist. Bei den Dokumenten handelt es sich um typische Kanten auf Dokumenten. Also alle unsere Tribute sind indiziert, so dass Sie ihren Index einen Biss, bevor Sie nicht wissen, zu erstellen. In Texas ist jedes Feld Index und jeder religiöse durchsuchbar. Es gibt ihre ausgezeichnete Abfrageleistung, so viel Flexibilität und so viel Leistung in Bezug auf, wo Einkommen für elasticsearch und es kann Hunderte von Servern für strukturierte und nicht strukturierte Daten erschrecken so viel Flexibilität und so viel Leistung in Bezug auf, wo Einkommen für elasticsearch und es kann Hunderte von Servern für strukturierte und nicht strukturierte Daten erschrecken Aggregation Befürworter davon. Das ist phänomenal. Sie können jede Art von Suche nach irgendeiner Art von Daten auf Sie vielleicht schon begonnen, mich zu fragen , wissen Sie warum? Tun Sie es dann. Die anderen Datenbanken tun es nicht, weil elasticsearch nicht so goldenes Schwert in Gebieten ist. Wir werden sehen, dass auch der Vorteil von elastischen Überspannungen, die hervorragende Suchfunktionen haben . Es hat Aggregationsunterstützung, und es hat ein nettes, flexibles Schema und wenn Sie eine Datenbank erstellen wollen, die Leute benutzen können, um alles und alles zu suchen , ist das derjenige, der auf Unzulänglichkeiten geht. Es gibt keine Acid-Unterstützung auf es gibt keine SQL-Unterstützung. Okay, hier ist es, wo Sie beginnen, einige Probleme mit dieser Datenbank zu haben, und es gibt einige Datenverlustrisiken. Das ist ein Problem mit dem Produkt. Derzeit, möglicherweise würden sie sie reparieren, wenn die Zeit steigt, war an. Aber das ist etwas, über das die Leute gesprochen haben, das möglicherweise Debatator zuletzt ist. Aber natürlich, ich glaube, die Firma würde daran arbeiten, diese Dinge zu beheben. Anwendungsfälle nicht als primäre Zwang Geschichten empfehlen. Ich habe das an vielen Orten gesehen. Leute, die es nicht empfehlen. Okay, verwenden Sie dies nicht als primäre Daten noch für Sie, aber verwenden Sie es nicht. Data Store, wo Sie auch beliebte Daten in diese Datenbank, die dann Leute es für jede Art von verwenden können , erwerben und bauen und Aggregation und was nicht? Elasticsearch kommt auch mit dem Ton assoziierte Visualisierung genannt Chibana KB Any eso, Sie können sie in Kombination verwenden, um jede Art von einem dunklen Tragen auf Aggregation zu tun Es ist ein großartiges Werkzeug für Echtzeitanalysen, vor allem Erwachsene Echtzeit-Analysen. Es können Daten übernommen werden. Echtzeitdaten können gestohlen werden. Elastische Chirurgen, Dokumente. Und dann, ja, du kannst jede Art von Alex machen. Das ging sehr schnell. Hervorragende Leistung s. So ist dies eine gute. Sie haben dies wie eine widersprüchlichere Abbey verwendet, wo Sie Daten und ein ziemlich flexibles de anomales Format speichern . Und dann können die Leute jede Art von Beenden auf diese Daten tun eine gute Option unter der großen Option zu prüfen, wenn Sie nicht aufhören Aggregation ist eine wichtige Sache für Sie mit Big Data. Danke. 19. Transformationsmodul: In Ordnung. Willkommen zu diesem Vortrag zum Transformationsmodell. Das Transformationsmodell ist der Ort, normalerweise der Big-Data-Architekt nach Lester fragt. Entwickler würden viel Zeit verbringen, versuchen, zu entwerfen und zu entwickeln Rekord als viel Platz. Gute Aufmerksamkeit auf das, was in der Transformation passiert. Was sind also die Verantwortlichkeiten für die Transformation? Mehr Deal In einer Big-Data-Situation wäre die 1. Säuberung von Daten, die auf die Daten schauen und viele unerwünschte Dinge ausbilden . Extra Jack Garble General. Entfernen von Gin-Zeichen, die Art von Zeug sind frühere Neuformatierungsdaten, und es gibt eine Menge von Tenzing, die normalerweise auf Daten passiert, besonders wenn die Daten aus sozialen Medien stammen von einer Art von Web-Aufrufanwendungen Sie könnten auch Daten filtern, wodurch unerwünschte Daten entfernt werden. Sind unvollständige Daten, die Sie nicht für die zukünftige Verarbeitung verwenden möchten? Ah, Standardisierung. So Organisation in Bezug auf frühere wie Datum für Monate, Name für Monate. Einige glauben, dass es Inhalt, und Sie wollen tun, wie Sie brauchen Kappen, alle Großbuchstaben, alle Kleinbuchstaben. Jetzt alle Arten von Standardisierung, die Sie tun wollen, und Sie wollen zunächst einmal, Auch stellen Sie sicher, dass das, was Sie brauchen, um Stein auf alle Sandpositionen zu lassen, die Sie tun wollen , weil das macht die Dinge viel einfacher, wenn Sie gehen die Linie, um verschiedene tun Datenanreicherung. Wie, weißt du, irgendwelche Namen hinzufügst, das ist das Anomalie-Zeug, weißt du, du willst normal sein, ist in unseren Namen überall, wo du nicht viel referentielle behalten willst Integrität Zeug, wenn es um Big Data geht. Sie wollen normal sein, ist sie alle und setzen Sie in all diese I D Namen dort und einmal in der Aufzeichnung unter der Erwartung ist, dass Big Data. Und wenn es um große Bärensituationen geht, werden Sie nicht wirklich ihre Daten aktualisieren Sehr häufig werden diese Namen Art von Sachen ändern . Dann kommt wieder Organisation. Welche Organisation ist wie zum Beispiel Alter. Möglicherweise möchten Sie auch zusätzliche Attribute wie Altersbereich erstellen, wie 1 bis 10 10 10 bis 2020 bis 40, und wir möchten einen Bucket mit Daten, weil Sie auch eine weitere Ticks Anfrage basierend auf Popularisierung durchführen möchten . Sie können auch schleppen Kategorisierung Das ist auch eine de Normalisierung genug Personal freundlich. Also Sie im Grunde, wenn Sie eine Kundenaufzeichnung haben, dann haben Sie Kategorien von Kunden. Sie möchten all diese Informationen in demselben Datensatz einfügen. Das ist die Integration von Daten, insbesondere zwischen Datenquellen. Wie für dich. Benutzerdefinierte Informationen kommen von Ihrer CRM-Anwendung auf den Social-Media-Informationen, und es könnte etwas anderes geben. Du wolltest sie alle zusammen erstellen und sie als Einzelraum behalten. Ob, wenn es um Big Data geht, es weniger Tabellen auf vielen Daten sind, die nicht Hunderte von Tischen in einer großen Dinner-Situation sein werden . Es wird nur sehr wenige Tische geben. Du wirst alles normalisieren, alles integrieren und sie alle an einem einzigen Tag aufbewahren. Normalerweise, Stryker, du wirst nicht, du wirst nicht haben, du weißt, dass du ein Körper doppelter Raum sein wirst, wenn es um große Datenräume geht, die gegeben werden weil die Verwendung von Rohstoff-Hardware-Raum gegeben ist. Es ist also in Ordnung, den Tag zu normalisieren und zu behalten, an dem Sie nicht Hunderte von Tabellen erstellen und versuchen, sie mit dem Richter zu verdorren, werden Sie alles normalisieren. Und schließlich, Zusammenfassung Station und Förderung. Wenn Sie irgendeine Art von Zentralisierung und Berichterstattung zu tun haben, sind einige zusammenfassende Bericht zu erstellen , die Ihre Berichterstattung nach unten den Vermieter erleichtern könnte. Was für andere Dinge wirst du in der Transformation konstruieren, Lee? Das erste, was Sie schützen werden, ist der Unterschied zwischen echten Diamanten historischen, ob Sie sie in der gleichen per Flugzeug erstellen wollen oder Sie wollen, um sie getrennt trennen , weil Echtzeit Geschwindigkeit benötigen. Historische kann viel Zeit in Anspruch nehmen, vor allem, wenn Sie kommen, um die Datenverarbeitung wird Datensatz für Datensatz übergeben, Sie möchten vielleicht nicht alle von ihnen und einen Schuss zu tun, weil sie nicht nehmen. Manchmal, wenn Sie einige Echtzeitanforderungen haben, möchten Sie sie möglicherweise isolieren und separat verarbeiten, da seltene Zeit nur Anforderungen melden , wenn die kritischen Anforderungen nicht alle Anforderungen sind, während historisch, möchten Sie sich Ihre eigene Zeit nehmen, um die Daten zu verarbeiten. Unsere Vorlagen. Sie möchten Vorlagen für die Datenverarbeitung anlegen? Nein, das ist eine gute Übung. Im Allgemeinen die Art von Werkzeugen, die Sie zum Schreiben einer dieser Transformationsebenen haben. Es neigt dazu, wie ein Dock Skripte zu sein, aber Sie wollen darauf achten. Fangen Sie nicht an, viele unserer Doc-Skripte zu erstellen. Noch ein. Sie möchten in diese Funktion ein Framework oder eine Vorlage Art Rahmenbuch bekommen, also ist das eine Menge Verantwortung, die wir in das Gericht einbauen. Sie sind also Abendessen. Es kann für viele andere Zwecke verwendet werden. Auch, de Normalisierung. Sie wollten eine anomale Alle Ihre Big Data haben keine Art von referenzieller Integrität ausgeführt. Sie wissen, dass Sie wirklich planen oder busto, wie viele Tische Sie wirklich haben wollen. Wenn Sie sich eine der großen Bereitstellung ansehen, die Sie nicht haben, haben sie nicht mehr als Endtabellen im System. Eigentlich gibt es nur sehr wenige Tische über die sehr große Menge an Gewicht auf jedem der Ställe. Das ist, wie sie typischerweise jede Art von Re-Verarbeitung konstruiert, die für Zehe genau bedeutet , weil es immer eine Möglichkeit gibt, dass Sie feststellen könnten, dass einige Verarbeitung nicht durchgegangen ist und Sie etwas neu verarbeiten müssen. Also, das ist etwas, das Sie in Betracht ziehen möchten, auf Ihr Gebäude und Ihre Architektur müssen Sie Parallelität haben. Wie kann ich eigentlich Parallelität vor Gericht? Regel ist eine Menge der Werkzeuge, die Kampf zu bringen, nicht von selbst, aber Sie müssen sicherstellen, dass Sie sie auch verwenden, wenn Sie versuchen, bestimmte Anwendungen auszulösen . Und es hat keinen Sinn, ein Werkzeug zu haben, das Teil dieser Dinge sein kann und mehr die Katalysatoren auslöst . Sie müssen wissen, wie Sie Parallelität in jedem dieser Tools oder Technologien auslösen können, die Sie den Einiger der Parallelität verwenden, wenn beide diese einen Teil davon einrichten, was ist, wie Sie Ihre Wesen und Sachen in Konflikt stellen, wie Sie sogar vergessen können die PM's. Weißt du, du solltest es sagen, wie maney Trends du willst. Wie willst du es herausfinden? Die Bedrohungen basieren möglicherweise auf der Anzahl Natürlich haben Sie auf der Box, und aber Sie sind entschieden haben ähnlich und York, Oder stellen Sie sicher, dass Sie es so genannt, dass makellos und Minute tatsächlich läuft Straße? Natürlich wollen Sie sicherstellen, dass die Dinge so schnell wie möglich laufen so interessant durch, dass und dafür sorgen und auch arbeiten in Progress Geschichte. Sie wissen, dass es nicht jedes Mal möglich ist, alle Daten, die Sie wollen, im Speicher zu behalten, weil Ihnen schnell die Erinnerungen ausgehen werden. Sie möchten auch erstellen, wie eine Pipeline oder einen Status durch Zustandsübergabe. Wenn Sie eine Reihe von Verarbeitung möglich. Sind Sie eine Work-in-Progress-Story? Dann machen Sie den nächsten Satz der Verarbeitung der nächsten Datenverarbeitung in großer Sache, richtig? Dies ist etwas, das Sie sicherstellen müssen, weil es sehr schwer ist, wo Sie tun. Ich mache eine Menge Dinge im Speicher, weil es schnell aus dem Speicher laufen wird ziemlich bald . Also müssen Sie darauf achten, dass auf ein Planet wie eine Schritt für Schritt Art von Sache sein kann . Nun, viele der Kommentare widersprechen sich noch einmal und Sie sagen, sprechen Weiter sagte, Sie sagen, dass, Okay. Sie möchten Schritt für Schritt Überquerung tun, die tatsächlich einige Dinge verzögern könnte. Und du musst uns einen netten Kompromiss einfallen lassen. Wie willst du Gewalt in der Speedway's funktionieren Probleme und so was? Best Practices halten wirklich Simon Historical Daten getrennt, wenn die Daten größer als Terabyte sind. Sie wissen, dass es besser ist, die Daten auf andere Weise getrennt zu halten , wissen Sie, zu versuchen, beide zusammen zu bauen. Sie müssen darauf achten, weil Sie möglicherweise wirklich Schwierigkeiten haben, wenn Sie versuchen, sowohl die historischen Daten über die Durchsatzerwartungen zu erstellen die gleiche einzelne Anwendung zu versuchen, meine Produzenten verwenden meine produzieren so viel wie möglich. Nein, meine produziert mehr im Januar Konzept. Ich rede nicht nur über 100. Meine produzierten meine Produzenten auch Art der Karte produziert Art von Paradigma wird auch unterstützt. Wie wenn Sie auf Spionenkulturunterstützung Materie schauen, ist es irgendwie Elternschaft zu versuchen, es zu verwenden, weil das Gute an Kartenproduktion verwendet wurde , in produziert basierte Funktionen, und es gibt Ihnen eine Menge Teil Lacrosse und -Funktionen basierend auf der Anzahl der Norden, die Sie haben. Eso, das ist eine gute Sache für Sie zu tun, und fast jedes große Datenverarbeitungswerkzeug gibt Ihnen eine Form meines Produktes als Konzept. Nicht ich bin wirklich nicht sehen Das 100 Mitglied ist in der Regel mein produziert ein Konzept und versucht, es zu verwenden. Erfinde das Rad nicht neu. nicht zu denken, dass Sie etwas auf sich selbst bauen können, denn das wird eine ziemlich teure und, ah, ah, fair in Bezug auf Zeit und Geld, die Menschen wurden uns unsere Geburtstage gebaut. Stores sind Menschen oder bauen sie für große Unternehmen wie Facebook und LinkedIn und Twitter. Sie sind daher mit viel Skalierbarkeit integriert und versuchen, die vorhandenen Technologien so weit wie möglich zu nutzen. Ah baute Vorlage Gericht auf Funktionen für inter Lob bekannte Anwendungsfälle. So Ihre betriebliche hinterließ Ihre eigene Verarbeitungslogik, wie Sie verarbeiten, wo Sie sticht. Und jetzt willst du eine Zusammenfassung. Probieren Sie die Rechnungen Vorlage Kern, wenn Funktionen wann immer möglich, dass, ob Sie in verbessern die Wiederverwendbarkeit vor dem Gericht, halten Intermedia-Daten für manchmal, wissen nicht von einer Daten. Es gibt eine Tendenz in Big Data am Patrouillen-Kühler, die Ihr Prozess nicht wissen, dass, weil Sie möglicherweise neu verarbeiten müssen. Manchmal, wenn Sie Wände wie 10 verschiedene Schritte kreuzen, gibt es in den Mediendaten Sie erstellen, kann der Intimidator manchmal gespeichert werden, Also, wenn Sie neu verarbeiten, müssen Sie nicht den ganzen Weg vom ersten Schritt aus starten. Vielleicht können Sie mit dem fünften Schritt oder 10 Schritte beginnen, so dass Sie so gestalten können, dass Sie Land Prozess von jedem Punkt in der Zeit. Vielleicht geben Sie es an den drei Tagen von fünf Tagen, bis Sie Leute kennen, Jake, Odorizzi und das Baby. Das ist in Ordnung. Bewahren Sie die Daten für einige Zeit auf. Das ist unsere gute Praxis. Zusammenfassende Daten zum Verlassen erforderlich. Big Data dreht sich also alles um das normalisierte Datenauto. Befreien Sie sich das körnige Niveau. Behalten Sie die orginalen Daten. Probieren Sie immer nicht die realen Daten auf jemandem nur, wenn erforderlich, denn es gibt einige große Kreuzungsfunktionen Fähigkeiten, die durch die großen, besseren Tools zur Verfügung gestellt werden . Unter den anderen Möglichkeiten, denken Sie, dass es eine Menge aus kann berichtet, dass die Bestellung und auf einem regelmäßigen Stücke auf den Sommer später, es braucht nicht für Sie irgendwo denke, und schließlich bauen Überwachung Kimbrel. Friedliche Leistung Leistung auf auf Dies sind große Datenverarbeitung kann Tory es ziemlich schnell sein. Also haben einige Monitoring-Ausschüsse in Ihrem Kern, dass dieser vertreten unsere Gesetze ausdruckt , wie gut Ihr Gericht funktioniert, weil Sie sehen können, dass es in Ordnung für 20 Tage, 30 Tage und all das könnte es anfangen zu gehen auf. diesem Punkt brauchst du vielleicht eine Art Hilfe bei der Fehlersuche. Das ist für den Transformationsteil wird ausgehen und sich die Optionen für die Transformation ansehen. Danke 20. MapReduce und SQL umsetzen: Hey, willkommen zu diesem Vortrag über Transformationsmöglichkeiten. Welche Möglichkeiten gibt es? Haben Sie Transformationsdaten in einer Big-Data-Architektur-Situation? Der erste natürlich ist natürlichbenutzerdefinierter Code. Wir sind lauter, Junge. Richtig? Chorzow Schreiben von benutzerdefiniertem Code und Ihre Lieblings-Programmiersprache wäre wie Ihre Lieblingsoption, weil Sie alles selbst bauen möchten. Aber stellen wir sicher, dass ich nicht denke, bevor Sie dorthin gelangen, denn wenn Sie etwas für die Big Data-Situation beenden, müssen Sie Skalierbarkeit, Zuverlässigkeit und Pastoralismus haben Skalierbarkeit, . Und wenn du etwas von Grund auf baust, musst du all diese Sachen bauen. Vielmehr möchten Sie eine Engine wie eine geschlechtsspezifische Verarbeitungsmaschine wie spärliche Equilar auf meinem produzierten nehmen und dann darauf aufbauen, dass so verwendet, um Gericht zu lieben, den Sie bauen. Aber Sie haben auf einer Engine gebaut, die Ihnen diese Funktionen standardmäßig aktiviert. Denken Sie daran, dass die Menschen tatsächlich bauen Dinge von Grund auf neu, tatsächlich gebaut die Technologien, die wir sein werden, dass wir in dieser Wahl sprechen. Das ist, wie ziemlich komplex es in. Dann ist das, warum will die gebaut diese Technologien sind sie es Open Source gemacht und lassen Sie es für alle aus Vergleichsgründen verwenden. Was sind die Vorteile von Custom Code Unfähigkeit, Ihre spezifischen Bedürfnisse und Situationen? Sie haben eine einfache Integration mit benutzerdefinierten Quellen und Dingen oder Sie fürchten Ah, Sie verone Datenquellen Ihre eigenen Dinge. Sehr kundenspezifisch zu Ihrem Preis als benutzerdefinierter Code wäre der Weg zu gehen. Ondimba Knuble Custom Code. Sie können vorhandenes Rechengericht von Ihren älteren Systemen wiederverwenden, da Sie wissen, dass Sie oft die gleiche Art der Verarbeitung durchführen werden. Auch sind das einige der Vorteile von Custom Core. Was sind die Mängel, die zu viel zu bauen und zu pflegen sind? Es ist gut, wenn Sie die Menge an benutzerdefiniertem Code begrenzen können, den Sie als Teil Ihrer Anfängerlösung erstellen müssen. Sie sind immer noch aus einem benutzerdefinierten Gericht gebaut, aber achten Sie darauf. Vielleicht willst du es bauen. sich die Bereiche, in denen es keine Parallelität und Skate-Fähigkeit erfordert, und wenn ja, begrenzte Zehe. Wie viel wirst du jemals hier investiert werden? Es wird eine lange Zykluszeit geben, weil Sie sie bauen, testen und warten, solange ich manchmal konnte, und hohe Ressourcenanforderungen und Donna Leute brauchten die Bauherren benutzerdefinierte Gerichtsverfahren. Ich würde dies nicht empfehlen, es sei denn, Sie sind ein Anwendungsfall, aber es gibt keine fertigen Lösungen zur Verfügung. Suchen Sie also zuerst nach fertigen Lösungen. Wenn nicht, dann suchen Sie nach dem Schreiben von benutzerdefiniertem Gericht. Sie haben immer noch die Rechte, Ein benutzerdefiniertes Gericht, einige benutzerdefinierte oder sowieso, wissen Sie, wie Skripte einige Integrationscode und so etwas über immer suchen Sie nach einem vorhandenen Tool oder Technologie, als um etwas Jahre unseren nächsten Lex Looker zu bauen. Sieh dir Hudl an. Meine Hoffnung ist, wie Sie wissen, wie Sie wissen,eine Kombination zweier Technologien. Die HD Bemühungen Technologie auf meine produzierte Technologie und die Karte produzierte Technologie ist die erste Big-Data-Verarbeitungstechnologie, die herauskam, dass die Art und Weise, wie Daten verarbeitet werden und weiter revolutioniert . Deshalb haben wir Bohne. Wir sind hier, wo wir sind wegen dieser Technologie. Das Gute an dieser Technologie ist, dass Gericht bewegt sich zu tragen hat einen Parasiten typischerweise in einem ah, in einer regelmäßigen Anwendung oder, Sie wissen, die, die Sie bisher verwendet haben. Die Daten werden von der Datenbank zu den Daten im Zusammenhang mit der Anwendungsschicht gewährt, um Eric und eine Kreuzung in diesem Fall zu tun bewegen , ist das Gericht mehr so für den Tag. Das ist nicht, wenn Sie ein Stück natürlich Hauptquartier mehr zu jedem Knoten haben und dann ist der Indianer und der große Cluster über die Kreuzung fertig. Mapper sind Codestücke, die parallel an einzelnen Datensätzen arbeiten und Transformationen durchgeführt werden können . Sie arbeiten an einzelnen Aufzeichnungen unabhängig voneinander, und sie können sie übertragen, transformieren. Was bedeutet, dass sie in einem Kampf wirklich Teil der Welt arbeiten können. Und Sie haben Reduzierungen, die dann einige die oder einen Teil der Mapper erhöhen und dann aggregieren können . Meine Produkte haben also Mapper-Kabel, das auf jedem einzelnen Datensatz ausgeführt wird, und es gibt Reduce-Accord, die Daten über Datensätze hinweg zusammenfassen kann. Und Sie können eine Reihe von Kartenhersteller-Code bauen, die irgendwie eine Pipeline auf meinen produzierten, meinen Produkten bauen. Meine Produktion kann die eigentliche Verarbeitungspipeline durch Ihre in Ihrem Gebäude erzielte Serie meiner Produkte gewinnen . Meine Schönheiten riefen an. Sie bauen ein Gericht auf, normalerweise in Java, aber Sie konzentrieren sich nur auf die Funktionalität. Sie wollen, dass Sie auf dann die ganze Sache aus, Sie wissen schon, laufen es auf Partnersystemen und bewegen Daten zwischen den Systemen und nicht alles, was der Stick und bekommen durch die harte up Motor. Es verwendet billige Hardware mit extremer Parallelität. Das ist eine gute Sache an meinen Produkten. Was sind die Vorteile der Parallelität meines Proview, die dazu beigetragen hat, ein riesiges Gebiet zu bewältigen? Lasten. Das ist es, was Big Data revolutioniert hat. Es kann Text sehr leicht handhaben, und es kann mit flexiblen Daten sehr leicht arbeiten, dass eine der Stärken meiner produziert ist , dass es nicht herauskam verjüngt. Text angetrieben, dass macht es sehr einfach, 100. Das Beste ist, dass Sie tatsächlich benutzerdefinierten Verarbeitungscode für Ihr Unternehmen funktional erstellen können, so dass Sie Code erstellen können, der sich auf Ihr Geschäft konzentriert, funktional, in Berechnungen sein und sich nicht um die Skalierbarkeit und den Kampf kümmern und Dinge , die auch mit großen Data-Mängeln kommt. Es ist nicht für Echtzeit geeignet. Map Produced ist eine wirklich Bachelor-beendete Operation. Es ist nicht für Echtzeit geeignet. Reduziert können Erstickungspunkte sein, wenn Sie erwarten, dass der Reduzierer eine Menge Dinge zu tun, weil die Produzenten ein einzelnes Stück Gericht sind, das den ganzen Tag nach Plan stirbt, also müssen Sie wirklich so konstruieren, dass das, was die Funktionalität der Karte? Aber was bedeutet die Funktionalität der Produzenten dann? Stellen Sie sicher, dass die reduzierten Funktionalitäten so weit wie möglich auf minimiert. In der Tat, Entwickler mit können in diesem denken, um, Operndisparität, sagen Sie müssen richtig architekturiert. Die Mapper führt in Ordnung, arbeiten in einer optimalen Weise. Und, wissen Sie, Entwickler, die diese nicht produzierte Art des Denkens gehen lassen können, dass es etwas Training und etwas Erfahrung erfordert , bevor Sie diese Anwendungsfälle für meine Produktion Batch mehr Pressen bekommen können , jede Art von Batch mehr Kreuzung auf flachen Dateien, Textdateien. Dies ist eine gute Option. Nächster Bergbau. Willst du, dass Geist Text bekannt ist? Schauen Sie einen Text und, Sie wissen, verteilen Sie den Text in Strings und dann kommen mit den Wörtern und all das Engram Verarbeitung Ihres Teiges Sind die X Reinigung Großbuchstaben Kleinschreibung Zustand. All dies ist trocken produziert einen großartigen Ort, um unsere Datenbereinigung und Filterung ein wollen unseren Tag Hund in der Tat auf einem Rekord bessere Karte Art und Weise reinigen zu tun . Ebenso ist das Filtern von Daten, die wiederum auf Datensatz für Datensatz basieren, ein wieder ausgezeichneter Ort, um es zu tun und natürlich Mediendateien zu analysieren. Wenn Sie auf den letzten Medien wollen, nun, das könnte einige strenge, die durch eine Mediendatei gehen und entdecken Sie einige Informationen über die Medien. Wenn ich in für diese Karte lebe produziert eine gute Option bis dahin Büro. Wir haben gesagt, und das ist eine etwas alte Technologie immer noch sehr gut, wenn es um Charge mehr Art der Verarbeitung geht . Aber es ist auch, wissen Sie, langsamer ist nicht wirklich geeignet für Echtzeit, aber es trägt viel weg. Kein Gewicht in Bezug auf Wasser kann erreichen. Die nächste Option ist die stark Sie werden abfragen. Nennen Sie es Stark. Sie werden schnell, weil es manchmal SQL genannt wird. Manchmal heißt es sq, und jeder hat seine eigene Abfragesprache. Also jede No-Folge-Datenbanken sind jede andere Datenbank, die Sie in Ihrer großen Gettable verwenden, haben eine Form von Abfragesprache, die unterstützt wird, so dass Datenprodukte eine Art Fortsetzungsunterstützung haben , oder irgendetwas in seiner nativen oder es gibt eine Produkt, das Ihnen wie ein hohes Produkt oder ein Impala Produkt gibt, das Ihnen gleichwertige Schnittstelle oder welche Klasse der Schüler Hajto gibt und sie kommen mit einem auch meine verschiedenen Sätze von Fähigkeiten. Was diese Nachfolge-Abfragen tun können, ist, dass es Filtern, Bereinigen von Transformationen, Auswendiglernen tun kann Bereinigen von Transformationen, . Sie können ein Objekt wie Sie wieder in die Quelle einfügen, wenn Sie eine select-Anweisung ausführen. Zum Beispiel, in der Select-Anweisung selbst, können Sie gehen Filterung waren mit dem Verschleiß. Außerdem können Sie die Daten spüren, die Sie beim Spülen mit einigen Funktionen scherzen können können Sie die Daten spüren, die Sie beim Spülen mit einigen Funktionen scherzen können. Sie können etwas Transformation vom oberen Gang machen. Langsamer. Eine einfache Sache, indem Sie eine Funktion namens operable Over verwenden. Viele dieser Abfragemodule können Sie auch Ihre eigene benutzerdefinierte Funktion schreiben, so dass Sie diese auch als Teil der Abfragespitze verwenden können. Machen Sie Ihre eigene Transformation. Sie können die Zusammenfassung nach Gruppe nach auf gehen, aber dann haben verschiedene Indianer unterschiedliche Fähigkeiten. Nicht alle von ihnen unterstützen alle Funktionen und einige obskure Auch, ah, niedrig Sie aktualisieren zurück in die Quelle einfügen. Sie können gehen, wo in bestimmten Zehentabelle, wie wählen Sie etwas aus unter der Tabelle. Und diese Art von in einem Diagramm filtert Transformation, tanzt und fügt es hintere Zehe unter den Tisch. Sogar alle von ihnen zusammen in einer Fortsetzung Aussage. Das ist ziemlich mächtig. Was für eine Fortsetzung. CanDo wieder, Sie sind auf die Datenbank beschränkt unterstützt, in diesem Fall in der Fortsetzung Injun Dust. Das schwere Heben. Es hat also auch seine eigenen Optimierungsalgorithmen, um sicherzustellen, dass es sie in einer sehr guten Art und Weise verarbeitet und alle Arten von Lastausgleich all das Zeug macht, so dass das ein guter Weg zu einer einfachen Sache ist . Um eine große und SQL zu verwenden und dann in ein Skript zu setzen. Und dann können sie für immer laufen. Vorteile. Aus diesem Abfragemechanismus ist ein Mitglied zu starten, leisten maximale Renditen. Eine Abfrage, und Sie können viel damit tun. Wo die Indianer für die Leistung im Parlament optimiert sind, wird schon jemand Zeit und Material in das investiert. Du bist es auch. all diese Vorteile, indem Sie eine einfache Abfrage starten. Weißt du, du kannst viel tun wie einen Impala-Motor, unseren Hive-Motor. Sie geben dir viel Geschwindigkeit. Ah, viel von Benutzerfreundlichkeit. Sie haben ihre eigene Katalogisierung und Metadaten auf. Alles, was sie tun mussten, war einige Skripte in diesen großartigen einigen Skripten, Shell-Skripten zu erstellen und sie als Kronenjobs zu setzen, und das wird die Arbeit für Sie erledigen. Unzulänglichkeiten. Ihr verfügt über eingeschränkte Fähigkeiten. Jede dieser SQL-Engine kommt mit einer eigenen Reihe von Fähigkeiten, die eigentlich primitiv im Vergleich zu einem, was Sie bekommen in und kaum Bemis, gehen Sie zu unserem Baby muss wie Artikel sind meine Fortsetzung. Die Anzahl der Funktionen, die Sie haben, gibt es eine Menge, wenn Sie zu einem dieser großen Bartmotoren kommen . Es hat nicht viele Funktionen. Und die Funktionen wie zum Beispiel Datumsformatierungsfunktionen, String-Funktion das Gesetz, es hat nicht viel Fähigkeit. Sie müssen also selbst einige benutzerdefinierte Funktionen schreiben. Sie sind für alle da, und sie bieten keine Möglichkeiten, wie Sie einige Java-Klassen oder so etwas schreiben können . Um diese benutzerdefinierten Funktionen zu erstellen. Das Kombinieren verschiedener Quellen Senken ist schwierig, und deshalb beschränkten die Abfragesprachen typischerweise eine Datenquelle außerhalb der Senke. Es ist auch Sie mögen können. Zum Beispiel kann Sarah in eine Tabelle in dasselbe Datenbanksystem einfügen, nicht in ein anderes, wenn Sie Sequus gleiche Abfragen wie zwischen Cassandra auf mongo db auf mongo db ausführen können und Sie mein Geheimnis kennen . Das ist also Beschränkung da drauf. Anwendungsfälle filtern, wenn Sie innerhalb der Abfragezusammenfassung durchführen können. Kopieren von Daten, natürlich. Alle von ihnen, wenn die Abfrage-Engine dies zulässt, ist eine gute Möglichkeit für Sie. Um alle von ihnen sind Wir werden ein paar weitere Option in der nächsten sehen. Danke. 21. Spark und ETL transformieren: Okay, gehen wir zum großen frühen Fund im Raum. Und das ist Apache Spark. Ein Praxispark ist die allgemeine Datenverarbeitungsmaschine der neuen Generation. Es ist für die Datenverarbeitung für die Durchführung der Transformationen, über die wir gesprochen haben gebaut . Es eliminiert eine Reihe von Shot Cummings aus dem traditionellen. Mein Produzent, meine Produkte kamen zuerst in die Welt. Sie haben zu Anwendungsfällen hinzugefügt. Es lief gut. Während die Menschen begannen, Big-Data-Technologien mehr und mehr zu verwenden fanden sie, dass, je groß das Makro, dieses Paradigma der Produkte in Huddle nicht viele ihrer Anforderungen entsprach. Und sie haben viel mehr Sachen gemacht, als wollten sie Geschwindigkeit. Sie wollten etwas Flexibilität. Sie wollten viele andere Operationen machen. Sie wollten eine engere Integration mit den Programmiersprachen und solchen Dingen, und Apache Spark wurde geboren, um viele dieser Bedürfnisse zu erfüllen. Es funktioniert mit Daten im Speicher, die es wirklich schnell machen, und es funktioniert in einer guten Verteilung. Feitian interessierte uns Last über Werke und sammelt dann wieder den unteren Rücken. Und dann hat es eine phänomenale Aufgabe, Dinge wirklich schnell zu machen. Es soll meinen produzierten Typ Operationen, Sie können immer noch meine Handtasche und Produzenten schreiben. Ah, aber es ist viel schneller. Nicht nur, dass Karte Roadies Programmierung selbst ist viel einfacher und eine Partei Funken einen Kampf Zeh hart bis meine Produkte. Es ist eine einfache, und Sie können schreiben, wie eine Zeile Code, um all das Zeug Karte einzuführen, sind tatsächlich Funktionen in einem Party-Funken, und ich habe nicht großartig, dass 90 Klassenkameraden aus. Es unterstützt Streaming, so dass Sie Streaming, makellose Verarbeitung in einem Kauf haben können . Parker verabredet gerade Leute, die reinkommen. Sie können uns selbst einen Stream, einen Verleger krypto . Und dann, wenn die Daten eingehen, können Sie Operationen auf dem Stream ausführen. Das ist wirklich coole Fähigkeit für die Echtzeitverarbeitung. Es unterstützt Java von Don r und Scaler. Ich kenne sogar diese Parkers Rückkehr nativ im Scaler. Sie können für das wahre Java oder Python arbeiten, was Ihnen viel Flexibilität gibt, in welcher Programmiersprache Sie verwenden möchten es ist ein großer Vorteil. Es hat Fortsetzung und Graph Fähigkeiten auch, so dass ist die Fortsetzung Ah Funke Fortsetzung, die phänomenale Fähigkeiten hat, würde ich sagen, weil es Ihnen wie Ask Ihre like Operationen bieten. Ist Ihr Leben Operationen für, wie, wählen Sie Gruppe nach Reihenfolge durch Filterung sind Sie, in dem Sie in einer Zeile von Polens Off-Court schreiben können und in Danley konvertiert sie und Toe Pamela Jobs und die besten Dinge für Benutzer von Onda Freund von ihm. Du wirst einfache Sachen machen, aber an der Rinde. Es nutzt wirklich viele leistungsfähige Programmverarbeitungsfunktionen. Es hat auch Transplantat Kreuzung Annable beschäftigt wollen toe unseren Tag mit einer Menge von Transplantat Art von Informationen, die eine alte Verknüpfung zwischen Objekten und Zeug ist. So macht das auch auf. Es verfügt auch über interaktive Verarbeitungsfunktionen. Also, wenn Sie sich meine Produkte ansehen, haben Sie Recht. Eine Karte erstellt Programm und führen Sie es, während in Funke, können Sie sogar die interaktiven Verarbeitungsfunktionen, um darauf Zeile für Zeile zu arbeiten. Es ist also fast so, als hätten Sie ein SQL-Fenster, das sogar richtig SQL-Anweisungen bewertet. Sie haben Ihren Funken interaktiv, die interaktive Befehlszeilenaufforderung, in der Sie weiterhin Funkenbeträge nacheinander bei der Arbeit an Daten geben können, und er kümmert sich um, wissen Sie, beginnend mit dem sehr Vögel und den Überblick über sehr eingebaute Speicher und Sachen wie das gibt Ihnen einige phänomenale Überquerung, wie Sie entweder verwenden können. Es macht keine Dok-Verarbeitung, wenn Sie und Adidas und das daran arbeitet, Sie können es einfach für unser Buck Passing verwenden. Aber sobald Sie wissen, dass Sie nicht Präsident können alle von ihnen in ein Skript zu vergleichen, und dann können Sie als kopfloses Skript auch beenden. Das ist also phänomenale Verarbeitungsleistung, die Sie mit unserem Budget-Spot haben. So Vorteile eines Partyparks. Es ist schnell, es ist flexibel, es ist mächtig. Es ist beide unterstützt eine andere Art von Verarbeitungsfunktionen. Und schauen Sie, fragen Sie Ihr Bein kreuzt meine Produkte wie die Verarbeitung von Echtzeit-Datenströmen . Graph Verarbeitung darauf kann zusammen mit ihrem Herzog laufen. Wir können eigenständig tyrannisieren. Es kann auf eine Windows-Box schalten Sie können, und zusammen mit ihrem Dope, Ich versuche und laufen zusammen mit Raketen auf Mängel, dass eine erhebliche Codierung Aufwand, vielleicht vergleichen Sie es mit Fortsetzung. Es ist, desto mehr Umwerbung Aufwand Sie es bei meinen produziert weniger vergleichen. Nach einer Vier. Es ist immer noch unreif, wenn ich sage, in meinen Kindern entwickelt sich schnell. Sie können sehen, dass zwischen verschiedenen Versionen auseinander, obwohl die Migration ist, die Sie tun müssen, weil viele neue Funktionen hinzugefügt werden und viele alte Funktionen gelöscht werden. Und diese Art von Sache ist sehr schnell und die schnell bewegende Technologie eso Sie müssen sehr vorsichtig sein , dass das, was Sie tun, bis zu ihnen, und wir haben auf der Linie, die Sie gemacht nicht über Gericht migrieren. Ich weiß es nicht. Das ist etwas, in dem es eine erhebliche Hardwareanforderung hat, dann einen Speicher abwirft und Zinn sehen, einfach weil Sie wissen, dass es für Geschwindigkeit optimiert ist. Natürlich braucht es Ressourcen, um mit dieser Geschwindigkeit laufen zu können. Auf großen Mengen von Daten Anwendungsfälle, es hat eine breite Palette von Anwendungsfällen von Textverarbeitung Zahlenverarbeitung, die Datenfilterung Transformation fast alles, was Sie tun können. Darüber hinaus kann es für die interaktive Verarbeitung verwendet werden. Wenn Sie also einen Datensatz haben, passiert normalerweise, wenn Sie versuchen, ein Projekt zu erstellen, werden Sie nicht von rechts zitieren. Sind stark Reiten ein komplettes Programm von Scotts schnell, werden Sie tun interaktive Verarbeitung, also werden Sie versuchen, ein paar Dinge , die Sie nehmen die Daten können für die Daten. Ich sehe, wie es aussieht, vielleicht dann spiele ich in maschinellem Lernen und bekam sie. Probieren Sie es aus. Sehen Sie, wie es aussieht, so dass, wo Sie spielen mit den Daten und in Schwierigkeiten Verarbeitung hilft Ihnen dort auf. Dann, natürlich, Echtzeit-Stream überqueren ein.Pagis Parker ist ein großartiger Anwendungsfall für einen Echtzeitprozess. Auch auf. Ich würde gehen und sagen, Dies ist der de facto-Standard jetzt für Transformations-Engines ist die Art der nicht die beste verfügbare Option? Ja, vielleicht. Aber pass auf, das ist etwas, das eine Party Flink genannt wird, die kommt. Und ich weiß nicht, ob das hineingehen wird, aber an diesem Punkt ist dies die Art von De-facto-Standard. Nein, Mutter Apache Funke ist nicht auf mich. Ein Kandidat für die Transformation. Es ist auch ein Kandidat für die Berichterstattung für erweiterte Analysen. Es wird auch helfen, in Bezug auf die engere Integration mit Dingen wie Afrika und Grippe, die Gesundheit in der Transportschicht. Außerdem kann es bei der Akquisition helfen, auch weil es eine enge Integration mit Twitter ist. Es hat Wahrheit von Bibliotheken für verschiedene Datenquellen. Sehr Cassandra mongo db für J r db Ms. Carr, alle Arten von Anschlüssen zu all diesen Datenbanken so gibt es Ihnen eine breite Palette von Fähigkeiten, die es wie eine sehr optimale Option für jede Art von Übertragung macht. Fakt. In unseren Ihren Fällen würden fast alle Anwendungsfälle, die wir heute betrachten, Apache-Teil für die Transformation verwenden . Also, das ist die Macht einer Party ist zurück. Dann kommt ideale Produkte, die Jahr Produkte von Produkten auf dem Markt für Extrakt Lösegeld, und Herr, die im Grunde auf die gleiche Art von Funktionalität sind. Und diese Funktion macht eine Menge von Produkten da draußen und sie kommen. Menschen entwickeln Produkte wie diese, links, rechts und Mitte. Einige der sehr beliebten, dass Talent Penta, wie einfach so weich eine Snap Logik. All diese Art von Jungs auf all diesen Angeboten haben kommerzielle auf Open-Source-Angebot, so Open-Source-kommt typischerweise mit eingeschränkter Funktionalität als die kommerzielle Washington mit kommt eine Menge Funktionalität. Diese Produkte haben ihre Buschel et in und Doppeldecker Bauherren. Oder Sie können ein Design jemals haben. Du kannst einen Drachen fallen lassen, Sachen fallen lassen und verschiedene und Majors und all diese Symbole verbinden. Und dann haben Sie eine Pipeline gehen ziemlich einfach Dinge mit diesen Doppeldecker Bauherren zu bauen , und das ist wirklich cool auf Sie können Bodenstreik aus einer Frage Bestätigung zwei Geschichten bauen . Also das ist die Notwendigkeit schreien Motor. Auch wenn wir hier in der Kategorie Transformation sprechen, gibt es auch einen Ort für die Erfassung der Daten bei der Akquisition Option sowie die Transportoption . Das ist eine gute Sache am Tag, und es hat. Es hat Unterstützung für benutzerdefinierte Funktionen für diese ET. AL. Produkte haben in der Regel, ah, ah, viele Konnektoren zu verschiedenen unserer neuen Datenbanken, die da sind, und Sie können benutzerdefinierte Funktionen schreiben, wenn Sie Fotos haben, einige Spezialisten kreuzen. Außerdem gibt es Betrieb und Verwaltung in diesen Produkten. Das bedeutet, dass Sie möglicherweise eine Sandbox haben, in der Sie Ihre Skripte entwickeln und eine Produktion in der Bereitstellung ist. Stellen Sie das Skript sehr bereit. Sie haben eine Möglichkeit, auf die Sie klicken und ein Skript von Ihrer Sandbox bis zur Produktion bereitstellen können. Dann, dass diese Operation Management. Und, ähm, damit Sie Concealer verwenden können. Sie konfrontieren sie zu jeder Zeit, die Sie wollen, und dann können Sie sie verwalten. Sie betrachten den Staat, wie er kommt mit, mit seinem eigenen vollen Gepäck außerhalb unseres Landes Features eso. Warum tun wir es nicht? Einer der Vorteile von Easy Deal Produkten ist, dass sie einfach Arbeitsabläufe erstellen können. Sie können Driving Drop-Funktionen ziemlich einfach haben. Die Geburt. Es hat eine gute Integration mit verschiedenen Daten, Arten von einigen Dingen. Ja, sie haben eine Menge Sammler für alles und überall. Es hat Management-Fähigkeiten bekommen, wie wir gerade darüber als eine gute Sache gesprochen haben. Wenn Sie mit diesem Park Art der Implementierung gehen, die Sie aus Teig gemacht haben, kann das Management Fähigkeiten selbst, wie Sie von Gericht bewegen, ah, ah, Sandbox-Entwicklung Zehe eine Sandbox zu einem Q. Es eine Produktion. Du machst das alles selbst, unsere Shot Cummings. Sie können ziemlich schnell komplex werden, da diese für einige Standard-Anwendungsfälle gebaut sind. dem Moment, in dem Ihr Anwendungsfall ein wenig mit den Standard-Bones synchronisiert wird, und das kann wirklich komplex werden. Reife wäre wieder eine Frage, weil es ein neues Produkt ist. Scripting, Taumeln, immer noch nach oben. Bewegen, dass viele bewegliche Teile noch aggressiv weiterentwickelt werden. Sie können wirklich teuer für kommerzielle Angebote. Vielleicht möchten Sie darauf aufpassen. Man könnte denken, das ist eine Open-Source-Version, aber sie sind kaum etwas hat. Sie wollen Rechnungen und echte Produkte, die durch die kommerzielle Lizenz kommt und die kommerziellen Lizenzen sind sehr teuer. Interagieren positionale Arbeitsabläufe können schwierig werden. Typischerweise funktionieren die Getreideprodukte gut innerhalb einer einzigen Organisation, die Quelle auf den Platinen alle in einer einzigen Organisation. Aber sobald Sie beginnen, auf einem Netzwerk von Datenflüssen und Pipelines aufzubauen, erhalten Sie eine Nachricht ziemlich schnell. Anwendungsfälle. Lassen Sie uns das, ah, ifig, dass ich hier alle US-Fälle sagen werde , die auf dem Papier unterstützt werden und der Teufel ist in den Regionen, und all diese Produkte sagen Ihnen, dass sie jeden der beliebten Anwendungsfälle unterstützen können, den Sie haben. Wenn Sie auf diese Website gehen, werden sie sagen, dass wir das einfach machen können. Wir tun das und alles, aber der Teufel ist im Detail auf, bevor, wissen Sie, verpflichten Sie sich zu einem dieser Produkte. Bitte probieren Sie es aus und nehmen Sie das Produkt und probieren Sie es aus. Manchmal könnten sie am Ende ein sehr einfach zu bedienender Fall B sein und dann passt das Produkt einfach so hinein. Und Sie sind einsatzbereit, wissen Sie, ohne Probleme auf, weil das U. Y-Basisprodukt, das Sie auslaufen, nicht wirklich viel umwerben. Ich warf nur in ein paar Tagen. Du hast das als Zoo laufen. Gute Anwendung. Das ist also das eine gute Sache an diesem hier. Aber dann kann es ziemlich schnell drehen ein wenig sehr knifflig versuchen, alles zu den USA zu tun tun Manchmal wollen Sie Ihren hinteren Zeh beugen, bekommen einige funktional an Ihrem es könnte chaotisch auch. Das ist also ein solcher Weg. Sind dunkle Orte, die Sie vielleicht auf diese aufpassen wollen, obwohl. Vielen Dank 22. Reporting-Modul: Hi. Herzlich willkommen zu diesem Vortrag zum Berichtsmodell. Das ist dein Ausbilder, der Branch hier heißt. Also einer der großen Zwecke Ihres Versuchs, in eine Big-Data-Architekturen zu gehen, um eine Art von Reporting-Lösungen zu bauen , die Sie früher nicht möglich mit Ihrem regulären ein regelmäßiges Reporting-Zeug waas . Also, das ist etwas, das Sie berücksichtigen wollen. Da die Berichterstattung dieser Bereich, die andere in der Firma leicht sehen können, die Arbeit, die Sie in großen Tag heute getan haben. Also Leute, die technisch nicht in das Projekt involviert sind, das sie sich ansehen. Okay, wir hatten dieses Big Data-Projekt. Was geht es, um uns neue Berichterstattung als der Ort zu geben, wo sie hingehen und etwas Neues betrachten können , das ihnen zuvor durch die traditionelle Unauflösung nicht angeboten wurde. So möchten Sie vielleicht wissen, geben Sie ein wenig Vortrag über Berichterstattung, weil dies ist, wo Sie einen Wert zeigen können, dass Ihre breite durch Big Data, die nicht Sie früher durch die traditionelle Datenlösung möglich war. Was sind die Verantwortlichkeiten außerhalb der Berichterstattung, Lee? Und natürlich beginnt es mit Dosenberichten, Sie wissen schon, Sie wissen schon, bieten einige fertige Bericht, dass die Menschen gehen und auf einer täglichen Basis auf einer wöchentlichen Basis ausführen können , um einige Daten aus angeboten. Ich wäre auch gut, wenn Sie berichten. Layer hat eine do it yourself Berichts-Designer, wo Menschen gehen und ihre eigenen Berichte erstellen können indem Sie einfach ein paar Spalten ziehen und dann den Bericht in Gang bringen. Und Prüfungsdiagramme sind ziemlich ähnlich Brief. Haben Sie Spieler auf mit Daten als nächstes, die den Menschen etwas Eigentum gibt? Indo Ihre Reporting-Lösung, könnte ein Dashboard-Designer sein, weil Sie eine Anzahl Dashboards erstellen möchten, möglicherweise personalisierte, Did Dashboards für jeden einzelnen s, so dass sie eine Menge von Daten betrachten können, verschiedene Arten von Daten auf einmal auf dem gleichen Dashboard. Sie natürlich ein PS, benötigen natürlich ein PS,um Daten aus dem Persistent haben zu extrahieren, damit andere Anwendungen auf Ihren Daten erstellen können , die Sie verarbeitet und erstellt und im Anfangs-Repository aufbewahrt werden, das andere Personen gutschreiben können durch ein p ist möglicherweise, wie Rest Abgeordnete am Tag in der Lage sein, eine Art von Berichterstattung Aufwand zu tun. Ich weiß, dass die restliche API ist, dass sie, ähm ah, geheime Flügel von einem p A verwenden können ähm ah, , so dass sie einige Daten daraus bekommen können und sie können einige weitere Anwendungen auf den Daten erstellen , die in der Big Data Repository Kunstanzeige von notariell beglaubigt Jede Reporting-Lösung, die Sie bauen zeigte seine eigene richtige Authentifizierung und nicht die Rezision schreit nach Sicherheits- und Datenschutzgründen Berichterstattung sollte auch für Echtzeit große up eine Präsentation bieten . Es hat keinen Sinn, Echtzeitdaten zu überqueren und zu behalten, wenn Sie sie nicht in Echtzeit visualisieren können . Außerdem, was bedeutet, dass es sehr wenig spät sein muss und zwischen dem, wo die Daten erstellt werden, zu dem, wo die Daten sind Präsident. Es waas Wort eine Basis. Sie möchten eine Aktualisierungsrate von einer Sekunde oder zwei Sekunden anzeigen. Unsere Daten werden ohne Verzögerung aktualisiert, unsere ohne Latenz und schließlich sollte die Berichterstattung dort auch eine Art Alarmierung eso haben. Benutzer können die Berichtsschicht verwalten, wenn einige Dinge schief laufen. Wenn einige verbindliche Tage für die Datenschicht verloren gehen oder irgendeine Art von Dinge erzählen, die passiert, können die Menschen sich Warnungen ansehen und sehen, was vor sich geht. Alarmierung ist also auch ein wesentliches Merkmal. möchten Sie beim Erstellen des Berichts-Layers Wasmöchten Sie beim Erstellen des Berichts-Layers? Architekt in der Berichtsschicht? Worauf möchten Sie sich konzentrieren? Sie möchten sich auf die Reaktionszeiten konzentrieren. Sie möchten sicherstellen, dass Personen, die die Berichte interaktiv Lee verwenden. Ich verbringe nicht viel Zeit damit, auf den Bericht zu sitzen und zu warten. Riemen auf. Eines der Dinge über Big Data-Technologien ist, dass es eine erhebliche Menge an Latenz oder Verzögerung in Bezug auf die Ausführung von Abfragen gibt. Eso Wenn Sie Berichte geben, die in einer interaktiven Natur sind, möchten Sie Technologie verwenden, die, uh, uh, sehr niedrige spät und sehen eine sehr niedrige Reaktionszeiten auf. Sie müssen so konstruieren, dass ihre Daten für diese Art des Zugriffs erstellt und gespeichert werden . Mehr Galle und Arbeit waren zurück, sagt, dass beide heute wichtig sind. Es gibt eine Berichtslösung, die Sie heutzutage mobiler Zugriff haben sollten. Personalisierung, wo jeder einzelne sein eigenes Nice kleines Dashboard bauen kann. Nette kleine Berichte auf diese Weise, wissen Sie, sie alle haben, wie ein Dashboard, um zu kowtow, Dinge zu betrachten, die ihnen wichtig sind und nicht versuchen, in Ihren Dashboards über Menschen zu teilen , und sie tun es nicht wollen mit 200 geschulten Bericht arbeiten. Vielmehr wollen sie nur einen Bericht betrachten, der Daten für sie von allen Orten enthält, all die Daten, die sie wollen. Es wird ein kaltes Armaturenbrett für sie sein. Erweiterte grafische Funktionen, viel Toast. Oder sie bieten erweiterte, fähige Grafikfunktionen viel mehr als Ihre Kreisdiagramme und Balkendiagramme auf Dies ist auch eine sehr wichtige Schlüsselfunktion in diesen Tagen. Verwaltung des Schwellenwerts Rasse Management ist über die Berichterstattung Schicht, die, Maura Push Art Schicht. Was ich hier sagen möchte, ist, dass Sie nicht nur Daten erfassen und speichern, sondern auch Daten möglicherweise in Echtzeit betrachten, um zu sehen, ob bestimmte Schwellenwerte in Ihrer Anwendung überschritten werden . Richtig. Angenommen, Sie dienen Bündel von Seiten für Ihr Unternehmen und die Verzögerung auf dem privaten Land bringen der Seiten. Weißt du, das geht über ein bestimmtes Niveau hinaus. Sie wollen, dass die Berichterstattung das sagt. Okay, es passiert etwas in Bezug auf die Leistung aus. Unsere Anwendungen sind vielleicht Ihre Verkäufe sinken, wissen Sie, gibt es Minute für Minute Verkauf. Du schaust dir an, dass ich von Fleischproduktion gemacht habe, die du dir ansiehst, es ging runter. Willst du eine Art Alarmierung? Auch basierend auf dieser Art von Daten ändert die Integration mit anderen Systemen. Natürlich. Ihr wollt sicherstellen, dass die Daten, die Berichterstattung dort insbesondere nur integrieren, unsere Seelen gewundert haben. Es kann auch eine sehr andere Datenquelle integrieren, aber dann außerhalb Ihres Big-Data-Anwendungs-Frameworks. Es kann nicht in Ihre traditionellen Quellen und auch in Berichterstattung oder nicht Berichtsschicht integriert werden. Weißt du, es sollte ziemlich flexibel und flexibel für dich sein. Sie möchten nicht eine Berichtsschicht für Ihre traditionellen Lösungen verwenden und eine für Ihre großen Auflösungen möchten möglicherweise eine einzige Schicht für beide auf Schließlich wird solch kein Dienst in diesen Tagen zu einer immer mehr Schlüsselaktivität. Jetzt, seit Google mit diesem hier herauskam, haben Sie nur ein einziges Suchfeld. Das wird immer wichtiger. Nein, die Leute versuchen, Anwendungen zu bauen, aber sie können andere suchen, als ah, beheben, dass abgesetzt para Meter für einen Reporter eingeben. Ich schaue mir meinen täglichen Werksleistungsbericht an. Ich möchte tot zu Ende beginnen und dann möchte ich etwas Factoring in so etwas setzen. Die Leute wollen geschlechtsspezifische Städte haben. Es will anfangen, etwas am ersten Tag zu tippen. Die Berichte, um so viel zu beruhigen, werden immer flexibler. Die Suche wird heutzutage immer wichtiger, und es gibt Tools für Technologien, die auch mit der Fähigkeit entwickelt wurden, die Sie berücksichtigen möchten, dass auch als Teil der Erstellung Ihrer Berichterstattung dort Best Practices Picker sagte, dass ist einfach zu bedienen und es ist gut Craig Grafikfunktionen. Die Maut sollte eine gute Integration mit der Vielfalt der Datenquellen haben und von der RBB muss Sequel Interpreter wissen, um sich auszuruhen. Der webbasierte AP ist alles, was er in der Lage sein sollte. Also, ah, Aggregation auf der fernen Fliege. Wissen Sie, Sie sollten genug Leistung und Skalierbarkeit an sich haben, so dass es nicht von anderen Schichten abhängen muss, um die Art von Sachen zu tun, die Sie kennen, wie Parallelität Verarbeitung und Speicherverarbeitung all diese Art von Zeug. Sie sollten versuchen, offene Standards für einfache dort zu verwenden. Ärzte Integration, offene Standards wie, adressiert eine p A Unterstützung für was? Unterstützung für Jerry, Busy-Konnektivität und so etwas. Es hätte kaputt sein sollen. Nein sollte ein spezialisiertes, personalisiertes Dashboard zur Verfügung stellen. Das ist heutzutage eine gute Best Practice. Jeder möchte sein eigenes Dashboard haben, dass er es auf dem Handy im Web sehen kann . Das ist ein Rumba. Diese Berichtsschicht ist ein Ort. Aber das gesamte Unternehmen betrachtet die Arbeit, die Sie für Big Data geleistet haben. Also möchten Sie, dass diese Berichterstattung spät wirklich cool wäre, wirklich differenziert in Bezug auf die anderen Lösungen, die es gibt. Und eine Möglichkeit, dies zu tun, besteht darin, ihnen personalisierte Dashboards zu geben, die sie wahrscheinlich nie werden. Sie verwenden eine herkömmliche Unauflösung, die für mehrere Schnittstellen ausgelegt ist. Sie sollten sicherstellen, dass Sie beim Entwerfen Ihrer Lösung für mobile, webbasierte und eingebettete Lösungen abdecken sollten . Richtig? Also, das ist etwas, das Sie auch in Betracht ziehen wollen, und schließlich wie wieder solche denken über solche Gedanken über die Bereitstellung von Menschen flexible Suche auf die Daten auf, die eine wirklich coole Option sein könnte, dass die Leute wirklich mögen, so Dinge für Sie in der Berichterstattung zu berücksichtigen. Es gibt viele Leute, die beim Erstellen einer Big Data-Lösung Data-Lösung mit der Transformation und Speicherung der Daten in der Datenbank aufhören. Nein, es geht tatsächlich in die Berichtsschicht auf den erweiterten Analysen weiter. Klar. Also bitte denken Sie daran, dass auch. Vielen Dank. 23. Reporting Impala und Spark SQL: Hi. Herzlich willkommen zu diesem Vortrag über Reporting-Optionen. Das ist dein Lehrer, Cameron hier. Wenn es um das Reporting geht, wenn es um grundlegende Reporting oder Basic- und Analytics-Reporting geht, gibt es ein paar Optionen für Sie mit dem großen Tor der Welt auf. Wir würden mit Cloudera Impala anfangen. Wir werden nicht über High reden, wegen Impala. Art der literarischen ersetzt High, wenn Sie wissen, überwindet eine Menge der Mängel von fünf. Also fangen wir mit Impala in der Politik und im Gedächtnis an. Verteilen Sie diese Abfrage-Engine für Wie bedeutet dies, dass der Datenschüler Hudock Impala in der Lage sein sollte , Ihnen eine Menge Abfrage und Fähigkeit zu den Daten zu geben. Es ist eine interaktive Shell, so ist es wie, wenn Sie SQL Plus im Artikel gewöhnt sind ähnliche Skill-Shells, andere Datenbank-Engines, um eine ähnliche Indianer für Sie zu sein. Dort gibt es ein häufiges Problem. Sie können mit der Eingabe von Anfragen beginnen und Ergebnisse werden angezeigt, und es ist sehr schnell. Compact Ojai, weil intern Bienenstock verwendet, um meine Produkte zu tun. Dieser Typ macht meine Produkte nicht, und es ist eine optimierte Logik für die Kinderbetreuung. Abgesehen von den Defiziten von I. Es unterstützt Gelenke, Unterausschüsse Aggregation. So gibt es so ziemlich ein leistungsfähiges Werkzeug. Es unterstützt Hadoop-Management, so unterstützt es sowohl Rohdaten, die in Hado Pass-Sequenzdateien gespeichert ist, oder CSE-Dateien verschiedener Formate sind Es kann auch das Beenden von Daten unterstützen, die in Hedg-Basis gespeichert ist . Auf gibt es nur B-C-Treiber und Sparsamkeit, ein PS, das in der Politik arbeiten kann. Sie setzen diese um beschäftigte Fahrer und Sparsamkeit Opiate auf Impala. Dann gibt es Ihnen einige Beenden Einrichtung, wo Sie eine alte BBC-Treiber Qualitätsdaten verwenden können , die in Huddle zur Verfügung gestellt wird. Das ist also die große sind unsere Titelseite der Verwendung von Impala, denn jetzt können Sie entweder eine Shell verwenden oder Sie können die bestellten Treiber innerhalb eines Java-Coder verwenden. So etwas zu einer Abfrage. Der Leser, der da ist ein Impala? Wenn Sie versuchen, Impala zu vergleichen, was sind die Vorteile von Impala, mit denen Sie beginnen? Okay, das hat Berries. Schneller Datenzugriff auf Hudock im Vergleich zu verstecken, natürlich, ist eine Familie oder SQL-Schnittstelle von Menschen verwendet werden, um in der regulären Armee Nachfolger. Bemis World wäre sehr Familie oder der gute Start, in dieses zu kommen und beginnen, dieses ein zu verwenden . Als Big-Data-Architekt sind Sie also nicht nur besorgt über die Endbenutzer, sondern auch über ein Boot. Unsere Datenbankadministratoren zur Datenanalyse sind sogar ein Adidas Scientists. Entwickler möchten die Daten beenden. Diese Art von Tool gibt Ihnen einen großen Zugriff auf, wenn es um Ah geht, die Reporting-Optionen. Es ist nicht so, als hättest du nur einen von ihnen. Sie können eine Reihe von ihnen wählen. Sie können nicht Seite an Seite mit anderen Optionen Impala. Außerdem ist es nicht so, dass Sie nur auf eine Option beschränken müssen. Du bist irgendwie Impala drinnen mit der anderen Option, die wir auch besprechen werden. Und es hat einige ziemlich starke Integration mit Duke in Bezug auf Mängel, die keine Grafikunterstützung sind . Es gibt keine Fähigkeit, dies zu konvertieren und kann jede Art tun. Grafische Funktionen sind nicht vorhanden. Es gibt keine Fehlertoleranzfähigkeiten. Wassermann, der es läuft, bricht, es bricht. Sie müssen es wieder laufen auf es hat keine Unterstützung fliegen an der lesen eine Geschichte auf dem Zeh, wir riskieren ein. so ist es nur auf Daten beschränkt, die der Student hart up. Wenn Sie Daten und Cassandra so etwas haben, müssen Sie das SQL-Abfragetool verwenden, das mit Cassandra geliefert wird. Anwendungsfälle natürlich. Daten hatten ein Auto wurde dunkel tragen und Daten mit Condado, dass der Student Art der präsentieren die wichtigsten Anwendungsfälle. Es hat eine A p A Schnittstelle, so dass Sie verwenden können, dass für Feuerwehrmann war Art von Fähigkeiten und bezahlt auch eine Student Hitch basierend. Sie können seine Schnittstelle verwenden, um Quantität sie als gegen eine andere Art von Datenbanken wie Cassandra sind mongo DB Sie haben ihre eigenen Pläne, zu denen Sie es später beenden können. Dies ist so ziemlich Clout Impala, dass es ziemlich begrenzt die Gewässer dort in How Do Panitch basiert die nächste kommt thes Stern Durchschnitt der Funken gleich. Ah Sparks gleich bietet Programm A eine Fortsetzung wie Programmierfunktionen bietet, und es ist sehr einfach zu bedienen und ziemlich mächtig internalisieren Pop, eine Spark Fortsetzung ist implementiert, wie mein Produzent Operationen auf Spark Rd Our Spark Data Freunde. Dieser Mann produziert nicht die Hudock Labradors, sondern die Karte Bewertungen, die von Funken gleich durch Funken selbst unterstützt wird. Es ist sehr schnell und es ist sehr flexibel und es unterstützt Aggregationen, und Giants sind es weiß, eine Menge leistungsfähiger nach Techniken. In einer Zeile, unsere Toleranz. Sie können eine Menge Dinge mit den Funktionen zur Verfügung gestellt funken krank tun. Nun, es hat Mission Learning Integration mit Emily Part Emily. In der Tat, Funken von maschinellem Lernen. Es ist auf Funken gleich gebaut, so dass diese Art von macht es wirklich gut auf Einwanderung mit Funken. Familie, vor allem möchte nicht mit Advanced Analytics auf tun Es kann sowohl für interaktive als auch verwendet werden , damit Stream-Programm. Sie können also mit dem Angeklagten programmieren gehen. Interaktive Programmierung davon. Das ist, Oh, das ist hübsch. Eine leistungsstarke Vorsicht ist es für Sie vorteilhafte Preise Satz von Fähigkeiten. Ein Funken kommt mit einigen wirklich starren Fähigkeiten, Familie und Syntax, die gleiche Gruppe nach Reihenfolge durch die gleiche Gruppe durch einige Mittel max Filterung, wo Klassen und Sachen wie diese hervorragende Leistungsfähigkeit. Weil das ein Punschpark war. Es ist alles, was sie kamen, ein Produkt, das mit der Funken einiger schwieriger Skalierbarkeit, Fehler, Toleranz und so etwas kommt Fehler, . Es wird in mehreren Sprachen unterstützt. Java skalieren, ich drehe und sogar Kunst. Also, das ist ziemlich könnte wirklich eine weiße bereits der Sprache sein, die der Unterstützer und Sie tatsächlich leicht mit anderen Bibliotheken integrieren können . Kein Funken, dass einige der Fähigkeiten, die Funken zur Verfügung gestellt wurde, war, dass Sie diese leicht integrieren können . Aber andere Bibliotheken in diesem Park fragen in einem Job unsere Mängel. Es gibt keine Grafiken. einmal, ist Maura Programmierung Art von Sprachen. Programmieranforderung ist nicht wirklich. Obwohl Sie sagen, dass es ein interaktives Gefühl gibt, ist es fast so, als ob Ihre Programmierung etwas ist und es gibt keine grafisch unterstützenden Funken. Gleiche Anwendungsfälle, eine Programmierung programmiert Quadratur große Daten sagte, Dies ist eine große Engine für große zu tun, beenden viel von einem Programm, das ich meine, dass Sie Quadratur haben, dass mit als eine andere Software -Programme. Oder Sie haben vielleicht ein Funken-Skript, das Sie in Arbeit schreiben unsere Waage einen Biss auf. Als Teil davon haben Sie Nachfolgefunktionen, und das ist, was Sie mit diesem tun können. Sie können eine gute Sache über Sparks hinzufügen gleich Sie ein einziges System haben, dass dieser Teil für PPL-analoge nimmt erweiterte Analysen, Echtzeitverarbeitung alles. Das ist also eine Sache, die am Montag Jahre Parker Ihnen alle möglichen Fähigkeiten bietet. Also, sobald Sie Funken anpassen, können Sie eine Technologie, die besagt, dass für verschiedene Modelle verwendet werden kann. Und natürlich, natürlich, in Echtzeit in einem, wenn Daten in Streams kommen und nein, nein, Sie können einige Funken gleich basierend auf den Stream-Daten machen, die eingehen und einige Analysen durchführen Auch wieder Das ist etwas, das uns entfacht wurde. Ihr vermögt Macht. Wir fahren weiter mit dem Kabel. Weitere Optionen in der nächsten Vorlesung. Danke. 24. Reporting Dritter und elastisch: Lassen Sie uns nicht über Tools von Drittanbietern reden. Es gibt eine Reihe offener und kommerzieller Optionen für Big Data und Analysetools von Drittanbietern . Und diese Tools unterstützen in der Regel eine Reihe von Funktionen. Und sie können mit jeder Art arbeiten. Keine Fortsetzungsdatenbanken. Oder wie gehen Perhach Erbsen und so so was auf? Also die Wahl aus dieser Art von Werkzeugen oder schmal kostet Familie Ära nicht als für weniger Einsatz, Fall Matching? Wie wollen Sie wirklich in Western Third Party Tools steht dieser Frage wird davon abhängen , was offene Reporting-Funktionen, die wir in Ihrer Lösung benötigen? Sehen Sie, wie viele Endorser in Ihr Produkt einsteigen und die Tools verwenden, um einige Berichte Visualisierungen und exzellente Grafiken, Kunden, Dashboards und so etwas zu tun Berichte Visualisierungen und exzellente Grafiken, Kunden, ? Dann möchten Sie vielleicht in westlichen Drittanbieter-Tools. Dieses Teilchen wird definitiv Seite an Seite wohnen, mit der anderen Berichterstattung. Sagte, dass Sie sowieso verwenden würden, dachte ich, das hängt wieder ab, wie er auf die Anwendungsfälle sagte, die Sie auf die Option für Sie in geheilt haben. Aber Dinge wie ein R Tableau Penta, wie Jasper für Bursts klicken und dann ein paar Jungs wie sie und sie haben ausgezeichnete grafische Fähigkeiten, und sie haben Integration in Native War. Was BBC Jerry B. C. Treiber zu einem dieser seltsam Amazon sein. Keine Fortsetzungsdatenbanken. Sie haben visuelle Gestaltungsmöglichkeiten. Sie können gehen, wenn sie nicht zeichnen einen Bericht oder Dashboard alle von uns durch Ziehen und Ablegen mit Nein, fast nein, nach, nach, und sie haben Authentifizierungs- und Autorisierungsintegrationen. Sie können leicht hoffen, dass sie auf eigene Faust in den Preis einloggen, und Sie können das gleiche Log und Single Sign-on Art der Sache haben, arbeiten für die Startparty-Werkzeuge. Auch keine Vergleichs- und Kontrastvorteile. Es hat Richard Grafiken. Es gibt ausgezeichnete Vorlagen für Visualisierungen und Graphen auf Dashboards. Es ist einfach, die Fettleibigkeit Verwendung Design, wie Sie weiter gehen können, entworfen diesen Bericht. Sie haben Unterstützung für Authentifizierungs- und Autorisierungsschemata auf Sie können einige Anpassungen auch in Bezug auf Logos tun und, Sie wissen, Look and Feel und so etwas. Ah, erschossener Mist kommt weise. Das sind Kosten. Sie kosten viel, was? Also, wenn Sie wirklich wissen, geschätzt und sehen, ob Sie wirklich wollen, in, war diese Art von Geld, um diese Art von Fähigkeit zu bekommen. Benötigt Ihr Unternehmen diese Art von Fähigkeiten wirklich? Unsere nativen Support-Levels? Weißt du, wie gut sie jede dieser Datenbanken im Vorfeld unterstützen? Natürlich gibt es immer Marketing. Ich denke, es sagt, dass Sie alles und alles unterstützen, aber Sie müssen ausprobieren und sehen, wie die Integrationen wirklich funktionieren, um Anwendungsfälle zu sein in denen Unternehmen Dashboards oder Berichte über Iran. Weißt du, wenn es umfangreiche Verwendung gibt, siehst du, dass es mehrere deine Quelle geben wird. Du denkst, dieser Arzt hat beides runter. Das Beste für dieses Handy. Übrigens haben diese Jungs auch eine hervorragende mobile Unterstützung. Wenn Sie möchten, unterstützen sie die, wenn mehrere Datenquellen für diesen Berichtsprozess verwendet werden müssen . Ja, sie können es mit vielen Datenquellen graben, wenn Sie Wunschdesigner zur Verfügung stellen müssen. Aber Sie sind Induktoren können Aufträge auslösen, und die Berichte gegen den Start bewachten Tools werden ein guter Anwendungsfall für alle von ihnen sein. Und dann sagte ich, du musst wirklich angerufen werden. Die Kosten waren Nutzen für diese Jungs die letzte Option, würden wir ekelhaft sein. Seine letzte Ich sage zuletzt ignoriert elasticsearch, weil wir über diese Firma sprechen namens Elastic, die eine Reihe von Produkten hat, die Ihnen in Bezug auf die Berichterstattung Führer helfen wird. So elastisch hat ein Produkt namens elasticsearch. Es ist ein Open-Source-Produkt, das eine ausgezeichnete Suchmaschine für vorhandene Daten bietet. Wir sprachen über elasticsearch auch in den Persistenz Optionen, die Ihre ausgezeichnete Motor in gebaut auf einem Wasser gibt . Darüber hinaus gibt es Ihnen ein weiteres Protokoll Cabana, das hervorragende Visualisierungsfunktionen auf den elasticsearch-Daten bietet , so dass Sie elasticsearch-Daten haben können. Sie können Kubanisch über die Bereitstellung von Virtualisierungsfunktionen verwenden. Es hat Aggregationsfähigkeiten. Es ist eng integriert zwischen der elasticsearch in Cabana. Es hat Streaming-ihre Unterstützung bekommen, also ist das gut für Echtzeit. Und ich werde auswählen, damit Sie in Echtzeit wirklich in Elasticsearch einsteigen können. Und Sie können Cabana für Visualisierungszwecke verwenden. Ah, gibt es eine hervorragende Grafikunterstützung . In Cabana kommt eine skalierbare werden von elastischen Überspannungselastik, wie ausgezeichnete Skalierbarkeit auf. Natürlich gibt es sicher, dass diese gibt Ihnen Suchfunktionen standardmäßig, und dies ist die beste Suchmaschine, die Sie in der Nord-Skill-Welt zur Bekämpfung elastischer Vorteile finden können , sind natürlich, Sie haben reich -Grafiken. Sie haben flexible Abfragefunktionen, die zu elasticsearch kommen. Sie erhalten Echtzeit-Analysen und natürlich erhalten Sie einen solchen Makler. Moral macht die Suche. Sie erhalten aus dem Kasten einige großartige Berichte, wenn Sie elasticsearch in Cabana Mängel verwenden , die zusätzliche Arbeit elasticsearch Sie füllen. Ich glaube, Sie werden elasticsearch nicht als primäre Datenbank verwenden. Möglicherweise verwenden Sie etwas anderes, aber Sie nehmen möglicherweise Daten von den anderen Systemen und füllen elasticsearch zum Zwecke der Berichterstattung. Es gibt also noch zusätzliche Arbeit und Arbeit. Möglicherweise haben Sie Genauigkeitsprobleme, aber das ist etwas, was wir hören, wenn wir über elasticsearch sprechen. Aber natürlich glaube ich, dass das Projekt auch auf diesen Kreaturen reifen wird. Vielleicht gehen in die Zukunft, Anwendungsfälle, wo Sie brauchen, und das Lob Dashboards und Berichte ziemlich ähnlich wie die Drittanbieter-Produkte, über die wir gesprochen haben . Wenn Sie ihm eine dunkle tragen Sie weise wollen, dann ist dies ein großartiger Anwendungsfall. Und natürlich, wenn Sie Echtzeit-Überwachung Echtzeit-Überwachung haben wollen Ein weiterer großer Anwendungsfall für elastische. Das ist also die Fähigkeiten, die Sie jede gute elastische Ivana und auf gekaufte elasticsearch oder frei herunterladbare une erhalten, so können Sie gehen und sie herunterladen und verwenden und sehen, wie gut sie funktionieren. 50 oder Anwendungsfall. Ich hoffe, das war hilfreich für Sie. Vielen Dank. 25. Erweiterte Analytics Übersicht: Hi. Willkommen zu dieser Vorlesung über fortgeschrittenes Analytics-Modell. Aber Sie versuchen, eine Architektur für Big-Data-Lösungen zu entwerfen. Typischerweise liegt der Fokus auf den E. T s auf dem Extrakt transformieren Lord Prozess sowie grundlegende Berichterstattung. Aber fortgeschrittenes Reporting kommt mehr als ein nachträglicher Gedanke, weil die Leute in der Regel denken, dass fortgeschrittene eine schlechte Politik etwas ist, das ad hoc getan wird. Und dafür müssen wir nicht wirklich etwas konstruieren. Aber das ist nicht der Fall, weil Advanced Analytics, obwohl es ein Ende ist, eine Art Arbeit verwenden. Es braucht viele Ressourcen, viele Shad Ressourcen, die in Ihrer Datenbank vorhanden sind, und Sie verarbeiten Engines und solche Sachen. Daher ist es wichtig, erweiterte Analysen in Ihre Big Data zu integrieren. Architekturen, so dass sich die Kompetenten gegenseitig einsetzen. Und es gibt kein Problem mit später zu entdecken, dass wir hier etwas vermissen und dort etwas fehlt, und wir müssen ein paar Dinge hier und da hinzufügen. Also fangen wir mit dem Verständnis an. Gewässer fortgeschrittenen Tonalitäten. So gibt es eine Reihe von Arten von anderen Texten ihre auf zwei verschiedenen Organisationen, implementieren Analysen auf verschiedenen Ebenen. Zunächst haben wir beschreibende und unsere Daten, die über das, was passiert ist. Wie war der Gesamtumsatz für den letzten Monat auf der ganzen Welt? Und dann, was sind die Verkäufe waren nicht Amerika, wissen Sie, acht. Zurück in Asien, Europa. Das ist also beschreibend. Exploratory versucht dann herauszufinden, warum etwas passiert. Jetzt sehen Sie sich nicht amerikanischen Umsatz war um 10%. Ein Rudel war nicht vipers und weise. Es ist nicht klug. Das ist, was der Grund ist, dass nordamerikanische Umsatz höher. Dann fängst du an, verschiedene Dinge zu betrachten. Was ist mit den Produktmischungen? Einige sind besser in nicht Amerika. Ich weiß, das ist, wo Sie bessere Teams und unseren Rabatt haben und nicht Amerika, oder was zwischen den verschiedenen Ländern passiert, die Explorationsprozesse sind. Inferential ist, wo Sie sind. Spielen Sie statistische Techniken unter Buster, fallen Sie auf Verbündete eine Probe und extrapolieren Sie dann, was Sie in der Stichprobe Zehe finden. Die gesamte Bevölkerung. Predictive Analytics versucht zu prognostizieren, was passieren wird, basierend auf dem, was bereits zuvor passiert ist. Kostenanalyse versucht zu verstehen, wie eine Änderung in einer Variablen implementiert wird, wird eine Änderung in einer kleinen Variablen haben . Was ist zu sagen, dass Was, wenn ich jubeln? Meine Produktpreise ändern? Wenn ich 10% Rabatt erhalte, erhalte ich eine 20% ige Erhöhung meines Sparpreises? Diese Art von Analyse sind Kosten für die Analyse, und es gibt einen anderen Begriff, der als tiefe Banalitäten verwendet wird. Deep Analytics ist eher wie eine Kombination all dieser verschiedenen Arten von Analysen, meist kausale und prädiktive in Freundschaft, Das ist, um tiefer in das Problem zu bekommen und schauen verschiedene fortgeschrittene Techniken verwenden, um zu verstehen, wie bestimmte Dinge funktionieren und wie es funktionieren soll, und vorherzusagen, was passieren wird, wenn wir sagen, dass etwas fortgeschrittenes Analytics ist. Wir sprechen über den oberen Rand der unteren drei oder die untere für in der Liste der Schlussfolgerungen. Produktive kausale und tiefe Endgültigkeit auf es wird typischerweise von Menschen, die wir uns nennen, getan. Analyst sind sogar Datenwissenschaftler. Kunst der sofortigen Entscheidungen sind diese Menschen nehmen die Daten Ihren Geist und in Ihrem Big Data-Repository auf Bright gespeichert oder es sei denn, die Daten und kommen mit verschiedenen Erkenntnissen und Vorhersagen. Wenn Sie also versuchen, ein intelligentes Analytics-Modell für Advanced Analytics zu erstellen. Welche anderen Verantwortlichen zu verwenden erwarten, dass dieses Modell zu tun? Zuallererst muss das moderne Lee Modul Modellbaufunktionen haben. Sie sollten die Möglichkeit haben, eine Vielzahl von Modellen zu bauen, eine statistische Modelle Vorhersagemodelle. ob der Supervisor unbeaufsichtigt, sollten sie verschiedene Validierungstechniken unterstützen. Wenn Sie mehr über Daten erfahren, da Sie mehr darüber verstehen, was sind diese Validierungstechniken? Sie sind im Grunde verschiedene Arten von Gegenständen auf der Wache. Gleiches zu gehen mit in jemanden und bekam einen Garten und einfache Algorithmen. Versuchen Sie, eine unglaubliche Multiple Marta zu verwenden, basierend auf verschiedenen Teilmengen von Daten, die Unterstützung für und einfach bewachte ums sein müssen. Es sollte für eine interaktive Entwicklung dieser sorgen, denn die fortschreitende Arktis ist zunächst ein interaktiver Prozess, bei dem die Daten auf einer Liste oder das Rechenzentrum sitzt und mit den Daten und direkten Sachkenntnissen arbeitet. Tun Sie Schritt eins versuchen zu sehen, was sie finden, dann entscheiden Wasser tun Steptoe, dann das Wasser statt. Drei. Es ist ein interaktiver Prozess der Arbeit mit den Daten und kommt mit Ergebnissen, so dass die Advanced Analytics modelliert für interaktive Analysefunktionen bieten sollte, aber auch er sollte für Automatisierungsfunktionen bieten, weil einmal interaktiv Elektrik ist getan auf der gibt es ein Modell, das bereits tot war. So werden wir ein Modell bauen und die Produktion beherrschen. Und wir nehmen das und automatisieren das und operationalisieren es als Prozess. Es muss also Automatisierungsfunktionen geben, wie Sie nehmen, den Code automatisieren und tatsächlich einige Anwendungen erstellen können , sind Produkte, und schließlich sollten Sie in der Lage sein, in Echtzeit Schutz vorherzusagen, wie gut Sie in ist auch eine der Verantwortlichkeiten außerhalb des Blocks. Was ist der Architekt? Welche anderen Dinge müssen Sie beachten, wenn Sie die Advance Analytics-Plattform verbinden die 1. 1 A Skala, Fähigkeit Werbung. Analoge Operationen nehmen in der Regel viel CPU-Zeit in Anspruch. Es gibt eine Menge Anzahl Knirschen ex con Graben, die in der Regel sehr überlegen ist , intensiv bei der Entschärfung einer großen Menge an Daten, die auch bedeuten, dass es Mitglied intensiv wird. Darauf werden die Daten wirklich in Yorba realisiert erstrecken sich dann über mehrere Notizen und Cluster und solche Sachen. Die Skalierungsfähigkeit ist einer der wichtigsten Aspekte, die Sie Architekt im Advanced Analytics-Modell und dann Leistung wünschen Analytics-Modell . Wie gut, wie schnell Sie mit diesen Al Qaida durchführen können, besonders wenn Sie es tatsächlich vorhersagen. Nein, da Vorhersagen in der Regel in Echtzeit stattfinden, wenn ein Benutzer bei Ihrer Website angemeldet ist , wenn jemand am Telefon spricht. Eso Vorhersagen müssen in Echtzeit geschehen. Sie müssen eine nachfolgende Reaktionszeit haben, also müssen Sie dafür Architekt haben. Außerdem müssen Sie für Validierungen Architekt erstellen. Die Fähigkeit, sowohl die Modelle als auch die Vorhersagen auf Genauigkeit zu validieren, ist ein wichtiger Aspekt in einem fortgeschrittenen Wissen Algorithmen am nächsten Morgen. Ich meine, es gibt viele Algorithmen für den Modellbau, aber diese Algorithmen auch Komfort sind verschiedene Optionen Tuning-Parameter. Conflagration durch mit können Sie Delgado versuchen verschiedene Parameter. Täuschen Sie das Modell verbessert sich auf Kunst und solche Sachen. Es ist also nicht nur wichtig, dass Sie Ihren Garten unterstützen. City Girls unterstützen verschiedene Optionen für das Tuning. Auch auf Schließlich Sie Auto-Architekt für Automatisierung und Unterdrückung, was ist, wenn einige Dinge erledigt sind, haben Sie einen Weg gefunden, ein gutes Modell zu erstellen, als dieser Modellbauprozess sein muss automatisiert auf implementiert und operationalisiert, dass sie weiterhin im Hintergrund laufen und halten den Aufbau von moralischen Center-Datenbanken auf, die hält, Sie wissen, los. So dass diese Art von Automatisierungsfunktionen müssen Toby auch erfüllt in Ihrem fortschrittlichen Nynex integriert . Mehr Angebote. Best Practice-Architektur sollte mit der Methodik abgestimmt werden. Also, wenn Sie unerwünschte Analysen haben, haben Sie einen Start auf einen Leicester Data Scientist. Sie haben in der Regel eine Methodik, wie sie Dinge tun. Sie wissen, dass sie ihre eigenen Prozesse haben, und was Sie verstehen müssen ist, dass Sie nicht verstehen, was ihr Prozess ist. Unsere und dann müssen Sie die Architektur so bauen, dass das Produkt ausgerichtet ist. Der Prozess, den sie erfasst werden, wird Hand gehen, und ich bin so, dass das die Arbeit sowohl des Leiters als auch der Die Arbeit der Rechenzentren einfach macht , so dass die Methodik sollte mit der Architektur abgestimmt werden, die Sie planen müssen Erwachsene moralische Gebäude, was bedeutet, dass Sie für Kapazitäten zur Verfügung stellen müssen nicht Modellbau sowohl CPU Speicher Schlacht Achsen, Toe Künstler So fragte uns, um Ihre Daten so typischerweise, wenn der Architekt, der einzige Architekt für die Kapazität bekannte Kapazität, das ist wie, Okay, wie Maney Web-Benutzer werden schlagen das System und basierend auf dann kommen mit Ihrer Größe und Sachen wie das. Aber ihr müsst euch auch einen Spielraum für unser Leben geben, um diese voranzutreiben, um unsere dunkle Analyse mit euch zu bringen . Jemand geht einfach und fängt an zu rennen. Baumodell auf der gleichen Box auf, dass wird zusätzliche Last auf Ihre Position Spieler auf Ihrer Rechenschicht Andi Einheit setzen tatsächlich zuzuweisen. Du kennst auch Ressourcen dafür. So stellen Sie sicher, dass das, was Sie in einem dunklen Modellgebäude tun, hat keinen Einfluss auf die reguläre Liste der Verbreitung der regulären es, weil das in den Fluss Einbrecher Berichterstattung geschieht , die geschieht. Alle erweiterten Analytics-Projekte führen nicht wirklich zu Ergebnissen. Das ist eine Sache. Wir müssen sehr klare Änderungsanträge sein. Wenn Sie durch datenwissenschaftliche Kurse gehen, werden Sie verstehen. Es ist nicht wie OK, ich starte ein Projekt und ich werde einige Verbesserungen haben. Embolismen, nicht nennen Projekte gehen in die Hölle in den Ergebnissen der Daten, keine Signale, die bemerkt hat, dass auch einige Erwartung Schiff etwas ziemlich klar hier getan werden muss, weil keine anderen Menschen in der Firma könnte hören, dass es kompetent ist, da wir Predictive Analytics verwenden, um dies und das zu tun, und wir sollten auch versuchen, dasselbe zu tun. Aber ich sie nicht Sie können nicht verstehen, die Tatsache, dass alle Daten möglicherweise nicht alle Signale haben , und wenn es kein Signal gibt, gibt es keine Vorhersage, die passieren kann. Es gibt etwas, das Sie im Auge behalten möchten und immer im Auge behalten für die Automatisierung und unsere Spezialisierung in was immer Sie tun, so dass Sie Zehe an einem bestimmten Punkt haben, Sie nicht und beginnen, Dinge zu automatisieren, und betriebsbereit ist und Dinge in der Förderung und Export. So würden Sie sich das Advanced Analytics-Modell ansehen und versuchen, den Architekten Hope dies war hilfreich für Sie. In der nächsten Vorlesung werden wir uns die Advance Analytics-Optionen ansehen. Vielen Dank. 26. Erweiterte Analytics R und Python: Hallo. Willkommen zu diesem Vortrag über Erweiterte Analytics-Optionen Bisher fortgeschritten in Alex. Wir schauen uns die Programmierung an. Sprachen sind Werkzeuge, die Sie mit den Funktionen für fortgeschrittene jetzt gräbt, die wir in der frühen Vorlesung über Wir werden beginnen mit unserem Jetzt Unsere ist eine Sprache oder sogar eine Art von in College und Umgebung für statistische, Computing und Grafik als eine sehr alte Sprache. Und es hat eine ziemlich lange Geschichte der Verwendung basierend auf Entscheidungen. Es spezialisierte Sprache nicht. Ah, gebaut für statistische Berechnungen und wurde für eine sehr lange Zeit von Statistikern verwendet. Es war nicht, es wurde nicht weit verbreitet, bevor für andere Zwecke verwendet, aber nachdem die Big Data-Arbeit kam in und es gibt mehr Traktion auf Predictive Analytics werden begonnen, immer eine Menge Sammlung. Gute Sache an Kunst ist, dass es ein weißes Paket verschiedene Mission Learning unbewacht weggelassen Carter ist , sind Tonnen von implementieren Agenten von maschinellen Lernalgorithmen. Du hast so viele Möglichkeiten. So maney Implementierungen so viele Variationen von der anderen bewacht sie stehen. Sie können versuchen, eine Reihe von ihnen herauszufinden, Sie wissen, welche zu Ihrem Modell passt, welches Ihnen einen guten Sterblichen gibt, der Ihnen gute Produktionen gibt? Es verfügt über Funktionen für die Datenbereinigung ihrer Transformation. Es hat nicht ausgezeichnete Grafik-Paket, und es gibt unser Studio, die eine 90 ausländischen Tracker Programmierung. So können Sie unser Studio benutzen, um tatsächlich Gericht zu schreiben. Sie können Anwendungen erstellen, aber dass Sie interaktive Programmierung durchführen können, aber dass Sie die Dokumentation damit gehen können . Es ist erstaunlich. Das Schlimme an der Kunst ist, dass ein Trans von Daten in Erinnerungen die Daten in den Speicher laden und dann auf die Daten im Speicher gehen wird . Das bedeutet, dass es auf die Erinnerung beschränkt ist, wenn der Norden dort begrenzt ist. Die gesamte lokale Box 1 auf war auf den Speicher in der lokalen Box beschränkt, der seine Fähigkeit stark einschränkt . Jetzt gibt es einige kommerzielle Waschungen der Kunst, die auf Bye bye bye gearbeitet wurden. Andere Dritte, die versuchen, all diese Skalierbarkeitsfunktionen in unsere gute Sache aufzunehmen. Dieses Jahr ist gut für unsere Aber dann kommt der Preis. Außerdem gibt es etwas, das Sie sich jetzt erinnern möchten, indem Sie unsere Vorteile von uns vergleichen, dass es sich um ein ausgezeichnetes Zentrum maschinelles Lernen Algorithmen handelt. Es hat Grafiken, und es gibt auch andere Präsentationstools für Sie, um Präsentationen für reizbare Dokumentation zu erstellen . Es verfügt über interaktive Modellbaufunktionen. Zehe das unser Studio, dass ein tolles Feature sind verzweifelt in reifen. Es ist seit sehr langer Zeit dort, und es ist mit einer Reihe von Paketen in unserem Garten gereift, die wahr geworden sind. Mängel sind, dass, wie wir darüber gesprochen haben, Skalierung mit dem lokalen Speicher begrenzt ist, so dass seine Fähigkeit, wirklich Big Data-Augen zu behandeln, fragwürdig sind, nicht verwendet werden kann, um wie robuste Anwendungssuiten wie die Art, wie Sie verliert einen Job reizbar, eine robuste Anwendung I J Jahr Anwendungen über Art von Sache Künstler, die sehr begrenzt. Oh, keine Skripte Art Präsident, nicht irgendetwas anderes. Big Data-Funktionen sind begrenzt. Es kommen Leute rein, aber unser wie kassiert, weil diese Art von Interaktionen. Aber es ist immer noch ziemlich begrenzt, weil diese Dinge brauchen sie verwendet, die volle kam eine bessere Tage frei sind nicht die Verwendung der vollen Fähigkeiten von Huddle, weil sobald Sie die Daten aus geöffnet bekommen, verschieben Sie es in unsere dann wird es wieder beschränkt auf seinen Speicher, so gibt es einige Einschränkungen verwendet wurden, was sind die Anwendungsfälle für uns? Sind, dass Sie interaktive Modellerstellung und Versuche auf kleinen Daten, die Sie denken könnten , dass unsere nicht viel Wert haben. Aber nein, weil Dana Sanders verbrachte viel Zeit versuchen zu verstehen, dass es versucht, mit ihm herumzuspielen , und sie tun es normalerweise auf kleinen Datensätzen. Und wenn Sie kleine Daten haben, da unsere eine gute Möglichkeit ist, mit Daten zu spielen und zu versuchen, die Daten zu verstehen , die versuchen, Modelle zu erstellen, und wenn Sie herausfinden, was das ist, was ich mit den Daten machen möchte , dann können Sie das in vielleicht Java übersetzen, sind vielleicht Apache Funke und machen das eigentliche Ding . Also Job ist es eine gute Sandbox, in der Sie sitzen und spielen mit den Daten. Es kann für kleine verwendet werden, spätere und Anwendungen, die in der Regel in dieser Zeit, und Sie können immer eine Box setzen, die Guardado gab auf Speicher oder 62 GB 64 GBS Speicher. Sie können eine Box in AWS erhalten und dann richten Sie unsere und Sie können eine Menge Analyse damit tun, tatsächlich, tatsächlich, und es kann verwendet werden, um Präsentationen auch zu machen. Das sind also die Dinge über unsere nächste Woche, auf der wir kämpfen wollen, was ziemlich ähnlich ist Zehe sind in Bezug auf sie Kreuzung. Aber die Sache mit einem Python, es ist eine regelmäßige Programmiersprache und machte die Standard-Programmiersprache, die große Daten hat. Science bewertet Packer ist keine Fähigkeit, also mit Biss auf, können Sie nicht einfach nein, nicht tun wir nicht die Daten Heiligen und sind ausgesetzt? Du kannst eine Menge Dinge mit Danny machen. Extent ist eine Top-Programmierfunktionen, die Sie mit Großbritannien tun können. Python hat also eine Reihe von Paketen, wie Gnome von Skype. Ich fand uns und Sky Kit Land, die bei der Verwaltung von Daten und Verarbeitung unter Down Doing Data Science helfen . Es ist ein riesiges Array von Third-Body-Bibliotheken. Es ist gut. Es hat große Datenbereinigungsfunktionen, Grafikfunktionen, die unsere Ideen für die interaktive Programmierung zur Verfügung stehen, wie ich so tun es ein Notebook. Es gibt Sie sehen, Spinne in an einer Ecke. Es gibt viele Möglichkeiten zur Verfügung, Doktor, Doktor, und es hat Integration in Funke. Auch ist es möglich, Daten hin und her zwischen meiner Stadt und Funken zu passieren, wenn Sie es verdienen. On Bite on ist eine Mehrzwecksprache. Es kann verwendet werden, um eine Reihe von Dingen zu tun. Sie können Skripte für alles erstellen. Ich meine, es gibt eine Menge Dinge, mit denen du Don machen kannst. Es ist eine allgemeine Programmiersprache, die auch bedeutet, dass von einer Fähigkeit, die Sicht Sie bereits Familie mit Biss nach unten haben, dann kämpfen auf ist der Weg zu gehen Bildung Lernen, dann lernen Sie eine völlig neue Sprache. Wie so Vorteile des Kampfes auf seiner Karte Anzahl von Grafiken und Datenbereinigungs-Tools, es hat interaktive Modellbaufunktionen auf es ist Gott auf gute Integration mit Apache Spark bekommen. Es hat ein Jahr zu sehen, eine Lernkurve im Vergleich zu a sind einfach, weil, Sie wissen, von Thomas Allgemeine Programmiersprache. Wir kommen aus einer anderen Programmiersprache, die und Akteure dauern eine mehr leichter zu verstehen und zu lernen. Dann können Sie mit unseren Unzulänglichkeiten des Bisses darauf tun. Die Skalierung ist wieder begrenzt auf den lokalen Speicher. Ziemlich ähnliche Tohave werden verwendet, um an zu arbeiten. Es gibt begrenzte Emel-Implementierungsmission, Missionssprache und Hüter von Einschränkungen. Im Vergleich zu unseren, es ist immer noch beträchtlich, aber immer noch 11. Wenn Sie vergleichen unsere hat nicht viel Anwendungsfälle getan ist ziemlich ähnlich zu helfen, die Sie verwenden würden, sind für ich war interaktive sterbliche Gebäude, und Sie können einige Versuche auf kleinen Datensätzen tun. Sie können viel Fliesenarbeit mit Biss machen. Das ist ziemlich genial. Sie können dort eine Reinigungsarbeit mit Biss auf Sie können Bill gehen. Natürlich fortgeschrittenere X-Anwendungen jetzt nicht beißen. Sie müssen für ihre Fähigkeiten mindestens eine von ihnen in Ihrer und ihrer Architektur bereitstellen. So können die Leute diese Modelle benutzen, um einen Tag dort unten mit Daten zu kochen. Aber normalerweise können sie nicht Seite an Seite mit der anderen Option rezitieren, die Sie später auch sehen werden , also ist es nicht, dass Einheit nur eine auswählen kann, die Sie nur mehr als eine davon abhängt, was Ihre Datenwissenschaftler von leer sind. Sie müssen diese Funktionen verhindern. Ehrfürchtig. Danke 27. Advanced Analytics Apache Spark und kommerzielle Software: Hallo. Fortsetzung der verschiedenen Optionen für Advanced Analytics, wir gerade jetzt betrachten über diesen Park Apache Funke, wie Sie wissen, als eine sehr Reihe von Fähigkeiten als eine gute Transformation Engine und Analyse-Engine. Ganz der Motor. Es ist auch eine gute Maschine für maschinelles Lernen. Also eine Party Sparkasse Machine Learning Library. Es gibt zwei Bibliotheken, die die Familie lebte Reiber Bibliothek auf der M A Bibliothek. Die M A Lib-Bibliothek wird konfrontiert. Die Tier-Bibliothek Emma ist die neue. Wir sind tatsächlich unterstützt eine gute Reihe von maschinellen Lernalgorithmen. Ich würde es nicht Strauß nennen, wie es ein r von der Stadt ist, aber es ist gut. Aber das Gute ist, dass sie ständig hinzufügen, sind diese neuen Sätze von Algorithmen? Also glaube ich, dass es in ein paar Jahren, wissen Sie, wirklich, wirklich,ein Druckmittel sein sollte wissen Sie, wirklich, wirklich, wirklich, wirklich, . Ich sagte von Bibliotheken. Es verwendet Daten Freunde von Funken gleich. Also die Dateneingabe für all diese Bibliotheken die Datenrahmen von Ramos Park Fortsetzung. Warum dies wichtig ist, ist, dass, wenn Sie Daten aus anderen Quellen erhalten sind sogar niedrige Daten von sieht, werden wir Daten transformiert. Sie machen es sowieso in ihren Frames, so dass sie Datenrahmen als Eingabe für Funken gleich verwenden, es sehr einfach macht, weil Sie keine spezifischen Transformationen durchlaufen müssen, um Ihre Daten in die Missionsleihbibliotheken zu passen . Sie kennen den Stana Basis-Ansatz, bei dem die Schnittstellen für alle Algorithmen sehr ähnlich sind. Es ist in der Tat sehr einfach, zwischen unseren Guardos ziemlich schnell im selben Stück zu wechseln. Natürlich macht das Lernen einfach und auch das Erstellen von Code ziemlich einfach. Mission Lernen. Das Gute an Park ist, dass die Algorithmen über einen Cluster skalieren können, was ist, wenn wir eine Gruppe von 10 Missionen auf Garden Mess haben, die in der Lage sind, über den Putz auszuführen , der seine Arbeit im Cluster debattiert. Durch die Integration versucht es, das Map Product Framework intern zu verwenden, um es so zu optimieren, dass es wirklich nützlich für Sie ist. Ich meine, es kann sich beschleunigen. Es kann eine große Datenmenge verarbeiten. Ich weiß, es ist uns gegen unseren Kampf auf, der sich nur auf den lokalen Fluster lokalen Knoten und den lokalen Speicher Funke konzentriert und wirklich horizontal skaliert und kann an riesigen Datensätzen arbeiten, die Sie verwenden können Kayla Jabba sind durch die Build-Spark-Reihenfolge. Nein, wir kommen auch rein. Also, das ist wirklich könnten Sie eine Menge von Optionen haben, um einen Code interaktive Datenmodellierungsplan zu erstellen möglich. Es gibt also einen interaktiven Shelvin, den Sie betrachten und das Zeug interaktiv genannt haben. Leanne müde verschiedene Dinge und sobald Sie ah gestrafft Modellbauverfahren haben, als Sie tatsächlich nehmen können es eine automatisierte. Es hat eine ausgezeichnete Integration mit großen Datenquellen. Das ist ein großes Plus in Ihrem Gebäude. Eine Big Data, wenn Sie versuchen, eine Big Data zu erstellen. Beste architektonische US-Einwanderung Mit Adobe pdf US sind alle keine weiteren Quellen vielleicht mehr. Das ist wirklich, wirklich gut. Andrea Lehmann Analytics und Vorhersagen sind mit Streaming möglich. Also, wenn Sie Streaming verwenden, ist es möglich für Sie, in Stream weitere Tage in strenger Produktion mit den Parteien zurück Vorteile über Badges Park zu tun , wie wir gesehen haben, dass diese hervorragende Skalierbarkeit vor allem im Vergleich zu a sind, und von der Stadt hat es interaktive Modellbaufunktionen, die nach Großbritannien gehen, Ihre Datenwissenschaftler betrachten und bauen Modelle auf eine interaktive Art und Weise. Es hat Echtzeit-Vorhersagefähigkeiten. Du weißt, dass die Daten kommen. Sie können an einem Stream arbeiten und macht dann Vorhersagen und eine streichelnde Unterstützung für verschiedene Daten, Quellen und Werkzeuge. Das ist also wieder an der Stelle. Und ich unterstütze mehrere programmierte Sprachen, so dass Sie nach Ihrer Wahl eine Programmiersprache auswählen können. Unsere Mängel sind, dass es keine Grafikunterstützung gibt. Es gibt absolut keine Grafiken, ein Buch für jede Art von Aktualisierung. Es gibt kein I D. Das ist nur eine Shell für die interaktive Programmierung ist es eher wie Befehle wie Programmierung , die Sie jemals mit Spark tun. Andi hat eine begrenzte Menge von Algorithmen und Implementierungen verglichen Toa sind so, aber ich denke, dass das Innere wächst mit der Zeit weiter. Es ist nicht ausgereift. Es ist ein schnell entwickeltes Produkt, aber es ist noch nicht ausgereift. Die Wüste war bedeutende Veränderungen, die mit Funken passiert. Also, das ist etwas für Sie, um für Anwendungsfälle vorausschauende Modellierung auf sehr weitgehend zu achten , die das Modellgebäude oder keine späteren Quellen setzt, die direkt mit bekannten heimlich Ressourcen auf Sie auf tun sterblichen Gebäude verbinden können . Und natürlich, froh uns, es ist seltsam, weil es über einen Cluster skalieren kann auf. Natürlich kann es für Echtzeit-Vorhersagen verwendet werden. Jetzt ist Spark wirklich die wichtigste, das wichtigste Oracle-Produkt für jede Art von Anfänger Modellbau. Wir haben eine Party Graben, aber von jemals Arzt geboren Modus überhaupt in der Vorlesung, weil meine Hoffnung ist irgendwie verblasst. Es hat sehr begrenzte Menge von Algorithmen, und es wird nicht wirklich nützlich sein, es aus. Spark ist viel überlegener als das. Deshalb rede ich überhaupt nicht über meine Haube in diesem alles, natürlich, wie ein Funken wirklich, wirklich guter Index versichert . Da kommerzielle Software, gibt es eine Menge kommerzieller Software für Sie zu tun. Ah, die Nacht, in der Johnson, wie Becks, verarbeitet, so dass Dinge wie eine Tabu-Sauce, ein schneller, kleiner Exeter, eine Menge von Produkten, die ich einem geliebten tun Advanced Analytics geben. Sie haben einen guten Satz von Algorithmen. Einige gibt es einige von ihnen arbeiten mijo. Einige von ihnen entwickeln sich weiter, aber sie haben eine ziemlich gute Reihe von allen Gärten. Sie bekamen einige sehr gute Grafiken, unterstützten diejenigen, auf denen Realisierungen sie die Endarbeit mit großen Datenquellen skalieren können. Sie können ohne Fortsetzung arbeiten. All das ist gut, also gibt es viele Fähigkeiten in der kommerziellen Socke. Aber ich meine, das können sie. Sie können so ziemlich alles tun, was Sie wissen, jemand wie Funken. Und durch das einzige Problem mit uns, es ist sehr teuer. Dies sind extrem kostspielige Produkte, auf die Sie nur achten müssen, wenn sich Ihr Unternehmen dieses Produkt leisten kann. Ja, du kannst es kaufen und benutzen. Aber ich sagte, es ist sehr teuer. Äh, oh. Sparkles Art des Aufbaus als eine sehr gute Alternative in Open-Source-Alternativen, die jeder auf de abholen und verwenden kann. Deshalb gehe ich nicht auf die Zehe. Keine Diskussion. Die kommerzielle Software sind Grundig ist verantwortlich kommt. Es kommt nur ein Diagramm. Es ist sehr teuer. Andere Möglichkeiten, die in Bezug auf Wasser ziemlich fähig ist, können Ihnen danken 28. Case 1 Datensicherung von Enterprise verwenden: Hallo. Willkommen beim ersten Anwendungsfall für Big-Data-Architektur. Der Interpretierungsstatus der Sicherung. Dies ist Ihr Lehrer gemeinsame hier, das Wasser, der Anwendungsfall. Wir versuchen, die Anwendungsfälle, dass ABC Enterprise Fictional Enterprise hält derzeit 18 Monate CRM-Daten in unserem Baby Emma, die online ist und sieben Jahre Archivdaten in Bändern. Nein, das ist eine Menge Unternehmen arbeiten, wo sie einige Daten aufbewahren. Die 11 Monate der Daten 13 Monate von Daten in einem Wohnmobil, Bemis für nur Zugriff und sieben Jahre alt. Eine größere Datenmenge wurde in Bändern Offline-Backups aufbewahrt. Onda Grund, dass Sie Backups auf Bändern verwenden müssen, ist nicht, weil sie eine Sicherung für die Daten benötigen . Aber sie wollen auch Daten für einen längeren Zeitraum aufbewahren, falls sie für Analysezwecke verwenden möchten . Aber diese Art von Daten zu behalten und nicht zu sein muss, kann sich als sehr kostspielig in Bezug auf Lizenzierung und Hardwarekosten und solche Sachen erweisen . Versuchen Sie, die Tagesbänder zu behalten und zu jeder Zeit, die sie benötigen, um auf die Daten für jede Art von Analysen zugreifen zu können. Es wird ein Projekt sein und als nächstes die Daten zurück in eine Datenbank zu bekommen, und Sie wissen, dass es einige Zeit dauern wird, bis alles erledigt wird. So wollen sie sehen, ob sie erstellen können auf erstellen eine Online-Sicherung. Aber sie behalten die Daten statt hex TFS, weil es uns, wissen Sie, bieten Zuverlässigkeit in Bezug auf nur mehrere Kopien der Daten. Es ist vor kurzem in den Norden Ausfälle und die Daten ist, aber es bietet auch den Zugriff auf die Daten einfach und so, dass die Menschen tatsächlich auf Daten zugreifen können. Ich meine über die Notwendigkeit manchmal, und ich nehme das gemeinsame sagen Ok, wir wollen Daten für die letzten drei Jahre oder vier Jahre betrachten und schauen, wie die Dinge sind. Und sie können sich die Daten immer ansehen, weil sie online verfügbar sind. Und natürlich kann es bei Aquarian Fähigkeiten auf den Daten zur Verfügung stellen. Nun, das mag wie ein sehr einfacher Anwendungsfall für Sie aussehen, aber hier beginnen viele Unternehmen heute mit Big Data. Der Grund dafür ist, dass groß es eine neue Technologie in einer Organisation hat. Menschen wollen Bedürfnisse zu Foskett mit der Technologie vertraut machen. Wann ist ihre Familie und sind die Architekten, die Entwickler, die operativen Menschen, die Datenbank-Administratoren, die durch sanfte API allgemein und die Verwendung von jedem müssen zuerst vertraut und komfortabel mit der Technologie? Vor Ihnen haben wir angefangen, in bedeutendere Anwendungsfälle für Menschen zu investieren. Investieren Sie mehr Zeit und Mühe in mehr wird sein, dass Sie diesem entkommen, wo viele Organisationen, große Organisationen beginnen. Also, was sind die Eigenschaften davon? So ist die Quelle der Daten ist unser Baby Musso von typischerweise CRM-Anwendungen verwenden das Zentrum weitgehend Zahlungen, in denen sie alle Daten Alligatoren speichern, etwa eine 1.000.000.000 Tabellen und Spalten auf den Datentypen von numerischen und relationalen Daten. Das ist kaum eine Textur, die Sie einen NFC und Burnaby finden, desto mehr off Betrieb aus. Dieser Anwendungsfall ist rein historischer Datenpool wird historisch passieren und der Datenzugriff wird passieren. Historisch. Es gibt keine Notwendigkeit für irgendeine Art von Echtzeit-Zeug hier. Wie sollte die Datenerfassung sein, dass die Datenerfassung ein voller Modus wird, in dem Sie Daten und eine pädiatrische Basis aus der Quelle ziehen werden, um sie zu schieben. Also die Spüle. Welche Art von Verfügbarkeit müssen wir wissen, dass die Daten in der Regel nach einer auf den verfügbaren Daten basieren ? Die Daten der Araber nach einem Tag? Das ist irgendwie OK, also ist das gut. Welche Art von Laden-Typ brauchten Sie das richtig? Eine Behandlung erforderlich. Eine Quelle. Sie möchten die Daten aus der CME einmalig in den Datenspeicher übernehmen? Und danach wird er nur in viele Banken führen. Du hast kaum noch einen drüber, oder? Weißt du, den Fall, dass das ein frei in diesem Jahr ist. Tut mir leid, tut so etwas, aber normalerweise wird es einmal richtig sein und du bist damit fertig und wirst für immer dort bleiben . Welche Art von Reaktionszeit benötigen Sie auf der Spüle? Daten? Diese Antwortzeiten haben gefragt. Das ist möglich. Sie werden es nicht regelmäßig benutzen. Jemand wird leben. Lesen Sie es. Und wenn sie wirklich brauchten, ist es in Ordnung an diesem Punkt. Wissen Sie, Sie haben sich etwas Zeit genommen, um diesen Weg zu laufen. Das ist in Ordnung. Es ist viel besser, als Bandsicherungen zu gewähren. Also ja, ich lobe dich. kann sehen, wie das Aufhören in Ordnung ist. Und es gibt kein Modellgebäude. Es gibt keine anderen mutwilligen Analysefunktionen, die ich in diesem Anwendungsfall benötigte. Ziemlich einfache, unkomplizierte Jahre. Wie würde die Architektur für einen solchen Anwendungsfall aussehen? Sie haben eine Datenquelle, das heißt, Sind sie mathematische basiert? Gewöhnlich eine Single. Sie haben eine basierte Verbindung, die Ihnen alle Daten eso für das Ziehen von Daten aus unserer Baby-Nachricht geben wird. Die große Frageoption wird Schaufel sein. Weil ich darüber gesprochen habe, ist die beste Spielerliste unser Tool in Everman Rd Bemis erworben und schieben Sie es an einen der Datenspeicher. So scoop ist ein Skript, das Sie es unter einen Scheduler setzen, fragen Sie einen Händler wie ein Kronen-Scheduler, der auf einer periodischen Basis laufen kann und saugt es aus dem Habemus auf. Da die Daten wirklich in keiner Art von Team oder irgendetwas brauchen, drücken Sie es einfach direkt in die Geschichte von uns. Bezahlen alter HTM wurde geschoben, ist in diesem Fall irgendwie genug, Fall, dass Sie ein wenig mehr Schema haben wollen und wollen, dass eine Art von Dampfer hier los wird . Sie können möglicherweise auch tun Zehe eine Partei hohe Bar Impala, wirtschaftlich schieben 60 und Sie können Impala auf sie setzen, um ihm eine dunkle tragen Pflege Fähigkeiten. Auch verwendet Impala der Kellner innerhalb Daten in die Geschichte von uns sind die Meinungen Entschuldigung Bive Um ein Schema auf der Außenseite mit Datenbank zu setzen und fügen Sie durch ein Budget Bienenstock auch, aber das ist eine gerade Dies ist aus der verbunden würde aussehen wie ein sehr einfache, unkomplizierte Architektur. Aber dies ist in der Regel der erste Schritt Architektur, die jede Organisation auf , dass das Leben auf allen ziemlich einfach zu bekommen . Ein guter Anfang. Das ist kaum eine Schule wegen Scheiterns in dieser Kunstsache, selbst wenn die Dinge schief gehen, Leute über die ich wirklich schreien, weil du nichts kritisches für die Firma tust . Dies ist also ein guter Ort für Sie, um jede Art von Big Data zu starten. Wenn das, was in Ihrem Unternehmen nicht ist, ist dies hilfreich für Sie. Vielen Dank 29. Case 2 Mediendatei speichern verwenden: Hi. Willkommen bei der zweiten Anwendungsfall-Mediendatei. Bewahren Sie Ihre Haut jetzt auf. Worum geht es in diesem Anwendungsfall? Es gibt ein Unternehmen, ein beschäftigtes Unternehmen, das ein Callcenter hat, in dem alle Anrufe aufgezeichnet wurden. Wenn Sie also irgendeine Art von Callcenter anrufen, würden Sie die Nachricht hören, dass aus Schulungsgründen normalerweise die Anrufe Rekorder sein werden, die auch aus Gründen, aus denen die Anrufe aufgezeichnet werden müssen, gesetzlich sind . Also, das wird eine Reihe von Mediendateien zu schaffen sind, was wir nennen sehr Dateien sind in mit auch immer ehemalige in MP drei Format-Weise, ehemalige was auch immer. Die Aufnahmen müssen von diesen Unternehmen für eine lange Zeit aufbewahrt werden, wie ihre Woche aus gesetzlichen Gründen für die nächsten sieben Jahre. Die Aufnahmen werden auch für analoge Schwänze Zwecke verwendet, weil sie typischerweise gibt es einige Selbst, die unter diesen Aufnahmen ist und verstehen, was passiert und kommen mit einigen Aufzeichnungen einige Analysen darüber, ob das, was der Agent ist Tun ist die weise Qualität. Geh in sein Alter und folge einem Drehbuch und allerlei Sachen. Es gibt also Dinge, die aus Strategiegründen an Finanztagen geworden sind und Aufnahmen sind, wissen Sie, eine beträchtliche Zahl. Und angesichts der Tatsache, dass ihre Statur, das Gerät ist Aufnahmen, wie man in einer Art und Weise gespeichert werden, dass es sicher vor jeder Art von Fehlern ist. Es gibt also Backups und Sachen, die nötig sind. Was ABC also tun will, hat keinen Wechsel von einer Band-Arcade, die sie bisher gemacht haben , weil Bänder schwierig sein werden, abzurufen und wieder in ein Online-Archiv zu bringen . Auf diese Weise können wir einige darüber informieren, dass alle auf die Daten verlassen, die dort sind, dass Sie auf diese Weise, wissen Sie, dass Sie die Daten immer online zur gleichen Zeit halten können. Stellen Sie sicher, dass es sich um das Etikett handelt und es auf sichere Weise aufbewahrt wird. Und ich kann einfach Also, was sind die Eigenschaften von diesen Anwendungsfällen? Die Quelle. Unsere Kontakte in Aufzeichnungslösungen auf den Datentypen sind eigentlich Medien für die Daten sind eigentlich Medien zuerst. Nun, diese Art von ist auch mit anderen Formen von Medien verwandt, die Sie verfolgen wollen, oder? Ich mag Aufnahmen, Videos, Audiofotos. Nein. Alle von ihnen fallen in die gleiche Art von Anwendungsfall Kategorie. Der Mörtel wird ein historischer Datenzug sein. Typischerweise die Tageszeit ist es verfügbar selten angeboten. Also ist es in Ordnung, du musst sogar zu den Aufnahmen wechseln. Da die Aufnahmen von der Aufnahme-Software passieren, nach kommt in der Regel und einige Anruf, nach so an einem separaten Ort gespeichert, separater Ort, weil es eine große Anzahl von Dateien ist. Gehst du täglich zu Leuten in den Dateien und schiebst dies auf das Repository? Der Lagertyp ist wieder einmal, es ist wie eine rechte Straße, viele Arten von Lagertyp und die Antwortzeiten, die Sie auf diesem wollen, ist so gut wie möglich. Weißt du, es sind wieder Aufnahmen, und es ist mir egal. Und es gibt kaum mehr als Gebäude, das benötigt wird. Dies ist die Art von Eigenschaften des Anwendungsfalles auf Wie funktioniert eine Lösung für den Anwendungsfall aussehen würde, wie wir mit einer Mediendatei beginnen, so dass die Datenbank, in der Regel gibt es, die das sehr groß findet. Sie werden nicht sein, dass die Medien fünf typischerweise Einkommen Art von einem separaten Standort, vielleicht in Online-Bildung, vielleicht ein separates Netzwerk mit einem separaten Netzwerk aus dem Rechenzentrum glauben, dass eine Möglichkeit sein könnte . Nun, da die South Files, wie wir sie verschieben wollen, ist, müssen wir sie auf ftp verschieben. Und wie wir über F Baby gesprochen gibt Ihnen eine große Fähigkeiten bewegen sich auf Kämpfe. Sie stellen das FTP unter einen Zeitplan. Es, Sir, kann immer mehr einen Zeitplan einschalten, wo jedes Feuer, was auch immer und ziehen alle neuen Medien fühlte, dass dort von dort, die Quellen auf dann diese Mediendateien können dann direkt in die Herz des Dateisystems, Absicherung der Bemühungen ein befragten beginnt immer Arcade und sind immer aus für immer. Nun, sobald die Daten in HD-Bemühungen sind, was Sie tun können, ist, dass Sie ein Medium auf einen Laser setzen können. Ein Medium auf einem Laser ist, ich nenne es an dieser Stelle eine sehr benutzerdefinierte mit dem Analysator, der es lesen kann . Diese Datendateien von Hitachi Evers und es sei denn, die Dateien und kommen mit einigen Erkenntnissen, wird dies als Tagging-Prozess bezeichnet, oder Sie nehmen eine Datei und handeln es für verschiedene Dinge, richtige Qualität, und dann Wasser bestellt ein verdoppelt und je nach Geschäftsszenario, Angriffe kann eine Menge Dinge sein, und es gibt weich weiter kann an der Stimme in diesen Mediendateien analysieren und in texanische umgewandelt . Dass es eine Tech-Städte umgewandelt hat, ist entweder Tag und alle Arten von Sachen. Und all die Ergebnisse, die Sie auf den Mediendateien haben, können Sie meine geheime Datenbank füllen , die ganze Steuer für jede Aufnahme und wie auch, alle verwandten Entitäten, wie war der Kunde war der Agent. Und solche Sachen können in Nome Eiszapfen in einer Bucht gesteckt werden. Also hast du eigentlich von uns und deine Fortsetzung. Dann können Sie eine benutzerdefinierte Medienberichterstattungslösung haben. Dies ist wieder üblich, weil es sehr spezifisch ist, die sehr spezifisch für die USA USA Fall, die Daten nach meiner Fortsetzung Datenbank bringen kann und Ihnen eine Art von Berichten über ich kann auch verwendet werden, um einen Spieler für die Aufnahmen zur Verfügung zu stellen , die da sind. Also schauen Sie sich einen Moderator für die Aufnahme an und dann kann er einen Spieler Zeh verwenden. Spielen Sie die Dateien auch, wenn Sie wollen, wenn jemand will, um sie von HP von uns senden. So können Sie eine Architektur für Mediendateien einrichten. Und wie ich schon sagte, ist dies eine ähnliche Architekturen, auch wenn Sie Dateien wie Fotos, Videos, Audiophile, jede Art von großen Dateien speichern möchten Videos, Audiophile, Audiophile, , die Sie Arcade möchten. Dies ist eine Art Template-Architekturen für Also die Lösung, Wie sieht es aus, als ob der Akquisitionsprozess sein wird? Sie werden Dateien tragen, Also wird es keine Ahnung sein, wenn so etwas ist es Dateien, die Transportschicht wird ftp ftp sicher bieten. Es verhindert Kompression auf es verhindert, dass Sie einfache Pflanzen, wo weiß, Tracking-Fähigkeiten und alles. Und das ist eine gute Sache mit f B B bleibt bestehen. Sie werden die Geschichte von uns für alle Mediendateien beharren und Sie werden meine Fortsetzung für jede Art von Analysedaten verwenden. Hier kommt also die Politik, nicht hartnäckig, ins Spiel. Sie versuchen, mehr als ein Formular aus Geschichten zu verwenden, sehr pflücken Pferde für Kurse, wo Sie all die großen Akten in zusätzliche Anstrengungen und alle Männer Belüfter , der nicht so groß sein wird, wissen Sie, und dass Sie das Fahrrad setzen, weil meine Fortsetzung gibt Ihnen einige ausgezeichnete Tragefähigkeiten die Transformation. Es gibt eine benutzerdefinierte Medienanalysator, dass es Software zur Verfügung, die kann, die eine Aufnahme hören und in Text umgewandelt und taggen sie und alle Arten von Sachen können. Deswegen nenne ich es einen Brauch. Es gibt eine Berichtsschicht. Entweder können Sie es Impala setzen sind. Sie können ein benutzerdefiniertes Berichtstool haben, das auslesen kann, das ausgelesen werden kann. Sie können Impala verwenden, weil in HD und SD Bemühungen und tun einige Analysen. Und Sie können auch ein benutzerdefiniertes Reporting für mich verwenden, wenn Sie eine wirklich benutzerdefinierte Lösung für Ihr Ding möchten . Und schließlich gibt es Fortgeschrittene. Und ich denke, in diesem Anwendungsfall gibt es niemanden Analysen. , Denken Sie daran,dass der Anwendungsfall, über den wir diskutieren, nicht, dass sie nicht wirklich isoliert sind. Regel in Ihrem Unternehmen haben Sie in Ihrem Unternehmendie Implementierungsfälle von zwei oder drei Jahren zusammen, und dann nehmen Sie alle diese Anwendungsfälle und kombinieren Sie sie, um eine Lösung zu erstellen. Das wird also passieren. Wir werden Use Cases separat betrachten, aber in Ihrem Unternehmen könnten Sie tatsächlich zwei, drei oder vier Jahre Fälle haben, und Sie müssen möglicherweise alle von ihnen nehmen und kombinieren und einen Gesamtarchitekten erstellen . Ok. Vielen Dank. 30. Case 3 Social Media Sentiment Analysis verwenden: Hey, willkommen im Anwendungsfall. Social Media Stimmungsanalyse. Social Media Analytics ist einer der sehr beliebten Anwendungsfälle für die Einbindung von Big Data in Ihre Organisation. Schauen wir uns an, wie dieser spezifische Anwendungsfall ist über so x rays, e News Corporation, eine Nachrichtengesellschaft, Nachrichtengesellschaft oder eine neue Cheerios General. Was auch immer Sie nennen möchten, verfolgt beliebte Themen und soziale Medien und verwendet sie für das Nachrichten-Reporting . Und das ist etwas, das alle Nachrichten-Kanal stand heute ist die Spuren ein beliebtes Thema für den Tag, ob diese Kugel Auspuff Sport oder was auch immer, und dann geben sie Ihnen einige Berichterstattung basierend auf, dass sie Art von analysieren und sagen, wie viele, wie viel positive Gefühle sind in der Welt über ein bestimmtes Thema geschehen und wie viel negative Gefühle, die passiert. Nehmen wir an, dass Sie uns vier Dampf nehmen und dann sehen, wie viel positive Empfindungen passiert, wie viel negative Stimmung zu seinem Geschehen über sie auf. In der Regel, wenn Sie ein beliebtes Thema auswählen, ist die Anzahl der Bitte, die passiert, riesig, oder? Es ist nicht so, als würdest du 100 bekommen. Wir werden heute 100 Tweets lesen, eine Sekunde. Und das ist die Art von Volumen, die diese Tweets normalerweise am Tag generieren. Wollen Sie auf die Straßen schauen, wie sie passieren und produzieren und berichten, vor allem, wenn für montieren soll. Manche könnten es wirklich. Sogar einige sogar das ist los und sie wollen es in Echtzeit erzählen. Wie veränderte sich die Stimmung der Menschen selbst als das, was los ist? Das ist wirklich, wirklich wissen Sie, so etwas wie eine willkommene Finalisten passiert. Und sie wollen unsere Leute sentimental assed Änderung verfolgen, wie das Spiel geht weiter, wenn einige Tore gehen alle die verschiedenen Veränderungen und Sachen wie das erzielt. Sie wollen also ein automatisiertes System, um all diese Social Media-Interaktionen zu beliebten Themen auf einige Echtzeit-Sentimentanalyse zu erfassen . SAAND Stimmungsanalyse, die Zusammenfassungen für die Nachrichtenleute sein muss. Und dann muss es auch unser Kind für die zukünftige Analyse sein, also wird das eine große, große Arbeit für sie sein. Wie gehen wir dann auf Design und Architektur für diesen Anwendungsfall? Schauen wir uns die Eigenschaften für diesen Anwendungsfall an. Die Quellen werden hübscher und Facebook, natürlich, natürlich, Sie können auch die anderen Social-Media-Websites enthalten, aber wir werden mit Twitter und Facebook beginnen. Sie haben uns beliebt. Das haben sie typischerweise. Die Themen von sind typischerweise Hashtag, also ist das Hashtags vorbei. Sie werden in der Regel beliebte Themen verfolgen. Die Datentypen werden die Tweets und Beiträge auf sein. Sie werden in Jason für sein, aber so geben sie normalerweise Ihnen und Jason für Monate die mehr Off-Operation hier, Israel Zeit, Israel Zeit, Echtzeit-Erfassung, Echtzeit-Analyse und Berichterstattung über den Datenfrage-Prozess ist werde Streaming verwenden, was ein Push ist. Technologie, die die Clients von Crypto, dem wimmelnden Streaming-Server und dann mit unter Tweets, geschah an dem Tag, an dem die Straße der Twitter dann ins Selbst geschoben hat. Kleber, die Verfügbarkeit hier, Israel Zeit. Es muss in Echtzeit durchgeführt werden, und das ist auf dem Flug und Ketzer, und die Lagerung ist richtig. Viele lesen viele. Sie würden sich fragen, warum die Website manövrierbar gerade da. Sieh dir das an, während wir mitmachen. Das Beispiel und die Antwortzeiten werden in Echtzeit sein. Wissen Sie, sie in der Regel ziemlich schnell herum, weil das Ganze in Echtzeit auf dem Modellbau geschieht , ist durch Stimmung, Analyse und bevorstehende, und dies ist eine Verdickung ihrer Bibliotheken zur Verfügung , die Sie verwenden können, um Stimmung zu schaffen, Analyse und sogar eine in der Regel kommt mit ah positive Stimmung, negative Stimmung in einer schönen Stimmung. Es bietet auch einige zusätzliche Funktionen, um zu verstehen, ob die Tweets glücklich sind, so wütend. Weißt du, diese Art von Zeug fällt. Es hängt von der Bibliothek ab, die Sie verwenden. Wie sieht die Architektur für die Nachnamenanalyse aus? Wir beginnen mit den Quellen, die Facebook- und Twitter-Quellen sind. Diese Webseite. Probate Probleme beim Streamen von AP A-Funktionen als ein Jahr zu gehen, erstellen Sie eine App auf diesen auf dieser Website und richten Sie dann einen Streaming-Streamer ein. Dann wird Ihr Gericht sich an diese Streaming-Haken haken, und dann werden sie einen Datenstrom erhalten, wie und wenn sie geschehen, wie bekommen wir die Daten aus dem Transport? Wir werden diese Ströme holen und Kafka anbringen. Kafka hat einige direkte Haken in Twitter und Facebook. Auf diese Weise können Sie Husten dramatisch konfigurieren, die Twitter und Facebook durchführen und die Streams auf erhalten , wie diese Streams geschehen, Kafka kann diese Streams erhalten und sie dann über verschiedene über Ihr Netzwerk transportieren, wie verschiedene Themen auf diesen Stopps. Themen können dann von jedem Kunden so groß sein. Und dann kann das Flugzeug tatsächlich alle Themen aussaugen und sie benutzen. Wie werden wir das analysieren? Daten sind durch Funken, Trimmings und Funkenstreaming. Sie werden einen Funken-Streaming-Client einrichten Jodi Kafka auf der Kafka wird weiterhin die Daten veröffentlichen, die aus sozialen Medien kommen, in den Funken Streaming auf. Dann Spark wird weiterhin hören, um die Streams auf es wird analysieren auf dem Flug wird zu trennen aggregieren die Tweets, die kommen in durch Themen und dann nach Thema ist es zuversichtlich beginnen Aggregierung auf. Dann kann es wie Sekunde für Sekunde, Minute für Minuten tun . Unabhängige Analyse kann tatsächlich Stimmungsanalyse auf jedem Tweet, der in kommt. Und dann kann es auch die Daten auf aggregieren. Dann, sobald es hässlich die Daten gegeben hat, können Sie sie in Cassandra schieben. Warum tun wir einfach, Cassandra? Ist das, wie wir über Cassandra gesprochen haben, ist eine gute Option, wenn Sie nicht tun, knacken alles unsere eigenen ein bestimmtes Objekt. In diesem Anwendungsfall ist das Objekt das Thema. So wird jedes Thema einen Rekord in Cassandra haben. Bei allem, was Sie zu ihrem Thema bekommen, werden Sie Cassandra verwenden, um einen Datensatz für das Thema zu erstellen. Und dann aktualisieren Sie diesen Datensatz Esel und wenn Informationen über das Thema in Bezug auf Empfindungen ständig kommen , so dass Sie Stimmungszähler für das Thema haben können, während es weitergeht. Das ist, warum ich sagte, es ist die richtige viele große Geld-Situation. Der Cousin fährt dafür großartig. Du könntest ein großes Wunder haben. Schneiden Sie ein Thema aus, und Sie aktualisieren diesen Datensatz immer wieder, als und wann sie zu diesem Thema kamen . Also, das macht Cassandra hat eine große Abfrage erzählt Telefon über. Die Hochzeiten sind ein bestimmtes Objekt. Natürlich werden Sie eine benutzerdefinierte neue Zusammenfassungsanwendung haben, die Ihre eigene News-Anwendung ist, die aus Cassandra konstruiert und Ihnen die sind groß in einem Monitor aller Boote und Zahlen und Diagramme und alles, was Sie für Ihre Leser veröffentlichen möchten. Unsere Zuschauer sind da drüben zu Hause, und natürlich benötigen Sie ein individuelles Themenkonfigurationssystem, das Sie wissen müssen, dass Kalb Funken binden kann welche Themen sie suchen sollten. Also brauchen Sie eine benutzerdefinierte Feuerlöscher, die Sie immer sagen können, um Manschette kann auf Funken streamen als Token diese anderen Themen Ich möchte, dass Sie hören Prozess und als und wenn die Top-Scores und sie werden anfangen, diese zu hören -Konfigurationen und veröffentlichen Sie sie weiterhin. Auf diese Weise nutzen Sie die Big Data-Funktionen, wie Sie von Spark und Kafka und Kassandra sehen können. Während Sie sich auch Ihr eigenes Gericht beschwert oder Ihren eigenen Gefangenen Anwendungsfall in Bezug auf die neue Zusammenfassung und Themen Feuerbrand und diese Wertschöpfung insgesamt Ah, Big Data-Architektur für Stimmungsanalyse Umzug zu einer Zusammenfassung der Lösung . Dieser Frageprozess wird weitergestreamt werden. Wie wir wissen, wird Streaming von allen Social-Media-Websites unterstützt, so dass dies eine beliebte Option für die Datenerfassung ist. Das Transportmodell wird Kafka sein, weil Kafka bietet Ihnen eine skalierbare keine Möglichkeit der Sie Daten transportieren können und Sie Cathcart Themen basierend auf den Themen, die Sie hören möchten, dass wir, die brauchen das Thema und solche Grab und Hör ihnen zu. Persistenzschicht wird Kassandra sein, weil Kassandra Ihnen eine gute Möglichkeit gibt, Informationen rund um das bestimmte Objekt zu speichern . Und dieses Objekt wird in diesem Fall das Thema sein. Sie denken also, das Thema und speichern alles rund um dieses Thema in Kassandra, die Transformationsschicht ist Teil einer Partei, weil es Ihnen eine Echtzeit-Stream-Abonnement-Transformation , Erweiterte Analysen, alle von ihnen in 11 Schuss lassen einen Esel. Und wenn Sie auf die Spitze hören, können Sie alle von ihnen in einem kurzen zu tun und dann tatsächlich erhalten eine weitere Auswahl innerhalb von Sekunden. Die Berichtsschicht wird eine benutzerdefinierte Anwendung sein, um das Gas unter Daten zu lesen, und es kann Zusammenfassungen für die Nachrichten und dann zeigen alle Arten von Grafiken wie sehr spezifisch toe die Nachrichtenfirmen, oder wirklich nicht fortgeschritten -Option. Eine Reihe von benutzerdefinierten Option auf Advanced Analytics wird Sentiment Analytics sein und sie Bewohner dessen Partei Funke, die Sie auf dem Flug Stream Verarbeitung gibt. Nun, wenn Sie sich diese große Nachrichtengesellschaft zu jeder Zeit schauen, hören wir eine Menge von Themen und das sind sehr beliebte Themen. In Bezug auf die Anzahl der Tweets wird es zu diesen Themen eine Menge Trending geben . Soto handhaben diese Art von Volumen. Sie benötigen eine Big Data-Art der Einrichtung Toby, um zu verwalten, dass glühte und immer mit analogen Daten zu kommen . Aber wenn Sie versuchen, das Gleiche für Ihr Unternehmen zu tun, und wenn Ihr Unternehmen nicht ist, würde ich Popular fragen, wie ein Präsident aus den Vereinigten Staaten und Sie werden nicht so viele Tweets bekommen . Möglicherweise brauchen Sie diese Skala nicht von einer Struktur, aber Sie können immer noch Zerstörung aufbauen, weil diese ganze Sache, über die wir gesprochen haben, immer noch auf einer Mission laufen kann , kann über mehrere Noten skaliert werden. Nun, das ist das Tolle an Big Data. So können Sie dies erstellen und weiter skalieren, wenn die Zeit auch vergeht, so dass ihre Lösung passt. Selbst wenn Sie alles in einer einzigen Box ausführen möchten, möchten Sie wirklich auf Hunderte von Servern skalieren? auch Das istauchdas Tolle an Big-Data-Anwendungen. All das war hilfreich für Sie. Vielen Dank 31. Use Case 4 Kreditkartenbetrug erkennen: Hi. Willkommen in diesem Anwendungsfall. Kreditkarten-Betrugsproduktion. Dies ist ein sehr beliebter Anwendungsfall. Wann ist es ein beliebter Anwendungsfall? Es gibt viele ähnliche Anwendungsfälle wie diese, wie dieser möchte Wenn Sie sich Spam anschauen, der unser Netzwerk in die sh-Einführung filtert , sind sie alle ähnliche Anwendungsfälle im Allgemeinen, Sie versuchen, eine Menge Ereignisse, die passieren. Welche der Even möchten Sie klassifizieren? Diese Ereignisse sind entweder gut oder schlecht. Das ist es, was wir tun wollen. Also einer der Anwendungsfälle, die wir versuchen, mit hier umzugehen So ein Visa-System läuft von ihrer basierten Retail-Lösung sehr ähnlich Toho Amazonas, wo Kunden können , natürlich, kommen, um jede Art von Produkt. Dies wird überdacht. Ich würde größer im Kopf mit einer Menge Leute kaufen für eine Menge von Produkten und eine große Geschicklichkeit basierend auf unseren Leseshop, manchmal Kreditkartendieben. Sie benutzten gestohlene Kreditkarteninformationen, um den Propheten Jesus zu machen. Also die Flasche aus dem Sommer noch die Bestätigung Dann setzen Sie in das und machen einige Käufer und nach einiger Zeit wegen der kritischen Unternehmen haben diese die Sie tatsächlich könnte Geld verlieren, wenn die Kreditkartentransaktionen erwies sich als betrügerisch. Das führt also zu Einkommensverlusten. Also, was Ihr Unternehmen tun will, ist, dass sie ein Kritiker in Echtzeit klares Kartenbetrug Prognosesystem setzen wollen , so dass, wissen Sie, wie die Transaktion stattfindet, Sie sehen können, ob dies eine betrügerische Transaktion auf Sie ist . Kann einige einen Block es vor dem Auto, der Kunde tatsächlich etwas kaufen und dann mit ihm weitermachen. Also eines der Merkmale der Lösung Also die Quelle von den Daten ist so einfach, Web-Transaktionen auf Daten in Echtzeit erfasst werden. Sie erfassen also nicht nur die Zahlungsdaten, sondern erfassen auch das Verhalten des Benutzers. Wenn der Benutzer also von Seite zu Seite über Ihre Website navigiert, versuchen Sie, das Verhalten des Benutzers zu verfolgen. Außerdem, weil Sie all diese Informationen haben wollen, um herauszufinden, ob eine Transaktion für Irland ist oder nicht, in den späteren Zeiten, in denen Sie es mit einem numerischen Serum zu tun haben, gibt es keine Textur. Dies sind mehr Ereignisse darüber, welche Seiten angeklickt werden und was niemand ihren zahlreicheren Krater verdoppelt . Es könnte Text geben, aber nicht ich bin nicht, wie, wissen Sie, Megabyte oder Gigabyte Text, den wir mit Ihnen für jede Transaktion zu tun haben, die Motoren Art von Echtzeit und historisch, aber es geht, gibt es in einer historischen Datensammlung, aber die Vorhersage geschieht in Echtzeit. Daten. Akquisition ist ein Push mehr Akquisition, weil jeder Browser wird es Daten wie und wenn die Ereignisse auf dem Browser passieren, der Kerl, der Benutzer tatsächlich Dinge auf dem Prozess zu tun. Diese Ereignisse werden möglicherweise von John JavaScript direkt in Ihr Datenerfassungssystem geschoben . Die Verfügbarkeit wird in Echtzeit sein, da Vorhersagen in Echtzeit und in Echtzeit passieren müssen . Sie werden vorhersagen, ob es sich bei der Transaktion um eine betrügerische Transaktion handelt oder nicht. Reaktionszeit muss viele Augenblicke sein, weil ich sagte, das ist wirklich bezahlt. Die Produktion muss ich sein. Sie können die Verwendung der großen nehmen, bis Sie das tun, viele der Transaktion ist eine fruchtbare und sind nicht hier, um es dann zu tun. Und da ist der Modellbau beteiligt, die Binah Reklassifizierung, die einstuft, ob eine bestimmte Transaktion betrügerisch sein wird oder nicht. Es gibt also ein Banner-Reklassifizierungsmodellgebäude, das ist das. Jetzt möchte ich noch einmal über all diese Anwendungsfälle, die wir diskutieren, sehen, ist der Fokus für uns auf den Architekten, der die Gesamtlösung erstellt. Wir werden nicht auf bestimmte Spezifikationen konzentrieren, wie das Rechenzentrum. Was die Datenwissenschaftler in Bezug auf den sterblichen Aufbau darauf tun würden, ist eine große und so etwas . Das ist das Datum, an dem dieser Job zugewiesen wurde, nicht der Architect-Job. Als Architekt möchten Sie eine Infrastruktur zur Verfügung stellen, die diese Art von Datenummauerung verarbeiten kann, alle Big Data verarbeiten und bieten Ihnen die Fähigkeit für die Datendaten-Ingenieure und das Datum, das uns zugewiesen wurde Modelle, nicht wirklich das Modell zu bauen. Es ist aus. Sieben. Dieser Kurs konzentriert sich auf die Big-Data-Architektur, die es andere natürlich gibt, wie Sie tatsächlich bauen würden. Die Modelle sind es nicht. Das ist nicht das, was wir hier fokussieren. Nur f y Kreditkarten-Betrug Schutz. Wie würde das funktionieren? Wir beginnen mit einem Custom mit Zahlung aus nur die Anwendung Ihres eigenen Unternehmens, in der die Leute werden sich anmelden, um verschiedene Produkte, die Sie anbieten, auf. Dann klickst du auf sie, legst sie in den Warenkorb und so was. Jetzt haben Sie vielleicht Hunderte von den Diensten besucht, die tatsächlich diese Anwendung bereitstellen, und es könnte Tausende von Benutzern zu jedem Zeitpunkt geben. Halter, mit dieser Anwendung Zehe tatsächlich klicken und kaufen und neue Arten von Sachen. Also diese Web-Anwendungen erzeugen eine Menge von Gleichgewichten, wie der Benutzer lieben. Ein anderer Benutzer navigiert von Seite zu Seite, und all diese Ereignisse werden direkt an den Apache Kafka gesendet. So Husten verursacht in der guten Verwendung, um all diese Web-ebens zu bekommen und dann und dann transportieren diese über Ihr Netzwerk in uns und Verzögerungen Data Store. Also ein Patrick, nachdem ich weiß, dass würde auf all diesen Wiederholungen mit Patrick Classical Client auf die absurd schieben, schiebendas Datum und die Apache Kafka im Netz für Hustenzauber aus Gas eingesetzt absurd schieben, schieben werden. Ich war mit ihnen, um Colette zu versuchen und alle Daten zu kombinieren und sie in eine mongo db mongo db Datenbank zu schieben . Je länger das Warten, jeder wird anfangen, die Daten zu sammeln, und wie sie jetzt hereinkommen, würden Sie auch Betrugseingaben eingeben, was, wissen Sie, welche Transaktionen tatsächlich Betrug waren , die Sie ab November finden können. Aber das ist typischerweise entgegengesetzt. Tatsache der Arbeit, wie Sie wissen, Sie finden in der Regel heraus, einige Transaktionen später Sind betrügerische Transaktionen auf diesem Eingang uns von extern zu kommen auf Mark Jede der Datensätze als Tokyo Dies ist ein betrügerischer Datensatz ist nicht für die Land, Ricardo. Sagen Sie, welches gut ist und welches schlecht ist, denn diese vorherige Identifikation ist erforderlich ein Modell für die zukünftige Vorhersage zu erstellen. Also, dass Betrug und setzen uns von außen morgen kommen, jede dieser Aufzeichnungen, entweder betrügerisch oder nicht. Jetzt, wenn Sie das tun, dann könnten Sie Apache Funken zu arbeiten. Apache Spark wird alle Transaktionen betrachten, die in mongo db auf dieser Transaktion vorhanden sind , als betrügerisch gekennzeichnet oder nicht. Und Sie beginnen, ein Modell zu bauen, das sagen wird, Sie wissen, welche Art von wie betrügerische Transaktion sah aus wie was bekannt ist betrügerische Transaktionen und verwenden, um ein Modell zu erstellen, das tatsächlich vorhersagen kann, wann die Transaktionen passieren. Damit kann dies eine betrügerische Transaktion im Norden sein. Sie bauen also ein Modell, und das Modell selbst kann gegen den hinteren Zeh der Mongo DB sein. Es ist auch, dass Sie historische Daten auf Mongo DB und den Modelllisten gespeichert werden, die in Mongo gespeichert werden . DB aktiviert ist, kann ein Modell im Speicher innerhalb von Apache Spark eingelöst werden, wenn Sie möchten. Oh, und behalte das auch jetzt, wie wird die eigentliche Vorhersage passieren? Sie würden tatsächlich eine weitere Betrugsprognose bei diesem ist eher wie ein Web-Freund. Und für Apache Funken selbst. Eine neue Anwendung, auf die Ihre Web-Zahlungsanwendung ansprechen wird, tut, wenn der Kunde tatsächlich klicken und sagen, Dies ist alles meine es ist. Ich möchte das kaufen und sie gehen und klicken Sie auf Kaufen Dann das Web, abwesend eine Anfrage an die Betrugsschutz-App, fragen Sie, ob Hayes ist eine betrügerische Transaktion, Nicht, wissen Sie, Und dann die Betrug Schutz Abdin veröffentlichen, dass Apache Spark jetzt über diesen Teil wird dann alle Informationen verwenden, die es am meisten über die Transaktion auf dem Modell hat es bereits auf Verwendung beide von ihnen gebaut , um eine Vorhersage zu machen, ob diese bestimmte Transaktion ein Betrug Transaktion oder nicht auf. Dann würde das wieder loswerden, um den Betrug Schutz nach oben, die es auf das Verb zurücklegen würde passiert in der hinteren Hals Exam Aktion zu sagen, es gab, dass Sie nicht kaufen, dies der Zeit oder kontaktieren Sie unseren Kundenservice-Präsident, was Sie wissen. Aber das ist, wie Sie einen Kopf nach oben eine Betrugsproduktion einrichten? Nein. Sie können eine ähnliche Sache für Spam-Reduktion für E-Mails, Zeitreduzierung für alle Nachrichten tun, können Sie eine ähnliche Architektur für Netzwerkeinbruch, Richtung, alles tun. Dies ist wie eine ähnliche Vorlage, die Sie für all diese Art von Anwendungsfällen aus der Lösung spielen werden . Sehen Sie aus, als ob eine Frage von Daten durch Web-Evens ist. Dies wird also von Ihrem Kunden darüber generiert. Sie sind für Ihre Organisation bei der Bereitstellung konzipiert. Sympathische Form. Die Transportschicht wird Wadenwagen sein, weil Kafka bietet einen zuverlässigen Echtzeit-Transport für Datenlabel und skalierbar auf, die Daten von all diesen Reps Servern sammeln und dann verpflichtet sie in einem Mongo db ein Munger TV ist eine gute allgemeine Zweck keine Fortsetzungsdatenbanken, in denen die arabischen Ereignisse und Transaktionen akkumuliert werden können und die Modelle, sondern auch gestohlen werden können. Mongo db die Transformationsschicht in diesem Park, so dass Sie Parker tatsächlich verwenden können. Schauen Sie sich die Ereignisse an und, wissen Sie, etwas Transformation machen, machen Sie einige Zusammenfassungen und was auch immer Sie bauen wollen, um dies zu bekommen ein Datum bereits für sterblichen Körper, obwohl wir nichts gehört haben für Berichterstattung hier. Da es sich um mongo db handelt, können Sie eine Berichtsschicht auf die Daten setzen, die bereits in Mongo DB vorhanden sind, und dann einige interessante Berichte bereitstellen. Auch, wie ich bereits sagte, obwohl wir uns jeden dieser Anwendungsfälle isoliert angesehen haben, normalerweise in einer Organisation, werden Sie zwei oder drei Jahre Fälle bekommen und Sie werden über alle Lösungen . Bringen Sie sie alle zusammen. Advanced Analytics Sister Sparked Herbal, ein binäres Klassifizierungsmodell, sollen vorhersagen, ob eine bestimmte Transaktion betrügerisch ist oder nicht. Das ist alles, was Sie eine Lösung in Kraft setzen, wie Sie dies wieder eine Architekturlösung ist , sagte ich, das Datum zugewiesen Ist es sowohl die Mühe, wie das Modell tatsächlich gebaut wird. Und welche Attribute und Features werden verwendet, um den Mörtel zu bauen. Aber Sie konzentrieren sich hier auf den Architekturteil. Hoffentlich ist dies hilfreich für Sie. Vielen Dank. 32. Anwendungsanalyse von Fall 5: Hi. Herzlich willkommen zum Vortrag über die nächsten zwei Jahre. Case Operational Analytics Operation and Analytics ist ein großes Feld im Bereich der Big Data , vor allem, wenn heute viel außerhalb der Unternehmen in die Cloud umziehen. Und eine Menge von diesem Club Big Centres Day ist nicht die Erde als ah, Gastgeber von Webster war wie Hunderte von ihnen. Und dann wollen sie in der Lage sein, die Operationen von allen Servern aus zu verwalten. Sehen Sie sich die Integrität der Server an. Stellen Sie sicher, dass keine Fehler verhindert werden, dass Wir dachten, die auftreten. Also, was ist das? Sie erschrecken die Ihre Haut ist sehr ähnlich. So betreibt ABC Systems eine Cloud-basierte, das Rest Center mit Hunderten von Knoten im Rechenzentrum muss 24 mal sieben betriebsbereit gehalten werden. Was auch immer sie tun. Die laufenden Hunderte von William Notizen auf jeder dieser Veum Noten haben Anwendungen laufen auf ihnen. Also der Norden selbst erzeugen eine Menge von Craps und Alarme wie CP verwenden Alter Speicher, sagten Sie, und die Anwendungen auf den Notizen laufen, die eine Reihe von Protokollen erzeugen. Ich meine, einander Protokolle, die kommen, gibt es definitiv kritische Protokolle, die wie, Weißt du, es gibt einen Fehler in kritischem Ausfall passiert. Es könnte Warnmeldungen geben, und es gibt, dass viele berüchtigte Bereiche wären aktuelle Nutzung und so etwas. So brauchen Sie einen Weg, um in all diese Protokolle, die aus jedem dieser Notiz kommen in der Lage sein , allem auf die Freundschaft zwischen verschiedenen Arten von Protokollen und dann, wenn kritische Informationen kommen, und Sie wollen ableto diese kritischen Informationen in Echtzeit auf geehrt die Benutzer verarbeiten. Was weniger anbelangt, möchten Sie die historischen Informationen, Zehendendriten und Statistiken speichern . Also, um in der Verwaltung zu helfen, wollen sie ein Berichterstattung analogen System, das ihnen die folgenden bieten wird einrichten. Sie wollen in Echtzeit schauen, keine Gesundheitsüberwachung in Echtzeit. Sie möchten wissen, ob es Notizen gibt, die sich in einem kritischen Zustand befinden. Sie wollten historische Ursache Analyse von Problemen, das ist, dass sie auf die Protokolle im Allgemeinen schauen wollen und wollte historische Analyse und versuchen , herauszufinden, ob es irgendeine Art von Mustern und wie ah Fehler passieren könnte und Sachen wie das. Und schließlich wollen sie auch Notenfehler vorhersagen. Was heißt, können wir uns die Reihenfolge der Protokolle ansehen, die hereinkommen, und dann sehen, ob diese Art von Muster später zu einem Fehler führen würde? Und wenn ja, wie können wir dann vorgehen und diese Art von Misserfolg verhindern? Und das wollen wir mit Operationen in Elastic Dexter am Tag tun. Möchten Sie einen Utah Architekt mit größerer Lösung, um das gleiche zu lösen? Also, was sind die Eigenschaften von diesem Tag? Diese Art, diese Anforderung, die Quelle der Daten wird Serverprotokolle sein. Keine Serverprotokolle werden von Williams generiert, und Anwendungen werden in der Regel dieses Protokoll übertragen. Sie werden alle fünf Minuten, 10 Minuten überrollt , je nachdem, wie sie es verwendet haben. Sie können tatsächlich in unsere Monitore auf diese Liebe setzen. Wenn also neue Protokollnachricht in das Protokoll eingefügt wird, die gesaugt und den Datentyp, der uns eine Textnachricht gesendet wird, propagiert werden kann , sind nur keine Protokollnachrichten typischerweise Textnachrichten, aber sie haben auch einige drei Verteidigungsstrukturen wie es wird mit der Zeit beginnen als es gemacht hat. Habe keinen Namen und so was. Je mehr Operation wird wirklich Zeit sein, weil wir wirklich wollen, ich bin Gesundheitsinformationen. Die Datenerfassung wird Streaming oder Push sein, wo Agenten oder Kunden auf jeder dieser Notiz sitzen würden . Ich habe alle Protokolle angehört, die in diesen Notizen geschehen, wenn neue Protokollmeldungen , die diese lange passieren, aufgenommen und in eine Branche jedes Teams geschoben wurde, muss Echtzeit sein, weil wir versuchen, die Daten in Echtzeit zu überwachen, geht in den Laden-Typ wird schlagen, oder? Viele lesen Geld, und das liegt daran, dass dies ein Anwendungsfall ist, in dem Sie versuchen, jeden Norden zu betrachten. Jeder Knoten wird dann wie ein Objekt. Du willst also alle Informationen rund um ein Objekt verfolgen, das die Notiz oder die Leichenbox von, ähm, ähm, wie auch immer du es nennen willst. Sie werden also einen Notendatensatz erstellen, und wir werden diesen Datensatz häufig mit dem aktuellen Zustand und dem historischen Zustand betreiben , und Sie werden auch die Daten für Berichtszwecke lesen. Diese Reaktionszeiten werden in Echtzeit sein, weil Sie echte Namen Netzwerküberwachung haben wollen , und das Modellgebäude wird Klassifikationen in jeder Art von Klassifikationen Toe sein. Wie auch immer Sie fair zu klassifizieren, Sie sind nicht immer noch sagen Notenfehler. Also, wie sieht die Architektur aus, als starten wir mit einer Web-Note von Farm, die eine Form von Beobachtern ist, sind moto. Wie auch immer Sie diese konstruiert haben? Ondas, keine Landwirte gehen wieder. Dreadlock-Nachrichten, die in die Apache Grippe geschoben werden. Eine Party-Grippe? Ist das eine der besten verfügbaren Optionen für Sie Sperre zu verbreiten, so dass Sie eine Party Grippe setzen . Agenten auf jeder der Notizen dort im Norden kümmern sich um das Saugen und die Daten von jedem der Sperren an und schieben dann auf einen zentralen Strom aus Protokollen, die Zehe von diesen fließen, die eine Partei von Servern Agenten sind. Früher waren wir nur das Ziel? Jetzt müssen die Daten, die in Apache Flume kommen, für zwei Zwecke verwendet werden. Sie möchten Echtzeit-Gesundheitsüberwachung durchführen und auch Sie wollen einen Zehe gestartet, kann keine Analyse. Also haben Sie zuerst eine Spüle für diese Etage eingerichtet, die für eine echte Gesundheitsüberwachung gedacht ist, was Funken-Streaming sein würde, also setzen Sie Funken-Streaming in die Mitte. Also wird es sich um die Ereignisse in Echtzeit zuerst um Gleichgewichte, die für Sie kritisch sind, schauen. Sie müssen also nicht wirklich sein. Wir schauen uns nicht das ganze Protokoll an, Mrs., Mrs., denn es könnte Tonnen von Log-Nachrichten geben. Du konzentrierst dich auf wirklich ernste Probleme. So fühlten Sie sich in all diesen Log-Nachrichten in unserem Budget und Funken-Streaming und dann möchten Sie sie wie eine Immobilie wie möglich verwandeln und schieben Sie das in Passagierart. Kassandra. Willst du eine Platte aufbewahren? Aber nein. Und diese Wunderkarte wird immer wieder operieren, mit all den angefangenen Stöcken und allem, was man über den Norden findet. Und das ist, was ist mit Cousin, der besser für den Funken geeignet ist. Streaming dient zum Filtern von Daten zur Zusammenfassung von Daten in Echtzeit, Einfügen in Kassandra und kann für Echtzeitschutz verwendet werden. Sie haben also möglicherweise historische Daten, die Sie verwendet werden, und erstellen Modelle vor oder Vorhersagen von Fehlern auf dem gleichen Funken. Streaming-Instanz kann verwendet werden, um Fehler für die Noten auch vorherzusagen, und das wird auch eine geflochtene in Cassandra. Mit Cassandra können Sie Operations Dashboard setzen, vielleicht ein benutzerdefiniertes Operations-Dashboard. Sind Sie bei diesem Party-Produkt? Weil Sie wissen, ein Echtzeit-Monitoring. Es ist eine große Sache, in die Sie investieren möchten, und ein gutes Dashboard, das lesen kann, dass andere Kreditgeber in der Burg Grande halten Ihnen Echtzeitanalysen wie Note für Note, Staat als unser jemand der Notizen Verräter zeigen . Und ich werde aufstehen, wenn Sie unten sind, Harmonie aus dem Risiko, auf eine Menge Dinge wie das parallel zu gehen, Sie wollen auch fragen, alle Log-Nachrichten, die Sie in die Geschichte bekommen eine erste für zukünftige Analyse alle Gesetze Ihrer immer geht und drängte Everton Keeper geben so viel wie Sie wollen. Dies ist ein zweiter Kanal, den du öffnest, in den du Daten in Extreme und die New Yorker Input deponieren wirst. Eine weitere Instanz von Funken gibt, deren Aufgabe es ist, diese 60 US-Daten und historische Mode zu analysieren Go. Das wird auf meiner ganzen Holzliebe sitzen, auf der sie kommen. Dann kann es die Stilistik von Norden sammeln und dann eine Kassandra betreiben. Aber alle Arten von Status Aufkleben Zeit Ausfallzeiten und Metriken und oder CPU-Variationsauslastung regelmäßig alle Arten von Sachen. Dieselbe Apache Spark-Instanz kann auch zum Erstellen eines Modells für mehr Fehler verwendet werden. Und dieses Modell kann auch im Passagier aktualisiert werden , der dann tatsächlich von den realen Time Street Sparks verwendet wird, behauptet Instanz, um Fehler an dem gleichen Datum vorherzusagen, an dem ich ausging, weil ich auf der Operationen, die Dashboard für Start und Analyse. So erhalten Sie einen Datenstrom und verteilen ihn dann in Echtzeit und historisch auf. Sie haben kritische Probleme in Echtzeit durchquert. Und dann werden Sie den Rest des Zeugs historica verlassen und dann das Operations-Dashboard füllen. Sie können eine Frage stellen. Warum können wir nicht alles in deinen Stift stecken? kannst du. Aber dann müssen Sie für diesen Wandnamen der Datenverarbeitung sorgen, richtig, denn in Echtzeit können Sie sich keine Verzögerungen leisten, und die Datenmengen, die Sie drängen werden, lachen. Sie haben die Zehengröße. Statue eines Non. Die Zahl der Kosten für die Lösung wird gehen, weil Sie investieren, dass Geld Anzahl Servern, die eine Paddelverarbeitung von Daten gehen und schieben Sie das Datum und Cassandra in historischen Daten, die Sie sich leisten können, einige Verzögerung leisten können. So wissen Sie, was Sie brauchen, ist Maura Warteschlangenmechanismus auf dieser Warteschlange wird Ihnen von hexi Bemühungen zur Verfügung gestellt . Ich Steven werde sie immer wieder abwerfen und es für dich tun. Und Sie können diese Daten auch in Ihrer eigenen Zeit über Apache Spark verarbeiten und in Passagier legen . Es ist also nach Ihnen, wie viel von den Daten, die Sie zwischen der Echtzeitzeit im historischen aufteilen möchten , wollen Sie alle resultierenden Wollen Sie alles abdecken , aber dass mehr Sie in Echtzeit ruinieren möchten, desto mehr Investitionen, die Sie in Bezug auf Hardware auf Barrel Operationen machen, lassen Sie uns die Gesamtlösung überprüfen, die wir in. Die Frage der Daten wird in Sperrdateien sein, die in diesem Verschiedene von Williams erstellt werden und Anwendungen, die die Transportschicht wird von Agenten geflogen werden, sind wichtig. Jede dieser Notizen, die unsere Hilfe helfen, alle Log-Nachrichten zu erwerben und sie durch eine Schicht Grippe zu transportieren , kann in einer einzigen Box von Magen Multi-Back-System eingerichtet werden, abhängig von der Skala Fähigkeit und das kann einfach den ganzen Tag nach unten durch die große -Daten-Layer. Beharrlichkeit. Wir verwendeten HD von uns zum Speichern von Rohdateien und Kassandra speicherte Zusammenfassungen von jedem Knoten , den Sie Transformation haben. Sie werden Apache Spark für Echtzeit-Stream-Subskription und Transformation für Computing verwenden . Wirklich, ich frage mich Statistiken und auch für die Vorhersage eines Knotenfehlers auf dieser gleichen über diesen Teil würden Sie für alle gekleideten, radikalen Log-Analyse und Statistiken verlieren . Sie werden sehen, dass die einzige Option, die ich in allen Anwendungsfällen für die Transformation Fortschritts unserer großen Schwesterparty Spot verwendet habe, weil das scheint die beste verfügbare Option zu sein , die Ihnen die Skalierbarkeit in der Arbeit bieten kann, dass Sie brauchen. Heute können Sie unsere und von Morgendämmerung für Analysen verwenden. Aber das ist mehr für einen sehr kleinen Maßstab. Betrieb Berichterstattung Dritte sind Partei wichtig Sache. Diese Art von Lösung erfordert ein gutes Reporting-System, denn wenn Sie Echtzeit-Überwachung durchführen , werden Sie tatsächlich so Geld Monitore dort oben haben. Das wird ein Operationszentrum, in dem Sie all diese Überwachung auf Ihre Weisen haben werden und die Leute ständig schauen sie an. Sie möchten also in eine gute Lösung auf dieser Party-Lösung investieren, die zu Ihnen auf Advanced Analytics passt , Natürlich. Durch Organe wirft Park für die Gutschrift Norden Misserfolge auf die Misserfolge. Informationen werden auch als Teil desselben Datensatzes in den Notizen gespeichert. Ich erinnere mich, dass du im Fall von Cassandra nicht so viele Reihen haben wirst, sondern du wirst so eine Geldspalte haben. Also gibt es einen großen Tag in Bezug auf das bisschen abseits der Straße, nicht in der Anzahl der Zeilen, die Sie haben, dass. Also benutze ich Cousin Russisch. Ich hoffe, das war hilfreich für Sie. Danke. 33. Case 6 Nachrichten Artikel verwenden Empfehlungen: Hi. Begrüßen Sie die Empfehlungen für diesen Anwendungsfall News Artikel? Eine Nachrichtenartikelempfehlung ist ein Anwendungsfall, der sehr ähnlich sein wird. Zehe auf Artikel, Empfehlung für den Gebrauch, soll auf Amazon gehen und sie beginnen, Sie zu empfehlen. OK, Sie könnten diesen Artikel auch auf sie auf diesen Anwendungsfällen gefallen. Auch ähnliche Zehe haben Sie, Lincoln und Facebook. Und sie fangen an, euch Leute zu empfehlen, die vielleicht mit euch befreundet sind und so was. Alle von ihnen folgten und machten alle die gleiche Art von Anwendungsfall. Ah, Paradigma. Worum geht es in diesem Anwendungsfall? ABC News Corporation beherbergt eine Website, auf der Benutzer Artikel über verschiedene Tage heute lesen können . Happenings. Ich meine, Sie wissen über viele dieser Seiten, wo Sie gehen und lesen Sie alltägliche Nachrichten am Tag, haben Nachrichten zu verschiedenen verschiedenen Themen und in einem anderen Happenings. Verschiedene Länder X zieht eine Falle an. Also für jeden registrierten Benutzer, der sich in jeder Szene anmeldet, möchte Nachrichten eine Liste aus empfohlenen Artikel zur Verfügung stellen. So wollen sie verfolgen, was die Benutzer normalerweise liest und mag auf Basis drehte sich, wenn sie die Gesetze verwenden, die sie ihnen eine empfohlene Liste von Artikeln geben möchten, die sagen, dass Sie diese Artikel mögen und ihnen eine Liste geben möchten. Eso diese Art von Liste, die sie am Tag erstellen wollen, wollen toe klik ein wenig dies basierend auf einem Web-Klick-Analyse und Produktionssystem. So wie sie normalerweise tun, ist, dass sie das Benutzerverhalten betrachten möchten, wenn sie auf die Website gelangen . Wissen Sie, Wildlinge Zehe, sie klicken, um toe Was Artikel auf Ähnlich, aus welchem Artikel zu gehen . Welchen Artikel sie tun sie in der Regel springen und diese Art von Beziehungsanalyse. Und sie beginnen mit, dass sie ein Vorhersagemodell erstellen wollen, eso eines der verschiedenen Merkmale dieses Anwendungsfalls. So wird die Quelle mit Klick-Events sein, wo Sie Klicks waren, das ist, wenn der Benutzer geht und klickt auf verschiedene Links und die Website Sie gerade angefangen sie zu verfolgen. Du fängst an, sie zu verfolgen. Sie gingen von Klick auf ein Bedürfnis. Ich bin Punkt C zwei Elemente, die diese Art von Link-Analyse auf. Dann schauen Sie sich die Datentypen an. Es wird euch Welten schreiben. Nur das wird eine Liste von Ihnen sein, sind die Benutzer saßen, desto mehr diese Art von beiden echten Diamanten begann. Wir werden Daten in Echtzeit sammeln, wie die Evens passiert sind. Aber die Verarbeitung und das Modellbau wären historisch. Die Datenerfassung wird an Bord geschoben werden, wo die Browser drängen, sogar fegte wie eben durch die Zehe, die Server toe die Datenverarbeitungs-Engine in die Datenbank. Die Verfügbarkeit von Daten wird in Echtzeit sein. Wir müssen über Benutzer und Nacht und Beziehungen wissen, wie, welche Verwendungen mit welchen Verwendungen verbunden sind . Wir möchten auch ähnliche Benutzer und ähnliche Artikel finden. Also, wenn sich jemand dort einloggt, schauen Sie eine Geschichte von Benutzern, die dieser Verwendung ähnlich sind, die auf, basierend darauf, dass sie wollen. Machen Sie auch Empfehlungen sind ähnlich mit Elementen. Also wollen Sie all diese Art von Beziehungen zu schaffen? Der Speichertyp wäre richtig. Viele lesen Geld. So werden Sie ein Profil über jeden Benutzer auf jedem News-Artikel von News-Artikeln erstellen. Es gibt also einen Gegenstand und du wirst Informationen darüber aufbauen, dass du keine Attribute bauen wirst. Vielmehr werden Sie eine Beziehung zwischen diesen verschiedenen Benutzern und Insassen aufbauen. Die Antworttypen werden in Echtzeit in Bezug auf Vorhersagen auf Modellbau sein, Sie werden verschiedene mäßig Techniken verwenden, die kollaborative Filterung unserer Assoziationstools in Ihrem fortgeschrittenen auf die nächsten Modelle, die Sie wollen, weil Sie wollen. Ich verstehe Benutzerbeziehungen, Artikelbeziehungen und solche Sachen. Eso Wie sieht das für die großartige Architektur aus, als ob Sie mit einem Web-Browser beginnen, nicht nur ein Gruppenkreuz über die Serie von Krosa Instances ist, die Protokollierung in der Regel an jedem Punkt verwendet. Und dann könnten es 1000 Benutzer geben. Oh, Surfen Sie Ihre Nachrichten-Website auf, wie sie durch die Links suchen Sie Klick-Ereignisse auf diesem Trick Ereignisse auf Tanz generieren und tun die entsprechenden Web-Server. Von dort sind sie alle in einen Apache Kafka marshallt, Bip Ling. Also, obwohl es mehrere statt Kafka lief und du wirst sie alle in Apache Kafka zu gut schieben . Diese Daten dazu, ich nur die Daten von Kafka, angesichts der Tatsache, dass es keine Echtzeitanalyse gemacht wurde und Sie werden sie einfach alle im Schlepptau schieben , tatsächlich Beleidigung für die Erstspeicherung oder Datenspeicherung. Sobald Sie die Madrid Sharia als Jefferson schieben. Auf einer periodischen Basis können Sie Apache Funken haben, sich diese Daten ansehen und die Links durchlaufen und anfangen zu verstehen, wie die Beziehung zwischen verschiedenen Benutzern und verschiedenen Nachrichtenartikeln ist. Und sie können anfangen, all diese Beziehung zu betrachten und versuchen, mit diesen Beziehungsdiagrammen zu kommen , oder wie nennen Sie uns? Graphen Graphen, die Beziehung an der Affinität der Beziehung zwischen zwei Benutzern zeigte, sind zu warten , Zeiten wurden geschrieben, und dann können alle Ergebnisse dieser Analyse in der Nähe für G. Wir sprachen über vor. Das bloße für den Tag ist eine große, es ist sehr wollen Beziehung bezogene Informationen zu speichern , ist eine großartige Gelegenheit für Sie, neo vier J zu verwenden, weil Sie versuchen, Beziehung zwischen Benutzern Beziehung zwischen Elementen und dem Benutzerelement zu verfolgen Beziehungen. Außerdem werden wir all diese Daten in einer Neo-Four J-Datenbank erfassen, was Ihnen eine wirklich großartige Leistung bietet, wenn Sie versuchen, Beziehungen zu durchlaufen . Sobald Sie neo vier J haben, dann alles, was Sie brauchen, ist eine benutzerdefinierte Empfehlungen, aber das wird eine benutzerdefinierte sein. Also, was Sie bauen würden, wo Sie sich eher wie ein Freund verhalten würden und die nahe Forgy-Datenbank anziehen würden. Also dort, jeder, der eine Empfehlung für einen Benutzer will, wird dazu kommen und dies vorbei würde. Dann sind wir sogar für JD Tollwut da, um Ihnen die Empfehlungen zu geben. So stieg das Web auf, dass der Benutzer wird zu verwenden, um zu surfen wird tatsächlich die Empfehlungen über viele Male kontaktieren , ein Benutzer protokolliert und und ich gebe mir eine Liste von Empfehlungen für die Verwendung der Empfehlungen jemals. Dann ist Causton hier nach Jake, wo ist der Zug? Kommt mit einigen Ergebnissen und bieten, dass mit dem Web. Rosa. Das ist also der Zyklus, dem Sie folgen werden, wenn Sie einige Empfehlungs-Engines bauen werden . Das Wichtigste, was Sie hier in Bezug auf die anderen Anwendungsfälle sehen, ist, dass Sie eine Diagrammdatenbank für eine Beziehung an einem Ort wie New York für G verwenden, um die Beziehung zwischen den Benutzern und Elementen zu speichern . Also lasst uns alle von der Lösung gehen. So wird eine Frage der Daten durch BET, Klicks und Ereignisse sein . Web-Tricks von den Brüdern werden durch eine Form von Beobachtern gesammelt und für den Transport werden Sie Apache Kafka verwenden, der diese Informationen von einer Form von Beobachtern in eine zentralisierte Hecke transportieren wird . Die Bemühungen um Puzzle-Stände werden wir zusätzliche Anstrengungen für die Speicherung all der rohen sogar sagen, dass sie kommen in auf. Dann werden die analysierten Daten dann einige Belüftungsspeicher gefragt Beziehungsinformationen im Schlepptau. Neo vier j auf allen Transformationsarbeiten. Du wirst sein, dass du Apache Spark für diese Arbeit verwendest, die sich die Daten ansehen kann, und tatsächlich wurde es verarbeitet und dann die Mahlzeit für J. Es gibt keine Berichtsanforderungen, auch wenn du willst, Sie können immer Reporting Engine auf es erhöht schlagen. Ich meine, jedes Mal, wenn Sie eine Datenbank haben, können Sie eine Berichtslösung darauf erstellen. Wenn Sie von einem erweiterten Analyseprospektiv wollen, verwenden Sie Apache Spark erneut, um historische Ereignisanalyse durchzuführen, und dann werden Sie Dinge wie kollaboratives Filtern und assoziieren Regeln Mining und dann große Reserven von diesen Daten und stahlen sie zurück in fast 40 von. Aber Sie können jede Art von Berichterstattung durchführen, die Sie wollen. Dies ist ein Anwendungsfall, der sehr ähnlich ist, wie Sie jede Art von Empfehlungen basierend auf Ähnlichkeit machen. Der Versuch, ähnliche Benutzer, ähnliche Elemente zu finden . Dies ist, was wir in Amazon sehen werden, wenn sie versucht haben, Sie zu empfehlen. Artikel sind auch, wenn Sie nach London gehen. Sie versuchen, Ihren Beziehungsbaum auf dem Versuch, Freunde zu empfehlen, sind Menschen zu mehr, die Sie vielleicht kennen und so etwas. Also hoffe, das ist hilfreich für Sie. Vielen Dank. 34. Use Case 7 Kunde 360: Hi. Willkommen beim diesjährigen Fall. Kunde 360 Kein Kunde. 3 60 ist ein klassischer Anwendungsfall, den fast jedes Unternehmen erstellen und in seinem System haben möchte . Was ist Kunde 3 16 Mean Kunde trey, 60. Bedeutet, dass Ihr Kunde einen 3-60-Grad-Blick vom Leser hat, der den Kunden wünscht. So mag mag es nicht alles, was Sie mit dem Kunden gemacht haben. Sie möchten alles verfolgen, was Sie mit dem Kunden tun, und der Kunde tut mit Ihnen auf den Überblick in einer Datenbank, so dass auf diesen Daten, dann können Sie jede Art von anderen Tagen, jede Art von vorausschauendem Lernen, und dann beginnen Sie, Ihr Unternehmen mit diesem Kunden einzubeziehen. Lassen Sie uns also einen Diskretion vom Anwendungsfall haben, so dass X Way Zusammenarbeit Computer produziert und verkauft. Und das ist Übung. Es ist also eine, die viele Computer und Zubehör sendet, und Sie werden Familie mit vielen Unternehmen gewesen sein, die Sie ähnliche Geschäfte machen. Es will einen Riss und verwalten Sie alle Informationen über ihre Kunden und erstellen Sie einen Kunden 3 60 Ansicht auf, wenn sie sagte, dass sie einen Kunden sehen wollen 3 60 Ansicht. Sie wollen sehen, was der Kunde auf der Website macht, wenn der Kunde auf den Start kommt durch chronische Suche durch Produkte, die Beiji geht betrachtet, die Bewertungen, die Sie sehen, die dann auf die Einkaufshistorie des Kunden schauen, was der Kunde tatsächlich von Ihnen gekauft hat, ob dies über die Website oder ob sie in der Reihenfolge mit einem vorgeschlagenen durch eine STO angerufen . Sie wollen all das, dann eine Art von Problemen, die der Kunde gemeldet hat, sowie die Art von Anruf, die der Kunde an Ihr Contact Center in Bezug auf die Berichterstattung einiger Probleme gemacht hat, bekommen einige Probleme gelöst Probleme mit der Erstellung Probleme mit dem Produkt, es ist von allen Arten von Sachen. Und dann möchten Sie auch wissen, was der Kunde in den sozialen Medien macht. Ob es sich um Ihr Produkt handelt. Begeht er positiv und negativ? Wir möchten Sie alle diese Informationen über den Kunden auf erhalten, dann wollen endlich diese Informationen für einige potenzielle Verkauf zu tun ist Sie identifizieren wollen Wenn es möglich ist, dass Sie den Kunden verwenden, um mehr Produkte zu verkaufen, können Sie den Kunden dazu bringen, Ihr Produkt zu empfehlen? Sind Sie können etwas direkt an das Produkt für den Kunden verkaufen. Sie können etwas absoluten, wenn das neue Produkt in Ordnung kommt. Wenn ein Accessoire kommt, möchte ich alle ihre Entscheidung treffen, bevor ich all die Entscheidungen treffe, die Sie als Basis benötigen. Alle Daten, die Sie über den Kunden haben. Also Eigenschaften von diesem Anwendungsfall, wird die Quelle der Daten viel sein. Sie haben Rose in Daten gespeichert, die Sie CRM Rate haben. Andere Vorträge darüber, was die Kaufhistorie des Kunden als einer der Kunden Probleme, Kontakte und die Daten, wo Sie auf die E-Mails, die Kunden und dass die Gebühr, die der Kunde hatte, sind die Aufzeichnungen der Anrufe und dann analysieren, um die Kundenstimmung zu verstehen. Dann haben Sie Social-Media-Daten, aber die Kunden twittern etwas über Ihr Produkt und Sie möchten erfassen und sehen was die Kunden sagen. Sie sind also alle diese Arten von Daten über die Datentypen. Natürlich es viele Arten von Daten, wie Sie Zahlen, Text, Medien, alles sehen können Text , , die Stimmung aus unseren Daten, desto mehr von dem, was historisch sein wird, Das ist eine Menge davon, die Sie sammeln und verarbeiten historische Mode. Die Datenerfassung wird gekauft. Push mehr und setzen Sie mehr, abhängig von der Art der Daten Ergebnisse, die Sie auf Verfügbarkeit von Daten haben, ist auch eine Art historischer, um alle Datenintegration alles zu erhalten, um den Kunden aufzubauen. 3 60 Der Speicher Ted Es gibt mehrere Speichertypen in diesem eine, aber die meisten von ihnen haben Recht. Viele lesen Geld, vor allem der Kunde. 36 Studio An diesem. Die Antwortzeiten werden in Echtzeit sein, weil Sie eine schnelle das Kundenprofil und erhalten Sie die Profilinformationen in Echtzeit. Wie, wenn der Kunde tatsächlich in Ihrer Gruppe surft. Sagen Sie, möchten Sie einige Empfehlungen an den Kunden geben? Sind auf ihren Gewinnen basiert, oder diese Abfrage wird die Zeit für Modellbau sein. Sie würden eine Reihe von Modellen bauen. In diesem Fall können Sie den Kunden anhand einer Verkaufsfrage entsprechend klassifizieren. Sie möchten, dass ein Cluster Kunden Gruppen von logischen Gruppen basierend auf ihrem Verhalten. Sie möchten eine kollaborative Filterung, um Kunden zu finden, die einander ähnlich sind und Produkte, die sie in all dieser Art von Sachen mögen, mit einer Menge Modellaufbau können Sie mit den Daten diese Art von Daten tun , die Sie haben. Wie sieht die Architektur aus? Also die Nummer? Es gibt eine Reihe von Datendiensten, CNN. Der Browser ist eine Datenquelle, in der der Kunde Grossing. Sie generieren alle Broads und Klicks. Das C-Atom ist eine weitere Datenquelle, in der Sie Informationen über die Bestellungen des Kunden haben. Die Bestellung, die der Kunde angenommen hat. Wie für weniger Informationen über die sind wirklich Vorfall Bericht, dass Probleme Anwendungen erstellt und so etwas, Dann haben Sie die Kontakte und die Daten, die alle E-Mails, die Sie sagen, die Chance es gemacht die Sprachanrufe und dann versuchen, den Inhalt von all diesen Medien zu analysieren, um zu sehen, welche Art von Gefühl als verwenden Was ist , dass der Benutzer spricht? Und dann gibt es endlich Social Media. Die anderen kommen über das Internet auf. Dann wirst du verstehen, dass sie auch würden, also wie bekommst du all diese Daten? Zuerst lassen Sie uns den Klick auch aus dem Browser erhalten oder die Klick-Ereignisse werden sein. Dann Cento ein wirklich ah Leben Kalb Auto System, ob diese Daten werden Marshall in das Big Data Repository. So werden Click-Events von Rosas Aufstieg auf Kafka und ähnlich Social Media Daten auch in Echtzeit gezogen, ein Bs gestreamt und wieder in Kafka auf dem ganzen Monsanto Kafka auf Kafka gestoßen. Sie werden alle ins Land gehen und ich bin extra Angebote Datenbank für Geschichte. Also das ist alles Textdaten roh, auch Andrada Text, der Zehe geht nahm Auto Abschlepp-HD-Bemühungen für Geschichten No Siehe Adam und Kontakte in den Daten sind meist aus Datenbanken kommen. Siehe auch Adam und Kontakte und Bereich unten, meist bereits in Datenbanken, obwohl es zuerst Medien geben könnte. Ja, Sie könnten sie auch auf die gleiche Weise behandeln, wie Sie den Mediendateispeicher gemacht haben, zumindest für dieses Wunder, das angenommen wird, dass es vorverarbeitet und in einer in einem RGB Must-Datenbank aufbewahrt wird, so weit, dass Sie eine Schaufel mit dem Scheduler auf die Transaktion von der Sierra muss für die Schaufel. Ähnlich, das Contact Center Transaktionen unsere Informationen aus allen Aufnahmen und all den Dingen , die Informationen zusammenfassen, wird auch durch Schaufel zugeführt und von, dass sie gedumpt werden können und toe unter Go TV. Dies ist also eine knorrige Bemis-Datenbank, die verarbeitet wird und aber Nummer zwei unter Ihnen ist. Also Ihre Informationen und gesichert hier zuerst und dann in der Mongolei. Dann haben wir ausgelöst kommen in den Funke und dann Big Data von Hedge drei von uns auf Mongo DB und dann verbinden Sie diesen Datensatz basierend auf dem Kunden auf, dann versucht. Es sei denn, alle diese Daten einige ruhen die Daten durch den Kunden sowie tun alle Arten von fortgeschrittenem Wissen, es ist wie bereit, auch auf Sucht, Sorgerecht in Zusammenarbeit, Klassifikationen, Alles. Und dann setzen Sie die Daten schließlich in eine Kassandra Feinde. Die Cassandra-Datenbank würde von den Kunden indexiert. Die Kundenidee wird der Index sein. Und in diesem Datensatz werden Sie alle Arten von Daten über den Kunden speichern. Lange eine riesige Reihe von Spalten für jeden Datensatz, in dem der Kunde gespeichert werden 3 60 Informationen alles, was Sie von analysiert und verwendet. Sobald Sie die Daten in Cassandra haben, können Sie einen benutzerdefinierten Empfehlungsserver setzen, dann die Daten in der Cassandra-Datenbank lesen kann. Auf diesem benutzerdefinierten, kann der Empfehlungsserver dann durch den Browser auf den sozialen Medien verwendet werden, sind die Serum-Anwendungen , die und dann erhalten einige Echtzeit-Informationen über das, was empfohlen werden kann Pflicht Kunden, und dann ve