Big Data und Hadoop für Anfänger - mit den Händen an! | Andalib Ansari | Skillshare

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Big Data und Hadoop für Anfänger - mit den Händen an!

teacher avatar Andalib Ansari, Big Data Consultant

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

27 Einheiten (2 Std. 35 Min.)
    • 1. Kursübersicht

      2:21
    • 2. Einführung in Big Data

      9:23
    • 3. Big Data Job Rollen

      6:30
    • 4. Gehälter für Big Data

      2:55
    • 5. Technologietrends im Markt

      6:30
    • 6. Beratung für Big Data Anfänger

      2:44
    • 7. Einführung in Hadoop

      8:23
    • 8. Hadoop Ökosystem

      5:01
    • 9. Hadoop 1.x vs Hadoop 2.x

      14:13
    • 10. ETL vs ELT

      3:19
    • 11. Hadoop Anbieter

      4:20
    • 12. HDFS aus der Befehlszeile verwalten

      9:09
    • 13. Einführung in den Hive

      2:41
    • 14. Hive Architektur

      2:28
    • 15. Dateiformate in Hive

      4:40
    • 16. SQL vs HQL

      3:46
    • 17. UDF & UDAF in Hive

      2:57
    • 18. Hive Demo

      18:50
    • 19. Einführung in das Schwein

      2:57
    • 20. Pig

      1:39
    • 21. Pig

      2:17
    • 22. Wie Pig Latin funktioniert

      2:57
    • 23. SQL vs Pig

      5:32
    • 24. UDF in Schwein

      3:25
    • 25. Pig

      12:49
    • 26. Datenpipeline mit Pig und Hive

      7:59
    • 27. Data Lake

      5:24
  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Alle Niveaus

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

306

Teilnehmer:innen

--

Projekte

Über diesen Kurs

965b4ac8

Das Hauptziel dieses Kurses ist es, dir dabei zu helfen, komplexe Architekturen von Hadoop und seinen Komponenten zu verstehen, dich in die richtige Richtung zu führen und schnell mit Hadoop und seinen Komponenten zu arbeiten.

Es deckt alles ab, was du als Big Data Anfänger brauchst. Erfahren Sie mehr über den Markt für Big Data, verschiedene market, market, Geschichte von Hadoop, HDFS, Hadoop Ecosystem, Hive und Schwein. In diesem Kurs werden wir sehen, wie man als Anfänger mit Hadoop beginnen soll. Dieser Kurs kommt mit einer Menge an praktischen Beispielen, die dir dabei helfen Hadoop schnell zu lernen.

Der Kurs hat 6 Abschnitte und konzentriert sich auf die folgenden

topics:Big Data auf einen Blick: Erfahren Sie mehr über Big Data und verschiedene job im Big Data Kenne die Trends der großen Datengehalt auf der ganzen Welt. Lerne mehr über die heißesten Technologien und deren Trends auf dem Markt.

Erste Schritte mit Hadoop: Verstehen von Hadoop und seiner komplexen Architektur. Hadoop Ecosystem mit einfachen Beispielen lernen. Kennst verschiedene Versionen von Hadoop (Hadoop 1.x vs Hadoop 2.x), verschiedene Hadoop Anbieter auf dem Markt und Hadoop auf der Cloud. Verstehe, wie Hadoop den ELT Ansatz anwendet. Lerne die Installation von Hadoop auf deinem Gerät. Wir werden sehen, dass HDFS aus der Kommandozeile ausgeführt werden, um HDFS zu verwalten.

Erste Schritte mit Hive: Verstehe, welche Art von Problem Hive in Big Data löst. Lerne sein architektonisches Design und den Arbeitsmechanismus Kenne Datenmodelle in Hive, verschiedene Dateiformate von Hive, Hive usw. Wir werden laufende Abfragen in Hive sehen.

Erste Schritte mit Schwein: Verstehe, wie Schwein Probleme in Big Data löst. Lerne sein architektonisches Design und den Arbeitsmechanismus Verstehe, wie Pig Latin in Pick funktioniert. Du wirst die Unterschiede zwischen SQL und Pig Latein verstehen. Demos zum Ausführen verschiedener Abfragen in Schwein.

Use Cases: Echte Anwendungen von Hadoop sind wirklich wichtig, um Hadoop und seine Komponenten besser zu verstehen. Daher lernen wir mit der Entwerfung einer sample in Hadoop zum Abarbeiten von Big Data in den Bereichen Big Data. Verstehst auch, wie Unternehmen moderne Datenarchitektur anwenden, d.h. Data Lake in ihrer Dateninfrastruktur.

Übung: Üben mit riesigen Datensätzen Lernen Sie Design- und Optimierungstechniken durch die Gestaltung von Datenmodellen, Datenpipelines unter Verwendung von Datensätzen in Echtzeit

Triff deine:n Kursleiter:in

Teacher Profile Image

Andalib Ansari

Big Data Consultant

Kursleiter:in

Andalib Ansari is a Big Data consultant based out of Mumbai. He helps companies and people solve business problems using Big Data technologies. Also, one of his passion, to guide and train people on different Big Data tools and technologies.

He is having a very decent exposure of Big Data tools and technologies, and have worked with various clients, top level Mobile Network Operators (MNO), from Latin America and the US to solve different business problems for different use-cases, and designed optimized Data Pipelines using Big Data technologies on the cloud.

Vollständiges Profil ansehen

Kursbewertungen

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%
Bewertungsarchiv

Im Oktober 2018 haben wir unser Bewertungssystem aktualisiert, um das Verfahren unserer Feedback-Erhebung zu verbessern. Nachfolgend die Bewertungen, die vor diesem Update verfasst wurden.

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen bei Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Kursübersicht: Sind Sie aufgeregt, etwas über Big Data zu erfahren? Und Haru, willst du wissen, wie man Datenpipelines in ihrem ordnungsgemäßen Prozess entwirft? Große Daten. Wollen Sie große Exportmöglichkeiten haben und einige spannende Möglichkeiten zu gehen bekommen? Haben Sie das Gefühl, dass Internet mit Lord off Inhalt überlastet ist, Sie oft verwirrt. Wohin gehen? Fangen Sie mit an. Alles klar, du bist solide. Hängt hier in diesem Kurs werde ich Ihnen eine detaillierte Einführung in Big Data auf seinem Markt geben , so dass Sie leicht verstehen, dass Technologietrends auf verschiedenen Job Rollen in der Big Data-Markt erforderlich. Dieser Kurs wurde entwickelt, um alle Grundlagen von Hadoop zu lehren und schnell beginnen, auf ihr zu gehen . Machen Sie fünf und ich werde David I in ihr tun, wo Sie über die Geschichte ihrer Gruppe erfahren. Es sind komplexe Architekturen, Ökosystem, verschiedene Versionen von ihr tun. Einrichten einer neuen Umgebung auf Ihrem Computer, verschiedene Anbieter auf dem Markt auf ihrem DuPont Club. Wenn Sie sich die Unternehmen ansehen, die verwenden, tun die meisten von ihnen verwenden, verwenden auch Bive in großen auf den Produktionen Bive und größere Komponenten von tun dies In diesem Kurs bin ich auch über Hybrid-Schmerz abgedeckt, wo Sie über ihre Architekturen zu Fuß -Mechanismus Demos zum Entwerfen von Datenpipelines, die sie für Ihr besseres Verständnis verwenden, enthalten auch Zuweisungen und Anwendungsfälle. Das Pools sehr gut. Erfahren Sie mehr über reale Anwendungen aus der Gruppe und ihrem Unternehmen. Hallo, das bin ich auf Live auf Ihren Lehrer für diesen Kurs starten Ich bin ein großer Erdogan Safety haben an verschiedenen Projekten gearbeitet, verteilt auf Lateinamerika U S und Indien in Telecom Economos 100 Herren, gut, Erstellen der Partituren haben sich hauptsächlich auf die Inhaltsdarstellung auf Rituale konzentriert, so dass Sie leicht verstehen, die komplexen Architekturen aus aufgrund auf sein Unternehmen. Am Ende dieses Kurses werden Sie in der Lage sein, die realen Herausforderungen von Big Data zu verstehen. Verstehen Sie, wie Doom und seine architektonischen Spaziergang mit ihrer Gruppe? Ich habe und übernehme Daten-Pipelines. Starten Sie Ihre eigenen Positionen Wenn Sie auf ihrer Gruppe wünschen, Ivan Big Things Kurs wird Ihnen auch bei der Vorbereitung von Zertifizierungsprüfungen für Herz helfen. Es sieht bewölkt aus. Danke fürs Zuschauen. Wir sehen uns auf dem Kurs 2. Einführung in Big Data: Hallo, Leute. Willkommen an der Küste In diesem Vortrag lernen wir die Grundlagen von Big Data kennen. Die Frage ist also, was ist Big Data? Nun, wenn Sie sich dort viele Möglichkeiten, wie Daten generiert werden, wie Tweets, die von Millionen von Futures auf Twitter generiert werden, Facebook-Boote von Milliarden von Nutzern, YouTube-Videos, die jede Minute hochgeladen werden, und Sensoren Daten eine Boeing, die Terabyte an Daten in einem einzigen Flug erzeugt. Diese Daten können als Big Data bezeichnet werden. Wenn Sie sich diese Daten ansehen, sind sie sehr komplex zu analysieren und zu verkaufen. Warum? Weil sie meist in halbstrukturierter oder unstrukturierter Form sind, was es schwierig macht, Informationen über das Geschäft innerhalb zu extrahieren. Die Frage ist also, warum es schwierig ist, Informationen zu extrahieren. Die Antwort wäre einfach, weil sie nicht mit traditionellen Systemen, also Wasser, verarbeitet werden können . Diese traditionellen Systeme traditionellen Systeme umfassen relationale Datenbanken wie mein geheimer Oracle Esperance over it Sektor auf diesen Datenbanken auf Lee speichern Strukturdaten, sie können keine Semi-Struktur oder una Strukturdaten wiederherstellen, die von diesen sozialen Medien-Websites oder Sensoren. Also zu einem Store-Prozess und analysieren diese Big Data. Wir sollten eine richtige Kombination aus Werkzeugen und Technologie haben. Hier kommt ihre Gruppe ins Bild. In den kommenden Vorträgen erfahren wir mehr über ihre Gruppe. wir einen Blick, wie strukturierte, halbstrukturierte und unterstrukturierte Daten wie später aussehen, die Sie in einer Excel -Datei oder in jeder Datenbank gespeicherte Daten sehen. Ställe sind eine Struktur Daten sini Struktur Daten. Eine XML-Datei wäre ein gutes Beispiel. Protokolle, die von Servern generiert werden, sind eine Strukturdaten. Okay, wenn Sie sich diese Big Data dort ansehen, oft beschrieben mit fünf Leichtigkeit Volumengeschwindigkeit Varietät, wo eine Stadt und Wert lassen Sie uns einen Blick auf diese Begriffe individuell. Volumen bezieht sich auf die großen Datenmengen, die jede Sekunde generiert werden. Denken Sie einfach an alle E-Mails, Twitter-Nachrichten, Fotos, Videoclips, Sensordaten Im Sektor produzieren wir und sagen jede Sekunde, dass sie nicht in Terabyte sind, sondern Jetta beißt oder sogar einen Mönch einstellt. Dies macht Datenzustände zunehmend zu Gesetzen, um mit herkömmlicher Datenbanktechnologie mit Big Data-Technologie zu speichern und zu analysieren . Wir können jetzt eine Speicherung und Analyse dieser Daten mit Hilfe von verteilten Systemen, die Computing einfacher und schneller machen. Das letzte Jahr, die erste heutige Geschwindigkeit, mit der neue Daten generiert werden und die Geschwindigkeit mit Daten bewegt sich um. Denken Sie einfach an alle Social-Media-Nachrichten, die innerhalb von Sekunden viral werden, die Geschwindigkeit, mit der Kreditkartentransaktionen auf betrügerische Aktivitäten überprüft werden. Jetzt, mit Big Data-Technologie, können wir diese Daten jetzt analysieren, wenn sie generiert werden, ohne jemals in Datenbanken zu integrieren , aber idealerweise zuerst zu den verschiedenen Arten von Daten, die wir jetzt in der Vergangenheit verwenden können, mit Big Data-Technologie,können wir diese Daten jetzt analysieren, wenn sie generiert werden, ohne jemals in Datenbanken zu integrieren, aber idealerweise zuerst zu den verschiedenen Arten von Daten, die wir jetzt in der Vergangenheit verwenden können, -Strukturdaten, die ordentlich in Tabellen passen, sind relationale Datenbanken, wie z. B. Verkäufe von Finanzführern nach Produkt oder Grund. In der Tat 80% der weltweiten Daten jetzt auf einem strukturierten und können daher nicht leicht in Tabellen eingefügt werden . Denken Sie einfach an Fotos, Videosequenzen oder Social-Media-Updates mit Big Data-Technologie, wir können diese strukturierten, halbstrukturierten Strukturdaten jetzt installieren , verarbeiten und analysieren . Wahrhaftigkeit bezieht sich auf die Genauigkeit oder Wahrhaftigkeit von Daten gut. In jeder analytischen Übung 40 bis 60% Ermäßigung für die Datenaufbereitung aufgewendet, wie das Entfernen von Duplikaten, das Fixieren von Teileinträgen, Eliminieren von Nullleereinträgen, Angriffsschutz und mit viele Formen von Big Data, Qualität und Genauigkeit sind weniger kontrollierbar. Denken Sie nur an Züchterpost mit Hut-Statistiken, aber mit Big Data und Analytic-Technologie ermöglicht es uns jetzt, mit dieser Art von Datenwert zu arbeiten . Ich denke, Wert ist der wichtigste Teil, wenn man Big Data betrachtet. Es ist alles gut und gut, Zugang zu Big Data zu haben. Aber wenn wir es nicht in Wert verwandeln können, ist es nutzlos. Wenn Sie schauen, scheitern 70% der Big-Data-Projekte, nur weil es keine Anwendungsfälle gibt und zu verstehen, dass es wirklich wichtig ist , dass Unternehmen Anwendungsfälle machen, bevor sie springen, um mit dem Sammeln und Speichern von Big Data beginnen . Jetzt ist der Ozean, warum Big Data wichtig ist. Betrachten wir den Anwendungsfall. Stellen Sie sich vor, Sie führen ein E-Commerce-Geschäft und Sie haben eine Website, auf der Sie Ihr Produkt verkaufen . Sie erfassen nur sehr wenige Metriken, keine Click-Stream-Daten, bei denen Sie sehen können, dass Sie Millionen von Websites haben. Traffic Leute kommen auf Ihre Website, indem sie die Produkte durchsuchen, Produkte zur Karte hinzufügen und bezahlen. Nehmen wir nun an, zu einem bestimmten Zeitpunkt gibt es 100 Menschen, die auf die Zahlungsseite gingen und von ihnen 70 Menschen in der Lage waren, eine erfolgreiche Zahlung auf 30 Personen zu tun, bekam einige technische Probleme, aufgrund derer sie nicht in der Lage waren, die Zahlung zu leisten. Jetzt haben diese 30 Leute Ihre Website verlassen und gingen zu anderen Websites Von wo? Das über das Wichtige. Da Sie keine Click-Stream-Daten erfassen, werden Sie nicht in der Lage sein zu analysieren, welche Probleme Menschen auf Ihrer Website konfrontiert sind und Sie werden keine Ahnung haben, wo diese Leute weg sind. Sie haben einen hohen Website-Traffic, aber lokal war es in der Tat so. Es ist wirklich wichtig, so viele Daten wie möglich aus Ihrem Unternehmen zu erfassen, damit Sie Lage sein sollten, ihre Schuhe zu analysieren, um Ihre Business-Services zu verbessern. In diesem Fall ist das Erfassen von Klick-Stream-Daten, die von Benutzern auf Ihrer Website generiert werden, wirklich sehr wichtig für Ihr Unternehmen. Okay, ich habe das gerade gesprochen, um Ihnen zu helfen, zu visualisieren, wie verschiedene Unternehmen Big Data in ihren Produktionen erfassen und verarbeiten. In Moby ist ein mobiles Act Targeting Unternehmen, das Unternehmen hilft, ihre Kundeninteraktionen durch seine mobile Customer Engagement-Plattform in Moby Serbs Milliarden von Künsten täglich für mehr als 7 59 Millionen Nutzer in 1 60 Ländern zu verbessern Kundeninteraktionen durch seine mobile Customer Engagement-Plattform in Moby Serbs Milliarden von Künsten . Schauen Sie sich einfach die Größe der Daten an, erfassen und verarbeiten jeden Tag und dann, ähm, sie machen Jobs, sie laufen Fuß, holen das Innere aus den Daten heraus. Lassen Sie uns nun verstehen, wie Unternehmen Big Data monetarisieren. Telekommunikationsunternehmen tun Unternehmen mit Banken, um Betrug zu erkennen, aber triangulieren Standort Kaufdetails auf Zeugnis in vier mit den Einzelhandelsgeschäften Angebote in Echtzeit zu personalisieren und sie von einem mobilen Kanal für Effektivität mit Reise-Formulare. Besseres gezieltes Marketing basierend auf Kunden. Probleme Präferenzen mit sozialen Netzwerken. Zehe Identifizieren Sie echte Netzwerkknoten mithilfe vollständiger Netzwerkinformationen mit AB-Entwicklern, um vollständige Informationen darüber zu erhalten , welche Art von APS bevorzugt werden und warum Kreditkartenunternehmen Geschäfte mit Economos-Formularen tätigen, um besser realistisch zu gestalten time bietet rund um Zahlungsmöglichkeiten mit Einzelhandelsgeschäften. Toe verbessern die Rückverfolgbarkeit durch Kartierung von Auto-Dolar in vier mit Reisemarken. Verwendete Standortdaten, um Kundenrouten zu verfolgen. Einzelhändler tätigen Geschäfte mit CPD-Formularen, die auf Kaufmustern basieren. Hilft der Fähigkeit. Formulare Besseres Design auf Anfrage Herr erhöht, aber zuerst und ist informiert Zeh. Erhalten Sie einen enormen Einblick in das, was die Kunden von Giants bevorzugen. Mit Kreditkartenunternehmen identifizieren wir Kundenanteile von Geldbörsen und Ausgabemustern. Okay, das ist alles für diesen Vortrag. Bald der nächste. Vielen Dank 3. Big Data Job Rollen: Hallo, Leute. Willkommen zurück in dieser Vorlesung, wir werden über Jobrollen lernen, die in Big Data-Karriere erforderlich sind. Nun, ihre verschiedenen Regeln, die ins Spiel kommen, wenn wir über Big Data sprechen. Sie sind Big Data Analyst, Hadoop, Administrator, Big Gator und Junior Big Build ein Wissenschaftler, Big Data Manager, Big Data Solutions Architekt und Chief Data Officer. Werfen wir einen Blick auf jeden von ihnen eins nach dem anderen. Ein Big-Data-Analyst ist jemand, der mit Daten in einem bestimmten System läuft, und die durchführenden Analysten sind auf diesem Datensatz. Sie arbeiten in der Regel mit Datenwissenschaftlern zusammen, um die notwendigen Aufgaben zu erledigen. Die wichtigsten Schlüsselfertigkeiten, die erforderlich sind, um ein Big-Data-Analyst zu werden, sind gute verschiedenen B-I-Tools. Wie Tab, klicken Sie auf View it Sektor auf gute Programmierung. Sprachen wie SQL sind Java oder Beytin. Abgesehen von diesen Fähigkeiten sollte man ein gutes funktionierendes Wissen aus ihrem do Framework haben, wie map Reduce high big etcetera. Als Big-Data-Analyst sollte man wissen, dass das, was eine Organisation antreibt, die wichtigsten Leistungsindikatoren und wie die verfügbaren Unternehmensdaten dazu beitragen können kritische Geschäftsentscheidungen zu treffen. Ach ha! Gruppenadministrator Regeln kommt mit großer Verantwortung, da es die Wartung von ihr tun Gips und machen den Cluster mit geringsten Ausfallzeiten beinhaltet . Man sollte also ein gutes Verständnis haben. Lenox Bassa Scripting gutes Verständnis von Netzwerken Wo Cebu Speicher ihre Gruppenarchitektur . Wie seine Verteidigung hoch groß wie seine Bienen, sollten sie in der Lage sein, Hadoop-Cluster bereitzustellen, Knoten hinzuzufügen und zu entfernen. Behalten Sie den Überblick über Jobs. Überwachen Sie kritische Teile des Clusterkonfigurationsnamenknotens. Hochverfügbarkeit sollte dies bei großen Backups tun und konfigurieren. Fehlerbehebung in Schulen, Hardwarekonfigurationen wie Raxit ABS-Disk-Topologie, Arie I D bei Spektren. Datensicherung und -wiederherstellung. Überwachung und Tuning und Ausführen von Patches und Upgrades. Ah, Big Data-Ingenieur baut, was der Big Data Solutions Architekt entwickelt hat. Großer Anführer. Genial entwickeln, pflegen, pflegen, schmecken und bewerten Big Data-Lösungen innerhalb von Unternehmen. Die meisten der Zeit sind sie auch am Design der Big Data-Lösungen beteiligt. Aufgrund der Erfahrung, sie haben ihre tun basierte Technologien, wie Karte reduzieren hohe Big ah, Big Data in Junior Builds verloren Geschick Datenverarbeitungssysteme ist ein Experte in Data Warehousing Lösungen und sollte in der Lage sein , um mit den neuesten zu arbeiten weiß Technologie von gleichem Interesse, so dass sie Fähigkeiten Teil sind, sollten sie ein gutes Verständnis von Data Warehouse haben. Ideale Business Intelligence auf ihr tun Teil, huh? Grube High. Groß wie Vergänglichkeit. Keine Fortsetzungsdatenbanken wie Mom. Wäre er Cassandra Experience beim Gehen mit Kleidung sein? Römisch. Gute Vertrautheit mit dem Aufbau verlorener Fähigkeiten Datenverarbeitungssysteme. Ihre Job-Lösungen zu machen. Big-Data-Wissenschaftler sollen der Erfolgsjob im 21. Jahrhundert sein. Erfolgreiche Big-Data-Wissenschaftler werden in Heidemann sein und können sehr schöne Gehälter verdienen . Aber um erfolgreich zu sein, müssen Big Data Wissenschaftler eine breite Palette von Fähigkeiten haben, die bis jetzt nicht einmal in eine Abteilung passten . Also, als Big-Data-Wissenschaftler, sollten Sie ein gutes Verständnis von maschinellem Lernen haben. Prädiktive Modellierung beginnt die Hodenanalyse. Natürliche Sprachverarbeitung, hodoud map Reduzieren Sie hohe, große oder keine Fortsetzung Datenbanken wie Mongo Cassandra Programmiersprachen wie Beißen unsere Java näher. Das ist extra. Ah, Big Data Manager ist der Zwischenhändler zwischen den technischen Teammitgliedern und dem strategischen Management oft Organisation. Daher muss der Big Data-Manager beide Seiten der Münze verstehen. Ich wirklich der Big Data Manager hat einen I T Hintergrund mit einer strategischen Erfahrung, so dass dies ah, ausgezeichnete Kommunikationsfähigkeiten haben würde . Erfahrung im Umgang mit Big Builder Team Gut. Erwarten Sie eine gute Exposition im maschinellen Lernen. Predictive Modellierung starten Hoden Analyse, wie Framework sie sollten ein gutes Wissen über seine DEA Phase Map Bewertungen hoch bezahlt keine Fortsetzung Datenbanken wie Mongo db Cassandra auf Programmiersprachen wie Bite in unserer Arbeit unsere Spektren haben Wissen über seine DEA Phase Map Bewertungen hoch bezahlt keine Fortsetzung Datenbanken wie Mongo db . Um ein Big-Data-Lösungsarchitekt zu werden, sollten Sie bei der Entwicklung großer Datensysteme ein gutes Engagement haben. Gute Belichtung aus ihr tun Ökosysteme wie ihr Do high Big Mahat Wessen IJO Keeper School, dass Sektor Keine Fortsetzung Datenbanken wie Mongo db Cassandra im Sektor RTB MSK Data Warehouse Es 'll Tools wie Tahoe Informatica oder Talent beißen Java Aruban Cloud Diese sind die wichtigsten Fähigkeiten , die für Big-Data-Lösungen erforderlich sind. Architekt. Chief Duty Officer Um erreicht es Officer zu werden, sollten Sie ein gutes Engagement in Data Governance auf Datenqualität haben, Expertenaugen bei der Erstellung und Bereitstellung von Best Practices und Methodologien in der gesamten Organisation Familie bereits TV-Dur Big Data-Lösungen und Produkte, die auf dem Markt verfügbar sind. Wissen über den Aufbau und die Unterstützung von Big-Data-Teams in der gesamten Organisation Guter Exposer in Machine Learning Star-Hodenanalyse Predictive Modeling, Entwicklung von Geschäftsanwendungen Es Spektren Okay, das ist alles für diesen Vortrag. Vielen Dank, Jungs 4. Gehälter für Big Data: Willkommen zurück in der vorherigen wenig haben wir über verschiedene Job Rollen in Big Data Market in diesem Brief erfahren, wie Big Data Profis werden auf dem Markt bezahlt zu lernen. Also hier ist eine Geschichte von Wall Street Journal. Tom Davenport, der ein Executive-Programm in Big Data und Analytics bei Harwood Enlistee unterrichtet, sagte, dass einige Datenwissenschaftler lernen und Seles so hoch wie ein drei-beiniger Dollar ist, was ziemlich gut für jemanden ist, der nicht jemand anderes, der für sie arbeitet. Devonport sagte auch, dass solche Arbeiter durch Probleme und Chancen motiviert sind. Daten bieten die Big Data. Arbeitsmarkt ist ein äußerst wettbewerbsfähiger Markt. In der Tat ist dot com eines der größten Job-Suchportal rund um den Globus. wir einen Blick auf einige Saleh Züge für Big-Data-Profis auf der Tat dot com, schauen Sie sich den Salatring für Big Data Engineer in San Francisco an. Die jede Zelle ist eine wie $53.000 und es steigt mit der Zeit für Big Data gesendet Geschmack es ist ein wie $67.000 auf es steigt auch mit der Zeit Für Big Data Analyst, es ist ein wie 60.000 für einen Solutions Architekt. Es ist ungefähr, um $12.000 zu halten. In New York ist es ein Bein, 89.000 Dollar. So sind die Gehälter für Big-Data-Profis auf dem Markt sehr hoch und variieren von Ort zu Ort. Basierend auf meinen Recherchen fand ich, dass die Gehälter von Big Data-Profis je nach Erfahrung variieren. Also für einen Big-Data-Analyst, könnte die Sally zwischen $50.000 und 1 sein, wie $10.000 für Big Data Wissenschaftler. Es könnte überall zwischen $85.000 zu 1 sein, wie $70.000 basierend auf Ihrer Erfahrung. Für einen Big Data Manager liegt es zwischen $90.000 toe auf $40.000 für ein Big Data und Genie. Es ist zwischen $70.000 zu 1, wie $65.000. Ich hoffe, Sie haben eine Ahnung, wie Big Data-Profis auf den Markt gebracht werden. Das ist alles für diesen Vortrag. Ich sehe den nächsten. Vielen Dank. 5. Technologietrends im Markt: Hallo, Schwule. Willkommen zurück in dieser Vorlesung, wir werden über Technologietrends auf dem Markt lernen. Nun, ich glaube, wenn Sie in der echten Motteninformationstechnologie leben, dann sollten Sie wahrscheinlich über die neuesten Tools und Technologien auf dem Markt wissen. Sie diese kennen, können Sie sich entsprechend vorbereiten und auf dem Markt überleben. Es wird auch helfen. Sie sind nicht gut, wenn Sie das Recht auf Fähigkeiten zur richtigen Zeit haben. Also die Grafik, die ich werde, so dass Sie ein Marken-Tool von Gardner Gardner erstellt ist ein ideales Forschungs- und Beratungsunternehmen. Der Graph wird oft als Gärtner Hype Zyklus bezeichnet, der die Lebenszyklusstadien darstellt, die eine Technologie von der Konzeption bis zur Reife und weit verbreitete Akzeptanz durchläuft. Okay, wenn du dir die Grafik ihres Kampfes ansiehst, gehe ich eins nach dem anderen. Innovation, Trigger und diese Phase unsere Technologien konzeptualisiert. Es mag Prototypen geben, aber sie sind oft keine funktionalen Produkte auf Marktstudien. Das Potential weckt Medieninteresse und manchmal Poop Off Konzept sprechen überhöhte Erwartungen ab . Die Technologien implementiert Raum Lee von unseren Early Adopters. Es gibt viel Werbung über erfolgreiche und erfolglose Implementierungen in dieser Vorlesung. Meine Hauptziel war es, so dass Sie über Internet off Dinge im Volksmund als I o bekannt. In diesem Diagrammist die meisten Hype Technologie Internet der Dinge, und wenn Sie im Web schauen, die meisten Budgets sind ich In diesem Diagramm ist die meisten Hype Technologie Internet der Dinge, und wenn Sie im Web schauen, OD und Big Data. Laut International Data Corporation wird der weltweite Markt für I only Lösungen von $1,9 Billionen im Jahr 2013 auf $7,1 Billionen im Jahr 2020 i. D. C. Schätzt, dass ab Ende 2013 dort wurden 9,1 Milliarde i ot Einheiten installiert. I. D. C geht davon aus, dass die installierte Basis vor irakischen Einheiten im Jahr 2020 bis zu 28,1 Milliarden Einheiten wachsen wird. Die Frage ist also, was ist das Internet der Dinge? Nun, dann schalten Sie es aus. Dinge ist ein Szenario, in dem Objekte, Tiere oder Menschen mit einzigartiger Kunst in Brände und die Fähigkeit, Daten über das Netzwerk zu übertragen , ohne dass Mensch zu Mensch, Mensch zu Computer in Richtung. Eine Sache im Internet aus Dinge kann eine Person mit einem Herzmonitor Implantat was sein? Ein Nutztier mit einem Bio-Chip-Transponder, ein Automobil, das Sensoren eingebaut hat, um den Fahrer zu warnen, wenn der Reifendruck niedrig ist, oder ein anderes natürliches oder künstliches Objekt, das eine I-P-Adresse zugewiesen werden kann und mit der Fähigkeit zur Übertragung von Daten über das Netzwerk. Lassen Sie uns einige Anwendungen sehen. Ich OD Angst, signalisiert keine Milchkarton Lebensmittelgeschäft bekommen Nachricht. Automatischer Text Wenn Sie das Lebensmittelgeschäft betreten, könnte dies eine Anwendung auf Verbraucherseite verbundene Autos sein. Smart City Smart Malls auf der geschäftlichen Seite, abseits von Anwendungen, könnten wir Lock Verletzer analysieren, um Support-Probleme zu lösen, um neue Umsatzchancen zu entdecken. Zum Beispiel General Electric, einer der größten Hersteller von U. K, verwendet General Electric, einer der größten Hersteller von U. K, Big Data Analytics, um den Wartungsbedarf vorherzusagen. G Hersteller, Düsenmotoren, Turbinen, medizinische Scanner. Es verwendet persönliche Daten von Sensoren auf seinen Maschinen und Motoren. Für die Musteranalyse. G nutzt Analysen, um Dienstleistungen zu erbringen, die mit seinem Produkt verbunden sind, um Ausfallzeiten zu minimieren durch Teileausfälle verursacht werden. Echtzeit-Analyse ermöglicht auch Maschinen toe nehmen kontinuierlich auf Verbesserung, wenn er Cincy, die Luftfahrtindustrie gibt $200 Milliarden für Bundes- oder Jahr, so was Truppen und Einsparungen ist $4 Milliarden. G bietet Software, die Airline-Piloten zu verwalten Gefühl, wenn seine N C So jetzt können Sie sich vorstellen, die Menge der Daten generiert werden. Aber diese IoT-Geräte auf die Anforderung von Big Data genial auf dem Markt in der kommenden Zukunft. Okay, ich komme zurück zur Grafik. Der dritte Teil ist durch diese Religion Minze Mängel und Misserfolge führen zu einer gewissen Enttäuschung in der Technologie. Einige Hersteller sind erfolglos oder lassen ihre Produkte fallen. Kontinuierliche Investitionen in andere Produzenten sind davon abhängig, Probleme erfolgreich zu lösen. Wenn man sich das Diagramm anschaut, liegt Big Data zwischen dem Höhepunkt der überhöhten Erwartungen und der Desillusionierung. Da Big-Data-Technologie immer noch nicht ausgereift ist, gibt es viele Funktionen, die in der Technologie hinzugefügt werden müssen. Wir werden es in den kommenden Vorträgen sehen. Aber ja, Big-Data-Communities. Sehr starke Menschen tragen viel dazu bei. Der Herr von Verbesserungen und Ankündigungen kommen jeden Tag, Steigung von Erleuchtung. Das Potenzial der Technologie für weitere Anwendungen wird bei einer zunehmenden Zahl von Unternehmen, die in ihrem Engagement umsetzen oder schmecken, breiter verstanden . Einige Produzenten schaffen weitere Generationen von Produkt-Lady off Produktivität. Die Technologie wird weit verbreitet, ihr Platz auf dem Markt und ihre Anwendungen sind gut verstanden. Für die Evaluierung von Technologieanbietern ergeben sich Standards. Alles klar, das ist alles für diesen Vortrag. Bald der nächste. Vielen Dank 6. Beratung für Big Data Anfänger: Willkommen zurück. Nun, meine Hauptansicht, diesen Vortrag einzubeziehen, ist, Sie so als Big Data Bignell zu führen. Was sind die Dinge, die Sie wissen sollten? Was sind die Gewohnheit, die einfach machen würde? Und was sind die Fähigkeiten zu haben, bevor Sie in Big Data-Feld springen und wie sollten Sie vorgehen? Also werde ich all diese Fragen auf Gewohnheiten Teil beantworten. Sie sollten so viele Meetups wie möglich besuchen Wenn Sie nicht auf Meter sind, gehen Sie und melden Sie sich an der und schließen Sie sich so vielen großen Abschreckungsgruppen wie möglich in Ihrer Nähe an. Nehmen Sie an Konferenzen auf Big Gato teil. Die Hauptvorteile sind da. Sie finden und treffen Leute, die das gleiche Interesse haben. Und dort können Sie eine gute Menge an Wissen teilen. Fangen Sie an, Big Data-Nachrichten auf Online-Kanälen wie TechCrunch gute prismatische, wenn sie es zu schlagen . Sektor. Sie sollten auch anfangen, verschiedene Unternehmen zu lesen. Ingenieur-Blog's, die Big Data verwenden. Glauben Sie mir, wenn Sie diese Gewohnheiten machen, wird das Ihren großen Tagesschulen Werte hinzufügen, und auf lange Sicht wird es Ihnen in Ihrer Big Data-Karriere zurückzahlen. Als Big-Data-Entwickler verbringen Sie die meiste Zeit mit der Datenaufbereitung. Und da dieser Kurs soll Sie über Big-Data-Technologien und wie Sie Big Data mit ihrer Gruppe und ihrer Komponente verarbeiten können , so dass grundlegende Fähigkeiten von Relational später speichert Ideal B I Data Warehouse ein Ort sein würde für Sie. Heutzutage, in den meisten der Unternehmen, werden Sie feststellen, dass es eine Sicherheit in analytischen Plattformen gibt. Es gibt eine Migration von herkömmlichen Datenspeichern? Wie werden große Datenmengen für die meisten analytischen Aufgaben mit diesen großen, besseren Tools und Technologien durchgeführt . Also, wenn Sie lernen, wie Banditen Gesellschaft tun, sollten wir ein Start mit ihnen spielen. Wählen Sie eine kleine später sagte, dass Sie mögen, und spielen mit als deface Bienenstock und groß. Sie sollten alle Anwendungsfälle auf Big Data nehmen und versuchen, sie mit hive in pig zu erreichen, glaube ich, bevor Sie mit großen Datenmengen spielen, sollten Sie zuerst die Datenpipelines sagen und den Datenfluss mit einfachen Datensätzen sehen. Wenn Sie also alle Datenpipelines festgelegt haben, wiederholen Sie die gleiche Aufgabe mit großen Datenmengen. Versuchen Sie, Datenverarbeitungstechniken zu implementieren, die Sie in den Schulen lernen. In einigen Fällen müssen Sie möglicherweise Ihre Aufgabe mit verschiedenen Konfigurationen iterieren, wie erreichen Sie eine optimale Lösung? In diesem Fall würde ich vorschlagen, dass Sie Ihre Änderungen immer vergleichen, um die beste Lösung zu finden. Das ist alles für diesen Vortrag. 7. Einführung in Hadoop: Willkommen zurück in dieser Vorlesung. Wir werden über Geschichte lernen und Grundlagen oft tun. Die Gruppe ist nach meinem Elefanten benannt, der Entwickler, dass Gutensohn gehört. Das ursprüngliche Projekt, das sie tun würde, war eine Web-Indexierungssoftware namens Match. Google hat zwei Whitepaper veröffentlicht, nämlich Goebbels, File System on My Produce in Turn Three und Tutor und Vier, beziehungsweise. Nüsse. Entwickler benutzten diese Papiere tobuild, ein verarbeitendes Freundesbuch, das sich auf Dutzende von Computern anstatt auf eine einzige Maschine stützte, wobei die Anglo rechtmäßig seine Web-Suchinfrastruktur aufbaute. Ja, wer Nüsse Lagerung und Verarbeitung Ideen verwendet, um das Rückgrat zu bilden, tun in seinen frühesten Implementierungen bei Yahoo, eine Schleife ging nur auf 5 bis 20 Noten Yahoos Entscheidung, eine Aussparung für seine Daten einzurichten . Wissenschaftler helfen dem Forschungsdampf schrittweise Hadoop-Cluster von Dodges auf Hunderte von Knoten zu skalieren . Bis 2008 war Yahoo bereit, ihre Gruppe als Motor ihrer Web-Suche zu debütieren. Mit ah ha do Gips Mit rund 10.000 Knoten, konnte das Unternehmen seine Suche eine Geschwindigkeit in zwei italienischen erhöhen 11 Yahoo betreibt seine Suchmaschine über 42.000 Note. Mit viel mehr Akteuren in Open-Source-Projekt als in seinen frühen Tagen beteiligt, sie tun weiter zu entwickeln und verzweigen sich in neue Richtungen. Sollte. Die Frage ist, was ist? Wie geht es? Laut Apache ist Hadoop eine Open-Source-Software, die Emaille verteilt große Datensätze über Cluster außerhalb von Commodity-Servern verarbeitet. Es wurde entwickelt, um von einem einzigen Server auf Tausende von Maschinen mit einem sehr höheren Grad von $4 Ins zu skalieren , anstatt sich auf die Einstellung von Hardware zu verlassen. Die Ausfallsicherheit dieser Cluster ergibt sich aus der Fähigkeit der Software, Fehler auf der Anwendungsebene zu erkennen und zu behandeln . Also, um ihre Gruppe in sehr einfachen Worten zu verstehen, müssen Sie grundlegende Dinge über sie verstehen. Sie sind, wie Hadoop speichert gespeichert, das ist, als DFS und wie es Daten verarbeitet. Das heißt, mein Produzent ist DFS ist eine Speicher-Engine von Luke, wo Sie Dateien von jeder Größe speichern können. Sie können Dateien installieren, die von Botschaften bis zu Fernsehern oder sogar höher reichen, abhängig von Ihrer Konfiguration für geschäftliche Anforderungen. Es ermöglicht auch Ihren Speicher so viele Dateien wie möglich. Es verzerrt die Dateien in einer verteilten Art und Weise, die sich über mehrere Maschinen verteilt. Das werden wir in Kürze sehen. Map Reduce ist eine Datenverarbeitungs-Engine von Helou. Welche Prozesse saßen in als DFS. Wenn Sie sich die bedingte spätere Verarbeitung ansehen, werden Entwurzeldaten über ein Netzwerk verschoben, das von uns dort verarbeitet wird . Verschieben von Daten über Nacht für kann sehr, sehr langsam sein, insbesondere bei wirklich großen Datensätzen. Ihre Gruppe verwendet einen intelligenteren Ansatz, anstatt Daten in die Codes zu verschieben. Es verschiebt die Verarbeitungscodes an den Führer, der auf verteilten Maschinen sitzt. Diese Schulen verarbeitet Daten dort auf Lee zurückgekehrt die Regionen. Jetzt können Sie sich vorstellen, wie viel Netzwerklatenz hier gespeichert wird. Das ist die Schönheit aus. Also sagen Sie nein, wir haben als Verteidigung gesehen und meine produzieren einen Knochen zusammen für einander, um Probleme bei der Verarbeitung von Daten in sehr großem Maßstab zu lösen , wo, wie DFS bietet ein Dateisystem und Karte, diese bereitstellt sind verteilte Datenverarbeitungs-Framework. Es ist eine Sache, die ich Sie noch einmal daran erinnern möchte. Dieser Kurs basiert vollständig auf ihrer Gruppenversion 2.2. Was auch immer hier in den Schulen behandelt wird, ist mit ihr aufgrund der Druckversion verwandt. Aber ja, wann immer ich das Gefühl hatte, sollten Sie über ältere Version wissen. Das habe ich in diesem Kurs behandelt. Auch in der kommenden Vorlesung werden die Unterschiede zwischen ihr tun Wunder Taten und Hadoop Toe X Jungfrauen kommen zurück zu dem Thema zu sehen . Ich verstehe meine Produkte. Wenn Sie sich die Karte auf einem sehr hohen Niveau produziert betrachten, gibt es zwei Teile Karte und reduzieren. Idealerweise entwickelten Anwendungen eine Karte und eine reduzierte Methoden in Java durch entsprechende Schnittstelle oder abstrakte Klasse implementieren . Sie geben auch Ein- und Ausgabepositionen bei einigen Konfigurationen an, Rest wird vom Framework gepflegt. Jetzt werden wir ein, was häufiges Problem, das wie ein Hallo Welt Programm in Karte Damen Programmierung ist sehen . Wenn Sie sich den Bildschirm kurz ansehen, habe ich eine Textdatei erstellt, die eine Zeile enthält, die meine Geräteprogrammierung verwendet. Wir werden das Vorkommen loswerden. Hallo, Gesandter. Wort in diesem Text, anstatt zu suchen, wie Map Reduce-Framework dieses Problem lösen wird. Lassen Sie uns verstehen, wie Lennox Entwickler dieses Problem lösen wird. Mit Batter-Skript Sie sind zwei Bässe Skripte hier Karte eine Menge s H und reduzieren ihre Tochter Nachricht. Ich werde meine X-Dateien in Mapper Dot Shh einspeisen. Mit Pipe-Skript-Map viel SS wird es Zeile für Zeile lesen und jede Zeile organisieren. Wenn unser Token hallo ist, wird es Schlüsselwertpaar als Hallo Komma ein drucken, wenn wir sprechen ist ungültig. Es wird auch ein Schlüssel-Wert-Paar drucken. Komma eins die Schrift Ignorieren Sie alle anderen Token, die Sie in diesem Screenshot sehen können. Also ist die Logik ganz einfach Wie erklärt, warum Luke jede Zeile lesen wird und für Luke Augen jede Welt in der Zeile token wird . Ost-Reden wird dann untersucht. Wenn es sich um ein Hallo oder eine Welt handelt, wird ein entsprechendes Schlüsselwertpaar gedruckt Wenn Sie versuchen, es selbst zu tun Vergessen Sie nicht, Ihrer Mapple die Execute-Berechtigung zu erteilen . Das ist es eine Gruppe, die ch Stimmung benutzt. Komm schon, sobald auf dem Bildschirm. Schauen wir uns den Produzenten Dot Shh an. Ich werde meine aussättigen. Versetzen Sie mein Mitglied schrieb Essays, um das Alter von Erwachsenen durch den Produzenten zu reduzieren, wird jedes Schlüsselwertpaar von Mapper produziert untersuchen und da wird einfach für zählen, wie oft es gefunden Erste Paar, das Hallo ist, Komma ein Und wie viele Mal fand es Zweites Paar Das ist WorldCom ein Eins. Schließlich wird es meinen gewünschten Off-Boot so bald auf dem Bildschirm drucken. Das ist also, was die erzeugte Karte auf sehr hohem Niveau ist. Mein Product Framework wird Eingabedaten an Mapple Netter einspeisen, von einem Programmierer entwickelt wurden. Mapple weiß, was mit diesen Daten zu tun ist. Daher wird es Daten über allgemeine Schlüsselwertpaare verarbeiten, die zurück an das Framework-Zugbuch gegeben werden, führen eine Such- und Sortieroperation für alle Schlüsselwertpaare aus verschiedenen Knoten über den Cluster generiert . Dann wird es diese Schlüsselwert-Peers zurück zu reduzieren. ER Producer ist wieder eine Angelegenheit. Geschrieben von einem Programmierer und skit weiß, was mit diesen Schlüsselwert zu tun scheint Reducer wird reduzierten Betrieb durchführen, um die endgültige regionale zu generieren. Okay, das ist alles für diesen Vortrag. Sehen Sie in der nächsten. Vielen Dank. 8. Hadoop Ökosystem: Hallo, alle. Willkommen zurück In der vorherigen Vorlesung haben wir über Grundlagen gelernt. In diesem Vortrag werden wir über Haru Equal System lernen. Die Hadoop-Plattform besteht aus. Zwei Schlüsseldienste sind zuverlässig. Verteiltes Dateisystem nannte ihre Gruppe verteiltes Dateisystem. Das heißt, wie DFS und die leistungsstarke parallele Datenverarbeitungs-Engine ihr Duke mein Produkt nannten , was wir bereits in früheren Vorlesungen über sie gelernt haben. Wenn Sie sich ihr Loop-Ökosystem ansehen, gibt es mehrere Tools zur Verfügung, um bestimmte Bedürfnisse zu adressieren. Wie Bienenstock großen Maholm Uzi Schulsektor. Diese Tools werden als Komponenten des Hadoop-Ökosystems bezeichnet. Diese Komponenten bieten eine Möglichkeit, auf Daten zuzugreifen und zu verarbeiten, die in der Verteidigung sitzen. Lassen Sie mich Ihnen ein Beispiel geben, um Ihnen dabei zu helfen, das Haru-Ökosystem zu visualisieren. Sieh dir dieses Bild an. Was siehst du hier? Ein Smartphone mit vielen APS und gestohlen es richtig. Betrachten wir dies ein Smartphone als Hadoop-Ökosystem und seine App. Nichts als die Komponenten Off Loop-Ökosystem. Betrachten Sie Ihren Telefonspeicher. Als Verteidigung haben Sie Fotos, Videos auf Ihrem Handy. Sie können diese Fotos oder Videos mit APS wie Facebook-Leihen Hochtöner es Sektor teilen. Es bedeutet, dass Sie Telefondaten mit diesen ups direkt auf die gleiche Weise Komponenten aus ihr tun zugreifen können und Daten verarbeiten, die sich in als DFS befinden. Jede Komponente des Hadoop-Ökosystems wurde entwickelt, um bestimmte geschäftliche Anforderungen zu erfüllen. Werfen wir einen Blick auf jeden von ihnen eins nach dem anderen. Hallo ist wie ein Data Warehouse, das oben auf Do aufgebaut ist. Anstatt komplexe Karten hübsche Schulen in Java oder einer anderen Sprache zu schreiben, habe ich eine fähigkeitsbasierte Abfragesprache verwendet, um mit Daten in einer Gruppe zu interagieren. Big ist eine Datenflusssprache, die große Lead im Skript verwendet, um mit Daten zu interagieren, die in sitzen. Es hebt auch die Komplexität des Schreibens von Karten, reduzieren Schulen und Programmiersprachen. Wie Java ist Gladding ähnlich wie SQL. Sie können größte Skripte schreiben, um Big Data in Schule steht für SQL Toe zu verarbeiten. Wie geht es so? Grundsätzlich ist scoop ein Werkzeug, das verwendet wird, um Daten von Ali BMS zu seiner Verteidigung und umgekehrt zu übertragen. Uzi ist eine Bewerbung, die verwendet wird, um Sie eine Party zu skalieren. Helou Jobs woozy kombiniert mehrere Aufträge nacheinander zu einer logischen Einheit ohne Arbeit. Es ist mit Lupus integriert. Beginnen Sie mit jungen Gadgets, Architekturzentrum und unterstützt ihre boob Jobs für eine Party in meinen Produkten. Big high, jede Schule, die Sie können auch Skelettjobs, Platz efecto ein System wie Java-Programme oder verkaufen ein Skript. Do Keeper bietet Betriebsdienste für einen Hadoop-Cluster. Haben Menschen bietet verteilte Konfigurationsdienst sind Synchronisationsdienst auf der Benennung der Historie für verteilte Systeme. Seine Basis ist eine Open Source. Keine Fortsetzungsdatenbank, die Echtzeit-Lese-Schreibzugriff auf die letzten Datensätze bietet. Eine Partei basiert linear skaliert riesige Datensätze mit Milliarden von stieg und Millionen von Spalten zu behandeln . Darauf sind Silicon Minds Datenquellen, die eine Vielzahl von verschiedenen Strukturen und einen Informant verwenden . Grippe ist eine verteilte, zuverlässige und verfügbare Umfragen für die effiziente Erfassung, Aggregation und Verschiebung großer Mengen von Streaming-Daten in seine Deaver. Zum Beispiel kann Flume verwendet werden, um mehrere Protokolle zu sammeln und als Verteidigung in Echtzeit abzulegen. Mein Herz ist aufwändig von einem skalierbaren Machine Learning Garten implementiert oben auf tun und mit meinem Apparate-Paradigma. Sobald Big Data auf dem verteilten Hadoop-Dateisystem gespeichert ist, stellt Mahat die Data Science-Tools bereit, um automatisch aussagekräftige Muster zu finden. Und diese großen Datenmengen. Mein Herz unterstützt die Bildung von Daten seit Anwendungsfällen. Kollaborative Filterung, Clustering-Klassifizierungen häufig. Ich habe nicht Bergbau gesagt. Okay, das ist alles für diesen Vortrag. Bald. Der nächste. Vielen Dank. 9. Hadoop 1.x vs Hadoop 2.x: Willkommen zurück in dieser Vorlesung. Wir werden über verschiedene Versionen lernen. Angebot. Ist das, wie fragen Sie sich die Steuer und wie tun, damit Handlungen, bevor wir beginnen? Lassen Sie uns grundlegende Begriffe aus Dude Helou Flugzeug verstehen. Es ist eine Maschine, die kein Teil von Hadoop-Cluster ist, aber einige Konfigurationen haben, so dass ein Benutzer den Hadoop-Job senden kann , der auf Hadoop-Cluster ausgeführt werden soll. Im Allgemeinen haben Klein Maschinen Hadoop mit allen Cluster-Einstellungen installiert, sind aber weder Master noch Slave. Stattdessen besteht die Rolle des Clientcomputers darin, Daten in Cluster zu laden, Zuordnungsaufträge zu senden, zu beschreiben, wie die Daten verarbeitet werden sollen und dann von Ihnen die Regionen des Auftrags abzurufen . Wenn es in einem kleineren Cluster fertig ist, sagen wir 30 Knoten, kann es sein, dass ein einzelner physischer Server mehrere Regeln wie Job-Tracker und Name Nr. Bei mittleren bis großen Clustern wird jede Regel auf einem einzelnen Servercomputer ausgeführt. In unseren vorherigen Vorträgen haben wir gelernt, ist DFS und Karte reduzieren. Wir sahen, wie mein hübscher Job in einzelne Aufgabe unterteilt ist, genannt Mapper und Reducer. Während sie tun die Delegation aus Aufgabe wird von zwei Dämonen namens Job Tracker und Stürmer behandelt . Unser Dämon ist ein Prozess, der lang ist. Lippe den Job-Tracker in Übersee. Wie? Map Pretty Jobs werden in Aufgabe aufgeteilt auf Knoten innerhalb des Clusters aufgeteilt. Job Tracker befindet sich auf Namen Nein, der Star Stürmer, mit Ausnahme der Aufgabe von Job Tracker und führt die Welt und erlaubt duh Job Tracker einmal getan. Das ist Tracker auf Datennotizen befinden sich auf den gleichen Knoten. Toe verbessern die Leistung, die Straker sind. Dämon ist ein Sklave des Job-Checkers. Und die Daten. Kein Dämon. Ein Sklave des Namens. Kein Name, kein Name, kein verzerrt Meta Später über Daten, die in get gespeichert werden, entfaltet sich, während Datenknoten das eigentliche später gestohlen haben. Der Name hat also nicht die Informationen. Wie auf welchen Blöcken auf welchem Rack oder auf welchen Daten? Nein, die Daten sind ein Stuhl. Auf andere Details. Name Knoten wird auf Master North ausgeführt. Hat unsere Datenformen nicht Daten zu seiner Verteidigung gespeichert? Ah, funktionales Dateisystem hat mehr als ein Datum und alt mit Daten über sie repliziert. Daten, keine Instanzen können miteinander sprechen, was sie tun, wenn sie Datendatenknoten replizieren, läuft auf Schlafknoten. In einfachen Worten können wir sehen, dass ihre Gruppe eine Master-Slave-Architektur hat. Ihr Namensknoten läuft auf Master Nolde, verschiedenen Datenknoten und auf Slave-Knoten. Der Task-Tracker Demon ist ein Sklave des Job-Checkers auf den Daten. Kein Dämon ist ein Sklave des Namens. Lassen Sie uns verstehen, wie harte Beute eine Datei speichert. Nehmen wir an, Sie haben eine Datei von einer GB Größe. Also was, hallo wird tun? Es wird die Dateien und die Blöcke in Abhängigkeit von Ihrer Blockgröße, für die Sie sich entschieden haben, brechen. Ich habe es über Daten und alt gestohlen. Nehmen wir an, wenn Sie die Blockgröße konfiguriert haben, um 56 MB, so wird es die Datei in vier Blöcke aufbrechen auf, gut, ein Speicher es über verschiedene Datenknoten. Name-Knoten wird die Dateien Metal später. Wie, welche Blöcke bei seinem Date auf Stationen auf mir gespeichert sind. Bis dorthin. Die Blockgröße ist die kleinste Einheit aus Daten, die ein Dateisystem gespeichert werden kann, dass die vier Blöcke Umsatz im UNIX-System vier Schlüssel ist, sehr gin Helou. Es ist 64 Emmy. Jetzt lasst uns verstehen, warum Helou eine größere Blockgröße hat, wie wir in unseren vorherigen Vorträgen als DFS gesehen haben, ist gemein, große Dateien zu behandeln. Jetzt sehen wir, dass du 1000 hast. Und wenn ich in seiner Verteidigung und Sie die Blockgröße als vier Schlüssel konfiguriert haben, so müssten Sie mir 56.000 Anfragen zu mögen, um diese Datei zu bekommen. Das ist ein Anforderungsproblem in als DFS. Diese Anfragen gehen über das Netzwerk und haben viel Aufwand. Jede Anfrage muss vom Namensraum verarbeitet werden, um herauszufinden, wo dieser Block gefunden werden kann , was viel außerhalb des Datenverkehrs ist. Wenn Sie verwenden 6400 Blöcke als eine häufigere geht auf 16, was stark reduziert die Kosten von Overhead und Last auf dem Mond. Lassen Sie uns nun verstehen, was Datenanwendung für die hohe Verfügbarkeit Off-Daten ist und Hadoop speichert Kopien aus gleichen Blöcken über verschiedene Datenknoten auf Drags. Wenn also irgendwann unser Tag Donald ausfällt, kann auf dieselben Daten über andere Datenknoten zugegriffen werden. Standardmäßig stellt Hadoop drei Kopien von Blöcken über verschiedene Datenknoten und Ratten hinweg wieder her. jedoch Der Replikationsfaktor kannjedochje nach geschäftlichem Bedarf erhöht oder verringert werden. Lassen Sie uns über zweitens namens Herr diskutieren, wie wir gesehen haben, Namen Load hält einen späteren wie Block in Formation gemacht, gezogen Informationen , Daten Notizen , Daten, etc. Und all diese Informationen sind im Hauptspeicher gedünstet, und das ist der Grund, warum es Single Point of Failure in Hadoop Cluster genannt wird. Lassen Sie uns nun tief verstehen, wie Name Knoten und zweitens Namen Notizbücher Name Nr. Auch speichert machte eine spätere Informationen in persistenter Speicherung in der Form von Dreadlocks auf Bemühungen Bild Sie können im Diagramm sehen, wie ein Name die Informationen nicht verzerrt Fs Bild ist der Snapshot aus Dateisystem, wenn Name Knoten gestartet wird, während ein Deadlocks sind Geheimnisse aus Änderungen an dem feinen System nach dem Namen gemacht Hinweis ist es gestartet Onley in Griechenland Start off Name laden Ein wenig Eichen werden auf F s Bild angewendet Holen Sie sich den neuesten Snapshot des feinen Systems Aber Name Knoten Neustart von sehr selten in der Produktion -Cluster Das bedeutet, dass sie Sperren für die Cluster sehr groß werden können. Wir sind kein Unterschied für eine lange Zeit. In diesem Fall können wir die Situationen Leben konfrontiert und es Schlösser werden sehr groß, was schwierig sein wird, es zu verwalten. Name Node Neustart dauert lange, da viele Änderungen verschoben werden müssen. Nummer drei für den Fall, dass der Name nicht nach unten geht. Wir verloren Hughes Betrag aus, machte einen Führer, da Bemühungen Bild ist sehr alt, so dass diese Probleme zu überwinden Wir brauchen einen Mechanismus uns helfen wird, reduzieren die Ein wenig Aufwärtsseite, die überschaubar ist und sollte auf dem neuesten Stand Bemühungen Bild haben , so dass Last auf benannten alten reduziert Dies ist, wo zweite Namensnotiz in das Bild kommt. Es ist wirklich ein wenig mit diesem Wiederherstellungspunkt, der es uns ermöglicht, eine Momentaufnahme der Spielzeuge zu machen , so dass, wenn etwas schief geht, wir zum letzten Wiederherstellungspunkt zurückrollen können. Zweitens, Name bekannt hilft, diese Probleme zu überwinden, indem die Verantwortung aus dem Zusammenführen ein wenig Protokolle mit FS-Image aus dem Namen Nr. So erhält in die Bearbeitungsprotokolle von dem Namen, der in regelmäßigen Intervallen bekannt ist, gilt für F s Bild. Sobald es ein neues FS-Bild hat, kopiert zurück auf den Mond Ich bin nicht wird dieses Bemühungsbild für die nächsten drei Start verwenden, die ihre Startzeit reduzieren wird. Damit wir sehen können, wie sie es tut. Zweitens setzt Name no einen Checkpoint in das Dateisystem, was den Namen no hilft, jetzt zu einem mittleren Thema zurückzukehren. Wie wundert sich. X-Version unterscheidet sich von zwei Angriffen. Nun, ihre verschiedenen Einschränkungen werden Sie konfrontiert, wenn Sie Zeiger verwenden, der unberührte wie keine Einschränkungen ist . Innerhalb eines Clusterauftrags kann man bis zu 4000 Knoten haben. Zweite Flasche wie Resource Man war Job Zivilisten auf Monitor. Es hat nur einen Namen. Nein tu minus seiner Verteidigung. Es ist Kartierung. Reduzieren Sie die statische Schlachtung. Dieser Job kann nur wichtig sein. Nein. Alle benutzerdefinierten Aufträge sind niedrig. Lassen Sie uns nun verstehen, wie Leseanforderung in 100 wunderten Explosion in einem neuen Cluster verarbeitet wird . Sie notieren nicht, senden weiterhin Herzschläge und blockieren Berichte, um keinen Namen zu nennen, keine Nase, die nicht wusste, ist lebendig, auf dem man getan wird. Also, wenn eine neue Client-Anfrage für eine Lese-Operation auf dem Gips-Namen, Node kennt die Position der Blöcke und bekommen einen Halt. Es gibt also den Datenknoten und Blockideen zurück, um den Lead-Vorgang auszuführen. Jetzt sehen wir, wie die richtige Operation bei ihren Neugeborenen durchgeführt wird. Wenn ein wie Client nach einem richtigen Vorgangsnamen anfordert, keine Details, dass sie keine alten Ideen haben, und dann führt die Hadoop-Zeile den richtigen Vorgang aus. Datenanwendung wird durch die Datennotizen selbst durchgeführt, und dann senden sie den Block zurück. Berichte, um bekannt zu nennen. Das ist ein Süßigkeiten-Name. Hinweis überprüft weiterhin ihre Schuldensperren, um die Aktualisierung zu erhalten. Das Büro Image Running Job In ihrem Wunder Angriffe, wenn ein Hadoop-Job von einer Hadoop-Linie eingereicht , der Job Tracker und Trust Tracker Nehmen kümmert sich um den Job. Der Job-Tracker in Übersee. Wie Map Pretty Jobs werden in Aufgaben aufgeteilt, die Mapper und Reducer sind und auf die Knoten innerhalb des Clusters aufgeteilt sind. Der tar Stürmer, mit Ausnahme der Aufgabe von Job Checker und führt den Weg und dann alarmiert den Job Nehmer. Sobald es getan ist, wurden ihre verschiedenen großen Verbesserungen in Hadoop-Angriffen getan. Nun, wie schreiben Sie X unterstützt bis zu 10.000 Knoten? Park Lister. Es unterstützt mehrere Namensknoten seine Verteidigung Einführung in Young zu verwalten, wenn in Gips Sie Dilatation. Yanis steht für eine weitere Ressource Verhandlungsführer. Eine Gruppentour es wirkt, hat das Konzept aus Containern, während sich gefragt hatte, Zugang Lose weiterhin All Generate und London jede Dave aus Aufgabe, aber ein Slot-Canyon entweder eine Karte oder einen reduzierten Stoßzahn wegen der Container, und dass mehrere verteilende Rechenmodelle innerhalb desselben Clusters nebeneinander existieren können. Die U-Erweiterung von Hadoop two dot exe ist deutlich höher als die Hadoop Warner Exkl Esther auf einem sehr hohen Niveau bei Einführung von Young in Hadoop, Kodak The Job Tracker wurde ersetzt, wo Resource Manager und der Task-Tracker hat war der Ort, wo bekannte Manager Resource Manager hilft, Jobs zu erledigen und auch kümmern sich um Skalierbarkeit und Unterstützung für alternative Programmierparadigmen. Nord Manager Kümmern Sie einzelne Rechenknoten und Hadoop-Cluster ab. Dazu gehört, dass der Ressourcenmanager auf dem Laufenden bleibt, der die Teilnehmer überwacht, Lebenszyklus-Management-Monitoring-Ressourcen wie CPU, Speicher aus einzelnen Containern, Tracking-Node-Hilfe-Sperren, Management und andere Dienste, die von verschiedenen jungen Anwendungen genutzt werden können. Wie Porträt Handlungen ist auch abwärtskompatibel mit meinen Produkten geschrieben in ihr tun Pornoattacken und vorwärts bequem jede APS kann mit Hadoop integriert werden. Zwei schrieben X, so dass es jenseits der Kartenproduktion ist. Die Lese- und Schreiboperationen sind fast ähnlich dem, was wir in Hadoop unter Angriffen gesehen haben. Der einzige Unterschied, den wir in dieser Architektur sehen, ist die Registrierung von Datenknoten. Zu viele Namensknoten. Zug Fall. Ein Namensknoten geht nach unten. die Daten kann weiterhin mit Hilfe anderer Namensknoten zugegriffen werden. Sehen Sie sich die Blockpools im Diagramm an. Wie Daten Notizen sind sie mit verschiedenen Namen Knoten in ihrer Gruppe gerührt Axe zu Punkt, können wir sagen, Name Knotenköpfe, hohe Verfügbarkeit. Also, wie man Akte aussetzt, kann sich automatisch um den Cluster kümmern, wenn ich No nenne Führende Operation Schreibvorgang sind ziemlich ähnlich. Was wir in ihr gesehen haben, um Decks laufen Job in ihren Ludogorets zu wandern. Wenn also eine Hadoop-Zeile einen Job in Hadoop-Tour-Angriffen einreicht, kümmert sich der Ressourcenmanager um den Job und wird im Cluster bereitgestellt. Sehr beachten Sie, dass Manager sich um die Aufgabe kümmern. Damit schließe ich meinen Vortrag ein. Ich hoffe, Sie haben Spaß beim Lernen der Job-Architekturen und verschiedenen Versionen. Sie ist in der Hals-Vorlesung. Danke. 10. ETL vs ELT: Hallo, alle. Willkommen zurück in dieser Vorlesung, wir werden darüber erfahren. Und ich nehme an, Sie haben Grundlagen Wissen aus Ideal und Data Warehouse. Nun, es steht wirklich für Extrahieren, Transformieren und Laden, während Ile de Stand für Extract Last und Transformation, bevor wir beginnen. Lassen Sie uns diese drei Begriffe verstehen. Extrakt ist ein Prozess, bei dem Daten aus mehreren Quellen in einen Stagingbereich kopiert werden. Die Quellen könnten alle Datenbanken sein, die Transaktionsdaten von Organisationen wiederherstellen, zum Beispiel meine Fortsetzung Sense Force. Excel, usw. Transform ist ein Prozess, bei dem Daten entsprechend einem Ziellieferungen transformiert werden. Die Zieldatenbank heißt Data Warehouse. Sobald Daten transformiert und in Staging-Daten gespeichert werden, werden sie dann zum Data Warehouse im traditionellen Analytics-Ansatz geladen . Was wir tun, haben wir gezwungen, alle geschäftlichen Anforderungen zu sammeln. Und dann haben wir unser Data Warehouse so konzipiert, dass es problemlos alle geschäftlichen Fragen beantworten kann. Umgestaltung ideal, damit es die Daten, die in das Data Warehouse hochgeladen werden sollen, leicht transformieren kann. Beim Extrahieren der Daten extrahieren wir nur Spalten oder Tabellen, die für den idealen Prozess erforderlich sind. Der Rest wird ignoriert. Es erfordert eine separate Infrastruktur, um ideal zu halten und Data Warehouses starten. Und die schmerzhafteste Aufgabe ist, dass Sie, wenn sich geschäftliche Anforderungen ändern, Ihren heiligen Schritt neu gestalten müssen, um die Änderungen einzubeziehen, was eine kostspielige Angelegenheit ist. Lassen Sie mich Ihnen ein Beispiel geben. Nehmen wir Ihre neuen Geschäftsanforderungen an. Möchten Sie, dass einige neue Spalten zu Ihrem Data Warehouse-Modell hinzugefügt werden? In diesem Fall müssen Sie Ihr Data Warehouse-Modell so neu gestalten, dass diese neuen Spalten enthalten sind. Und da Ihre ideale Aufgabe entworfen ist, Onley, dedizierte Spalten oder Tabellen auszuwählen , so müssen Sie auch Ihre i'll Job neu gestalten . Okay, wenn Sie darüber reden, wie kommen Ihre Daten zuerst in wie gehen? Dann denken Sie darüber nach, Datenpipelines zu entwerfen, um Ihre Analyseanforderungen zu erfüllen. Also, für den Fall, dass sie die am häufigsten verwendeten Ansätze schuldig machen, extrahieren Sie alle Ihre Auditor auf, laden sie in wie tun und dann tun Sie die Datentransformation, um Ihre Analytics-Ausrüstung zu erfüllen . Aber ja, gut, sehr abhängig von geschäftlichen Anwendungsfällen, das Beste an den Ansätzen, die sagen wir, wenn sich in Zukunft Ihre Geschäftsanforderung ändert, müssen Sie sich keine Gedanken über die Extraktion machen Auditor wieder, da Ihre Daten in ihrer ursprünglichen Zeichnung von ihr in ihr zu tun. Während im Falle von herkömmlichen Data Warehouse, ist es nicht, weil sie von Ihrem idealen Job transformiert wurden. Ich hoffe, Sie bewachen Idee, wie gesunder Ansatz in einem do verwendet wird. Das ist alles für diesen Vortrag. Siehst du, im nächsten. Vielen Dank. 11. Hadoop Anbieter: immer, willkommen zurück in diesem Vortrag, ich werde über Hadoop-Verteilung durch verschiedene Fenster sprechen. Also, bevor ich beginne, lassen Sie mich Ihnen sagen, den Unterschied zwischen ihr tun angeboten Bear Party und Hadoop von diesen Marktfenstern angeboten . Nun, wenn Sie dort zwei Möglichkeiten suchen, können Sie sie für Ihren Test oder Ihre Produktionsbeteiligung einrichten. Nummer Eins. Sie können die Banbury-Dateien von einem do herunterladen und es ist Unternehmen von Apart Cheese Website und die Beteiligung manuell einrichten. Nummer zwei. Sie können für jede der Distributionen von Anbietern auf dem Markt zur Verfügung gestellt, so eine sehr hohe Rechnung. Der Unterschied zwischen ihnen besteht darin, dass, wenn Sie sich für die Hadoop-Distribution durch eines der Fenster entscheiden , Sie Unterstützung erhalten. Einige zusätzliche Funktionen auf der Oberseite von Duke und seine kompetente auf einem sehr schönen Gang ein System, um die Cluster zu verwalten. Okay, schauen wir uns einige der Top-Anbieter auf dem Markt an. Stellen Sie sich elastische Karte vor. Im Volksmund bekannt ist EMR war eines der ersten kommerziellen Hadoop-Angebote auf dem Markt und führend in globalen Marktgefängnissen. EMR ist ihre Gruppe im Club befreiend Erstaunlich einfach zu berechnen Amazing s drei Geschichten auf andere Dienste. Claudia Reyes Focus. Ich will sie nicht innovativ machen. Basierend auf Unternehmensanforderungen wird die Hadoop-Suite als Bekleidungsvertrieb bezeichnet. Auch bekannt als Sidi it. Es hat eine schnellere Schule Injun an der Spitze gebaut. ihr tun ganz Impala getrübte Augen bauen eine sehr schöne Ausrüstung, ein System als Kleidung bekannt, ein Manager für Management und Überwachung von einem Dach. Verhärtete Blicke. Hallo, Distribution ist hart und Books Data Platform, im Volksmund bekannt als SDP Hardened Works Strategie ist es, alle Innovationen durch Open Source Community voranzutreiben. In diesem Kurs werde ich gehärtete Werke für den Vertrieb einsetzen, um ihre Gruppe und ihr Unternehmen zu demonstrieren. Autumn Looks bietet auch eine sehr schöne do. Ein System, das als Partei bekannt ist, verkörpert für einen Ort der Verwaltung. IBM, in für Ersatz Begin Sides, bietet einfache Integration mit anderen IBM Pools. Wie „S Peace“. SPS ist Advanced Analytics Workload Management für Higher Performance Computing, B I-Tools sowie Datenverwaltungs- und Modellierungs-Tools. Es ist ihre Gruppen-Suite umfasst anspruchsvolle Textanalysen, Modell Ibn Big Seeds für die Datenexploration, weitere 80 Leistungs-, Zuverlässigkeits-, Sicherheits- und Verwaltungsfunktionen. Mein Teil Technologies ist die dritte Ihr Plädoyer, aber es fehlt der Markt präsentiert sich geladen und härten. Seine Hadoop-Distribution unterstützt Netzwerk-Dateisystem, eine seiner wichtigsten Innovationen. Es unterstützt die Ausführung willkürlich kalt in den Cluster-Performance-Ankündigungen für jede Basis sowie hohe Verfügbarkeit und die Justizwiederherstellungsfunktionen. Ich dachte, es war das erste Enterprise Data Warehouse-Fenster, das eine voll funktionsfähige Enterprise-Klasse bieten hatte ein Flugzeug. Es war auch die erste, die eine Appliance-Familie ausführte, die ihre Gruppe integriert und Daten, Warehouse und Datenmanagement Leben in einem einzigen Track von Wählern lobt . Haru Distribution hat eine MP PP Gruppe. SQL Indian genannt, dass unsere MP pp wie eine Schulleistung auf ihrem gut MP PP steht für massive parallele Verarbeitung. Irureta ist ein Spezialist für Enterprise Data Warehouse, es hat mit Horton Books eine Gruppe wie in den Jalousien bieten, Terra später Verteilung umfasst Integration mit Terror Editoren, Management und eine Schule es aus Federated Schule Indian, die Kunden Daten aus seinem Data Warehouse abfragen können. Und das ist alles für diesen Vortrag Bald. Die nächste Liste 12. HDFS aus der Befehlszeile verwalten: Wohin kommst du? Zurück in dieser Vorlesung? Wir werden Grundlagen lernen. Komm, um seine Verteidigung zu verwalten. Das Lernen dieser Grundlagen Befehl wird Ihnen viel helfen. Wenn du anfängst, mit dir zu spielen. Ich nehme an, Sie haben eine Arbeitsgruppe an Ihrer Maschine beteiligt. Wenn Sie noch nicht installiert haben, würde ich vorschlagen, zurück zu gehen und zu installieren, wie Sie dann an dieser Vorlesung teilnehmen. Also, um ein Verzeichnis in als D ein Gesicht zu erstellen, können Sie es mit Hadoop erstellen, eh? Einfrieren Minus und Süßigkeiten. Ein Jahr unter Richtlinie Teil. Im Beispiel erstelle ich dort zwei Verzeichnisse. 8100 Tito innerhalb des Benutzerverzeichnisses, um Dateien innerhalb eines Verzeichnisses aufzulisten. Sie können die gemeinsame ihr tun Bemühungen minus Ellis und den Verzeichnisstandort feuern. Wenn Sie sehen möchten, wie Maney Blöcke in einer bestimmten Datei in seiner Verteidigung verfügbar sind, so können Sie überprüfen, dass mit jedem geheimen Befehl, so dass jeder CK generiert einige formbar sind , die die allgemeine Gesundheit eines Dateisystems auflisten, wie DFS als gesund angesehen wird Wenn und nur, wenn alle Dateien eine Mindestanzahl für Replikate zur Verfügung haben, um Dateien von einem Speicherort an einen anderen Speicherort in einer lieben Phase zu kopieren , können Sie meinen necessity-Befehl so bald in dem Beispiel hier verwenden. Und wenn Sie einige Dateien aus Ihrem lokalen Verzeichnis zu seiner Verteidigung hochladen möchten, können Sie minus put-Befehl verwenden. Also notieren Sie keine Dateien von seinem lieben Gesicht, das Sie minus Get verwenden können. Komm schon. Sehen Sie das Beispiel hier, um die feine Größe aus seiner DEA-Phase kennen Sie minus do Come on verwenden können . Und wenn Sie einige Dateien von seiner Verteidigung entfernen möchten, können Sie minus R M verwenden . Und um Hilfe zu erhalten, können Sie Minus-Hilfe-Befehl auf dem Terminal eingeben. Jetzt lassen Sie uns diese Befehle in Aktion sehen. Ich habe es in Herz und Arbeit Sandkasten geliebt. Und ich bin bei der Dualität zu Hause bei 10 Mäuse. Jetzt lasst uns Kreativität in seiner Verteidigung. Also von Terminal Al Kerl, Ich mache FS minus m kedia Schrägstrich Benutzer slash s de ia eins. Dies wird also eine Verzeichnisdirektive eins erstellen. Wir haben kein Verzeichnis benutzt. Und wenn Sie diesen Vertrag sehen wollen, können Sie das Kommando feuern. Ich mache einen Frost minus Ellis. Es ist weniger Benutzer. Es wird also alle Verzeichnisse innerhalb des Benutzerverzeichnisses auflisten. Sie können sehen, Jahr schmutzig, wenn wir gerade I No. Lassen Sie uns eine Datei aus unserem lokalen Verzeichnis auf die Straße legen. Okay, also in unserem lokalen Verzeichnis, werde ich Adam erstellen, Sie Datei Touch-basierte Datei 11 dot txt. Also werde ich diese Akte setzen und tun ist Verteidigung. Machen Sie ein Gesicht minus setzen Schrägstrich durch sLuSS. Beste Fliegenschrägstrich s Benutzer Schrägstrich DEA eins. Also dieser Befehl wird die Datei von unserem lokalen direkt zu seiner Verteidigung hochladen. Sie können die Datei vom ersten Tag aus sehen. Eine neue Gesichtsbedrohungsspitze. Es ist weniger. Benutzer Schrägstrich DEA. Okay, jetzt wurde diese Datei zu seiner Verteidigung hochgeladen. Danke. Nun lassen Sie uns eine andere Regie als deface erstellen, wo wir sehen, wie wir eine Datei von einem Ort zum anderen in seiner Verteidigung kopieren können , versuchen, einen anderen Direktor zu erstellen, f ace minus und giddy ein Jahr Schrägstrich Benutzer. Es ist weniger Lust. Dies wird also ein anderes Verzeichnis in Verwendung einer Wohltätigkeitsorganisation erstellen. Sie können Sie in Ihr neues Büro sehen, wenn es locker ist. Es ist weniger nützlich. Die neue Richtlinie war also großartig. Also was? Ich mache die Datei, die wir hochgeladen haben. Sogar wir kopieren die Datei von 31 auf 32. Also, was sterbe ich sonst noch? Ein neues Gesicht minus C P Schrägstrich Benutzer im letzten Jahr waren eins. Okay, es ist weniger Testdatei 11 die extremen 60 Schrägstriche Benutzer weniger Delia. So wird dieser Befehl die Datei kopieren, die in der 81 sitzt in der Fähigkeit, so dass wir die Datei aus der I Do a face bedroht sehen können . Ellis Schrägstrich Benutzer Schrägstrich Wunsch. Jetzt können Sie sehen, die Datei wurde kopiert, um Sie auf OK zu lenken, lernten wir über fck Kommen Sie, die die Zusammenfassung des Dateisystems als Verteidigung gehalten geben. Lasst uns das überprüfen. Komm schon. Ich habe es auch getan. Wenn ein Seiki, es ist weniger Benutzer weniger einfache Daten. Es ist weniger Gehalt. Es ist weniger angestellt oder sehen SV. Also, der Bericht sagt, ob eine Datei als Verteidigung nützlich ist oder nicht, so dass Sie ihre Starter hier sehen können. Die Akte ist Hildy. Wenn es fehlende Blöcke gibt, die Sie im Bericht sehen können, können Sie auch Details zum Replikationsfaktor sehen. Sie haben keine Knoten. Autoblöcke Angriff Protektor auf. Mal sehen, ob Sie sehen wollen, was die Größe einer Datei in seiner Verteidigung ist. Also, was Sie tun können, können Sie eine Gruppe f Ass minus sterben. Tust du das? Und noch eine Kopie dieses die Größen in Beit gegen hier. Und mal sehen, wenn Sie einige Dateien von einem Start der zwischen als deface entfernen möchten, Sie können sterben do f ace minus adam Schrägstrich Benutzer Slash Wunsch zu Stern, so dass es alle Dateien innerhalb direkt glauben und mal sehen, ob Sie einige Dateien herunterladen möchten seine Verunsicherung zu Ihrem lokalen Verzeichnis, können Sie eine Gruppe sterben. Wenn es minus gut ist, sind es weniger Benutzer weniger Beispieldaten. Lassen Sie mich eine Kopie. Das hier für unseren neuen Direktor. Also dieser Befehl Oh, gegen diese Datei existieren. Also lassen Sie mich das entfernen. Also, was ich hier mache, lade ich den Salat herunter. Artsy, ist die Datei in einem lokalen Verzeichnis, so dass Sie sehen können. Alles klar, das ist alles für diesen Vortrag. Ich hoffe, Sie genossen das Lernen ist Verteidigung Commons und ich würde empfehlen, gehen und versuchen Sie auf Ihre Maschine. Danke. Sehen Sie, auch die nächste Vorlesung 13. Einführung in den Hive: Willkommen zurück. Dieser Vortrag wird einige Grundlagen Wissen über hohe geben. Bevor ich anfange, lassen Sie mich Ihnen eine Vorstellung davon geben, warum Bienenstock in Big entwickelt wurde. Ich werde mit einem einfachen Beispiel gehen. Nehmen wir an, es zu Dateien, nämlich Kunden und Kunden Transaktionen und als Verteidigung. Nun, wenn jemand gefragt,, Sagen Sie mir die Top-Kampf zahlen Kunden von Geo, um diese Frage zu beantworten, werden Sie eine Karte früh fahren dieses Programm, um dieses Problem zu lösen. Wegen der extremen Einfachheit off map reduzieren, müssen Sie mit viel niedrigerer Ebene Hacking zu tun. Bei vielen Zustandsverzweigung Datenflüsse, die sich daraus ergebende Praxis, müssen Sie wiederholt als Standardoperationen, wie das Verbinden der Hand. Diese Praktiken Handgelenkzeit eingeführt Bugs schaden Lesbarkeit auf reduzierte Optimierungen. Es gibt eine Menge, die sich wiederholt während der Datenaufbereitung Prozess, so gibt es eine Notwendigkeit für hohe Zehe ein komplettiert die Dinge, leicht versteckt alle Komplexität im Inneren. Das ist, wo High ging groß kommt ins Bild. So high bietet ein vertrautes Modell für diejenigen, die Esquivel kennen und ihnen erlauben, in einer relationalen Datenbankperspektive zu denken und zu arbeiten. Es bietet eine einfache Abfragesprache namens hive Key Will, die auf Esquivel basiert, auf dem Benutzer vertraut mit SQL Toe ad hoc warten einige Strahlung auf Datenanalyse ermöglicht . Zur gleichen Zeit, HaIf Key wird auch traditionelle Mapple dieser Programmierer in der Lage sein, ihre benutzerdefinierten Mapper anschließen und reduziert, um komplexere Analysen durchzuführen, die möglicherweise nicht von den Building-Funktionen unterstützt werden . Hallo ist ein kompetentes, abseits von Hadoop-Ökosystem. Hi ist eine Data Warehousing-Infrastruktur für ihren Luke. Die familiäre Verantwortung ist es, Daten, einige Herkunft, Abfrage und Analyse bereitzustellen einige Herkunft, . Es ist eine Lebensmittelanalyse für die letzten Datenzustände in ihren Schleifen als DFS-Dateisystem gespeichert. Jetzt schauen wir mal, was Bienenstock nicht ist. Hi viz Nicht gebaut, um eine schnelle Reaktion auf Kuwaitis zu erhalten, aber es ist für Data Mining-Anwendungen gebaut. Es ist nicht für Online konzipiert. Die Injektionsverarbeitung Bienenstock bietet kein Fett in Echtzeit. Es wird am besten in schlechten Jobs verwendet. Das ist alles für diesen Vortrag. Bald der nächste. Vielen Dank. 14. Hive Architektur: Willkommen zurück in dieser Vorlesung. Wir werden etwas über die Hive-Architektur lernen. Nun, das ist die Architektur von fünf. Wenn Befehle und Abfragen gesendet werden, um zu verstecken, geht es an den Treiber. Der Treiber wird kompilieren, optimiert, um diese mit Schritten von meinen hübschen Jobs auszuführen. Es scheint immer, dass Dr. Irwin generell Java hübsche Jobs intern abbildet. Aber das ist nicht die Tatsache, dass Hive Mapper generiert hat und unser Modell reduziert, das auf Informationen in einer XML-Datei basiert. Jetzt wollen wir verstehen, dass mittlere Komponenten des Kampfes es sehen. Dies ist die Schnittstelle für Sie, nur um Abfragen zu anderen Operationen über das System zu senden . Der Treiber hat die Abfragen erhalten. Diese Komponente implementiert den Begriff off station Handles und bietet, ausführen und holen ein Piers, modelliert auf Jodi Beatty oder Division Gesichter Compiler-Parsen modelliert. Die Kuwaiti macht semantische Analyse der verschiedenen Abfrageblöcke und quot Ausdrücke und schließlich generiert und Bildungsplan. Mit der Hilfe von Tisch und Trennwand gemacht, sah ein Führer aus dem Meter Hocker. Modesto. Die Bienenstock Tabelle Definitionen und Zuordnung zu den Führungslinien Zehe sind in einem Stuhl gemacht gespeichert. Diese Meta Stola ist eine traditionelle relationale Datenbanken. Sie wirklich mein Geheimnis gemacht ein Geschäft bildet den Modesto Service unter Datenbank. Der Media Store Service stellt die Schnittstelle zum High und zur Datenbank bereit. Estos die Datendefinitionen Zuordnungen an den Führer. Bei anderen führt Execute er den erstellten Bildungsplan aus, ob der Compiler der Plan eine Tasche aus Etappen ist . Die Ausführungs-Engine verwaltet die Abhängigkeiten zwischen diesen verschiedenen Phasen des Plans und führen DJ Estate ist auf dem entsprechenden System. Komponenten optimieren Ihre Hüften Zehe optimieren den Qualitätsplan. Die Abfrage kann auf eine einfache Daten durchgeführt werden, um die Datenverteilung zu erhalten, die verwendet werden kann , um einen besseren Plan zu generieren. Das ist alles für diesen Vortrag. Ich hoffe, Sie haben diese Idee darüber, wie hoch Komponenten in der Regel bald in der nächsten Vorlesung funktionieren. 15. Dateiformate in Hive: Willkommen zurück in dieser Vorlesung, wir werden über Dateiformate in Bienenstöcken lernen. Nun, wenn man sich umsieht, wachsen die Daten heute sehr hoch. Fast jedes Unternehmen erfasst Big Data. Aber das Problem tritt auf, wenn Sie nur versuchen, auf diese Big Data zuzugreifen. In diesem Vortrag werden wir diskutieren, wie verschiedene Dateiformate in hoher Hilfe zu speichern und Zugriff auf Daten in New. Zunächst werde ich eine externe Tabelle in Struktur erstellen, um eine Datei zu lesen, die als DFS sitzt, um eine Tabelle zu erstellen , die Datei als Textdatei speichert. Wir müssen den Dateityp angeben. Dann werden wir Daten von External Table Toe Sally und eine Schule Texttabelle, die Daten als Textdatei artsy wiederherstellen wird schließlich steht für das Gericht säulenförmigen gefeuerten RC Datei Agent Datenspeicherstruktur. Das bedeutet nicht, wie man den Platz für relationale später in als DFS minimiert, es tut dies, indem man das Format der Daten mit map reduce framework ändert, Die RC-Datei kombiniert mehrere Funktionen wie Datenstorys für die Paarung der Datenkomprimierung und Datenzugriffsoptimierung. So hilft es bei der schnellen Datenspeicherung verbesserte Abfrageverarbeitung von Untergang, Speicherung, Platzumlauf, dynamische Datenzugriffsstöcke. Die RC-Datei Former kann die Daten sowohl horizontal als auch vertikal partisan. Dies ermöglicht es, auf Lee die spezifischen Fehler zu holen, die für die Analyse erforderlich sind, wodurch die Standardzeit eliminiert wird, die benötigt wird, um die gesamte Tabelle in einer Datenweise zu analysieren. Die gesamte Datengrößenreduzierung kann bis zu 15% gegenüber dem ursprünglichen späteren Zeitpunkt betragen. Wie Sie auf dem Bildschirm sehen können, habe ich vor dem Laden von Daten in die Tabelle eine Symbol-RC-Dateitabelle erstellt. Sie müssen diese drei SEC-Beträge ausführen, um die Fertigstellung zu ermöglichen. Sobald Sie Daten geladen haben, können Sie ausführen. Montieren Sie Quickie auf einzelne Spalte, um zu sehen, wie maney Bisse gelesen werden. Wenn die Karte reduziert wird, wird sie kleiner sein als das, was Sie im normalen Text Table Park sehen. Es ist ein kulinarisches Geschäft, das uns Vorteile für die Speicherung in einem Scan-Daten gibt. Das Speichern der Datenspalte Boys ermöglicht eine bessere Komprimierung, was uns schnellere Scans bei geringerem Speicherplatz ermöglicht. Es ist auch hilfreich für weiße Tabellen und für Dinge wie Aggregationen auf Spaltenebene. Die gesamte Datengrößenreduzierung kann bis zu 60% der ursprünglichen Daten betragen. Ehemalige Erstellung einer Barcode-Tabelle ist ziemlich einfach. Sie müssen nur den Story-Typ angeben, wie Sie es für die RC-Datei-Tabelle getan haben, und dann müssen Sie die Daten laden. WARSI steht für optimierte Zeilenspalten- oder C-Datei. Former bietet eine effizientere Möglichkeit, relationale Daten zu speichern als Kunst. Wenn ich die Datengeschichten für bis zu 75% der Tür reduziert, ist Null. Das auch für meine eingereicht führt besser als andere hohe Dateiform. Es ist, wenn Hive Daten im Vergleich zu RC-Dateiwarzen liest , schreibt und verarbeitet. Der Zugriff auf Daten nimmt weniger Zeit in Anspruch und benötigt weniger Platz zum Speichern von Daten. jedoch den CPU-Overhead, Die RC-Datei erhöhtjedoch den CPU-Overhead,indem die Zeit erhöht wird, die es dauert, Abschleppen. Die Komprimierung der relationalen Daten WARSI-Tabelle zu erstellen ist ähnlich, was wir für RC File oder Parkway getan haben . Sie müssen nur eine die Storys Zeit während der Tabellenerstellung angeben. Endlich, schauen Sie individuell. Wie unterschiedliche Dateiformen es ist, reduzieren die ursprüngliche Größe von Rohdaten. URC ist das meiste, wenn es hier in eins ist. Das ist alles für diesen Vortrag Going Practice auf Ihrer Maschine. Wir sehen uns in der nächsten Vorlesung. Vielen Dank 16. SQL vs HQL: Willkommen zurück in dieser Vorlesung, wir lernen über HaiF-Anfragen, und wir werden auch die Ähnlichkeiten und Unterschiede zwischen einer Fähigkeit und Entschuldigung sehen. Escape steht wirklich für strukturierte Abfragesprache, wo es tatsächlich für Hive-Abfragesprache steht . Wenn es darum geht, Ortiz zu wandern, sind sie SQL-Abfragen ziemlich ähnlich. Bei der Verwendung von hive Sie Access, machte eine später über das Schema und Tabellen durch Ausführen von estate bedeutet Lesen in HaIf Key wird Überraschenderweise . sind diese Meta-späteren Aussagen ziemlich ähnlich. Zehe, was Sie in SQL World sehen. Sehen Sie sich die Anweisungen zum Auswählen von Datenbanken, Auflisten von Datenbanken, Auflisten von Tabellen an, in denen die Erstellung ihrer Botschaften in High beschrieben wird, und wie sie ähnlich sind, wie Sie in SQL sehen. Sorgen Sie sich, dass drei Möglichkeiten, um eine Tabelle in hoch zu beschreiben, um Tabelle primär in vier off hive Tabelle verwenden beschrieben Tabelle. Aber das Skript aus zusammenhängenden Gründen zeigt zusätzliche Informationen an. Die zusätzlichen Informationen enthalten Details auf niedriger Ebene, z. B. ob ihre Tabelle intern oder extern ist, wenn sie erstellt wurde. Die Datei ehemaligen die Position der Daten in als D Angelegenheiten, ob das Objekt eine Tabelle oder eine Ansicht ist, und für Ansichten, dass Text des Kuwaiti aus der View Definition zwei c Code in einer sauberen Weise. Verwendung beschrieben für gekoppelt. Table ihn Also das ist ein Befehl, um alle Informationen zu sehen. Beschreiben Sie auch alle Details auf saubere Art und Weise. Sie können Hive-Abfragen auch über die Befehlszeile ihre Release-Möglichkeiten bestellen, um hive Quartey's von der Befehlszeile auszuführen . Sehen Sie sich die Beispiele hier an. Wie wenn Sie einige hive cordis in still mehr laufen wollen, können Sie minus s minus e Option auf dem Terminal angeben. Sie können auch hohe Konfliktvariablen festlegen, wenn und Anfragen über die Befehlszeile. Wenn Sie hive Quartey's über SQL File ausführen möchten, können Sie die Option minus F und den Feuernamen auf dem Terminal angeben. Hi bietet eine Menge Off-Funktionen. Wenn Sie in der Hype verkaufen, können Sie ein Skript mit in der Hoffnung, Quelle zu verwenden. Komm schon, so bald hier. In dem Beispiel können Sie Dateien aus seiner Deface mit DFS Command auflisten. Wenn Sie Dateien aus dem Home-Verzeichnis auflisten möchten, können Sie Ellis ausführen. Komm schon, Sie können Set Come on für Konfigurationsvariablen verwenden, Sie billigen gesetzt hohe Tür Tab. Kommen Sie für die automatische Vervollständigung in High Selbst kann man alle Variablen mit Reset zurücksetzen kommen in sich selbst. Sie können Gläser weniger Gläser hinzufügen. Dorfbewohner von außerhalb von Hi-Steinbrüchen sind fast ähnlich wie SQL-Abfragen. Schauen Sie sich das Gericht einfacher Auswahl Spalten oder verschiedene Werte zu finden, tun Ordnung durch Operation oder beitreten oder Gefängnis. Es gibt Einschränkungen in HaiF Quartey's, die wir in unseren nächsten Vorträgen sehen werden. Auch werden wir diese Qualitäten in Akzent in unserer hohen DEM-Wahl sehen, das ist alles für diesen Vortrag. Geh und übe das, was du heute gelernt hast. 17. UDF & UDAF in Hive: Willkommen zurück in dieser Vorlesung. Wir werden über Sie D off und UDF in Hive benutzerdefinierte Funktionen lernen. Lassen Sie Ihre eigene Anwendungslogik für die Verarbeitung von Spaltenwerten aufrufen. Während eines Bienenstock Equity, zum Beispiel, Rud of könnte Berechnungen mit einer externen mathematische Bibliothek durchführen. Kombiniert mehrere Spaltenwerte in einem tun georäumliche Berechnungen oder andere Arten von Tests und Transformationen, die außerhalb des Geltungsbereichs der Schule des Gebäudes Operatoren und Funktionen sind , können Sie UTF verwenden, um Cory Logic zu vereinfachen, wenn die Erstellung von Berichten Transformieren Sie Daten auf flexible Weise, wenn Sie Daten von einer Tabelle in eine andere kopieren. beispielsweise auslösen, Wenn Siebeispielsweise auslösen,wählen Sie niedrigeren Namen aus der Mitarbeitertabelle. Also für jede Zeile in der Tabelle Mitarbeiter nimmt die niedrigere Pflicht von ein Argument. Der Wert off name auf alle setzt einen Wert die Kleinbuchstaben Darstellung des Namens und, wenn Sie feuern, wählen Sie Datum, wenn Start, Datum und Datum von Mitarbeitern. Also für jede Zeile und Tabelle Mitarbeiter das Datum der Flüchtigen nimmt zwei Argumente, der Wert von gestartet und beendet auf gibt einen Wert die Differenz in der Zeit zwischen diesen beiden Datumsangaben. Jedes Argument aus einem UDF kann eine Spalte von der Tabelle ein konstanter Wert sein. Das Ergebnis aus einem anderen Sie d aus dem Ergebnis aus einer automatischen Berechnung Schönheit eines steht für benutzerdefinierte Aggregatfunktion, die eine Gruppe von Werten auslöst und einen einzelnen Wert zurückgibt . Sie Tipps werden verwendet, um zusammenzufassen und kondensieren setzt aus Tiefen im gleichen Stil wie die Baustadt Maxam oder Rece Funktionen, wenn ich ut, wenn es Ungerechtigkeit genannt wird, dass er seine Gruppe zurück Gesetze war . Die Funktion wird für jede Kombination von Gruppen-Rück-Werten diejenigen genannt. Es wertet mehrere Regeln aus, gibt aber einen einzelnen Wert zurück. Siehe das Beispiel für Kleidung Restaurant. Es wertet Batches von Regeln aus und gibt für jeden Batch einen separaten Wert zurück. Beispiel aus profitabelsten Standort hier, können Sie ein Beispiel hier sehen. Zunächst einmal erstellen wir ein riesiges Geo, um Sinne in ferne Nacht umzuwandeln, indem wir die UT des Glases in Bienenstock hinzufügen. Dann erstellen wir eine benannte Funktion, so dass wir sie in Eigenkapital nennen können. Das ist alles für diesen Vortrag bald in der nächsten 18. Hive Demo: Willkommen zurück. Also wissen Sie, wir haben eine Menge Dinge über Hive Hive Architekturdatenmodelle, verschiedene Dateiformate gelernt . Unterschiede zwischen SQL und SQL. Jetzt ist es Zeit, etwas Schönes zu haben. Was auch immer wir über hoch in unseren vorherigen Vorträgen gelernt haben, wird sie in Aktion in dieser Vorlesung mit dieser Vorlesung Lebensräume Einfache spätere Sets und Skripte, die in dieser Demo verwendet werden . Die einfachen späteren Zustände und die Skripte sind für Ihre Übung auf Ihrer eigenen Maschine, nachdem Sie diesen Vortrag gut beenden, zuerst, alle wirklich, um sie auf unserer Maschine zu starten, haben bereits Hadoop auf meinem Rechner in der Hadoop Installationshandbuch. Wir haben bereits gelernt, dass es zwei Möglichkeiten, mit ihr zu interagieren Do via Terminal. Das heißt, Entweder können Sie über virtuelle Box-Fenster zugreifen oder Sie können über Ihr lokales Terminal zugreifen, und es gibt eine weitere Möglichkeit, mit Ihnen zu interagieren. Sie können über Horton arbeiten Frauen zu Gesicht interagieren. Ich werde alle drei demonstrieren. Logan's Lassen Sie uns einen Blick Virtuelle Box Protokollierung. Zuallererst muss ich Walzel Box-Fenster intento, da ich Mac benutze, also muss ich sterben. Effin oy und ein Kampf sind bereits f spät gewesen. Okay, Benutzername ist das, was Sie tun. Und das Passwort lautet Wie geht das? Ich bin zu Hause, direkt an der Sandbox. Ok. Und der andere Weg ist das Feuerterminal Lokales Deutschland. Okay, also sterbe ich einfach. Nachricht ein Minus bi beide Nummer Route bei drei. Lokale Gastgeber Boss Worthy können Sie hier sehen. Und der dritte Weg ist die Verschlechterung der Feuerwaffe. Also müssen Sie nur Zeit, dies Sie sind in heiß und funktioniert und arbeitet und bietet eine sehr schöne Webschnittstelle , um mit einer Schleife und ihrer Komponente zu interagieren. Die Weboberfläche verfügt über viele Funktionen. Sie können Dateien hochladen, Stress, deface Broads, Dateien in seiner Verteidigung, führen Sie Abfragen auf verschiedenen Komponenten einer Schleife, die Gestaltung von breiten Jobs und vieles mehr. Werfen wir einen Blick, wie wir ein Verzeichnis erstellen und Dateien zu seinem Unterschied durch Waffe zu Gesicht soll goto Datei-Browser. Sie sind also in der SDF. Es ist in Ordnung. Sie können das Datum leichter sehen. Also das sind die Regisseur ist interessant als hinterhältig. Und wenn Sie sich erinnern, das sind die Anweisungen, die wir während unserer Vorlesung für seine Verteidigungsbefehle erstellt haben. Lassen Sie mich ihre neuen direkt zu Ihnen Dia für mich freigeben. So wurde ein neues Verzeichnis in als DFS die Luft für Let's laden einige Datei hier Abteilung und App allein zu seiner Verteidigung despoiled erstellt. Also diese Datei wurde zu seiner Verteidigung hochgeladen. Schauen Sie, wie es einfach ist, Dateien über Web-Schnittstelle in seine Verteidigung hochzuladen. Es ist eine Datenbank in Bienenstöcken verpflegt. Dann werden wir unsere Symbolqualitäten in diesen Notaren lernen. Also sehe ich aus, als hätte ich hier mitgenommen. Ok. Ah, sieh mal. Wurde erstellt. Lieferungen Creme Kerl, Avi fünf in der Lage sein. So wurde eine neue Datenbank erstellt, wenn Sie auf dieses Datenbanksystem klicken. Sie haben also die Liste der Datenbanken hier nicht gesehen? Ok. Für Demo? Ich habe bereits hochgeladen. Einfach sitzt später in seiner Verteidigung. Ich zeige Ihnen den Regisseur und die Akten. Ich werde die Einreichung Riser gehen. Benutze es. Aan den Symbol Führer. Also habe ich Sally Dateien in Salatverzeichnis Abteilung hochgeladen, Einreichung Abteilung 80 so etwas. Ich werde einige externe Tabellen erstellen, um diese Dateien zu lesen. Also lass mich in den Bienenstock gehen. Ich Demo. Okay, also erstelle ich einen externen Tisch namens Angestellte und erwähne den Ort des Feuers zu seiner Verteidigung. Lass es uns schaffen. Wenn Sie Google Ebels Mitarbeiter erstellt wurde. Hier können Sie die Spaltennamen sehen. Und wenn ihr einen Tempelführer sehen wollt, klickt einfach auf diesen Reiter. Einfach. Wir werden die Werte hier sehen. Lassen Sie uns gehen, um einen Liter mieten einige andere Tabellen erstellen. Auch ein klarer Abteilungsstandort der Abteilung. In seiner Verteidigung, klicken Sie auf Tabellen Abteilung erstellt wurde. Und wenn wir einige Beispielleiter sehen wollen, klicken Sie darauf. Es ist großartig. Und dass es mit Sandri gibt. Ich gehe zum Herausgeber und werde mich alle Fragen nehmen. Also haben wir hier drei externe Tabellen erstellt, um die Datei zu lesen, die in seiner Verteidigung sitzt. Dies ist der einfache Anführer. Lassen Sie uns eine interne Tabelle in Bienenstöcke erstellen. Haben Sie die Brady kopiert? Diesmal? Ich werde schaffen, dass Sie Terminal verwenden werde ich am Mittwoch zu tun gehen. Ich lebe. Es wird einige Minuten dauern. Doping hofft auf. Warten wir, Staking, Sterben. Jetzt sind wir in den Hypes und sterben wirklich. So Rennen werden wir ihre Tabelle in hoch unterstrichen Demo erstellen. Lassen Sie mich die brillante Basis, die einige Mitglieder des Jobs hier starten wird. Schauen Sie sich den Status hier, so dass Tabelle plötzlich in der Scranton erstellt wurde sah Feuer. Ich bin gierig Limit. So ist die Position der Daten in ABS. Es ist weniger Bienenstöcke, weniger Lager, weniger hohe Unterstrich Demo Tür Devi. Wenn Sie also diese interne Tabelle in Beziehung setzen, werden sowohl Daten als auch Schema aus hoch gelöscht. In unserer vorherigen Vorlesung haben wir also über Dateiformate in Bienenstöcken gelernt. Lassen Sie uns diese Qualitäten laufen. Also für Sachen, alle L erstellt wird diese David Sellin Escort Next basiert erstellen. Aufhören. Also Havens. Jetzt lasst uns in den Stall geladen, sicherlich im Schultext. Also laden wir die Daten von erweitert, es wird einige Mitglieder des Jobs lernen. Sie können ihren Status hier sehen. So haben wir unsere Tabelle erstellt, die die Daten als Textdatei speichert. Lass uns als Nächstes Sally in der Schule feuern. Ich werde unvermeidlich erstellen, dass die Geschäfte weit weniger gefälscht So Tabellen So können Sie diese Struktur sicherlich in der Schule sehen lassen Sie mich geladen zu sehen. Bevor ich die Daten lade, muss ich diese Befehle ausführen, wie wir in unseren vorherigen Vorlesungen besprochen haben. Okay, jetzt lassen Sie ein wenig später und er findet es. Es startet den Kartenleser-Shop. Ich werde eine anpassungsfähige erstellen, dass die Stores-Datei ein Markt dafür ist. Also lasst uns glühen nicht. Also sobald es fertig ist, werde ich Ihnen die unterschiedliche Größe von Dateien zeigen, die wir Tabelle sehen werden. Also kopieren Sie das Eigenkapital. Also Tabellen laden jetzt die Daten in diesen Tipp, so dass ein Mann produziert los. So werden wir sehen, wie die Dateigröße in diesen Tabellen variiert. Also lasst uns den Datei-Browser in seiner Verteidigung gehen. Oh, lass mich die Hochtags-Verbrennungen durchmachen. Lassen Sie uns also die Größe der Datei für den Speicherort sehen. Es ist also um 97,3. Gaby auf Wenn wir noch schlimmer sind, werden Sie den Unterschied sehen. Sieh mal, es sind erst 15 Gibby. Sehen Sie, wie die Datei in verschiedenen Dateiformaten komprimiert wird. Sie können ihre Unterschiede sehen. Lassen Sie uns nun ein gemeinsames koreanisches HaIF ausführen, damit wir diese Abfrage lernen, also wird diese Abfrage die Ergebnisse ausgeben . Von der Abteilung wer angestellt? Salvi's gerieben in 1000 im August 2008 lassen Sie mich gehen, um Bienenstock Abfrage einen Tag lieber auf es basiert Disquieting Staking irgendwann. Es ist süß. Also, was wirft einige Protokolle wie das, was vor sich geht. Sie können ihren Status hier sehen. Aus, meine Lieben. Irgendwann kleben . Wir haben das Ergebnis. Siehst du, sie beschäftigen Boden für Abteilung. nun Lassen Sie unsnuneine Hive-Abfrage von der Befehlszeile ausführen. Lassen Sie mich das Ready kopieren. Ich gehe zum Horton Works Home Directory und werde das Eigenkapital stützen. Sehen Sie, so können wir auch die Abfragen von Terminalklemmen eines Tages ausführen. Launchings auf der Karte vorstellen Show gefälschte. Ja, du kannst da sehen, nicht wahr? Lass uns noch einen Cody-Sticks laufen Cody-Sticks und sterben. Schauen Sie sich die Ergebnisse damit an. Ich wickle meinen Bienenstock Dima Vortrag ein. Ich hoffe, Sie haben genossen, versteckten Akzent zu sehen Wir sehen uns in der nächsten Vorlesung. 19. Einführung in das Schwein: - Hallo. Willkommen zurück in dieser Vorlesung. Wir werden etwas über die Geschichte lernen, und grundlegende Grundlagen sind groß. Größte, entwickelt, um jede Zeit außerhalb von Daten zu handhaben Big ist eine hochgradig erweiterbare Sprache entwickelt, um die Komplexität zu reduzieren. Quoting Karte erzeugt Anwendungen. Big wurde bei Yahoo entwickelt, um Menschen zu helfen, sie zu verwenden, um auf die Analyse großer auf die Strukturdatensätze zu betonen , indem die Zeit minimiert wird, die für das Schreiben von Mappern aufgewendet wird und dies zu tun Funktionen. Alle Aufgaben sind in einer Weise enthalten, die dem System hilft, die Ausbildung automatisch zu optimieren . Da in der Regel 10 Codezeilen und Paige 200 Codezeilen in Java gleich sind, konvertiert big Operatoren in meine ziemlich geschulte größte. Bestehend aus zwei Komponenten Montag, das Schwein Latein Programmiersprache und die andere ist große Zufallsbeteiligung. Big ist eine hochrangige Sprachplattform, die entwickelt wurde, um Abfragen auf riesigen State-Assets auszuführen , die in seiner DFS gespeichert sind. Verwenden, wie es funktioniert, ist ähnlich wie eine Schule Abfragesprache, aber auf einem größeren Datensatz angewendet auf mit zusätzlichen Funktionen die Sprache in Vegas verwendet Big Learning genannt. Es ist sehr ähnlich zu entkommen. Es wird verwendet, um die Daten zu laden, wenden Transformationen auf getan die Daten in der erforderlichen Form A big konvertiert alle Operationen in Karte und reduziert uns, die effizient verarbeitet werden kann auf Wie kann es im Grunde ermöglicht es uns, auf die konzentrieren ganze Operation unabhängig von der einzelnen Mapper und reduzieren ihre Funktionen Big kann als it'll Werkzeug verwendet werden , um Daten Doppelplane zu entwerfen. Es ermöglicht unseren detaillierten Schritt für Schritt Prozess, durch den die Daten transformiert werden müssen. Big kann für Forschung und Entwicklung verwendet werden. Es kann auch für iterierte Datenverarbeitung Vorteile von großen, großen, großen, wenigen Zeilen außerhalb des Gerichtshofs verwendet werden. Komplexe Aufgabe. Größte Selbstoptimierung. ist keine Java-Sprache erforderlich, um große Beleuchtung zu lernen. Es kann für bei up verwendet werden. Quaid e Big unterstützt eine Schule ähnliche Fähigkeit wie Zusammenfügen von Sortierfilter mathematische Funktionen bei Spectra. Geringere Entwicklungszeit. Größte Skip nimmt 5% der Zeit. Im Vergleich zum Schreiben von Man-Programmen in Java, ist es gut für Batch-Verarbeitungsaufträge. Es kann strukturierte, halbstrukturierte und unstrukturierte Daten verarbeiten. Damit schließe ich bald meinen Vortrag ein. Die nächste Vorlesung 20. Pig: Willkommen zurück in dieser Vorlesung, wir werden mehr über große Architekturen lernen. Wir werden sehen, wie verschiedene Komponenten der großen Arbeit zusammen, wie wir in unserer vorherigen Vorlesung gelernt, dass Big ist ein High-Level-erweiterbare Sprache entwickelt um die Komplexität von Roading Mitglied Diese Anwendungen zu reduzieren. Wenn Sie also Pick-Abfragen anfangs dort absenden, die von den Personenparters überprüft werden, führt dieser Index des Skripts die Typprüfung für andere Prüfungen durch. Die Ausgabe des Flurstücks wird ein Damm sein, der in einen Zyklondiagramm gerichtet ist. Welches der Gegenwart das Schwein lässt die Anweisungen und logische Operatoren in der DAG Die logischen Operatoren des Skripts werden dargestellt, wie die Knoten auf Datenflüssen dargestellt werden . AIDS-Kanten so Parcel generiert im Grunde logischen Plan als Ausgabe optimieren. Der logische Plan wird an den logischen Optimierer übergeben , der logische Optimierung wie Projektion und Post auf Compiler durchführt. Der Compiler kompiliert den optimierten logischen Plan in eine Stadt von meinen hübschen Jobs Ausführungs-Engine. Schließlich sind die Maverick diese Jobs, um sie in einer sortierten Reihenfolge auf diesen Napoli Jobs eingereicht werden, wie die Produktion der gewünschten Ergebnisse ausgeführt werden ? Das ist alles für diesen Vortrag. Ich hoffe, Sie haben die Idee, wie groß intern funktioniert. Wir sehen uns in der nächsten Vorlesung 21. Pig: Willkommen zurück in diesem Vortrag, wir werden über Big Data-Modell lernen. Nun, es hat sehr begrenzte Reihe von Daten Strumpfhosen. Big Datentypen werden in Pool-Typen klassifiziert. Sie sind primitiv und komplex. Die primitiven Datentypen werden auch als einfache Datumsangaben bezeichnet. Sie umfassen Ende lange Strömung, Doppel etcetera. Große Unterstützung. Drei komplexe Datentypen. Sie sind ein Paar, das ist eine geordnete Reihe von Fades schlecht. Ein ausgeweichtes Paar wird als Taschenkarte bezeichnet. Ein festgelegter Schlüsselwertpaare wird als Map bezeichnet. Big unterstützt viele Operatoren, die seine eigene Funktionalität hat. Die meisten von ihnen beabsichtigen der WKM. Hier liest Loader-Operator Daten aus Dateisystem-Dump Operatoren schreibt Ich werde auf ein Standard-Ausgabelimit setzen . Der Operator begrenzt die Anzahl der Karten. Gruppenbetreiber Elektrische Karten mit dem gleichen Schlüssel von einem oder mehreren Eingängen des Schreiberbetreibers . Es gibt das Schema der Beziehung für jeden Generatoroperator. Es wendet Ausdruck für jeden Datensatz an und gibt einen oder mehrere aus. Aufzeichnungen. Filter-Operator es wählt Paare aus einer Beziehung basierend auf einer bestimmten Bedingung. Join Operator genießen speichern mehr Eingaben basierend auf Schlüssel Split Operator. Es s teilt Daten in zwei oder mehr Sätze basierend auf den Filterbedingungen. Einfacher Operator. Es wählt eine zufällige Stichprobe aus Daten basierend auf einer bestimmten Zeit erstellten AIDS-Auftragsoperator. Es sortiert Datensätze basierend auf einem Schlüssel, eindeutigen Operator. Es entfernt doppelte er Karten. Gestohlen Operator. Es schreibt Daten in eine Dateisystemunion. Es führt zwei Datensätze zusammen. Frank Operator. Es gibt jeden Tempel mit dem Rang innerhalb einer Beziehung zurück. Das ist alles für diesen Vortrag bald Wahl. 22. Wie Pig Latin funktioniert: Willkommen zurück in dieser Vorlesung. Das Hauptziel ist es, Ihnen eine Vorstellung darüber zu geben, wie Schwein Latein Spaziergänge in großen großen Latina Statements mit den Beziehungen funktionieren, sind Beziehung kann auch definiert werden. Eine Beziehung ist eine Tasche. Eine Tasche ist eine Sammlung von Pupillen sind zu ziehen ist eine geordnete Reihe von Feldern. Ah, Feld ist ein Stück von Daten. Ah, große Beziehung ist ähnlich wie unsere Tabelle in relationalen späteren Bienen, wo die beiden Pillen in der Tasche entsprechen verlieren in einem Tisch. Im Gegensatz zu einer relationalen Tabelle jedoch erfordern große Beziehungen jedochnicht, dass jedes Paar die gleiche Zahl enthält. Felder oder Felder an der gleichen Position haben die gleiche Zeit. Auch Beziehungen werden bestellt, was bedeutet, dass es keine Garantie dafür gibt, dass Schüler in einer bestimmten Reihenfolge verarbeitet werden. Beziehungen werden mit Namen oder Helios bezeichnet. Namen werden vom Benutzer als Teil eines großen Alert in einer Anweisung zugewiesen. In diesem Beispiel ist der Name oder Elia aus. Die Beziehung ist ein Blick auf das Beispiel, wie ich die Daten lade und es spezifiziert den Intrierer in der Beziehung auf dem Dumpingresultate aus der Beziehung auf dem Bildschirm in einer Beziehung Felder werden durch Positionsrotation oder nach Namen bezeichnet. Positionsschreibweise wird vom System generiert. Positionsdrehung wird mit Dollar angegeben. Anmelden beginnt mit Jiro. So, zum Beispiel, Dollar Null die 1. 2 erste Gefühl in der Datei Dollar auf den dritten frei in das Feuer umzukehren . Namen werden vom Benutzer unter Verwendung eines Schemas uns zugewiesen. In diesem Beispiel habe ich etwas feines Sitzen in als D ein Büro und ich habe die Beziehung in Schwein definiert , um diese Dateien zu lesen. Wie wir gerade gelernt haben, ist unsere Beziehung eine schlechte, die einer Tabelle in relationaler Datenbank ähnlich ist. Wenn Sie Feuer beschrieben, die es lösen wird die Abschwächung von relacion de in der dritten Zeile. Wir nehmen eine Probe von Baghdadi auf die Begrenzung der keine Hinweise mehr zu erzählen. Und schließlich drucken wir die Ergebnisse auf dem Bildschirm mit Dump Operator. Schauen Sie sich die Beziehungen für komplexe Daten, rechts, Die Ausgabe Off-Beziehung. Wir werden komplexe Daten haben, oder? Ich hoffe, Sie haben heute die Idee über die Beziehungen in der Schweinefleischpraxis auf Ihrer Maschine. Bald die nächste Vorlesung 23. SQL vs Pig: - Hallo. Willkommen zurück in diesem Vortrag, wir werden über Gemeinsamkeiten und Dissimilaritäten zwischen s krill und Schwein lernen. Lassen Sie uns einige Grundlagen verstehen. Big Leading Big Latin wird strafrechtlich verfolgt. Wo SQL deklariert wird, können Doppelplane-Entwickler entscheiden, wo Daten in der Pipeline überprüft werden sollen . Pig Latin ermöglicht es dem Entwickler, einen bestimmten Operator-Implementierungen direkt auszuwählen, anstatt sich auf den Optimierer zu verlassen. Große führende unterstützt Splits in der Pipeline. Big Latin ermöglicht Entwicklern, ihren eigenen Code fast überall in der Datenpipeline einzufügen. Big Leading ist auf SQL strafrechtlich. Unter der Hand ist deklarativ. Lassen Sie uns an einem Beispiel verstehen, betrachten Sie zum Beispiel eine einfache Pipeline. Wir sind Daten von Quellenbenutzern und Cleggs soll verbunden und gefiltert werden und dann einem Datenformular beitreten . 1/3 Quelle rief Sie vollständig auf aggregiert und schließlich in einer Tabelle namens Wertvolle Klicks Partei Amy in SQL gespeichert . Dies könnte es in einem Sonya bauen, so in der Ungleichheit wurden die Quellen verbunden. Benutzer und Platten und dann in der äußeren Abfrage, wurden sie mit Geo-Info verbunden und schließlich Fleiß in wertvolle Klicks gespeichert. Pardini und das Gleiche können so bald hier in großen führen, schauen Sie sich die Beziehungen hier an. Sieh mal, wie es cool ist, die Pipeline dazu zwingt, sie in, innenund außen mit Operationen zu bauen , innen , die passieren müssen. erste Geschehen in der von Klausel von Kuwaiti. Dies könnte mit der Verwendung von Zwischen- oder temporären Tabellen aufgelöst werden. Dann wird die Pipeline unser bestes gemietetes Set aus einer Schule Anfragen, wo die Bestellung nur geschieht , indem man sich ein monströses Skript ansieht, dass sie die ganze Schule zusammen war. kann es auch Abhängig davon, wie die Datenbank temporäre Tabellen verarbeitet, zu Bereinigungsproblemen kommen, um damit zu umgehen. Im Gegensatz dazu setzen Bigler Teenager, deren exakt die Datengrippe verwendet, ohne sie dazu zu zwingen, entweder einen Konstruktor von innen nach außen, temporäre Tabellen auszurichten und zu verwalten, wie diese Tabellen zwischen verschiedenen SQL-Abfragen verwendet werden . Die Pipeline, in einem Skrill gegeben wird, ist offensichtlich einfach. Es besteht nur zu sehr einfachen Schritten. In der Praxis sind Datenpipelines in großen Organisationen oft ziemlich komplex. Wenn jedes große Latina-Skript Tennisschritte umfasst als die Anzahl der Skripte, die in der Quellcodeverwaltung verwaltet werden sollen , sinkt die Goldwartung der Workflow-Spezifikation um eine Größenordnung. Es gibt einige Tastaturen in Schwein Latin, die ähnlich funktioniert wie wir in SQL World sehen und Big Letting Filter ist ziemlich ähnlich. Toe Where-Klausel in SQL, die in Texas ist. Anders, aber konzeptuell. Dies ist ähnlich wie eine Fertigkeit. Tragen Sie Kleidung, wo Daten auf der Grundlage einiger Bedingungen gefiltert wurden. Da Filter in einem separaten Anwesen von einer Gruppe oder Aggregation gemacht wird, die Unterscheidung zwischen haben und wo nicht existiert in Schwein R. Dickey wäre Hüften so ziemlich das gleiche in Schwein wie eine Entschuldigung in großen Gelenken haben kann. Ihre Ausführung wird am Tag angegeben aussehen ein wenig anders, aber im Wesentlichen sind dies die gleichen Gelenke, die Sie von einem schiefen kennen, und Sie können über sie auf die gleiche Weise denken, alle Gelenke werden von großen unterstützt. Diese Ähnlichkeiten Gruppe Alles in einem Skrill ist ein Raum die Gruppierung erstellt ist nicht persistent Onley, die Daten erzeugt Aggregieren weg bleibt eine gewisse Qualität in Schwein Latein zu verwenden. Jeder Schritt hat eine deklarierte. Elia die Wiederverwendung von Sicherheitstabellen ist natürlich und intuitiv auf in der Regel nicht beinhaltet sie zu bauen. Toys U Thiha große Liste der Gebäudefunktionen wächst, aber es ist immer noch sehr kleiner als das, was Artikel oder meine Sichel bietet. Also, was groß erlaubt es? Der Benutzer zu definieren Aggregator Analytics-Funktionen in einer anderen Sprache wie Java, fightin und dann wenden Sie sie in Schwein schnell ohne Probleme. Hier sind einige Beispiele, wie Big Latins Index von SQL-Abfragen variiert Betrachten Sie ihre Probleme für die Auswahl von Abfragen, die verschiedene Funktionen in SQL und große laufende Aggregatfunktionen ausführen. Schauen Sie, wie wir Joins und bezahlte Durchführung von Gewerkschaftsoperationen durchführen können. Ich hoffe, dieser Vortrag hat Ihnen genug Vorstellung darüber gegeben, wie SQL- und Schweine-Alerting variiert. Es ist Zeit, mit dem Üben zu beginnen. Gehen Sie und spielen rund um Big Ladin auf Ihrer Maschine. Wir werden großen laDainischen Akzent und unsere große Dima Vorlesung sehen. Das ist alles für diesen Vortrag bald der nächste. 24. UDF in Schwein: Willkommen zurück in diesem Vortrag werden wir sehen, wie Sie d efs spielen eine wichtige Rolle in der Schweine-Schönheit von Ständen für benutzerdefinierte Funktion. Ah, große Schönheit Off ist eine Funktion, die für Schwein zugänglich ist, aber in einer Sprache geschrieben, die in Schwein Latin Big ermöglicht es Benutzern, UT-Apps für den Einsatz in einem großen führenden A-Skript zu registrieren. In der vorherigen Vorlesung haben wir gelernt, dass big eine begrenzte Reihe von Funktionen im Vergleich zu dem, was auricular Fahrrad bietet, so dass wir analytische Funktionen schreiben können, um Daten zu verarbeiten. Sie d efs bieten die Möglichkeit, benutzerdefinierte Datenverarbeitung durchzuführen. In großen Idioten sind einfach zu bedienen und kalt groß Sie Tipps können in mehreren Sprachen wie Java, Python, Javascript, etc. ausgeführt werden Sprachen wie Java, Python, Javascript, . Mit „big you lives können wir alles wie die Extraktion von Bild-Feature-Funktionen verarbeiten. Geo Berechnung hat eine Reinigung natürlicher Sprache Verarbeitung und vieles mehr. Big ermöglicht es Benutzern, vorhandene Operatoren mit ihrem Code über Sie zu kombinieren. Deifs Sparschwein ist nichts anderes als die Sammlung von Benutzer beigetragen Sie zwei Jahre, die zusammen mit Big Sparschwein Julius veröffentlicht wird , sicherlich manuell im großen Glas wiederhergestellt werden, wenn in den größten Skripten verwendet. Es gibt drei Arten von Ihnen Abschlag in Schwein einen Wert Abschlag von einer Schöpfung, Sie Abschlag und wenn es Sie evaluativ evaluativ sind, die ich für jeden Typ Estate verwendet habe und fehlt. Schauen Sie sich das Beispiel hier definieren wir eine Beziehung in der vierten Estate On Im zweiten Schritt tun wir String-Verarbeitung mit sind Sie am liebsten Namen in Kleinbuchstaben zu generieren. Dies ist eines der Beispiele von Valued and Mitigation Union Die stabile Fut Unruhe auf Gruppendaten angewendet . Dies ist ähnlich der Funktion, die wir während einer Gruppe für Anweisung in SQL wie einige Bodendetektor verwendet haben, so Aggregatfunktionen werden verwendet, um mehrere Stücke von Informationen zu kombinieren. In diesem Beispiel berechnen wir den Mottenumsatz nach Produkt. Sehen Sie sich die Beziehungen hier an. Ich glaube, das tust du. Ah Filterunion wird verwendet, um Daten basierend auf einer bestimmten Bedingung zu filtern. Einen Tag später, Boolesche Werte Also in diesem Beispiel filtern wir missbräuchliche Cummings aus angegebenen festgelegten Daten. Sehen Sie sich die Beziehungen hier an. Wann immer Sie große Abfragen einreichen, wandelt big sie in ausgestellte glücklich diese Jobs eine separate Instanz aus Dienst, wenn beim Ausführen jeder Karte konstruiert werden und Stoßzähne reduzieren. Dies ist sehr Ihre Schönheit von Wilder in ich hoffe, dass, wissen Sie, Sie haben gelernt Gruppe und sein Unternehmen genossen. nächste Vortrag wird wirklich, wirklich super spannend sein, da Sie viel von Hand auf Erfahrung haben werden. Wir sehen uns in der nächsten Vorlesung. 25. Pig: Willkommen zurück in dieser Vorlesung. Wir werden Big in Aktion sehen. Ich gehe direkt zu ihnen. Wie groß? Lassen Spaziergänge in Schwein Wir werden verschiedene einfache Qualitäten laufen, um zu sehen, wie wir Daten auf die Interaktion mit ihnen mit dieser Vorlesung verarbeiten können , haben alle Art als einfache Datensätze. Und Skripte, die in dieser Demo zur Demonstration verwendet werden, haben bereits Symboldatensätze in seine Verteidigung hochgeladen. Wie wir in unseren vorherigen Vorlesungen gelernt haben, ist Pig Latin eine Datenflusssprache auf jedem Verarbeitungsschritt oder Beziehungen resultieren in einem neuen Datensatz. Lassen Sie uns sie in Aktion sehen. Ich werde die Abfragen mit Herz und Arbeit Web-Interface sowie große Grand Cell demonstrieren . Big kann alles verarbeiten, wenn ich für die Daten abschwäche. Big wird es sowohl für einen Freund verwenden, überprüfen und für die Optimierung eingeben. Aber wenn keine Eskimo Torten verfügbar sind, verarbeiten Big Willis immer noch die Daten und machen die besten Fälle, die es kann. Basierend darauf, wie die Skripte die Daten behandeln, lassen Sie uns einige Tempel Gorey zu Pagad Esser laufen. Andi, lass mich die Bereitschaft lernen. Also habe ich eine Schießerei, die als Verteidigung an diesem Ort sitzt. Okay, also lade ich die Daten, indem ich im zweiten Schritt ein Schema spezifiziere, nehme ich einige Probe aus der Tasche e und schließlich, im 30-Schritt, Ich lege die Ergebnisse auf dem Bildschirm ab. Lass uns reinlaufen. Es wird einige Minuten dauern, um zu laufen. Also das ist der Grund, warum Let uns andere einfache Abfragen auf Big Grantsville Lösegeld. Also werde ich zu hart auf Bücher Home Directory gehen und ich werde Schwein binden. Nach einiger Zeit werden wir in Big Grant sein, Ill. Und von Bigger bis wir großen Burschen im Skript ausführen können. Jetzt sind wir in der großen gewährt Lassen Sie mich kopieren Assembliert. Sehr Also in dieser Qualität lade ich die Daten aus seiner Deface, indem ich ein Schema im zweiten Zustand spezifiziere die Regeln mit Stift zu begrenzen und schließlich die Ergebnisse auf dem Bildschirm zu drucken. Nehmen Sie mich in dieser Nacht, damit Sie sehen können, dass nicht nur dieses Lösegeld Kuwaiti mit Gruppe durch eine Erklärung ist. So wird dies auf einige Geräte Job, um die Daten zu verarbeiten und schließlich wird es die Originale auf dem Bildschirm drucken So können Sie dies sehen, dass in diesem Jahr diese Zeit dauert keine 25% abgeschlossen ist für Menschen in abgeschlossen jetzt, 75% abgeschlossen ist. Schauen Sie sich das Ergebnis hier an. Jetzt lassen Sie uns eine gemeinsame Eigenkapital in Schwein. So werden wir die Anzahl der Mitarbeiter nach Abteilung in der ersten Beziehung zählen. Ich lade Mitarbeiterdaten in der zweiten Beziehung. Ich lade Abteilungsdaten auf In der dritten Beziehung. Ich verbinde mich den beiden Taschen E, M, P und DP von Abteilung I d. In der nächsten Beziehung. Ich mache auf Wiedersehen Abteilungsname in der 50er Beziehung. Ich mache einzigartige Kegel von dieser Abteilung auf die Generierung der Gruppen und schließlich drucke die Originale. Lassen Sie es uns laufen. Es wird wieder Gesetze die Karte Pretty Job. Es dauert ein paar Minuten, bis der Vorgang abgeschlossen ist. Es sind wir, und Sie können sehen, die Karte produziert Status hier. Es wird durch die Protokolle, 25% ist abgeschlossen. - Jetzt sind 75% abgeschlossen. Hölle ist der Grund. Das ist also die Zählung der Mitarbeiter nach Abteilung. Nun, wenn Sie möchten, speichern Sie große Ergebnisse in seiner Verschlechterung, so dass Sie dies mit einem Shop-Operator tun können. Werfen wir einen Blick auf das Symbol goody. Während der letzten, ich bin eine Angabe eines Storebetreibers auf die Angabe des Ausgabestortes in als D ein Büro. Lassen Sie es uns laufen. Das wird es wieder. Rasen, die Karte Pretty Job wird einige Minuten dauern, um fertig zu werden. 25% sind abgeschlossen. Wenn die Person abgeschlossen ist, - 75% ist abgeschlossen. So wurde der Auftrag erfolgreich abgeschlossen. Wir können die Ergebnisse in seiner Verteidigung sehen, damit wir Profil gehen können. - Roger. , Lassen Sie mich zu einigen Daten gehen,die wir gehen, und Sie können sehen, dass es nicht gibt. Jetzt lassen Sie uns eine Arbeit an Problem in Schwein. Also werden wir das Vorkommen abfinden. Hallo, Welt und Welt in einem bestimmten Stichprobendaten. In der ersten Beziehung lade ich die Beispieldatensätze in der zweiten Beziehung, die ich mache Token-Magier In der dritten Beziehung mache ich Filteroperation für eine Hallo Welt und den Weltkrieg. In der vierten Beziehung mache ich Gruppe für Operation von der Welt und für jedes Wort mache ich Zähloperation und drucke schließlich die Regionals. Es läuft. Entschuldigung. Oh, lassen Sie es stützen. So wird es Karte starten. Es ist sein Job an. Wir können uns ihren Status hier ansehen. Es dauert ein paar Minuten, bis der Vorgang abgeschlossen ist. Es ist süß. 50% ist abgeschlossen. Sehen Sie sich die Ergebnisse hier an. Ich hoffe, du bist gestorben, wie groß? Lässt Spaziergänge in Schmerzen. Das ist alles für Schwein Demo gehen Praxis auf Ihrer Maschine heute, Juni die nächste Vorlesung. 26. Datenpipeline mit Pig und Hive: Willkommen zurück. Wir haben genug Vorstellung darüber, wie Hadoop und seine Komponente in diesem kleinen Ich werde unsere Datenpipeline mit großen und hohen zu verarbeiten Protokolle von Benutzern auf der Website generiert zu entwerfen , werden wir Klick-Stream Daten analysieren, die von Riesig ist auf einer Website. Lassen Sie uns verstehen, was Click-Stream-Daten ist. Ah, Click-Stream-Daten sind ein Informationspfad oder Benutzer springt hinter dem Besuch einer Website. Es wird in der Regel in halbstrukturierten Website-Lock-Dateien erfasst. Die Sperrdateien enthalten Datenelemente wie Datums- und Uhrzeitangaben. Die VA Jitters I p. Adressieren Sie das Ziel, das Sie sonst von den Seiten auf einem Benutzer vegetiert sind i d, die eindeutig identifiziert den Website-Besucher. Wir werden einen Blick auf den einfachen Führer in einiger Zeit, dass die meisten Skripte und Datensätze waren ein Terrorist. Mit dieser Vorlesung, die ich in dieser Demo verwenden werde, können Sie sie auf einer Maschine ausführen, sobald Sie diese Vorlesung beendet haben. Lassen Sie uns nun verstehen, was Daten nach Ebene sind Im allgemeinen Sinne unsere Daten für Ebene ist der Prozess der Strukturierung, Verarbeitung und Transformation von Daten in den Stufen unabhängig davon, was die Quelldaten bilden. Vielleicht sind einige herkömmliche Anwendungsfälle für eine Datenpipeline Vorverarbeitung für Data Warehousing. Verbinden mit anderen Datensätzen, um neue Datensätze zur Feature-Extraktion für die Eingabe in einen maschinellen Lernalgorithmus zu erstellen. Daten nach Flugzeug sind ein automatisierter Prozess, der in regelmäßigen Zeitintervallen ausgeführt wird. Toe in nur reinigt Transformation auf Aggregat Eingehende Feed-Off-Daten, um den Output-Deal zu generieren , der in der ersteren ruhte, der für die nachgelagerte Verarbeitung ohne manuellen Eingriff geeignet ist In dieser Demo habe ich so eine Beispieldatenpipeline entwickelt, die Big and Hive verwendet, um Click-Stream-Daten zu verarbeiten . Zuallererst werden wir Beispiel-Schlösser Datei in seine Verteidigung hochladen. Dann wird das größte Skript diese Daten in eine strukturierte Form verwandeln, die dann von high für die weitere Analyse der Automatisierung von Daten nach Flugzeug verwendet wird. Wie wir gerade erfahren haben, ist diese Datenpipeline ein automatisierter Prozess, der regelmäßig ausgeführt wird, sodass Sie die gesamte Datenpipeline automatisieren können , indem Sie Ihre Skripte und den Cron-Job aufrufen. Cron ist ein zeitbasierter Job, Sindelar in UNIX-Systemen, wo der Benutzer das Rescript aufrufen kann. So können wir die gesamte Datenpipeline aufgrund von Prozessdaten in ha automatisieren. wir einen Blick auf die einfache später auf ihr Schema, die wir in dieser Demo verwenden werden, dass t Geldstrafen Produkt. Es umfasst Kategorie Off-Produkte und ihre entsprechenden Sie sind schlecht auf. Dies ist der Skim aus der Feuerkategorie und Sie sind in Benutzern. Diese Datei enthält Benutzerdaten, die auf der Website besucht werden, und dies ist der Betreiber. Es enthält Benutzer i d Geburtsdatum und Geschlechterprotokolle. Dies ist halbstrukturierte Website-Protokolle, die Daten wie Zeiten Time User I D. I P enthält . Adresse auf im Grunde Click-Stream-Daten. Okay, also zuerst, alles, was wir die Schlösser Datei in seine Verteidigung hochladen. Dann werden wir die halbstrukturierten Daten in eine strukturierte verarbeiten mit Schwein auf wird die Prozessdaten in ein anderes Verzeichnis in seiner Verteidigung abwerfen . Nach der Verarbeitung der Protokolle durch das Schwein würden die Prozessdaten so aussehen. Es wird Protokolldatum enthalten. I p u r l Benutzer, I d Stadt Landgut. Dann werden wir eine externe Tabelle in höher Sie entwerfen, um diesen Prozess zu lesen. Daten für die weitere Analyse da hohe bietet J. D B, C oder D grundlegende eine Aktivität, so dass wir einige Regelungstools wie Tab Sie usw cetera verbinden können, um Daten zu visualisieren und zu analysieren. Es gibt eine Zuordnung für Sie in dieser Datenpipeline. Und die Zuweisung ist, dass Sie alle drei Tabellen verbinden müssen, die Protokolle verarbeitet wird, Produkte und Benutzer, um eine neue flache Tabelle in hoch zu erstellen. Und hier habe ich dir die Hand gegeben, wie man die Tische auf diesem Tisch anschließt, sollte Eskimos so aussehen . Es sollte streiten. Benutzer, i d ist Geschlecht, Land, Staat Stadt Log-Datum I p Adresse Produktkategorie unter Ihnen sind Sobald Sie die Tabelle erstellen, sollten Sie in der Lage sein, diese Kuwaitis hart I Produkte von den Benutzern besucht beantworten. Aber du zählst auf Verwendungen, aber du zählst zukünftige Stationen nach Geschlecht Nebenprodukt Bajeux. Also verheimliche ich Quarteys Zeh nicht. Beantworten Sie alle diese Fragen in diesen Daten per Flugzeug, Ich werde Daten noch groß auf Lee verarbeiten und der Rest sollte von Ihnen getan werden, die Künstler in der Aufgabe gewesen ist. Nun wollen wir sehen, wie wir die Website-Protokolle mit Schwein verarbeiten können. Ich habe eine meine Sandbox gestartet. Lassen Sie mich Also Sie die Datei Speicherort, wo ich die Sperre Dateien hochgeladen habe. Das ist der Ort. Dies ist die Website Log-Daten über die Produkte, Daten und Benutzerdaten. Lassen Sie mich Ihnen das größte Skript zeigen, das ich für vergangene Protokolle verwenden werde. In der ersten Beziehung lese ich ihren Anführer aus seiner Verteidigung. In der zweiten Beziehung benenne ich die Collins in der dritten Beziehung. Ich mache Großbuchstaben für einen Staat und ein Land und speichere schließlich die Ergebnisse. Lassen Sie uns dieses Kuwaiti auf Big laufen. Lassen Sie mich über Ihren Kopf gehen und ich gehe auf die große Großzelle, die wir für ein paar Sekunden gelesen haben. Und ich werde Macquarie hier aufbauen. Jetzt wird es die Protokolle analysieren und die Ergebnisse in seiner Verteidigung speichern. Wir werden sehen, dass in etwas zu kleben irgendwann gesetzt werden. Es ist süß und dann und der Job ist erfolgreich. Lass uns sehen. Das gibt es nicht. Ich werde die Akte gehen, Bruder Andi. Ok. Und ein paar Boluda. Große alte Sumpfstämme. Also, jetzt ist dieser in einer strukturierten Form. Diese Ausgabe aus dem größten Skript. Das ist alles für diesen Vortrag Going Vervollständigen Sie Ihren Auftrag heute. Vielen Dank. 27. Data Lake: - Hallo. Willkommen zurück. Das ist deine letzte Vorlesung der Schulen. Ich hoffe, Sie lernen Journey war bisher großartig. Nun, mein Hauptziel dieser Vorlesung ist es, Ihnen eine Vorstellung davon zu geben, wie verschiedene Unternehmen moderne Datenarchitektur einsetzen, die digital ist und wie sie den Unternehmen mehr Werte geben kann . Ben Tahoe City oder James Dixon wird mit der Prägung des Begriffs Daten Lee, wie er es beschrieben, in seinem Blockland gutgeschrieben wie er es beschrieben, . Wenn Sie denken, ein Data Mart als Hocker aus abgefülltem Wasser gereinigt und Pakistan eine strukturierte für 80 Konvention, der Data Lake ist ein großer Körper aus Wasser. In einer naturalistischen die Inhalte des Daten-Sees Streaming von einer Quelle, um das Bein auf verschiedene Benutzer aus dem See zu füllen kommen, um Tauchen zu untersuchen oder nehmen Proben, Datenbeschreibung und Herausforderungen. Exponentielles Wachstum. Ein geschätztes Alter von zwei Punkten bei einem Abbiss Daten. Im Jahr 2012 wird erwartet, dass es bis 2020 auf 40 Jet abide wachsen wird, 85% dieser Daten Wachstum wird von neuen Typen kommen, wobei maschinengenerierte Daten prognostiziert werden, dass sie 15 X, aber 2020 s für d. C. d. C. Abwechslungsreiche Natur. Die eingehenden Daten können wenig oder keine Struktur oder eine Struktur, die häufig für zuverlässige Eskimo Erstellung zum Zeitpunkt aus nur Wert bei hohen Volumina ändert , können die eingehenden Daten wenig oder keinen Wert als einzelne oder eine kleine Gruppe von Datensätzen haben. Aber hohe Mengen und längere historische Perspektiven können auf Muster überprüft und für fortgeschrittene analytische Anwendungen verwendet werden . Also das Ziel Angebot Data Lake ist es, alles zu sammeln. Unser Data Lake enthält alle Daten, beide roh. So sagen wir es über längere Zeiträume sowie alle Prozessdaten Tauchen überall. Unser Data Lake ermöglicht riesige ERs über mehrere Unternehmen und Einheiten hinweg, Daten zu ihren Bedingungen zu verfeinern, zu untersuchen und zu bereichern. Flexibler Zugang. Unser Data Lake ermöglicht mehrere Datenzugriffsmuster für einen Verkauf, eine Infrastruktur-Batch, interaktive Online-Suche im Speicher und andere Verarbeitungs-Engines. Lassen Sie uns nun verstehen, wie Daten Alec Ansatz unterscheidet sich von herkömmlichen Data Warehouse-Ansatz . In unserem Ideal gegenüber dem Vortrag haben wir gesehen, dass in traditionellen Daten Warehouse-Ansatzdaten aus verschiedenen Quellen gesammelt werden, die durch die Verarbeitung transformiert werden und dann in Data Warehouse geladen werden. Das Data Warehouse konnte Onley-Strukturdaten speichern. Es war nicht in der Lage, halbstrukturierte oder unstrukturierte Daten zu speichern. Wir sahen auch seine verschiedenen Einschränkungen für den Design-Teil Datalink. Wie bietet eine kostengünstige Skalierung des Ansatzes für die Datenspeicherung und -verarbeitung, da es auf großen Mengen außerhalb von Commodity-Servern ausgeführt werden soll. Und wir haben auch in unseren vorherigen Vorträgen gesehen, das heißt, Verteidigung kann jede Art von Daten auf jeder Größe von Daten wiederherstellen. So ist ihre Gruppe zum Rückgrat von Datenlecks geworden sind digital erfasst alles, was alle erfassten Daten in seiner oder nicht rohen Form sind. Und da ihr Herzog viele Abfrage-Engines wie Hi Paige Mahat usw. hat. So können Sie nur etwas, das sie kommen, um Tauchen zu untersuchen, um irgendwelche Einblicke zu bekommen. Auch, Hadoop, so dass wirkt bietet eine einfache Integration mit allen anderen abs, die außerhalb ist. Wie geht es so? Unser Data Lake kann maximale Skalierung und innen mit Louis mögliche Reibung und Kosten liefern. Also, die unsere Data Warehouse auf Daten unterscheiden, wie wir Data Warehouse sehen können, estos Onley strukturierte oder verarbeiten Daten Sehr ein Daten spät Hocker, jede Art von Daten. In seiner ursprünglichen Rolle, ehemalige Data Warehouse ist ein Schema auf der rechten verschiedenen Daten-See gibt die Fähigkeit aus Eskimo auf Lesen wegen der Hadoop-Süchtigen Hauptmaschine Speichern riesige Datenmengen ist teuer. Im traditionellen Data Warehouse ist verschiedene Data Lake für eine kostengünstige Speicherung ausgelegt. Ein Data Warehouse ist nicht so flexibel im Vergleich zu etwas früh A Data Lake ist flexibler in Bezug auf alles. Ein Data Warehouse wird hauptsächlich von Geschäftsleuten genutzt, während unser Datenbein hauptsächlich von Data Scientists genutzt wird. Ab sofort, damit, schließe ich meinen Vortrag ein. Ich hoffe, Sie finden die Schule hilfreich. Ich wünsche Ihnen alles Gute für Ihre Karriere in Big Data. Ich schätze es, wenn Sie Ihr Feedback und Bewertungen hinterlassen. Vielen Dank, dass Sie die Schulen genommen haben, haben Sie eine großartige Reise vor uns.