Airline mittels R Programmierung | Venkat Murugan | Skillshare
Suchen

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Airline mittels R Programmierung

teacher avatar Venkat Murugan, Data Scientist

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführung

      1:17

    • 2.

      Segmentierung

      2:55

    • 3.

      Datensatzstruktur und Zusammenfassung

      5:00

    • 4.

      K bedeutet Clustering

      12:17

    • 5.

      Output

      5:17

    • 6.

      Hierarchisches Clustering

      12:46

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

28

Teilnehmer:innen

--

Projekt

Über diesen Kurs

Marktsegmentierung ist eine Strategie, die einen breiten Zielmarkt von Kunden in kleinere, ähnlichere Gruppen aufteilt und dann eine Marketingstrategie speziell für jede Gruppe entwirft. Clustering ist eine übliche Technik für Marktsegmentierung, da es automatisch ähnliche Gruppen findet, die einem Datensatz gegeben sind.

In diesem Kurs erfahren Sie, wie Clustering verwendet werden kann, um ähnliche Kundengruppen zu finden, die zum Vielfliegerprogramm einer Fluggesellschaft gehören. Die Fluggesellschaft versucht, mehr über ihre Kunden zu erfahren, damit sie mit verschiedenen types unterschiedliche Kundensegmente ansprechen kann.

Wir werden sehen, wie wir die Analyse Schritt für Schritt von Grund auf mit R Programmierung durchführen können

Triff deine:n Kursleiter:in

Teacher Profile Image

Venkat Murugan

Data Scientist

Kursleiter:in

Hello, I'm Venkat.

Vollständiges Profil ansehen

Skills dieses Kurses

Entwicklung Programmiersprachen
Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Hallo, und willkommen zu dieser Klasse der Kundensegmentierung von Fluglinien mithilfe unserer Programmierung. In dieser Klasse werden Sie sehen , was Segmentierung ist. Was sind die verschiedenen Segmentierungsarten? Und wie die Luftfahrtindustrie diese Methode nutzt , um ihren Kunden Vorteile zu bringen. Dann werden wir sehen, welche Arten von Clustering es gibt. Was ist K-Means Clustering und hierarchisches Clustering und wie werden sie mit unserem Programm implementiert. Was ist der Unterschied zwischen beiden? Wir werden die gesamte Output-Interpretation für beide Algorithmen Schritt für Schritt von Grund auf ausführlich sehen die gesamte Output-Interpretation für beide . Sobald wir die endgültigen Cluster haben, erhalten wir gegenüber der erzeugten Ausgabe aussagekräftige Einblicke in jeden Cluster. Und wir werden auch versuchen zu verstehen, wie diese Cluster in aussagekräftige Gruppen für die Luftfahrtindustrie umsetzen . Lasst uns anfangen und wir sehen uns in der Klasse. 2. Segmentierung: Hallo und willkommen zurück. Jetzt werden wir sehen, wie eine Fluggesellschaft , die die Daten auf Kundenebene speichert, diese Daten bei der Segmentierung ihrer Kunden nutzt. Segmentierung ist der Prozess der Aufteilung potenzieller Kunden in Gruppen auf ähnlichen Interessen oder Merkmalen basieren. Grundsätzlich handelt es sich um eine Strategie, die unsere breite Zielgruppe von Kunden in kleinere und ähnlichere Gruppen unterteilt. Und dann sind Designs Strategien die speziell für jede Gruppe gedacht sind. Und Clustering ist eine gängige Segmentierungstechnik, die automatisch ähnliche kleinere Gruppen findet. In dieser Klasse werden wir sehen, wie Clustering verwendet werden kann, um ähnliche Kundengruppen zu finden , die zum Vielfliegerprogramm von Fluggesellschaften gehören . Das Vielfliegerprogramm der Fluggesellschaft ist wie ein Treueprogramm, das Vielreisenden einen zusätzlichen Vorteil oder Arbeiten bietet , die nicht häufig reisen. Daher der Name Vielfliegerprogramm. Die Fluggesellschaft ist geschult, um mehr zu erfahren, um den Kunden zu amortisieren, dass sie verschiedene Kundensegmente innerhalb verschiedener Arten von Kilometerangeboten ansprechen kann verschiedene Kundensegmente innerhalb , die sie haben. In dieser Klasse werden wir also einen Datensatz sehen, der aus sieben verschiedenen Variablen besteht und der im Folgenden beschrieben wird. Lassen Sie uns diese Variablen also nacheinander sehen. Die erste Variable ist der variable Saldo, die Anzahl der Meilen ist, die für Prämienreisen berechtigt sind. Dann haben wir Wachtelmeilen, die von Mäusen nummeriert für den Top-Flugstatus qualifizieren. Dann haben wir Bonus-Minus, das ist die Anzahl der Mäuse, die ich in den letzten 12 Monaten durch Nicht-Flug-Bonus-Transaktionen verdient habe . Dann haben wir Bonus-Trans, das ist die Anzahl der Nicht-Flug-Bonus-Transaktionen in den letzten 12 Monaten. Dann haben wir Flugmäuse, das sind eine Reihe von Flugmeilen in den letzten Mädchenmonaten. Dann haben wir die variable Flugtrans, die die Anzahl der Flugtransaktionen in den letzten 12 Monaten entspricht. Dann haben wir die variablen Tage seit der Einschreibung. Das ist die Anzahl der Tage, seit die Teilnahme am Vielfliegerprogramm einige der Begriffe im Zusammenhang mit der Längenbranche verdient hat . Verwenden Sie all diese Variablen und den Datensatz, den Sie sehen werden. Wir werden das Clustering machen. Und dann werden wir einige aussagekräftigere Gruppen basierend auf ähnlichem Verhalten teilen . 3. Datenstruktur und Zusammenfassung: Hallo und willkommen zurück. Lassen Sie uns nun den Datensatz sehen , an dem Sie arbeiten werden. Der allererste Schritt in jeder Analyse besteht darin , den Datensatz in Ihr System zu importieren. Wie verkörpern Sie also Datensatz in RStudio , der reduziert wird. Sehen Sie jetzt, den allerersten Schritt, ich erstelle einen DataFrame , der als Fluggesellschaften bezeichnet wird. Dieser DataFrame enthält den Datensatz, an dem wir arbeiten und die Cluster erstellen werden. Dann verwende ich eine Funktion , die read.csv ist. Da es sich bei meinem Datensatz um eine CSV-Dateisortierung handelt, importieren wir diese in mein RStudio. Ich verwende die Funktion read.csv und file.select. Mit dieser Datei.select -Parameter wird ein Popup-Fenster angezeigt. Und Sie müssen die Datei auswählen , die in Ihrem System vorhanden ist. Weil ich bereits installiert bin die Daten in Mäusen importiert zu haben RStudio. Ich führe diesen bestimmten Befehl nicht aus. Es ist genau welche Repräsentation. Wenn Sie einfach die Strg drücken. Und danach haben Sie ein Popup-Fenster und Sie müssen nur manuell die Datei auswählen , die Sie dort importieren müssen, RStudio, mir gegenüber weiter, da der DataFrame ist schon in meinem RStudio. Der nächste Schritt besteht darin, nur einen Blick auf die Struktur Ihrer Daten zu werfen. Ich verwende eine Funktion , die SDI ist. Nichts als Struktur. Und der Name des DataFrame. Str Länge. Sie werden die Struktur sehen, die , wie Sie bereits gesehen haben, sieben Variablen und 3.999 Beobachtungen gibt. Wie Sie sehen können, sind alle meine Variablen ganzzahliger Typ. Und lasst uns diesen Datensatz sehen. Wenn ich einfach weitermache, wie Sie sehen können, ist mein DataFrame hier drüben. Wenn ich einfach klicke, öffnet sich ein separates Fenster so. Sie können den eigentlichen Datensatz sehen. Das ist also mein Datensatz , der aus sieben Variablen besteht und alle Ganzzahlen sind. Wie du siehst. Machen Sie einfach eine kurze Referenz, Sie können sehen, wären ausgeglichene Zahlen, die Bonusmeilen, Eulerische andere Fähigkeiten tatsächlich. Weil Sie Guthaben in 17 Tausend und Tausenden sehen werden. Man hat die Transaktion ist dicht. Auch hier ist die Flutrichtung intensiv und alle anderen sind in Tausenden. Sie haben also grundsätzlich unterschiedliche Fähigkeiten für verschiedene Variablen. Aber alle sind ganze Zahlen. Also werde ich diesen Datensatz verwenden und die Cluster erstellen, die Sie sehen werden. Seit wir also bereits importiert haben, haben wir diese Struktur gesehen. Es gibt 3.999 Beobachtungen, sieben Variablen. Jetzt schau dir das schnell an. Jemand, jemand funktioniert. Der DataFrame funktioniert jemand und die Weitergabe des DataFrame als Parameter gibt mir alle beschreibenden Statistiken dieses bestimmten Datenrahmens. Was wir also vor uns haben jetzt alle beschreibenden Strategien, was für alle Variablen bedeutet, lass es mich schnell lernen. Ja, bei allen Variablen haben wir die beschreibenden Statistiken vor uns. Deskriptive Statistiken bedeuten also, dass wir den Mindestwert, das erste Quartil, Median, den Mittelwert, das dritte Quartil und den Maximalwert für alle Variablen haben. Wie Sie es für das Gleichgewicht sehen können, beträgt der Mittelwert 70.601 für Spule minus der Mittelwert 154,1. Und wir haben meinen Rabatt Bonus Frances Land 0.6. Und wir haben sogar das Mittel des Flugtrans gehört, das ist 1.274, was bedeutet dass alle Variablen unterschiedliche Fähigkeiten haben. Ich arbeite bei jemandem von Airlines. Welche zwei Variablen, die Sie glauben, haben im Durchschnitt den kleinsten Wert. Natürlich haben wir den kleinsten Wert von Flugtrans und wir haben die Bonusstärken. Bisher haben wir den niedrigsten Wert, zwei Variablen im Durchschnitt den größten Wert haben. Wenn Sie also in diesen Daten sehen können, den Saldo, der das ist , das mindestens 72.601 hat. Und wir haben die knochenlosen Mäuse, die den Mittelwert von 17.145 haben. Diese beiden Variablen haben also den größten Wert. Dies ist der Datensatz, den wir weiter verwenden werden. Und um die Cluster zu erstellen , die wir in den nachfolgenden Klassen sehen werden. 4. K bedeutet Clustering: Hallo und willkommen zurück. In der vorherigen Sitzung haben wir gesehen, wie wir den Datensatz in unser RStudio und VR importieren können . Wir haben auch gesehen, wie die allgemeine Struktur unseres DataFrame ist und wie sieht die Zusammenfassung unseres Datenrahmens aus? Das heißt, was sind die beschreibenden Statistikzahlen? Basierend auf dem Datenrahmen? Wir haben den Namen des DataFrame. Wie Sie wissen, arbeiten wir in dem als Airlines genannten DataFrame , der 3.999 Beobachtungen und sieben Variablen hat. Jetzt möchten wir untersuchen, wie Clustering für die Marktsegmentierung durchgeführt werden kann , damit diese bestimmte Fluggesellschaft mehr Prämienkunden erfahren kann und verschiedene Kundensegmente mit verschiedene Arten von Kilometerleistung angeboten. Wir werden nun etwas über das k-Means-Clustering erfahren, das auch als unbeaufsichtigter Lernalgorithmus bezeichnet wird. Jeder Kunde würde gerne ein personalisiertes Angebot erhalten, wird eine persönliche Verbindung mit dem Kunden sein, damit jeder Kunde exklusive Angebote und Vorteile basierend auf seinen Anforderungen erhalten kann exklusive Angebote und Vorteile basierend auf seinen Anforderungen erhalten . Es ist sowohl für die Fluggesellschaft als auch für ihren Kunden eine Win-Win-Situation sowohl für die Fluggesellschaft als auch , da beide davon profitieren. K-bedeutet Clustering. Wie gesagt, ist es ein unbeaufsichtigter Lernalgorithmus, der versucht, Daten basierend auf der Ähnlichkeit zu clustern. Es ist unbeaufsichtigtes Lernen, weil es kein Ergebnis gibt , das vorhergesagt werden muss. Und der Algorithmus versucht nur Muster in den Daten zu finden. Wirklich wichtig zu verstehen. Weil es in keinem der Cluster , die wir erstellen werden, Hierarchie gibt. Zum k-Means-Clustering. Es gibt keine Ordnung. Es versucht nur, die Muster in den Daten zu finden. Im K-Means-Clustering müssen wir die Anzahl der gewünschten Cluster angeben. Das ist das Erforderliche. Wann immer Sie den K-Means-Algorithmus ausführen, müssen wir vorher die Anzahl der Cluster angeben , die Sie erstellen möchten. Das wird manchmal zu einer Herausforderung, aber wir sprechen nicht so viel, denn dann werden wir später den Unterschied über die k-Means sowie hierarchische Clustering und wie und warum dieser spezielle Schritt zwischen diesen beiden Algorithmen unterscheidet zwischen diesen beiden Algorithmen und wie er anders ist als warum. Manchmal ist es auf lange Sicht nicht sehr stabil, die Anzahl der Cluster vorher vorherzusagen . Also, wie ich schon sagte, im K-Means-Clustering müssen wir im K-Means-Clustering die Anzahl der gewünschten Cluster angeben. Der Algorithmus weist jede Beobachtung einem Cluster zu und findet den Schwerpunkt jedes Clusters. Jetzt sprechen wir darüber, wie der Algorithmus abläuft und wie der Algorithmus im Grunde funktioniert. Dieser Algorithmus weist also jede Beobachtung, jeden Datenpunkt oder jede Zeile, die wir im DataFrame haben, einem Cluster zu und findet den Schwerpunkt jedes Clusters. Dann durchläuft der Algorithmus zwei Schritte. Der erste Schritt besteht darin , dass wir den Datenpunkt dem Cluster neu zugewiesen haben , wobei der Schwerpunkt am nächsten ist, und dann den neuen Schwerpunkt für jeden Cluster berechnen. Wir haben theoretisch gesehen was genau k-bedeutet, Clustering bedeutet und wie würde dieser Algorithmus ausgeführt werden und wie diese Cluster basierend auf diesem unüberwachten Lernalgorithmus generiert werden , welches ist das K-Means-Clustering. Lassen Sie uns nun praktisch sehen, wie wir diese Clustering-Methodik in RStudio umsetzen können . Wie gesagt, wir haben zwei Flüssigkeiten, die wir vorher die Anzahl der Cluster angeben müssen, oder möchten Sie dafür sorgen? In diesem speziellen K-Means bedeutet Codierung, Andersdenkende gleich fünf , dass wir fünf Cluster aus diesem Datensatz haben wollen . Okay, dieser Parameter gibt uns fünf Cluster. Das bedeutet, dass das Zentrum gleich fünf ist. Wir müssen angeben, dass es bereit ist wann immer Sie laufen. K-Means Algorithmus. Tut es. Dieser Teil ist die Iteration. Was ist die maximale Anzahl von Iterationen, die wir in diesem K-Means-Clustering machen werden. Grundsätzlich werden wir 1000 Iterationen haben , bevor alle diese Cluster erstellt werden. Das sind die fünf Tester. Als, weißt du, ist ein Name des DataFrame und k-Means ist die Funktion. Und das sind alles die Parameter, die wir brauchen. Und davor müssen wir die set.seed Funktion verwenden. Wenn, äh, wann immer Sie diesen K-Means-Clustering-Algorithmus ausführen , wird der Set-Seed verwendet, um vor dem Clustering einen Startwert für den Zufallswert festzulegen . Es ist also sehr wichtig. Sobald wir diese speziellen Codes eingerichtet haben. Lassen Sie uns das jetzt ausführen. Okay. Lassen Sie mich es jetzt ändern, ich erstelle einen DataFrame, der KMC ist. Und dies wird die Ausgabe dieses speziellen K-Means-Clusterings sein. Wenn ich nun diese Control Enter ausführe, sehen Sie jetzt, dass eine Liste erstellt wurde. Name ist KMC, und hier haben wir alle Werte. Beginnen wir mit dem ersten Ding, nämlich k-Means Clustering mit fünf Clustern. Wir haben angegeben, dass wir fünf Cluster der Größe 2106 für 48 all diese Zahlen benötigen , dh für den ersten Cluster gibt es nur 22 Beobachtungen. Für den zweiten Cluster gibt es 106 Beobachtungen. Dies gibt die Anzahl der Beobachtungen oder die Anzahl der Datensätze an, die wir für jeden Cluster haben. Dann haben wir den Cluster bedeutet, dass dies eine sehr wichtige Zahl ist, denn basierend auf diesem Kunden bedeutet, dass wir einige Schlussfolgerungen ziehen werden. Sie werden basierend auf diesen Zahlen eine Interpretation durchführen. Denn schließlich, was wir tun, führen wir die Segmentierung basierend auf einigen Attributen durch. Das sind alles meine Attribute. Basierend auf diesen Attributen werde ich eine Entscheidung treffen die auf den Clustern basiert, die wir haben. Bisher haben wir bei jedem Cluster einige spezifische Attribute. Und auf dieser Grundlage werden wir einige Entscheidungen treffen. Dies sind sehr wichtige Zahlen, die die Clustermittel sind. Wir werden diese Zahlen noch einmal sehen. Dann haben wir den Clustering-Vektor. Diese Zahl ist nichts anderes als sagen wir zum Beispiel, die erste ist vier. Wir haben alle Reihen von vier oder 52, das bedeutet, dass die erste Beobachtung oder die erste Aufzeichnung des DataFrame Teil des vierten Clusters ist. Gleich mit dem dritten Datensatz des sekundären Codes Und die fünfte Betrachtung ist Teil des fünften Clusters. Alle diese Zahlen bezeichnen im Grunde die Nummer oder den Namen des Clusters, zu dem dieser bestimmte Datensatz gehört. Bisher 51. ist es der fünfte Cluster von 101. Es ist für Clustered. Für 401. Beobachtung ist der dritte Cluster. Es ist Teil des dritten Clusters. Dies sind also der Name, die Cluster-Identifikation für jeden Datensatz, den wir im Datenrahmen haben. Dann haben wir zwischen der Summe der Quadrate um die Gesamtsumme der Quadrate, was 86,6% entspricht. Dann haben wir alle verfügbaren Komponenten. Für diesen DataFrame. Dies sind die allgemeinen Ergebnisse , die wir haben oder die wir erhalten, wenn Sie das K-Means-Clustering lernen. Lasst es uns jetzt weiter pausieren. Jetzt. Sagen wir, ich möchte Ihnen zeigen, wie viele Rekorde es gibt. Deshalb jeder Cluster. Ich muss die Subset-Funktion verwenden. Und dafür erstelle ich einen Datenrahmennamen als k-Means-Cluster eins. Und ich filtere es basierend auf jedem Cluster heraus. Teilmengename des DataFrame, GMC, was nichts anderes als diese Ausgabe ist, die wir bereits durch Ausführen dieses K-Means-Clustering generiert haben , und dann ist der Cluster gleich eins , also der erste Cluster. Wenn ich es also für alle Cluster mache, haben wir jetzt die Ausgabe, wenn ich diesen Control Enter ausführe . So wie das. Jedes härtere K-Means-Clustering gibt Ihnen die Zahlen. Aber wir können all diese Zahlen auch im Diskurs ableiten. Also haben wir all diese Zahlen. Wenn ich das mache, gehe zu diesem bestimmten Datenrahmen. Jetzt können Sie sehen, welche Datensätze Teil von nur einem sind. K-bedeutet Cluster eins. Dann haben wir Gibbons Cluster zwei. für jeden Cluster die Anzahl der Datensätze, Wie hoch ist für jeden Cluster die Anzahl der Datensätze, die wir haben und die Beobachtung jedes Datensatzes aus dem ursprünglichen DataFrame sind Teil dessen Cluster wir mit diesem speziellen Code leicht sehen können. Das ist sehr wichtig. Sobald wir alle Datensätze gegabelt haben oder alle Datensätze in einem bestimmten Cluster platziert haben . Jetzt sind sie basierend auf einem Cluster gruppiert. Jetzt können wir diese Zahlen verwenden um auf der Grundlage unserer Anforderungen einige Schlussfolgerungen zu ziehen. Auch hier verwende ich diese Pfeilfunktion, um Ihnen die Anzahl der Datensätze für jeden Cluster anzuzeigen . Wir wissen bereits, dass es 22 Beobachtungen im Cluster gibt. In Cluster zwei gibt es eine 106-Beobachtung , die nicht die ganze Anzahl von Beobachtungen oder Datensätzen in jedem Cluster enthält. Wie Sie sehen können, gibt es 2336 Beobachtungen. Eine andere Sache, an die man sich erinnern sollte, ist, dass wir im K-Means-Clustering die Normalisierung der Daten vornehmen müssen. Das bedeutet, dass die Daten den Mittelwert von 0 und eine Standardabweichung von eins haben müssen . Geschieht dies nicht, wird die Ausgabe oder Interpretation auf die größte Zahl oder die größten Werte ausgerichtet sein . Weil die Einheiten anders sein werden. Was auch immer die logistische Einheit oder die größten Werte hat, die Output-Interpretation wird auf diese Zahlen ausgerichtet sein . Wir müssen vorher eine Normalisierung machen, bevor wir uns für das k-Means-Clustering entscheiden. In der nächsten Sitzung werden wir eine andere Methode sehen, um das Clustering durchzuführen. Und wir werden auch anhand dieser Zahlen sehen, wie wir diese Zahlen interpretieren können. Und wir können basierend auf jedem Cluster, den wir generiert haben, einige Schlussfolgerungen ziehen. 5. Output: Hallo und willkommen zurück. In der vorherigen Sitzung haben wir gesehen, wie wir das k-Means-Clustering implementieren können und wie wir die Cluster basierend auf dem k-Means-Algorithmus ableiten und erzeugen können. Wir haben fünf Cluster generiert, wurden auch DataFrame separat für jeden Cluster erstellt. Das bedeutet, dass ich ihn für diesen bestimmten Datenrahmen für Sie öffnen kann. Dieser bestimmte DataFrame wird also alle Beobachtungen enthalten , die zum ersten Cluster gehören. Alle diese Beobachtungen stammen aus dem ursprünglichen DataFrame, aber jetzt werden sie basierend auf dem Cluster gruppiert oder vielleicht segmentiert. Also der erste Cluster, wir haben 22 Beobachtungen. Und diese stammen alle aus dem ursprünglichen DataFrame. Also dieser DataFrame. In ähnlicher Weise, wenn wir die Clustert-t-Werte sehen wollen, alle Beobachtungen, die Teil des Clusters drei sind. Es gibt also 440 Beobachtungen. Dies sind alle Aufzeichnungen, die wir als Teil des Clusters drei haben. Das ist wichtig. haben wir all diese Cluster generiert und wir haben auch den Cluster gesehen. Cluster bedeutet, dass wir für jede Variable die Clustermittel haben, die auf jedem Cluster basieren. Jetzt werden wir eine Interpretation durchführen , indem wir all diese Zahlen verwenden, weil wir am Ende des Tages Clustering durchführen, um eine Segmentierung basierend auf diesen Zahlen durchzuführen. Lassen Sie uns nun versuchen, etwas zu interpretieren, dass das Geschäft, die Zahlen, die wir haben. Wenn also zum Beispiel den Cluster eins sagen. Wie Sie sehen können, sind all diese Werte tatsächlich ziemlich groß und sie sind die Durchschnittswerte über alle Variablen, die tatsächlich ziemlich groß sind. Es ist der größte unter all diesen Clustern. Die Anzahl der Kunden im ersten Cluster beträgt nur 22. Wir werden sehen, dass die Seiten nur 22 sind, aber der durchschnittliche Mittelwert für alle Variablen ist der größte. Wir können ziemlich sagen, dass die Kunden im ersten Test, die anderen Top-Netzwerkkunden, weil sie die höchste Bonus-Transaktion haben, die höchsten Flugmeilen haben. Sie haben die höchsten Bonusmeilen. Die Zahlen sind jedoch im Vergleich zu anderen Clustern ziemlich niedrig. Das heißt, sie sind die Gruppe von Kunden, die tatsächlich ein ziemlich hohes Netzwerk sind . Wenn wir einen Blick auf den Cluster haben, um zwei zu clustern , enthält Kunden mit einer großen Anzahl von Meilen. Sie werden sehen, dass es eine ziemlich große Anzahl an Meilen hat . Meist akkumuliert für Flugtransaktionen. Dies ist der Zeitpunkt, an dem Sie die Aussage machen können. Drei prognostiziert. Der Kunde hat viele Mäuse, hat viele Meilen. Sie werden sehen, was all diese Mäuse hauptsächlich durch Bonus-Transaktionen verdient werden. Sie können es so interpretieren, dass alle diese Mäuse hauptsächlich basierend auf dem Bonusübergang des Kopfes angesammelt werden hauptsächlich basierend auf dem Bonusübergang des Kopfes angesammelt . Wenn Sie sich den Cluster für den Kunden ansehen, haben Kunden die niedrigeren als Durchschnittswerte für alle Variablen. Und die Anzahl der Kunden in diesem speziellen Cluster ist ebenfalls sehr hoch. Sie können sehen, dass alle Zahlen aufgrund dieses Durchschnitts oder der Clustermittel ziemlich niedrig sind . Wenn Sie sich den Cluster 55 ansehen, hat er einen geringen Wert von Tagen seit der Registrierung, sammelt jedoch eine angemessene Anzahl von Meilen. Wenn Sie die Anzahl der Meilen sehen können. Es ist ziemlich groß gegenüber den Tagen seit der Registrierung, was eigentlich nicht der niedrigste, sondern niedriger ist als die anderen Cluster. Abgesehen davon. Wenn du den Test fernhältst. Basierend auf anderen Clustern hat es jedoch die niedrigste Anzahl von Tagen seit der Registrierung, aber sogar die Testliste der Tage seit der Registrierung. Aber der Bonus, die Bonus-Mäuse, die Anzahl der Meilen Akkumulation ist hoch. Diese eine Interpretation, die Sie für Cluster Fünf machen können. Dies sind eine Interpretation, die Sie auch selbst durchführen können, basierend auf Ihrer Beobachtung, dass Sie anhand all dieser Zahlen in verschiedenen Schlussfolgerungen unterscheiden können in verschiedenen Schlussfolgerungen unterscheiden . 6. Hierarchisches Clustering: Hallo und willkommen zurück. In der vorherigen Sitzung haben wir über das k-Means-Clustering gesehen und wie man einen K-Means-Algorithmus erstellt, um zu tun, wir haben gesehen, wie wir verschiedene Cluster basierend auf dem k-Means-Algorithmus herausfinden können . Jetzt beginnen wir in dieser Sitzung mit einer anderen Clustering-Methode oder einem anderen Algorithmus , der als hierarchisches Clustering bezeichnet wird. Hierarchisches Clustering ist eine alternative Clustering-Methode, die die Hierarchie von unten nach oben aufbaut und nicht vorher die Anzahl der Cluster angeben muss. Es gibt einen klaren Unterschied zwischen diesen beiden Methoden, die nicht k-Means Clustering hatten, wie Sie bereits wissen, müssen wir vorher die Anzahl der Cluster angeben. Wenn Sie also mit dem k-Means-Algorithmus laufen, müssen Sie vorher die Anzahl der gewünschten Cluster angeben . Im hierarchischen Clustering ist diese Anforderung jedoch nicht vorhanden. Ein sehr wichtiger Unterschied zwischen diesen beiden Methoden, diesen beiden Algorithmen, arbeitet der hierarchische Clustering-Algorithmus indem er jeden Datenpunkt in seinen eigenen Cluster legt. Es gibt rund viertausend Kunden. Wie Sie hier sehen können. Es wird zunächst viertausend Cluster geben. Dann versucht es, die beiden nächsten Cluster zu finden die beiden nächsten Cluster und sie zu einem Cluster zu kombinieren. Dieser Prozess geht weiter. Nehmen wir zum Beispiel an, wenn die erste Ordnung, die dritten Datenpunkte einander am nächsten liegen, werden sie zu einem Cluster kombiniert. Und dieser Prozess wird fortgesetzt bis es nur einen Tester-Lift gibt. Wir verwenden also die Funktion dist, wie Sie hier sehen können, verwenden Sie die Funktion dist, um den Abstand zwischen den einzelnen Datenpunkten zu berechnen. Im Grunde rechnen wir also mit der Kollodionentfernung. Wie Sie in der von uns erwähnten Methode, der euklidischen Entfernung, sehen können , ermitteln wir mit dieser Methode den Abstand zwischen zwei Datenpunkten. Und der zweite Schritt besteht darin, dass wir ein hierarchisches Clustering basierend auf der gerade berechneten Entfernung durchführen möchten ein hierarchisches Clustering basierend auf . Diese Daten werden als Eingabe als Parameter für den zweiten Schritt geliefert , nämlich unter Verwendung der Kante, der Hclust Funktion. Es gibt eine Methode , um einfach zu treffen , dass wir sie verwenden müssen, die als VD-Punkt d bezeichnet wird. Im Methodenparameter müssen wir diese Methode angeben, um das hohe Clustering durchzuführen. Und dann werden wir diese spezielle Ausgabe plotten , um das resultierende Dendrogramm zu sehen. Lassen Sie uns das jetzt schnell ausführen und lassen Sie uns die Ausgabe sehen. Jetzt wurde es ausgeführt. Wie Sie sehen können, wurde eine Liste erstellt. Und wenn Sie auf diese Registerkarte Plots gehen, sehen Sie das Dendrogramm. Wenn ich das also zoome, lass mich dir das Dendrogramm zeigen, welches die Handlung ist. In diesem Fall. Dies ist das Cluster-Dendogramm. Dies ist das Cluster-Dendogramm. Wie wir wissen, gibt es rund viertausend Kunden. Jeder Kunde wäre zunächst in einem bestimmten Cluster gewesen . Und dann werden sie kombiniert, bis ein Cluster gebildet wird. Dies ist ein Cluster. Das sind also all diese schattierten Schwarz, sind nichts als alle Ihre Datenpunkte. Sie werden sich also weiterhin basierend auf der von uns ausgewählten Entfernung kombinieren . Das ist eine euklidische Distanz bis sie kombiniert ist und es wird bekommen, es wird weniger Tester bekommen , bis es nur noch einen Cluster hat. Nehmen wir zum Beispiel an, es hat mit all diesen Datenpunkten begonnen. Jetzt ist es übrig, sagen wir 1234. Es gibt nur vier Cluster hier drüben. Die Idee der Strategie wäre, den Cluster so zu bilden, dass es sie gibt, sie können ihn leicht unterscheiden. Wie Sie wissen, beginnen Sie mit dem Wert 4 Tausend Cluster für jeden Datenpunkt. Und jetzt können wir diese nicht unterscheiden , denn wie Sie hier sehen können, ist alles überladen. Jetzt ist es das. Wenn du gehst, wenn du jetzt dem Cursor hier drüben folgst , ist es weniger geworden. Das bedeutet, dass wir leicht zwischen den Clustern unterscheiden können . Sind die ideale Strategie sollte darin bestehen, den Cluster so zu bilden , dass er leicht differenziert werden kann. Wenn Sie sich also das Dendogramm ansehen, können Sie leicht zwischen den verschiedenen Clustern unterscheiden , die Sie haben möchten. Wenn ich hier eine horizontale Linie ziehe, sagen wir zum Beispiel, ich zeichne sie in diesem Teil nicht gelernt. Wenn Sie dem Cursor folgen, sind zwei Cluster vorhanden. Das heißt, wenn ich das schneide, wenn ich eine horizontale Linie zeichne, schneidet es um zwei Punkte. Das bedeutet, dass zwei Punkte über der Linie liegen. Das heißt, es gibt zwei Cluster, die übrig sind. Wenn ich hier eine horizontale Linie zeichne, wie Sie sehen können, dass dieser Schnitt um vier Punkte schneidet, bedeutet dies vier Cluster , die vier Cluster darstellen. Immer wenn wir eine horizontale Linie zeichnen, müssen wir sehen wie viele Abteilungen oberhalb dieser Linien vorhanden sind. Wenn ich zeichne, wie du hier unterstreichst, gibt es nur zwei Abteilungen. Wenn ich hier eine horizontale Linie ziehe, so sind diese nur vier Divisionen. Wenn ich eine Linie ziehe, sagen wir zum Beispiel, hier, wie ihr diesen Schnitt in 12345 siehst, gibt es fünf Cluster. Es gibt fünf Punkte weiterentwickelte Frist. Das bedeutet, dass es fünf Cluster gibt die auf der horizontalen Linie basieren, die wir zeichnen. Welche Abteilungen auch immer oberhalb der Linie vorhanden sind. Diese Audio-Gerechtigkeit. Es hängt jetzt von der Organisation ab, wie viele Cluster? Das eine und es kann leicht unterscheiden, ob sie sich wohl fühlen, sagen wir zum Beispiel, wenn ich hier eine Linie ziehe, also sind nur vier Cluster tot. Aber wenn ich eine Linie knapp darunter ziehe, kann sie auf fünf Cluster reduziert werden, fünf Punkte, die fünf Tester bedeuten. Nun, wenn die organisierenden Dinge die sie diese Linie ziehen, und sie sind mit dieser Unterscheidung oder Unterscheidung zwischen dieser Linie vertraut . Sie können die Cluster basierend auf Schulden auswählen. Wenn wir in unserem Fall eine horizontale Linie zeichnen und sie schneiden und für fünf Cluster verwenden, wie gesagt, könnte sie leicht sichtbar sein. Unterscheiden Sie es auch leicht. Es ist gut Zurück zum Code. Das ist der Grund, warum wir die Cutree-Funktion verwenden. Grundsätzlich teilen wir die Datenpunkte in fünf Cluster auf. Nun, basierend auf dem Dendogramm, das wir mit der cutree-Funktion gesehen haben . Vorher planen wir ein Dendogramm und teilen es in fünf Cluster auf. Ich verwende nur diese Plotfunktion, rect dot h plus Funktion, bei der ich die Anzahl der Cluster angebe, die wir bereits im Dendrogramm gefunden haben. Und ich gebe ihm nur einen Rand von roter Farbe. Wenn ich das jetzt durchführe, wirst du einen Unterschied in dem Dendrogramm sehen , das wir haben. Hier. Wir haben es. Also lass mich es für dich zoomen. Ja. Wie Sie klar sehen können, können diese das Dendogramm und diese roten Linien gruppieren , die jeden Cluster darstellen. Also zum Beispiel voraussehen, dass dies ein Cluster ist. Dies ist ein weiterer Cluster. Dieser Cluster. Dies ist der vierte Cluster, und dies ist der fünfte Cluster. Alle Datenpunkte , die innerhalb dieser Grenzen oder Grenzen darunter liegen, sind also dieser Grenzen oder Grenzen Teil dieses bestimmten Clusters. Wie Sie sehen können, gibt es 123456 oder fünf Gruppen von fünf Clustern, die leicht durch Einfügen dieser Randfarbe unterschieden werden können. Entsorgen Sie es nicht nur weiter, wie ich Ihnen sagte, Sie müssen diese cutree-Funktion verwenden, damit wir diese Datenpunkte in fünf Cluster aufteilen können . Ich erstelle DataFrame , das hohe Gruppen ist. Zur gleichen Zeit. Da wir diese Cluster haben, wie in der vorherigen Sitzung im K-Means-Clustering, haben wir gesehen, dass wir den Haupt-DataFrame basierend auf den jeweiligen Clustern, in denen sie sich befinden, leicht unterteilen können den Haupt-DataFrame basierend auf den jeweiligen Clustern, in denen sie sich befinden, leicht unterteilen . Wir können für jeden Duster einen separaten DataFrames erstellen. In ähnlicher Weise können wir in diesem auch erstellen, Sie können die Teilmengenfunktion verwenden und wir können DataFrame, einen separaten Datenrahmen für jeden Cluster erstellen , indem Sie einfach die Teilmengenfunktion, den DataFrame-Namen verwenden. Und höhere Gruppen sind gleich eins, unabhängig von der Newman-Nummer der Cluster, die Sie angeben möchten. Wenn ich nun alle diese Control Enter schnell ausführe, wird hier ein separater Datenrahmen erstellt. Wenn wir nur dem Cursor folgen, können Sie sehen, dass all diese separaten Datenrahmen erstellt wurden. Das ist also der höhere Cluster. Einer ist der erste Cluster , der 1630 Beobachtungen und sieben Variablen enthält. In ähnlicher Weise besteht dieser zweite Cluster , der in diesem DataFrame besteht, aus 1408 Beobachtungen. Dies ist mein DataFrame für Cluster eins. In ähnlicher Weise ist dies mein DataFrame für Cluster zwei. So. Jetzt haben wir dieses hochgradige Clustering verwendet und wir haben fünf Cluster generiert. Ich kann diese Endrew-Funktion auch verwenden, um Ihnen die Anzahl der Beobachtungen für jeden Cluster anzuzeigen . Nur das Exterieur am schnellsten studiert 1630, der vierte Cluster es hat 530. So. Dies ist im Grunde die Methode , wie Sie diesen hierarchischen Clustering-Algorithmus verwenden und Ihre Cluster erstellen und erstellen können. Wir können auch die Anzahl der Beobachtungen aus diesem Cluster-Dendrogramm bestätigen . Wie Sie im Dendrogramm sehen können, gibt es fünf Gruppen von fünf Clustern. Nehmen wir zum Beispiel an, dies sind alles Datenpunkte, die Teil dieses bestimmten Clusters sind. Nehmen wir zum Beispiel an, in diesem Teil, in dieser Clustergruppe, haben wir all diese Datenpunkte, die tatsächlich die größten unter all diesen sind. Oder vielleicht ist es das größte, was auch immer es am kleinsten ist. Aus diesen Zahlen können wir sehen, dass der dritte Cluster nur eine 111-Beobachtung enthält. Das bedeutet, dass dies den dritten Cluster darstellt. Etwas mehr als das, was der fünfte Tester ist. Dies alle Datenpunkte sind Teil des fünften Testers. In ähnlicher Weise sind diese Datenpunkte Teil Ihres vierten Clusters. In ähnlicher Weise ist dieser Datenpunkt, all diese Datenpunkte, wenn er größer ist, wenn Sie dies nur visuell sehen können, wenn er größer ist als Teil Ihres ersten Tests, und dies ist der Teil Ihrer zweiten Liste. All diese Datenpunkte.