Transkripte
1. Einführung: Hallo, und willkommen
zu dieser Klasse der Kundensegmentierung von Fluglinien
mithilfe unserer Programmierung. In dieser Klasse werden Sie sehen
, was Segmentierung ist. Was sind die verschiedenen
Segmentierungsarten? Und wie die Luftfahrtindustrie
diese Methode nutzt , um ihren Kunden
Vorteile zu bringen. Dann werden wir sehen, welche
Arten von Clustering es gibt. Was ist K-Means Clustering
und hierarchisches Clustering und wie werden sie
mit unserem Programm implementiert. Was ist der Unterschied
zwischen beiden? Wir werden die
gesamte
Output-Interpretation für beide
Algorithmen Schritt für Schritt
von Grund auf ausführlich sehen die
gesamte
Output-Interpretation für beide . Sobald wir die endgültigen Cluster haben, erhalten
wir gegenüber
der erzeugten Ausgabe
aussagekräftige Einblicke in jeden Cluster. Und wir werden auch versuchen
zu verstehen, wie diese Cluster in
aussagekräftige Gruppen für
die Luftfahrtindustrie umsetzen . Lasst uns anfangen und
wir sehen uns in der Klasse.
2. Segmentierung: Hallo und willkommen zurück. Jetzt werden wir sehen, wie
eine Fluggesellschaft , die die Daten
auf Kundenebene speichert, diese Daten bei der
Segmentierung ihrer Kunden
nutzt. Segmentierung ist der
Prozess der Aufteilung potenzieller Kunden in Gruppen auf ähnlichen Interessen
oder Merkmalen
basieren. Grundsätzlich handelt es sich um eine Strategie, die unsere breite
Zielgruppe von Kunden in kleinere
und ähnlichere Gruppen unterteilt. Und dann sind Designs Strategien die speziell
für jede Gruppe gedacht sind. Und Clustering ist eine gängige
Segmentierungstechnik, die automatisch
ähnliche kleinere Gruppen findet. In dieser Klasse werden wir
sehen, wie Clustering verwendet werden
kann, um
ähnliche
Kundengruppen zu finden , die
zum
Vielfliegerprogramm von Fluggesellschaften gehören . Das
Vielfliegerprogramm der Fluggesellschaft ist wie ein Treueprogramm, das Vielreisenden
einen zusätzlichen Vorteil oder Arbeiten bietet , die nicht häufig reisen. Daher der Name
Vielfliegerprogramm. Die Fluggesellschaft ist geschult, um mehr zu
erfahren, um den Kunden zu amortisieren, dass sie
verschiedene
Kundensegmente innerhalb
verschiedener Arten von
Kilometerangeboten ansprechen kann verschiedene
Kundensegmente innerhalb , die sie haben. In dieser Klasse werden
wir also einen Datensatz sehen, der aus sieben
verschiedenen Variablen besteht und der im Folgenden beschrieben wird. Lassen Sie uns diese
Variablen also nacheinander sehen. Die erste Variable ist
der variable Saldo, die Anzahl der Meilen ist, die für Prämienreisen
berechtigt sind. Dann haben wir Wachtelmeilen, die von Mäusen nummeriert für
den Top-Flugstatus
qualifizieren. Dann haben wir Bonus-Minus, das ist die Anzahl der
Mäuse, die ich
in den letzten 12 Monaten durch
Nicht-Flug-Bonus-Transaktionen verdient habe . Dann haben wir Bonus-Trans, das ist die Anzahl der
Nicht-Flug-Bonus-Transaktionen in den letzten 12 Monaten. Dann haben wir Flugmäuse, das sind eine Reihe von
Flugmeilen in den letzten Mädchenmonaten. Dann haben wir die
variable Flugtrans, die die Anzahl der Flugtransaktionen in
den letzten 12 Monaten entspricht. Dann haben wir die variablen
Tage seit der Einschreibung. Das ist die Anzahl der
Tage, seit
die Teilnahme am
Vielfliegerprogramm
einige der Begriffe im
Zusammenhang mit der Längenbranche verdient hat . Verwenden Sie all diese Variablen und den Datensatz, den
Sie sehen werden. Wir werden
das Clustering machen. Und dann werden wir
einige aussagekräftigere Gruppen
basierend auf ähnlichem Verhalten teilen .
3. Datenstruktur und Zusammenfassung: Hallo und willkommen zurück. Lassen Sie uns nun den Datensatz sehen ,
an dem Sie arbeiten werden. Der allererste Schritt
in jeder Analyse besteht
darin , den Datensatz
in Ihr System zu importieren. Wie verkörpern Sie also Datensatz in RStudio
, der reduziert wird. Sehen Sie jetzt, den allerersten Schritt, ich erstelle einen DataFrame
, der als Fluggesellschaften bezeichnet wird. Dieser DataFrame enthält
den Datensatz, an dem
wir arbeiten und die Cluster
erstellen werden. Dann verwende ich eine Funktion
, die read.csv ist. Da es sich bei meinem Datensatz um
eine CSV-Dateisortierung handelt, importieren
wir diese in mein RStudio. Ich verwende die Funktion
read.csv und file.select. Mit dieser Datei.select
-Parameter wird
ein Popup-Fenster angezeigt. Und Sie müssen die Datei auswählen , die in Ihrem System vorhanden ist. Weil ich bereits installiert bin die Daten
in Mäusen
importiert zu haben RStudio. Ich führe diesen
bestimmten Befehl nicht aus. Es ist genau welche Repräsentation. Wenn Sie einfach die Strg drücken. Und danach
haben Sie ein Popup-Fenster und Sie müssen
nur manuell
die Datei auswählen , die Sie dort importieren
müssen, RStudio, mir gegenüber weiter, da der DataFrame ist
schon in meinem RStudio. Der nächste Schritt besteht darin,
nur einen Blick auf die
Struktur Ihrer Daten zu werfen. Ich verwende eine Funktion
, die SDI ist. Nichts als Struktur. Und der Name des DataFrame. Str Länge. Sie werden
die Struktur sehen, die , wie Sie bereits gesehen haben, sieben Variablen
und 3.999 Beobachtungen
gibt. Wie Sie sehen können, sind alle meine
Variablen ganzzahliger Typ. Und lasst uns diesen Datensatz sehen. Wenn ich einfach weitermache, wie Sie sehen können, ist mein
DataFrame hier drüben. Wenn ich einfach klicke, öffnet sich ein
separates Fenster so. Sie können den eigentlichen Datensatz sehen. Das ist also mein Datensatz
, der aus
sieben Variablen besteht und alle
Ganzzahlen sind. Wie du siehst. Machen Sie einfach
eine kurze Referenz,
Sie können sehen, wären
ausgeglichene Zahlen, die Bonusmeilen, Eulerische
andere Fähigkeiten tatsächlich. Weil Sie Guthaben in
17 Tausend und Tausenden sehen werden. Man hat die Transaktion ist dicht. Auch hier ist
die Flutrichtung intensiv und alle anderen sind in Tausenden. Sie haben also grundsätzlich unterschiedliche Fähigkeiten
für verschiedene Variablen. Aber alle sind ganze Zahlen. Also werde ich
diesen Datensatz verwenden und die Cluster
erstellen, die
Sie sehen werden. Seit wir also
bereits importiert haben, haben
wir diese Struktur gesehen. Es gibt 3.999 Beobachtungen,
sieben Variablen. Jetzt schau dir das schnell an. Jemand, jemand funktioniert. Der DataFrame funktioniert
jemand und die
Weitergabe des DataFrame
als Parameter gibt mir alle
beschreibenden Statistiken dieses bestimmten Datenrahmens. Was wir also vor uns haben jetzt alle beschreibenden
Strategien, was für
alle Variablen bedeutet, lass es mich schnell lernen. Ja, bei allen Variablen haben
wir die beschreibenden
Statistiken vor uns. Deskriptive
Statistiken bedeuten also, dass
wir den Mindestwert,
das erste Quartil, Median, den Mittelwert, das dritte Quartil und den Maximalwert
für alle Variablen haben. Wie Sie
es für das Gleichgewicht sehen können, beträgt
der Mittelwert 70.601 für Spule
minus der Mittelwert 154,1. Und wir haben meinen Rabatt
Bonus Frances Land 0.6. Und wir haben sogar
das Mittel des Flugtrans gehört, das ist 1.274, was bedeutet dass alle Variablen unterschiedliche Fähigkeiten
haben. Ich arbeite bei
jemandem von Airlines. Welche zwei Variablen, die Sie glauben, haben im Durchschnitt den
kleinsten Wert. Natürlich haben wir den kleinsten
Wert von Flugtrans und wir haben die Bonusstärken. Bisher haben wir den niedrigsten Wert, zwei Variablen
im Durchschnitt den größten Wert haben. Wenn Sie also in diesen Daten sehen können, den Saldo, der
das ist , das mindestens
72.601 hat. Und wir haben die knochenlosen Mäuse, die den Mittelwert von 17.145 haben. Diese beiden Variablen
haben also den größten Wert. Dies ist der Datensatz, den wir weiter verwenden
werden. Und um die Cluster zu erstellen , die wir
in den nachfolgenden Klassen sehen werden.
4. K bedeutet Clustering: Hallo und willkommen zurück. In der vorherigen Sitzung
haben wir gesehen, wie wir
den Datensatz in unser
RStudio und VR importieren können . Wir haben auch gesehen, wie
die allgemeine Struktur
unseres DataFrame ist und wie sieht die
Zusammenfassung unseres Datenrahmens aus? Das heißt, was sind die
beschreibenden Statistikzahlen? Basierend auf dem Datenrahmen? Wir haben den Namen
des DataFrame. Wie Sie wissen, arbeiten wir in dem als Airlines
genannten DataFrame
, der 3.999 Beobachtungen
und sieben Variablen hat. Jetzt möchten wir untersuchen, wie Clustering für die
Marktsegmentierung durchgeführt werden kann
, damit diese bestimmte
Fluggesellschaft
mehr Prämienkunden erfahren kann und verschiedene Kundensegmente mit verschiedene Arten von
Kilometerleistung angeboten. Wir werden nun etwas über
das k-Means-Clustering erfahren, das auch als
unbeaufsichtigter
Lernalgorithmus bezeichnet wird. Jeder Kunde würde gerne ein personalisiertes Angebot
erhalten, wird eine persönliche
Verbindung mit dem Kunden sein,
damit jeder Kunde exklusive Angebote
und Vorteile basierend auf
seinen Anforderungen
erhalten kann exklusive Angebote
und Vorteile basierend auf
seinen Anforderungen
erhalten . Es ist
sowohl für die Fluggesellschaft als auch
für ihren Kunden eine Win-Win-Situation sowohl für die Fluggesellschaft als auch , da
beide davon profitieren. K-bedeutet Clustering. Wie gesagt, ist
es ein unbeaufsichtigter
Lernalgorithmus, der
versucht, Daten basierend
auf der Ähnlichkeit zu clustern. Es ist unbeaufsichtigtes
Lernen, weil
es kein Ergebnis gibt , das vorhergesagt werden muss. Und der Algorithmus
versucht nur Muster in den Daten zu finden. Wirklich wichtig zu verstehen. Weil es
in keinem der Cluster
, die wir erstellen werden, Hierarchie gibt. Zum k-Means-Clustering. Es gibt keine Ordnung. Es versucht nur, die Muster in
den Daten zu finden. Im K-Means-Clustering müssen
wir die
Anzahl der gewünschten Cluster angeben. Das ist das Erforderliche. Wann immer Sie den
K-Means-Algorithmus ausführen,
müssen wir vorher die Anzahl
der Cluster angeben , die
Sie erstellen möchten. Das wird manchmal zu
einer Herausforderung, aber wir
sprechen nicht so viel, denn dann
werden wir später den Unterschied über
die k-Means sowie hierarchische Clustering
und wie und warum dieser spezielle
Schritt
zwischen diesen beiden Algorithmen unterscheidet zwischen diesen beiden Algorithmen und wie er
anders ist als warum. Manchmal ist es
auf lange Sicht nicht sehr
stabil, die Anzahl der Cluster
vorher vorherzusagen . Also, wie ich schon sagte, im K-Means-Clustering müssen
wir
im K-Means-Clustering die
Anzahl der gewünschten Cluster angeben. Der Algorithmus weist
jede Beobachtung
einem Cluster zu und findet den
Schwerpunkt jedes Clusters. Jetzt sprechen wir darüber,
wie der Algorithmus abläuft und wie der Algorithmus
im Grunde funktioniert. Dieser Algorithmus weist also jede Beobachtung,
jeden Datenpunkt
oder jede Zeile, die wir
im DataFrame haben,
einem Cluster zu und findet den
Schwerpunkt jedes Clusters. Dann
durchläuft der Algorithmus zwei Schritte. Der erste Schritt besteht darin
, dass wir
den Datenpunkt dem Cluster neu zugewiesen haben ,
wobei der Schwerpunkt am nächsten ist, und dann den neuen
Schwerpunkt für jeden Cluster berechnen. Wir haben theoretisch gesehen was genau k-bedeutet,
Clustering bedeutet und wie würde dieser
Algorithmus ausgeführt werden und wie diese Cluster
basierend auf diesem unüberwachten
Lernalgorithmus generiert werden , welches ist das K-Means-Clustering. Lassen Sie uns nun
praktisch sehen, wie wir diese
Clustering-Methodik in RStudio
umsetzen können . Wie gesagt, wir haben
zwei Flüssigkeiten, die wir vorher die
Anzahl der Cluster angeben
müssen, oder möchten Sie dafür sorgen? In diesem speziellen
K-Means bedeutet Codierung, Andersdenkende gleich fünf
, dass wir fünf Cluster
aus diesem Datensatz
haben wollen . Okay, dieser Parameter
gibt uns fünf Cluster. Das bedeutet, dass
das Zentrum gleich fünf ist. Wir müssen angeben, dass
es bereit ist wann immer Sie laufen.
K-Means Algorithmus. Tut es. Dieser Teil ist die Iteration. Was ist die maximale Anzahl
von Iterationen, die
wir in diesem
K-Means-Clustering machen werden. Grundsätzlich werden wir
1000 Iterationen haben , bevor alle
diese Cluster erstellt werden. Das sind die fünf Tester. Als, weißt du, ist ein Name
des DataFrame und
k-Means ist die Funktion. Und das sind alles die
Parameter, die wir brauchen. Und davor müssen wir die set.seed Funktion
verwenden. Wenn, äh, wann immer
Sie
diesen
K-Means-Clustering-Algorithmus ausführen , wird
der Set-Seed
verwendet, um vor dem
Clustering einen Startwert
für den Zufallswert festzulegen . Es ist also sehr wichtig. Sobald wir diese
speziellen Codes eingerichtet haben. Lassen Sie uns das jetzt ausführen. Okay. Lassen Sie mich es jetzt ändern, ich erstelle einen
DataFrame, der KMC ist. Und dies wird die Ausgabe dieses speziellen
K-Means-Clusterings sein. Wenn ich nun diese Control Enter ausführe, sehen Sie
jetzt, dass eine
Liste erstellt wurde. Name ist KMC, und hier haben
wir alle Werte. Beginnen wir mit
dem ersten Ding, nämlich k-Means Clustering
mit fünf Clustern. Wir haben angegeben, dass
wir fünf Cluster der
Größe 2106 für 48
all diese Zahlen benötigen , dh für den ersten Cluster gibt es nur 22 Beobachtungen. Für den zweiten Cluster gibt es 106 Beobachtungen. Dies gibt die
Anzahl der Beobachtungen oder die Anzahl der Datensätze an, die wir für jeden Cluster
haben. Dann haben wir den Cluster bedeutet, dass dies eine sehr
wichtige Zahl ist, denn basierend auf diesem Kunden bedeutet, dass
wir einige Schlussfolgerungen ziehen werden. Sie werden
basierend auf diesen Zahlen
eine Interpretation durchführen. Denn schließlich,
was wir tun, führen wir die Segmentierung
basierend auf einigen Attributen durch. Das sind alles meine Attribute. Basierend auf diesen Attributen werde
ich eine Entscheidung treffen die auf den Clustern
basiert, die wir haben. Bisher haben wir bei jedem Cluster
einige spezifische Attribute. Und auf dieser Grundlage werden
wir einige Entscheidungen treffen. Dies sind sehr
wichtige Zahlen, die die Clustermittel sind. Wir werden diese Zahlen noch einmal sehen. Dann haben wir den
Clustering-Vektor. Diese Zahl ist nichts
anderes als sagen wir zum Beispiel, die erste ist vier. Wir haben alle
Reihen von vier oder 52,
das bedeutet, dass die erste
Beobachtung oder die erste Aufzeichnung des DataFrame Teil des vierten Clusters
ist. Gleich mit dem dritten Datensatz des sekundären
Codes Und die fünfte Betrachtung ist
Teil des fünften Clusters. Alle diese Zahlen bezeichnen
im Grunde die Nummer oder den Namen
des Clusters, zu dem dieser
bestimmte Datensatz gehört. Bisher 51. ist es der
fünfte Cluster von 101. Es ist für Clustered.
Für 401. Beobachtung ist der dritte Cluster. Es ist Teil
des dritten Clusters. Dies sind also der Name, die Cluster-Identifikation für jeden Datensatz, den wir
im Datenrahmen haben. Dann haben wir zwischen der
Summe der Quadrate um die
Gesamtsumme der Quadrate, was 86,6% entspricht. Dann haben wir alle
verfügbaren Komponenten. Für diesen DataFrame. Dies sind die allgemeinen Ergebnisse
, die wir haben oder die wir erhalten, wenn Sie das K-Means-Clustering lernen. Lasst es uns jetzt weiter pausieren. Jetzt. Sagen wir, ich möchte
Ihnen zeigen, wie viele Rekorde es gibt. Deshalb jeder Cluster. Ich muss die
Subset-Funktion verwenden. Und dafür erstelle
ich einen
Datenrahmennamen als k-Means-Cluster eins. Und ich filtere es
basierend auf jedem Cluster heraus. Teilmengename des
DataFrame, GMC, was nichts anderes als diese
Ausgabe ist, die wir
bereits durch Ausführen dieses
K-Means-Clustering generiert haben , und dann ist der Cluster gleich eins
, also der erste Cluster. Wenn ich es also für
alle Cluster mache, haben
wir
jetzt die Ausgabe, wenn ich diesen Control Enter ausführe . So wie das. Jedes härtere K-Means-Clustering gibt
Ihnen die Zahlen. Aber wir können all
diese Zahlen auch im Diskurs ableiten. Also haben wir all diese Zahlen. Wenn ich das mache,
gehe zu diesem bestimmten Datenrahmen. Jetzt können Sie sehen, welche Datensätze Teil von nur einem
sind. K-bedeutet Cluster eins. Dann haben wir Gibbons
Cluster zwei. für jeden Cluster die Anzahl der
Datensätze, Wie hoch ist für jeden Cluster die Anzahl der
Datensätze, die wir haben und die Beobachtung
jedes Datensatzes aus dem ursprünglichen DataFrame sind
Teil dessen Cluster wir mit
diesem speziellen Code leicht sehen
können. Das ist sehr wichtig.
Sobald wir alle Datensätze gegabelt haben
oder
alle Datensätze in einem
bestimmten Cluster platziert
haben . Jetzt sind sie
basierend auf einem Cluster gruppiert. Jetzt können wir diese Zahlen verwenden um auf der
Grundlage unserer Anforderungen einige Schlussfolgerungen zu ziehen. Auch hier verwende ich diese
Pfeilfunktion, um
Ihnen die Anzahl der
Datensätze für jeden Cluster anzuzeigen . Wir wissen bereits, dass es 22 Beobachtungen im Cluster gibt. In Cluster zwei gibt es eine 106-Beobachtung
, die nicht die ganze Anzahl von Beobachtungen oder
Datensätzen in jedem Cluster enthält. Wie Sie sehen können,
gibt es 2336 Beobachtungen. Eine andere Sache, an die man sich erinnern sollte, ist,
dass
wir im K-Means-Clustering die
Normalisierung der Daten vornehmen müssen. Das bedeutet, dass die Daten
den Mittelwert von 0 und eine
Standardabweichung von eins haben müssen . Geschieht dies nicht, wird
die Ausgabe oder
Interpretation auf die größte
Zahl oder die größten Werte
ausgerichtet sein . Weil die Einheiten anders sein
werden. Was auch immer die logistische
Einheit oder die größten Werte hat,
die Output-Interpretation wird auf diese Zahlen
ausgerichtet sein . Wir müssen vorher eine
Normalisierung machen, bevor wir uns für
das k-Means-Clustering entscheiden. In der nächsten Sitzung werden
wir
eine andere Methode sehen, um das Clustering
durchzuführen. Und wir werden auch
anhand dieser Zahlen sehen, wie wir
diese Zahlen interpretieren können. Und wir können basierend
auf jedem Cluster, den
wir generiert haben, einige
Schlussfolgerungen ziehen.
5. Output: Hallo und willkommen zurück. In der vorherigen Sitzung haben
wir gesehen, wie wir das k-Means-Clustering
implementieren können und wie wir die Cluster basierend
auf dem k-Means-Algorithmus ableiten und
erzeugen können. Wir haben fünf Cluster generiert, wurden auch DataFrame
separat für jeden Cluster erstellt. Das bedeutet, dass ich
ihn für diesen
bestimmten Datenrahmen für Sie öffnen kann. Dieser bestimmte
DataFrame wird also
alle Beobachtungen enthalten , die zum ersten Cluster
gehören. Alle diese Beobachtungen stammen
aus dem ursprünglichen DataFrame, aber jetzt werden sie basierend
auf dem Cluster gruppiert oder vielleicht segmentiert. Also der erste Cluster, wir haben 22 Beobachtungen. Und diese stammen alle aus
dem ursprünglichen DataFrame. Also dieser DataFrame. In ähnlicher Weise, wenn wir die Clustert-t-Werte
sehen wollen, alle Beobachtungen, die
Teil des Clusters drei sind. Es gibt also 440 Beobachtungen. Dies sind alle
Aufzeichnungen, die wir als Teil
des Clusters drei
haben. Das ist wichtig. haben
wir
all diese Cluster generiert und wir haben auch den Cluster gesehen. Cluster bedeutet, dass wir für
jede Variable die Clustermittel
haben, die auf jedem Cluster
basieren. Jetzt werden wir
eine Interpretation durchführen , indem wir
all diese Zahlen verwenden,
weil wir am Ende des Tages Clustering durchführen, um eine Segmentierung
basierend auf diesen Zahlen
durchzuführen. Lassen Sie uns nun versuchen,
etwas zu interpretieren, dass das Geschäft, die Zahlen, die wir haben. Wenn also zum Beispiel
den Cluster eins sagen. Wie Sie sehen können, sind all
diese Werte tatsächlich ziemlich
groß und sie sind die Durchschnittswerte über alle Variablen, die
tatsächlich ziemlich groß sind. Es ist der größte unter
all diesen Clustern. Die Anzahl der Kunden
im ersten Cluster beträgt nur 22. Wir werden sehen, dass
die Seiten nur 22 sind, aber der durchschnittliche Mittelwert für alle
Variablen ist der größte. Wir können ziemlich sagen, dass die
Kunden im ersten Test, die anderen
Top-Netzwerkkunden, weil sie die
höchste Bonus-Transaktion haben, die höchsten
Flugmeilen haben. Sie haben die
höchsten Bonusmeilen. Die Zahlen sind jedoch im Vergleich zu
anderen Clustern ziemlich niedrig. Das heißt, sie sind die
Gruppe von Kunden, die
tatsächlich ein
ziemlich hohes Netzwerk sind . Wenn wir einen Blick auf
den Cluster haben, um
zwei zu clustern , enthält Kunden mit
einer großen Anzahl von Meilen. Sie werden sehen, dass es eine
ziemlich große
Anzahl an Meilen hat . Meist akkumuliert für
Flugtransaktionen. Dies ist der Zeitpunkt, an dem Sie die
Aussage machen können. Drei prognostiziert. Der Kunde hat viele
Mäuse, hat viele Meilen. Sie werden sehen,
was all diese Mäuse hauptsächlich durch
Bonus-Transaktionen verdient
werden. Sie können es
so interpretieren, dass alle diese Mäuse
hauptsächlich basierend auf dem Bonusübergang
des Kopfes angesammelt werden hauptsächlich basierend auf dem Bonusübergang
des Kopfes angesammelt . Wenn Sie sich den
Cluster für den Kunden ansehen, haben Kunden die
niedrigeren als Durchschnittswerte
für alle Variablen. Und die Anzahl der Kunden in diesem speziellen Cluster
ist ebenfalls sehr hoch. Sie können sehen, dass alle Zahlen aufgrund
dieses Durchschnitts oder
der Clustermittel ziemlich niedrig
sind . Wenn Sie sich den Cluster 55
ansehen, hat er einen geringen Wert von
Tagen seit der
Registrierung, sammelt jedoch eine
angemessene Anzahl von Meilen. Wenn Sie die
Anzahl der Meilen sehen können. Es ist ziemlich groß gegenüber
den Tagen seit der Registrierung, was eigentlich nicht der
niedrigste, sondern niedriger ist als
die anderen Cluster. Abgesehen davon. Wenn du den Test fernhältst. Basierend auf anderen Clustern hat
es jedoch die niedrigste Anzahl
von Tagen seit der Registrierung, aber sogar die Testliste
der Tage seit der Registrierung. Aber der Bonus, die Bonus-Mäuse, die Anzahl der Meilen
Akkumulation ist hoch. Diese eine Interpretation, die
Sie für Cluster Fünf machen können. Dies sind eine
Interpretation, die Sie auch selbst durchführen
können, basierend auf Ihrer Beobachtung, dass
Sie
anhand all dieser Zahlen in
verschiedenen Schlussfolgerungen unterscheiden können in
verschiedenen Schlussfolgerungen unterscheiden .
6. Hierarchisches Clustering: Hallo und willkommen zurück. In der vorherigen Sitzung haben
wir über
das
k-Means-Clustering gesehen und wie man einen K-Means-Algorithmus
erstellt, um zu tun, wir haben gesehen, wie wir
verschiedene Cluster basierend
auf dem k-Means-Algorithmus herausfinden können . Jetzt beginnen wir
in dieser Sitzung mit einer anderen
Clustering-Methode oder einem anderen Algorithmus
, der als
hierarchisches Clustering bezeichnet wird. Hierarchisches Clustering ist eine alternative
Clustering-Methode, die die
Hierarchie von
unten nach oben aufbaut und
nicht vorher die
Anzahl der Cluster angeben muss. Es gibt einen klaren
Unterschied zwischen diesen beiden Methoden, die
nicht k-Means Clustering hatten, wie Sie bereits wissen,
müssen wir vorher die
Anzahl der Cluster angeben. Wenn Sie also mit dem
k-Means-Algorithmus laufen, müssen
Sie vorher
die Anzahl der gewünschten
Cluster angeben . Im hierarchischen Clustering ist
diese Anforderung jedoch nicht vorhanden. Ein sehr wichtiger Unterschied zwischen diesen beiden Methoden,
diesen beiden Algorithmen, arbeitet
der hierarchische
Clustering-Algorithmus indem er jeden
Datenpunkt in seinen eigenen Cluster legt. Es gibt rund
viertausend Kunden. Wie Sie
hier sehen können. Es wird zunächst viertausend Cluster
geben. Dann versucht es,
die beiden nächsten Cluster zu finden die beiden nächsten Cluster und sie zu
einem Cluster zu kombinieren. Dieser Prozess geht weiter. Nehmen wir zum Beispiel an,
wenn die erste Ordnung, die dritten Datenpunkte einander
am nächsten liegen, werden
sie
zu einem Cluster kombiniert. Und dieser Prozess wird fortgesetzt bis es nur
einen Tester-Lift gibt. Wir verwenden also
die Funktion dist, wie Sie hier sehen können, verwenden
Sie die Funktion
dist, um den Abstand
zwischen den einzelnen Datenpunkten zu berechnen. Im Grunde rechnen wir also mit der Kollodionentfernung. Wie Sie in der von uns erwähnten
Methode, der
euklidischen Entfernung, sehen können ,
ermitteln wir mit dieser Methode den Abstand zwischen zwei Datenpunkten. Und der zweite Schritt
besteht darin, dass wir
ein hierarchisches
Clustering basierend auf
der
gerade berechneten Entfernung durchführen möchten ein hierarchisches
Clustering basierend auf . Diese Daten werden als Eingabe
als Parameter für
den zweiten Schritt geliefert , nämlich unter Verwendung der
Kante, der Hclust Funktion. Es gibt eine Methode
, um einfach zu treffen , dass wir sie verwenden müssen, die als VD-Punkt d bezeichnet
wird. Im Methodenparameter müssen
wir diese Methode angeben, um das hohe Clustering durchzuführen. Und dann werden wir
diese spezielle Ausgabe plotten , um
das resultierende Dendrogramm zu sehen. Lassen Sie uns das jetzt schnell ausführen
und lassen Sie uns die Ausgabe sehen. Jetzt wurde es ausgeführt. Wie Sie sehen können, wurde
eine Liste erstellt. Und wenn Sie auf
diese Registerkarte Plots gehen, sehen
Sie das Dendrogramm. Wenn ich das also zoome, lass mich dir das Dendrogramm zeigen, welches die Handlung ist. In diesem Fall. Dies ist das Cluster-Dendogramm. Dies ist das Cluster-Dendogramm. Wie wir wissen, gibt es rund
viertausend Kunden. Jeder Kunde wäre zunächst in
einem bestimmten Cluster
gewesen . Und dann werden sie kombiniert,
bis ein Cluster gebildet wird. Dies ist ein Cluster. Das sind also
all diese schattierten Schwarz, sind nichts als
alle Ihre Datenpunkte. Sie werden sich also weiterhin basierend
auf der von
uns ausgewählten Entfernung
kombinieren . Das ist eine euklidische Distanz bis sie kombiniert ist
und
es wird bekommen, es wird
weniger Tester bekommen , bis es
nur noch einen Cluster hat. Nehmen wir zum Beispiel an, es hat mit
all diesen Datenpunkten begonnen. Jetzt ist es übrig, sagen
wir 1234. Es gibt nur vier
Cluster hier drüben. Die Idee der Strategie wäre, den Cluster
so zu bilden, dass es
sie gibt, sie können ihn leicht
unterscheiden. Wie Sie wissen,
beginnen Sie mit dem Wert 4 Tausend Cluster
für jeden Datenpunkt. Und jetzt können wir diese nicht
unterscheiden , denn wie Sie
hier sehen können, ist alles überladen. Jetzt ist es das. Wenn du gehst, wenn du
jetzt dem
Cursor hier drüben folgst , ist es weniger geworden. Das bedeutet, dass wir
leicht
zwischen den Clustern unterscheiden können . Sind die ideale Strategie
sollte darin bestehen,
den Cluster so zu bilden , dass er
leicht differenziert werden kann. Wenn Sie sich also das Dendogramm ansehen, können
Sie leicht zwischen
den verschiedenen Clustern
unterscheiden , die Sie haben möchten. Wenn ich hier eine horizontale
Linie ziehe, sagen
wir zum Beispiel,
ich zeichne sie in diesem Teil nicht gelernt. Wenn Sie dem Cursor
folgen, sind zwei Cluster
vorhanden. Das heißt, wenn ich das schneide, wenn ich eine horizontale Linie zeichne, schneidet
es um zwei Punkte. Das bedeutet, dass zwei Punkte über der Linie
liegen. Das heißt, es gibt zwei
Cluster, die übrig sind. Wenn ich hier eine
horizontale Linie zeichne, wie Sie sehen können,
dass dieser Schnitt
um vier Punkte schneidet, bedeutet dies vier Cluster , die
vier Cluster darstellen. Immer wenn wir eine
horizontale Linie zeichnen, müssen
wir sehen wie viele Abteilungen oberhalb dieser Linien
vorhanden sind. Wenn ich zeichne, wie du hier
unterstreichst, gibt es nur zwei Abteilungen. Wenn ich hier eine horizontale
Linie ziehe, so sind diese nur vier
Divisionen. Wenn ich eine Linie ziehe, sagen
wir zum Beispiel, hier, wie ihr diesen
Schnitt in 12345 siehst, gibt es fünf Cluster. Es gibt fünf Punkte
weiterentwickelte Frist. Das bedeutet, dass es fünf Cluster
gibt die auf der horizontalen
Linie
basieren, die wir zeichnen. Welche Abteilungen auch immer oberhalb der Linie
vorhanden sind. Diese Audio-Gerechtigkeit. Es hängt
jetzt von der Organisation ab, wie viele Cluster? Das eine und es kann leicht unterscheiden, ob sie
sich wohl fühlen, sagen
wir zum Beispiel, wenn ich hier eine Linie ziehe, also sind nur vier Cluster tot. Aber wenn ich eine Linie
knapp darunter ziehe, kann
sie auf fünf Cluster reduziert werden, fünf Punkte, die fünf Tester
bedeuten. Nun, wenn die organisierenden Dinge die sie diese Linie ziehen, und sie sind
mit dieser Unterscheidung
oder Unterscheidung
zwischen dieser Linie vertraut . Sie können die
Cluster basierend auf Schulden auswählen. Wenn wir in unserem Fall
eine horizontale Linie zeichnen und sie
schneiden und für
fünf Cluster verwenden, wie gesagt, könnte sie leicht sichtbar
sein. Unterscheiden Sie es auch leicht. Es ist gut Zurück zum Code. Das ist der Grund, warum wir die Cutree-Funktion
verwenden. Grundsätzlich teilen wir die Datenpunkte
in fünf Cluster auf. Nun, basierend auf dem
Dendogramm, das wir mit der
cutree-Funktion
gesehen haben . Vorher planen wir ein Dendogramm und teilen
es in fünf Cluster auf. Ich verwende nur diese
Plotfunktion, rect dot h plus Funktion, bei der ich die
Anzahl der Cluster angebe, die wir bereits
im Dendrogramm gefunden
haben. Und ich gebe ihm nur
einen Rand von roter Farbe. Wenn ich das jetzt durchführe, wirst
du einen Unterschied in
dem Dendrogramm sehen , das wir
haben. Hier. Wir haben es. Also lass mich es für dich zoomen. Ja. Wie Sie klar sehen können, können
diese das Dendogramm
und diese roten Linien
gruppieren , die jeden Cluster darstellen. Also zum Beispiel voraussehen, dass dies ein Cluster ist. Dies ist ein weiterer Cluster. Dieser Cluster. Dies ist der vierte Cluster, und dies ist der fünfte Cluster. Alle Datenpunkte
, die innerhalb
dieser Grenzen oder Grenzen darunter liegen,
sind also dieser Grenzen oder Grenzen Teil dieses
bestimmten Clusters. Wie Sie sehen können, gibt es 123456 oder fünf Gruppen
von fünf Clustern, die leicht
durch Einfügen dieser Randfarbe unterschieden werden können. Entsorgen Sie es nicht nur
weiter, wie ich Ihnen sagte, Sie müssen diese
cutree-Funktion verwenden, damit wir diese Datenpunkte
in fünf Cluster
aufteilen können . Ich erstelle DataFrame
, das hohe Gruppen ist. Zur gleichen Zeit. Da wir diese Cluster haben, wie in der vorherigen Sitzung im K-Means-Clustering, haben
wir gesehen, dass wir den Haupt-DataFrame
basierend auf den jeweiligen
Clustern, in denen sie sich befinden,
leicht unterteilen können den Haupt-DataFrame
basierend auf den jeweiligen
Clustern, in denen sie sich befinden,
leicht unterteilen . Wir können für jeden Duster einen separaten
DataFrames erstellen. In ähnlicher Weise können wir in diesem
auch erstellen, Sie können die
Teilmengenfunktion verwenden und wir können DataFrame, einen
separaten Datenrahmen
für jeden Cluster erstellen , indem Sie
einfach die
Teilmengenfunktion, den DataFrame-Namen verwenden. Und höhere Gruppen
sind gleich eins, unabhängig von der
Newman-Nummer der Cluster, die Sie angeben möchten. Wenn ich nun alle
diese Control Enter schnell ausführe, wird hier ein separater Datenrahmen erstellt. Wenn wir nur dem Cursor folgen, können
Sie sehen, dass all diese separaten Datenrahmen erstellt
wurden. Das ist also der höhere Cluster. Einer ist der erste Cluster
, der 1630 Beobachtungen
und sieben Variablen enthält. In ähnlicher Weise besteht dieser zweite Cluster
, der in diesem DataFrame besteht, aus 1408 Beobachtungen. Dies ist mein DataFrame
für Cluster eins. In ähnlicher Weise ist dies mein
DataFrame für Cluster zwei. So. Jetzt haben wir dieses
hochgradige Clustering verwendet und wir haben
fünf Cluster generiert. Ich kann diese
Endrew-Funktion auch verwenden, um
Ihnen die Anzahl der Beobachtungen
für jeden Cluster anzuzeigen . Nur das Exterieur
am schnellsten studiert 1630, der vierte Cluster es hat 530. So. Dies ist im Grunde die Methode
, wie Sie diesen
hierarchischen
Clustering-Algorithmus verwenden und Ihre Cluster
erstellen und erstellen können. Wir können auch
die Anzahl der
Beobachtungen aus diesem
Cluster-Dendrogramm bestätigen . Wie Sie
im Dendrogramm sehen können, gibt es fünf Gruppen
von fünf Clustern. Nehmen wir zum Beispiel an, dies sind alles Datenpunkte, die Teil dieses
bestimmten Clusters
sind. Nehmen wir zum
Beispiel an, in diesem Teil, in dieser Clustergruppe, haben
wir all diese
Datenpunkte, die tatsächlich die größten
unter all diesen sind. Oder vielleicht ist es das größte, was auch immer es am kleinsten ist. Aus diesen Zahlen können
wir sehen, dass der dritte Cluster nur eine 111-Beobachtung
enthält. Das bedeutet, dass dies
den dritten Cluster darstellt. Etwas mehr als das, was der fünfte Tester ist. Dies alle Datenpunkte sind
Teil des fünften Testers. In ähnlicher Weise
sind diese Datenpunkte Teil Ihres vierten Clusters. In ähnlicher Weise ist dieser Datenpunkt, all diese Datenpunkte,
wenn er größer ist, wenn Sie dies nur
visuell sehen können, wenn
er größer ist als
Teil Ihres ersten Tests, und dies ist
der Teil Ihrer zweiten Liste. All diese Datenpunkte.