Transcription
1. Introduction: Bonjour, et bienvenue dans
cette catégorie de segmentation des clients des compagnies aériennes
à l'aide de notre programmation. Dans cette classe, vous allez
voir ce qu'est la segmentation. Quels sont les différents
types de segmentation ? Et comment l'industrie du transport aérien
profite de cette méthodologie pour apporter
des avantages à ses clients. Ensuite, nous verrons quels sont
les types de clustering. Qu'est-ce que le clustering K signifie
et le clustering hiérarchique, et comment ils sont mis en œuvre
à l'aide de notre programme ? Quelle est la différence
entre les deux ? Nous verrons en détail
toutes les interprétations de sortie pour les deux algorithmes étape par étape
à partir de zéro. Une fois que nous aurons les clusters finaux, nous obtiendrons des
informations
significatives sur chaque cluster par rapport à
la sortie générée. Nous essaierons également de comprendre
comment ces clusters se traduisent en groupes
significatifs pour
l'industrie des compagnies aériennes. Commençons et je vous
verrai en classe.
2. Segmentation: Bonjour et bienvenue. Nous allons maintenant voir comment
une compagnie aérienne qui stocke les données de
niveau client exploite ces données pour
segmenter ses clients. La
segmentation consiste à diviser les clients
potentiels en groupes en fonction d'intérêts
ou de caractéristiques similaires. Fondamentalement, il s'agit d'une stratégie qui divise notre vaste groupe
cible de clients en groupes plus petits
et plus similaires. Ensuite, les conceptions sont des stratégies spécifiquement conçues
pour chaque groupe. Et le clustering est une
technique courante de segmentation, qui détecte automatiquement des groupes plus petits
similaires. Dans cette classe, nous
verrons comment le clustering peut être utilisé pour trouver un groupe
similaire de
clients appartenant au programme de
fidélisation des compagnies aériennes. Le programme de
fidélité des compagnies aériennes est comme un programme de fidélité, qui offre aux voyageurs
fréquents avantage supplémentaire ou un travail
qui ne voyage pas fréquemment. D'où le nom du programme de
fidélité. La compagnie aérienne est formée pour
en savoir plus sur l'amortissement des clients, qu'elle puisse cibler différents
segments de clients au sein différents types d'offres de
kilométrage dont elle dispose. Dans cette classe, nous
allons donc voir un jeu de données composé de sept variables
différentes et qui sont décrites ci-dessous. Voyons donc ces
variables une par une. La première variable est
le solde variable, qui correspond au nombre de miles
éligibles aux voyages primes. Ensuite, nous avons des milles de caille, qui sont comptés de souris qualifient pour le statut de
vol le plus élevé. Ensuite, nous avons des bonus moins, c'
est-à-dire le nombre de
souris que j'ai gagnées lors de transactions de bonus
hors vol
au cours des 12 derniers mois. Ensuite, nous avons des trans bonus, qui correspond au nombre de transactions de bonus hors
vol au cours des 12 derniers mois. Ensuite, nous avons des souris de vol, c'
est-à-dire un certain nombre de
milles de vol au cours des derniers mois de filles. Ensuite, nous avons les trans de vol
variables, c'
est-à-dire le nombre de transactions
aériennes
au cours des 12 derniers mois. Ensuite, nous avons les
jours variables depuis l'inscription. C'est le nombre de
jours qui se sont écoulés depuis que
l'inscription au programme de fidélisation mérite certaines des conditions liées
à l'industrie de la longueur. Utiliser toutes ces variables et le jeu de données que
vous allez voir. Nous allons faire
le clustering. Ensuite, nous diviserons des groupes plus significatifs en
fonction d'un comportement similaire.
3. Structure et résumé de l'ensemble de données: Bonjour et bienvenue. Voyons maintenant le jeu de données sur lequel vous allez travailler. La première étape
de toute analyse consiste à importer le jeu de données
dans votre système. Alors, comment allez-vous incarner jeu de données dans RStudio
qui va réduire ? Voyez maintenant, la toute première étape, je suis en train de créer un DataFrame
qui porte le nom de compagnies aériennes. Ce DataFrame contiendra
le jeu de données sur lequel nous allons travailler et
créer les clusters. Ensuite, j'utilise une fonction
qui est read.csv. Puisque mon jeu de données est
un tri de fichiers CSV, nous l'importons dans mon RStudio. J'utilise la fonction
read.csv et file.choose. À l'aide de ce
paramètre fichier.choose, une fenêtre contextuelle s'affiche. Et vous devez choisir
le fichier présent dans votre système. Parce que je suis déjà installé sur les données
importées
dans les souris RStudio. Je n'exécute pas cette commande
particulière. C'est exactement quelle représentation. Si vous appuyez simplement sur le bouton Contrôler. Et ensuite, vous
aurez une fenêtre contextuelle et vous aurez juste à sélectionner manuellement le fichier que vous
devez importer là-dedans,
RStudio, en face de moi plus loin, puisque le DataFrame est
déjà dans mon RStudio. La prochaine étape
consisterait à examiner la
structure de vos données. J'utilise une fonction
qui est SDI. Rien d'autre que de la structure. Et le nom du DataFrame. Longueur Str. Vous allez voir
la structure qui , comme vous l'avez déjà vu, il y a sept variables
et 3 999 observations. Comme vous pouvez le voir, toutes mes
variables sont de type entier. Et voyons ce jeu de données. Si je vais de l'avant, comme vous pouvez le constater, mon
DataFrame est ici. Si je clique simplement, une fenêtre séparée s'
ouvrira comme ça. Vous pouvez voir le jeu de données réel. C'est donc mon jeu de données
qui se compose de sept variables et toutes sont des
entiers. Comme vous pouvez le voir. Il suffit d'aller pour
une référence rapide, vous pouvez voir ce serait des chiffres
équilibrés, les miles bonus, la compétence eulérienne
différente en fait. Parce que vous allez
voir des soldes de 17 000 et des milliers. On a une transaction est dense. Encore une fois,
la direction du vol est intense, et tous les autres sont par milliers. Ils ont donc des compétences différentes
pour différentes variables. Mais tous sont des entiers. Je vais donc utiliser
ce jeu de données et créer les clusters que
vous allez voir. Depuis que nous avons
déjà importé, nous avons vu cette structure. Il y a 3 999 observations,
sept variables. Maintenant, jetez rapidement un coup d'œil là-dessus. Quelqu'un, quelqu'un fonctionne. Le DataFrame fait fonctionner
quelqu'un et transmettre le DataFrame
en tant que paramètre me
donnera toutes les statistiques
descriptives de ce bloc de données particulier. Ce que nous avons
devant nous, c'est maintenant toutes les
stratégies descriptives, ce qui signifie que pour
toutes les variables, permettez-moi de l'apprendre rapidement. Oui, donc pour toutes les variables, nous avons les
statistiques descriptives devant nous. statistiques descriptives signifient donc que nous
avons la valeur minimale,
le premier quartile, médiane, la moyenne, le troisième quartile et la valeur maximale
pour toutes les variables. Ainsi, comme vous pouvez
le voir pour l'équilibre, la moyenne est de 70 601 pour la bobine
moins la moyenne est 154,1. Et nous avons un
bonus moyen off Frances Land 0.6. Et nous avons même écouté la
moyenne de vol trans, qui est de 1,274, ce qui signifie que toutes les variables
ont des compétences différentes. Je travaille chez
quelqu'un des compagnies aériennes. Quelles sont les deux variables selon vous ont en moyenne la valeur la
plus faible. Bien sûr, nous avons la plus petite
valeur de vol trans, et nous avons les points forts bonus. Jusqu'à présent,
ces variables ont la valeur la plus basse, dont deux variables ont
en moyenne la valeur la plus élevée. Donc, si vous pouvez voir dans ces données, le solde, qui est le, qui a la moyenne minimale
de 72 601. Et nous avons les souris désossées, dont la moyenne est de 17 145. Ces deux variables
ont donc la valeur la plus élevée. C'est le jeu de données que
nous allons utiliser davantage. Et pour créer les clusters que nous allons voir
dans les classes suivantes.
4. K signifie le regroupement: Bonjour et bienvenue. Lors de la session précédente, nous
avons vu comment importer le jeu de données dans nos
RStudio et VR. Nous avons également vu quelle est
la structure générale de notre DataFrame et quel est le
résumé de notre bloc de données ? Cela signifie quels sont les chiffres statistiques
descriptifs ? Basé sur le bloc de données ? Nous avons le nom
du DataFrame. Comme vous le savez, nous travaillons dans le DataFrame
appelé compagnies aériennes, qui comporte 3 999 observations
et sept variables. Nous voulons maintenant étudier comment clustering peut être effectué pour la segmentation
du marché afin que cette
compagnie aérienne en particulier puisse en apprendre davantage sur les récompenses
et cibler différents segments de clients avec différents types de
kilométrage offerts. Nous allons maintenant en apprendre davantage sur
le clustering k-means, également appelé algorithme
d'apprentissage non supervisé. Chaque client aimerait
recevoir une offre personnalisée, sera un
lien personnel avec le client
afin que chaque client puisse bénéficier d'offres
et d'avantages exclusifs en fonction de
ses besoins. Il s'agit d'une situation gagnant-gagnant
tant pour la compagnie aérienne que pour ses clients, car
les deux en bénéficient. K-signifie clustering. Comme je l'ai dit, il s'agit d'un algorithme
d'apprentissage non supervisé qui tente regrouper des données en
fonction de la similitude. Il s'agit d'un
apprentissage non supervisé parce qu'
il n'y a aucun résultat à prévoir. Et l'algorithme
essaie simplement de trouver des
modèles dans les données. Il est vraiment important de comprendre. Parce qu'il n'y a pas de hiérarchie dans aucun des clusters
que nous allons créer. À la grappe K-Means. n'y a pas d'ordre. Il s'agit simplement de trouver
les schémas dans les données. Dans le regroupement K-Means, nous devons spécifier le
nombre de clusters que nous voulons. C'est la condition requise. Chaque fois que vous exécutez un algorithme
K-Means que nous
devons spécifier au préalable le nombre de clusters que
vous souhaitez créer. Cela devient parfois
un peu difficile, mais nous n'en
parlons pas beaucoup parce qu'à la suite de la
session, nous
verrons la différence entre
les k-moyennes ainsi que clustering
hiérarchique
et comment et pourquoi cette
étape particulière différencie ces deux algorithmes et en quoi elle est
différente de la raison. Parfois,
la prédiction
préalable du nombre de grappes ne sera pas très
stable à long terme. Ainsi, comme je l'ai dit, dans le regroupement K-Means, nous devons spécifier le
nombre de clusters que nous voulons. L'algorithme attribue
chaque observation à un cluster et trouve le
centroïde de chaque cluster. Nous parlons maintenant de l'algorithme, la
façon dont fonctionne l'algorithme et du fonctionnement de l'
algorithme. Cet algorithme attribue donc chaque observation,
chaque point de données ou chaque ligne que nous avons
dans le DataFrame à un cluster et trouve le
centroïde de chaque cluster. Ensuite, l'algorithme effectue une itération en deux
étapes. La première étape consiste
à réaffecter
le point de données au cluster
avec le centroïde le plus proche,
puis nous le point de données au cluster
avec le centroïde le plus proche, calculons le nouveau
centroïde pour chaque cluster. Nous avons vu théoriquement ce que signifie exactement k,
clustering, et comment cet
algorithme s'exécuterait-il et comment ces clusters sont générés sur
la base de cet algorithme
d'apprentissage non supervisé, qui est le Clustering K-Means. Voyons
maintenant comment
implémenter cette
méthodologie de clustering dans RStudio. Comme je l'ai dit, nous avons
deux liquides que nous devons spécifier au préalable le nombre
de grappes, ou voulez-vous fabriquer pour cela ? Dans ce
K, le codage, dissidents égaux à cinq
signifient que nous voulons disposer de cinq grappes
de cet ensemble de données. Ok, donc ce paramètre
va nous donner cinq grappes. Cela signifie que
le centre est égal à cinq. Nous devons préciser qu'
il est prêt dès que vous êtes en cours d'exécution.
Algorithme K-Means. Doit. Cette partie est l'itération. Quel est le nombre maximum
d'itérations que nous allons faire dans ce clustering
K-Means ? En gros, nous allons avoir 1000 itérations avant que tous
ces clusters ne soient créés. Ce sont les cinq testeurs. Vous savez aussi, c'est un nom
de DataFrame et
k-means est la fonction. Et ce sont tous les
paramètres dont nous avons besoin. Et avant cela, nous devons
utiliser la fonction set.seed. Lorsque, euh, quand
vous exécutez cet algorithme de
clustering K-Means, la graine définie est
utilisée pour définir une graine pour la valeur aléatoire avant d'
effectuer le clustering. C'est donc très important. Une fois que nous avons mis en place ces codes
particuliers. Maintenant, allons le faire. D'accord. Maintenant, permettez-moi de le changer, je crée un
DataFrame qui est KMC. Et ce sera le résultat de ce groupement
K-Means particulier. Maintenant, si j'exécute cette entrée de contrôle, vous verrez
maintenant qu'une
liste a été créée. Le nom est KMC, et
nous avons ici toutes les valeurs. Commençons par
la première chose, savoir le regroupement k moyens
avec cinq grappes. Nous avons précisé que
nous avons besoin de cinq grappes de taille 2106 pour 48
tous ces nombres, ce qui signifie que pour le premier groupe, il n'y a que 22 observations. Pour le deuxième groupe, il y a 106 observations. Cela spécifie le
nombre d'observations ou le nombre d'enregistrements
que nous avons pour chaque cluster. Ensuite, nous avons le cluster qui signifie qu'il s'agit d'un chiffre très
important, car sur la
base de ce client nous allons
faire quelques inférences. Vous allez faire
une interprétation basée sur ces chiffres. Car enfin,
ce que nous faisons, nous effectuons la segmentation en
fonction de certains attributs. Ce sont tous mes attributs. Sur la base de ces attributs, je vais prendre une décision fonction des clusters que nous possédons. Jusqu'à présent, chaque cluster a
des attributs spécifiques. Et sur cette base, nous
allons prendre des décisions. Ce sont des chiffres très
importants, qui sont les moyens des grappes. Nous allons revoir ces chiffres. Ensuite, nous avons le vecteur de
clustering. Ce chiffre n'est rien,
mais disons, par exemple, le premier est quatre. Nous avons toutes les
séries de quatre ou 52, ce qui signifie que la première
observation ou le premier enregistrement du DataFrame fait partie du quatrième cluster. Idem avec le troisième enregistrement du
code secondaire. Et le cinquième point de vue fait
partie du cinquième groupe. Tous ces chiffres désignent
essentiellement le numéro ou le nom
du cluster dans lequel cet enregistrement
particulier fait partie. Jusqu'à présent 51e, il s'agit du
cinquième groupe de 101e. C'est pour clusterisé.
Pour la 401e observation c'est le troisième cluster. Il fait partie
du troisième cluster. Il s'agit donc du nom, l'identification du cluster pour chaque enregistrement que nous avons
dans le cadre de données. Ensuite, nous avons entre la
somme des carrés par la somme
totale des carrés, soit 86,6 %. Nous avons ensuite tous les composants
disponibles. Pour ce DataFrame. Il s'agit des résultats généraux
que nous avons ou que nous
obtenons chaque fois que vous apprenez le clustering
K-Means. Maintenant, passons une pause encore plus loin. Maintenant. Disons que je veux
vous montrer combien de disques sont. Par conséquent, chaque grappes. Je dois utiliser la fonction de
sous-ensemble. Et pour cela, je crée un
nom de bloc de données en tant que cluster k-means un. Et je le filtre en
fonction de chaque cluster. Nom du sous-ensemble du
DataFrame, GMC, qui n'est rien d'autre que cette
sortie que nous avons
déjà générée en exécutant ce clustering
K-Means,
puis le cluster est égal à un, c'est-à-dire le premier cluster. Donc si je le fais pour
tous les clusters, maintenant si j'exécute ce Control Enter, nous aurons la sortie. Comme ça. Tout regroupement plus difficile de
k-means vous donnera les chiffres. Mais nous pouvons également tirer tous
ces chiffres en utilisant le discours. Nous avons donc tous ces chiffres. Maintenant, si je fais ça, allez dans cette trame de données particulière. Vous pouvez maintenant voir quels enregistrements
font partie d'un seul. K-signifie cluster 1. Ensuite, nous avons Gibbons
cluster deux. Ainsi, pour chaque cluster, quel est le nombre d'
enregistrements que nous possédons et l'observation de
chaque enregistrement de la DataFrame d'origine font
partie du cluster que nous
pouvons facilement voir à l'aide de
ce code particulier. C'est très important.
Une fois que nous avons bifurqué tous les enregistrements
ou que nous avons placé tous les enregistrements dans un cluster
particulier. Ils sont désormais regroupés en
fonction d'un cluster. Nous pouvons donc maintenant utiliser ces chiffres pour tirer quelques inférences en
fonction de nos exigences. Encore une fois, j'utilise cette
fonction de flèche juste pour
vous montrer les numéros d'
enregistrement de chaque cluster. Nous savons déjà qu'il y a 22 observations dans le groupe 1. Dans le groupe deux, il y
a 106 observations
qui n'ont pas tous les nombres d'observations ou d'
enregistrements de chaque cluster. Comme vous pouvez le constater, il
y a 2336 observations. Une autre chose à retenir est
que dans le regroupement K-Means, nous devons
normaliser les données. Cela signifie que les données doivent avoir la moyenne de 0 et un
écart type de 1. Si cela n'est pas fait, la sortie ou l'
interprétation sera biaisée vers le plus grand
nombre ou les valeurs les plus élevées. Parce que les unités
seront différentes. Quelle que soit la valeur de l'
unité logistique ou des valeurs les plus importantes, l'
interprétation des résultats sera biaisée par rapport à ces chiffres. Nous devons faire de
la normalisation avant, avant d'opter pour
le clustering k-means. Au cours de la prochaine session,
nous allons voir une autre
méthodologie de regroupement. Et nous allons également voir, sur
la base de ces chiffres, comment interpréter
ces chiffres. Et nous pouvons tirer quelques
inférences en
fonction de chaque cluster que
nous avons généré.
5. Interprétation de sortie: Bonjour et bienvenue. Au cours de la session précédente,
nous avons vu comment implémenter le clustering k-means
et comment dériver, générer les clusters en
fonction de l'algorithme k-moyennes. Nous avons généré cinq clusters, avons également créé des DataFrame
séparément pour chaque cluster. Cela signifie que pour ce cadre de données
particulier, laissez-moi l'ouvrir pour vous. Ce
DataFrame contiendra donc toutes les observations qui
appartiennent au cluster 1. Toutes ces observations
proviennent du DataFrame d'origine, mais elles sont désormais en cluster ou peut-être segmentées en
fonction du cluster. Donc, le premier groupe, nous avons 22 observations. Et ils proviennent tous
du DataFrame d'origine. Donc, celui-ci DataFrame. De même, si nous voulons
voir les valeurs t du cluster, toutes les observations qui font
partie du cluster trois. Il y a donc 440 observations. Ce sont tous les
enregistrements que nous
avons dans
le cluster trois. C'est important. Maintenant, une fois que nous avons généré
tous ces clusters et que
nous avons également vu le cluster. Cluster signifie que pour
chaque variable, nous
avons les moyennes de cluster
basées sur chaque cluster. Nous allons maintenant faire une certaine interprétation en utilisant
tous ces chiffres parce que, au bout du compte,
nous effectuons des clusters pour effectuer une segmentation
basée sur ces nombres. Essayons maintenant de faire une certaine interprétation de l'
entreprise, des chiffres que nous avons. Donc, par exemple,
le cluster un. Comme vous pouvez le constater, toutes
ces valeurs sont en fait assez
grandes et ce sont les valeurs moyennes de
toutes les variables qui sont
en fait assez grandes. C'est le plus grand parmi
tous ces clusters. Le nombre de clients dans
le premier cluster n'est que de 22. Nous allons voir que
les côtés ne sont que 22, mais la moyenne moyenne pour toutes les
variables est la plus élevée. Nous pouvons dire à juste titre que les
clients du premier test, les autres clients les plus importants du
réseau, parce qu'ils ont la transaction bonus la
plus élevée, ils ont les miles de
vol les plus élevés. Ils ont les miles bonus
les plus élevés. Mais les chiffres sont assez faibles par rapport aux
autres grappes. Cela signifie qu'il s'agit d'un
groupe de clients qui sont en fait un réseau
assez élevé. Si nous regardons
le cluster pour le cluster
deux contient un client avec
un grand nombre de miles. Vous allez voir qu'il y a beaucoup de kilomètres. Généralement accumulés pour des transactions
aériennes. C'est à ce moment que vous pouvez faire des
dépôts. a prévu trois. Le client a beaucoup de
souris, il y a beaucoup de kilomètres. Vous allez voir
ce que toutes ces souris sont gagnées principalement grâce à des transactions
bonus. Vous pouvez l'interpréter de
manière à ce que toutes ces souris soient principalement accumulées en fonction la transition bonus de la tête. Si vous regardez le
cluster pour le client, les valeurs
inférieures à la moyenne
pour les clients sont toutes les variables. Et le nombre de clients dans ce cluster particulier
est également très élevé. Vous pouvez voir que tous les chiffres
sont assez bas en
fonction de cette moyenne ou de
la moyenne du cluster. Si vous
regardez le cluster 55, il a une petite valeur de
jours depuis l'inscription, mais il accumule un nombre
raisonnable de miles. Si vous pouvez voir le
nombre de miles. Il est assez important par rapport aux jours qui se sont écoulés depuis
l'inscription, ce qui n'est pas le plus bas mais
le plus bas que les autres clusters. À part. Si vous maintenez le test à l'écart. Mais selon d'autres clusters, il affiche le nombre
de jours le plus bas depuis l'inscription, mais même le nombre
de jours de la liste de tests depuis l'inscription. Mais le bonus, les souris bonus, le nombre de miles
accumulés est élevé. Cette interprétation que
vous pouvez faire pour le cluster cinq. agit d'une
interprétation que vous Il s'agit d'une
interprétation que vous
pouvez également le faire vous-même en fonction votre observation selon laquelle
vous pouvez trouver différentes déductions en fonction de tous ces chiffres.
6. Clustering hiérarchique: Bonjour et bienvenue. Au cours de la session précédente,
nous avons vu le
clustering k-moyennes et comment construire un algorithme K-Means
dans demandé à faire, nous avons vu comment trouver différents clusters basés
sur l'algorithme k-moyennes. Maintenant, dans cette session, nous
allons commencer par une autre
méthode ou algorithme de clustering, appelé clustering
hiérarchique. clustering hiérarchique est une
méthode de clustering alternative qui crée hiérarchie à partir du
bas en haut et ne nécessite
pas de spécifier le
nombre de clusters au préalable. Il existe une nette
distinction entre ces deux méthodes qui
ne comportaient pas de clusters k signifie, comme vous le savez déjà, nous
devons spécifier le nombre
de clusters à l'avance. Ainsi, chaque fois que vous exécutez
l'algorithme k-means, vous devez spécifier
le nombre de clusters que vous souhaitez au préalable. Mais dans le regroupement
hiérarchique, cette exigence n'est pas là. Une distinction très importante entre ces deux méthodes,
ces deux algorithmes, l'algorithme de
clustering hiérarchique fonctionne en
plaçant chaque
point de données dans son propre cluster. Il y a environ 4
000 clients. Comme vous pouvez le voir
ici. Il y aura 4 000 grappes
pour commencer. Ensuite, il essaie de trouver les deux clusters les plus proches et de les combiner pour
former un seul cluster. Ce processus se poursuit. Supposons, par exemple, que
si le premier ordre, les troisième points de données sont les
plus proches les uns des autres, ils seront combinés
pour former un cluster. Et ce processus se poursuivra jusqu'à ce qu'il n'y ait qu'
un seul testeur. Nous utilisons donc
la fonction dist, comme vous pouvez le voir ici, vous utilisez la fonction
dist pour calculer la distance
entre chaque point de données. Donc, fondamentalement, nous calculons en utilisant la distance du collodion. Comme vous pouvez le voir dans la
méthode que nous avons mentionnée, distance
euclidienne, nous
trouvons la distance entre deux points de données
à l'aide de cette méthode. Et la deuxième étape
consiste à réaliser un
regroupement hiérarchique basé sur la distance que nous
venons de calculer. Ces données viendront en entrée en tant que paramètre
de la deuxième étape, c'
est-à-dire en utilisant l'
edge, la fonction hclust. Il y a une méthode
pour simplement frapper que nous devons l'utiliser qui s'
appelle VD point d. Dans le paramètre de méthode, nous devons spécifier cette méthode
pour effectuer le clustering élevé. Ensuite, nous allons tracer ce résultat particulier pour voir
le dendrogramme qui en résulte. Maintenant, lançons rapidement cela
et voyons la sortie. Maintenant, il a été lancé. Comme vous pouvez le constater,
une liste a été créée. Et si vous allez dans l'onglet
Tracés, vous verrez le dendrogramme. Donc, si je zoome, laissez-moi vous montrer le dendrogramme, qui est l'intrigue. Dans ce cas. Il s'agit du dendogramme du cluster. Il s'agit du dendogramme du cluster. Comme nous le savons, il y a environ
4 000 clients. chaque client aurait été dans commencer, chaque client aurait été dans
un cluster
particulier. Ensuite, ils se combinent
jusqu'à ce qu'une grappe soit formée. Il s'agit d'un cluster. Donc
tout ce noir ombré, ne
sont rien d'autre que
tous vos points de données. Ils continueront donc à se
combiner en
fonction de la distance que
nous avons choisie. C'est la distance euclidienne jusqu'à ce qu'elle soit combinée
et qu'elle obtiendra, elle commencera à obtenir testeurs
moins importants jusqu'à ce
qu'il ne reste qu'un seul cluster. Disons donc, par exemple, cela a commencé avec
tous ces points de données. Maintenant, il reste avec,
disons 1234. n'y a que quatre
grappes ici. L'idée de la stratégie serait de
former le cluster de
manière à ce qu'il y en ait, qu'ils soient facilement
différenciés. Comme vous le savez, pour
commencer par la valeur 4 000 clusters
pour chaque point de données. Et maintenant, nous ne pouvons pas
les différencier parce que, comme vous pouvez le constater
ici, c'est tout notre encombrement. Maintenant, c'est le cas. Si vous y allez, si vous suivez le
curseur
ici , il commence
à diminuer. Cela signifie que nous pouvons
facilement
différencier les grappes. La stratégie idéale
devrait être de former le cluster afin qu'il soit
facilement différencié. Donc, si vous regardez le dendogramme, vous pouvez facilement
différencier
les différents clusters
que vous souhaitez posséder. Si je dessine une
ligne horizontale ici, disons par exemple que
je la dessine pas n'a pas appris dans cette partie. Si vous suivez le curseur, deux clusters
sont présents. Cela signifie que si je coupe ça, si je dessine une ligne horizontale, elle coupe de deux points. Cela signifie que deux points
sont au-dessus de la ligne. Cela signifie qu'il reste deux
grappes. De même, si je dessine une ligne
horizontale par ici, comme vous pouvez le voir
par quatre points, cela signifie
que quatre grappes représentent
quatre grappes. Chaque fois que nous dessinons une ligne
horizontale, nous devons voir combien de divisions sont
présentes au-dessus de ces lignes. Si je dessine comment vous
soulignez ici, il n'y a que deux divisions. Si je trace une
ligne horizontale ici, c'est seulement quatre
divisions comme ça. Si je trace une ligne, disons par exemple, ici, comme vous voyez cette
coupe en 12345, il y a cinq grappes. date limite a
évolué en cinq points. Cela signifie qu'il
y a cinq grappes basées sur la
ligne horizontale que nous dessinons. Quelles que soient les divisions
présentes au-dessus de la ligne. Ces services de justice audio. Cela dépend
maintenant de l'organisation, combien de grappes ? Celui et il peut facilement différencier s'ils
sont à l'aise avec, disons, par exemple, si je trace une ligne ici, donc seulement quatre grappes sont mortes. Mais si je trace une ligne
juste en dessous,
elle peut être réduite à cinq grappes, cinq points qui
signifient cinq testeurs. Maintenant, si les choses organisatrices qu'ils tracent cette ligne et qu'elles sont à l'aise
avec cette distinction ou cette différenciation
entre cette ligne. Ils peuvent choisir les
grappes en fonction de la dette. Dans notre cas, si nous dessinons
une ligne horizontale et coupons et l'utilisons pour
cinq grappes, comme je l'ai dit, elle pourrait
être facilement visible. Il est également facile de le différencier. C'est bon Retour au code. C'est la raison pour laquelle nous
utilisons la fonction cutree. En gros, nous divisons les points de données
en cinq clusters. Maintenant, sur la base du
dendogramme que nous avons vu en utilisant la fonction
cutree. Avant cela, tracons un dendogramme et
divisons-le en cinq grappes. J'utilise simplement cette fonction de
tracé, fonction
rect point h plus, où je spécifie le
nombre de clusters que nous
avons déjà trouvés
dans le dendrogramme. Et je lui donne juste
une bordure de couleur rouge. Maintenant, si je fais ça, vous verrez une distinction dans le dendrogramme que nous
avons. Ici. Nous l'avons. Laissez-moi le zoomer pour vous. Oui. Ainsi, comme vous pouvez le voir clairement, ils peuvent regrouper des dendogrammes et ces lignes rouges
représentant chaque cluster. Par exemple, il s'agit d'un cluster. Il s'agit d'un autre cluster. Ce cluster. Il s'agit du quatrième cluster, et il s'agit du cinquième cluster. Tous les points de données
situés en dessous de
ces frontières ou limites
font donc ces frontières ou limites partie de ce cluster
particulier. Comme vous pouvez le constater, il existe 123456 ou cinq groupes
de cinq clusters, qui se différencient facilement en
appliquant cette couleur de bordure. Non seulement éliminez-le
plus loin, comme je vous l'ai dit, vous devez utiliser cette fonction
cutree que nous pouvons diviser ces points de données
en cinq clusters. Je crée DataFrame
qui est un groupe élevé. En même temps. Comme nous avons ces clusters, comme lors de la session précédente dans le clustering K-Means,
nous avons pu
facilement sous-définir le DataFrame principal fonction des
clusters respectifs dans lesquels ils se trouvent. Nous pouvons créer des
DataFrames distincts pour chaque plumeau. De même, dans ce cas, nous pouvons
également créer, vous pouvez utiliser la fonction de
sous-ensemble et créer DataFrame, données
séparée
pour chaque cluster en utilisant
simplement la
fonction de sous-ensemble, le nom DataFrame. Et les groupes supérieurs
sont égaux à un, quel que soit le
numéro Newman des clusters que vous souhaitez spécifier. Maintenant, si j'exécute rapidement tout
ce Control Enter, vous verrez que le cadre de données séparé a été créé ici. Si nous suivons simplement le curseur, vous pouvez voir que tous ces blocs données
distincts ont
été créés. Il s'agit donc du cluster le plus élevé. L'un est le premier cluster, qui contient 1630 observations
et sept variables. De même, ce deuxième cluster, qui se compose de cette DataFrame comprend 1408 observations. Il s'agit de mon DataFrame
pour le cluster 1. De même, il s'agit de mon
DataFrame pour le cluster deux. Comme ça. Nous avons maintenant utilisé ces clusters
de haute qualité et nous avons généré
cinq clusters. Je peux également utiliser cette fonction
Endrew pour
vous montrer le nombre d'observations
pour chaque cluster. Juste la conformation la
plus rapide étudie 1630, le quatrième cluster il a 530. Comme ça. Il s'agit essentiellement
de la méthode qui permet d'utiliser cet algorithme de clustering
hiérarchique et construire et de construire vos clusters. Nous pouvons également confirmer
le nombre d' observations provenant de ce dendrogramme en
grappe. Comme vous pouvez le constater dans
le dendrogramme, il existe cinq groupes
de cinq grappes. Supposons, par exemple, sont tous des points de données qui font partie de ce cluster
particulier. Disons,
par exemple, dans cette partie, dans ce groupe de clusters, que
nous avons tous ces points de
données, qui en fait
les plus importants de tous ces points. Ou peut-être que c'est le plus grand, quel que soit le plus petit. Nous pouvons voir à partir de ces chiffres, nous savons que le troisième groupe ne
contient qu'une observation 111. Cela signifie que cela représente
le troisième cluster. Un peu plus que ça, qui est le cinquième testeur. Tous les points de données font
partie du cinquième testeur. De même, ces points de données font partie de votre quatrième cluster. De même, ce point de données, tous ces points de données,
s'il est plus grand, si vous pouvez simplement le voir
visuellement s'il est plus grand qu'il fait partie
de votre premier test, et c'est la partie
de votre deuxième liste. Tous ces points de données.