Segmentation de clients de lignes aériennes utilisant la programmation R | Venkat Murugan | Skillshare
Recherche

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Segmentation de clients de lignes aériennes utilisant la programmation R

teacher avatar Venkat Murugan, Data Scientist

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Introduction

      1:17

    • 2.

      Segmentation

      2:55

    • 3.

      Structure et résumé des ensembles de données

      5:00

    • 4.

      K signifie groupement

      12:17

    • 5.

      Interprétation de sortie

      5:17

    • 6.

      Clustering hiérarchique

      12:46

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

28

apprenants

--

projet

À propos de ce cours

La segmentation du marché est une stratégie qui divise un vaste marché cible de clients en groupes plus petits et semblables, puis conçoit une stratégie de marketing spécifiquement pour chaque groupe. Le clustering est une technique courante pour la segmentation du marché car il trouve automatiquement des groupes similaires dans le cadre d'un ensemble de données.

Dans ce cours, vous apprendrez comment le regroupement peut être utilisé pour trouver des groupes similaires de clients qui appartiennent au programme de fidélité d'une compagnie aérienne. La compagnie aérienne tente d'en savoir plus sur ses clients afin qu'elle puisse cibler différents segments de clients avec différents types d'offres de kilométrage.

Nous verrons comment nous pouvons effectuer l'analyse étape par étape à partir de zéro en utilisant la programmation R

Rencontrez votre enseignant·e

Teacher Profile Image

Venkat Murugan

Data Scientist

Enseignant·e

Hello, I'm Venkat.

Voir le profil complet

Compétences associées

Développement Langages de programmation
Level: Beginner

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction: Bonjour, et bienvenue dans cette catégorie de segmentation des clients des compagnies aériennes à l'aide de notre programmation. Dans cette classe, vous allez voir ce qu'est la segmentation. Quels sont les différents types de segmentation ? Et comment l'industrie du transport aérien profite de cette méthodologie pour apporter des avantages à ses clients. Ensuite, nous verrons quels sont les types de clustering. Qu'est-ce que le clustering K signifie et le clustering hiérarchique, et comment ils sont mis en œuvre à l'aide de notre programme ? Quelle est la différence entre les deux ? Nous verrons en détail toutes les interprétations de sortie pour les deux algorithmes étape par étape à partir de zéro. Une fois que nous aurons les clusters finaux, nous obtiendrons des informations significatives sur chaque cluster par rapport à la sortie générée. Nous essaierons également de comprendre comment ces clusters se traduisent en groupes significatifs pour l'industrie des compagnies aériennes. Commençons et je vous verrai en classe. 2. Segmentation: Bonjour et bienvenue. Nous allons maintenant voir comment une compagnie aérienne qui stocke les données de niveau client exploite ces données pour segmenter ses clients. La segmentation consiste à diviser les clients potentiels en groupes en fonction d'intérêts ou de caractéristiques similaires. Fondamentalement, il s'agit d'une stratégie qui divise notre vaste groupe cible de clients en groupes plus petits et plus similaires. Ensuite, les conceptions sont des stratégies spécifiquement conçues pour chaque groupe. Et le clustering est une technique courante de segmentation, qui détecte automatiquement des groupes plus petits similaires. Dans cette classe, nous verrons comment le clustering peut être utilisé pour trouver un groupe similaire de clients appartenant au programme de fidélisation des compagnies aériennes. Le programme de fidélité des compagnies aériennes est comme un programme de fidélité, qui offre aux voyageurs fréquents avantage supplémentaire ou un travail qui ne voyage pas fréquemment. D'où le nom du programme de fidélité. La compagnie aérienne est formée pour en savoir plus sur l'amortissement des clients, qu'elle puisse cibler différents segments de clients au sein différents types d'offres de kilométrage dont elle dispose. Dans cette classe, nous allons donc voir un jeu de données composé de sept variables différentes et qui sont décrites ci-dessous. Voyons donc ces variables une par une. La première variable est le solde variable, qui correspond au nombre de miles éligibles aux voyages primes. Ensuite, nous avons des milles de caille, qui sont comptés de souris qualifient pour le statut de vol le plus élevé. Ensuite, nous avons des bonus moins, c' est-à-dire le nombre de souris que j'ai gagnées lors de transactions de bonus hors vol au cours des 12 derniers mois. Ensuite, nous avons des trans bonus, qui correspond au nombre de transactions de bonus hors vol au cours des 12 derniers mois. Ensuite, nous avons des souris de vol, c' est-à-dire un certain nombre de milles de vol au cours des derniers mois de filles. Ensuite, nous avons les trans de vol variables, c' est-à-dire le nombre de transactions aériennes au cours des 12 derniers mois. Ensuite, nous avons les jours variables depuis l'inscription. C'est le nombre de jours qui se sont écoulés depuis que l'inscription au programme de fidélisation mérite certaines des conditions liées à l'industrie de la longueur. Utiliser toutes ces variables et le jeu de données que vous allez voir. Nous allons faire le clustering. Ensuite, nous diviserons des groupes plus significatifs en fonction d'un comportement similaire. 3. Structure et résumé de l'ensemble de données: Bonjour et bienvenue. Voyons maintenant le jeu de données sur lequel vous allez travailler. La première étape de toute analyse consiste à importer le jeu de données dans votre système. Alors, comment allez-vous incarner jeu de données dans RStudio qui va réduire ? Voyez maintenant, la toute première étape, je suis en train de créer un DataFrame qui porte le nom de compagnies aériennes. Ce DataFrame contiendra le jeu de données sur lequel nous allons travailler et créer les clusters. Ensuite, j'utilise une fonction qui est read.csv. Puisque mon jeu de données est un tri de fichiers CSV, nous l'importons dans mon RStudio. J'utilise la fonction read.csv et file.choose. À l'aide de ce paramètre fichier.choose, une fenêtre contextuelle s'affiche. Et vous devez choisir le fichier présent dans votre système. Parce que je suis déjà installé sur les données importées dans les souris RStudio. Je n'exécute pas cette commande particulière. C'est exactement quelle représentation. Si vous appuyez simplement sur le bouton Contrôler. Et ensuite, vous aurez une fenêtre contextuelle et vous aurez juste à sélectionner manuellement le fichier que vous devez importer là-dedans, RStudio, en face de moi plus loin, puisque le DataFrame est déjà dans mon RStudio. La prochaine étape consisterait à examiner la structure de vos données. J'utilise une fonction qui est SDI. Rien d'autre que de la structure. Et le nom du DataFrame. Longueur Str. Vous allez voir la structure qui , comme vous l'avez déjà vu, il y a sept variables et 3 999 observations. Comme vous pouvez le voir, toutes mes variables sont de type entier. Et voyons ce jeu de données. Si je vais de l'avant, comme vous pouvez le constater, mon DataFrame est ici. Si je clique simplement, une fenêtre séparée s' ouvrira comme ça. Vous pouvez voir le jeu de données réel. C'est donc mon jeu de données qui se compose de sept variables et toutes sont des entiers. Comme vous pouvez le voir. Il suffit d'aller pour une référence rapide, vous pouvez voir ce serait des chiffres équilibrés, les miles bonus, la compétence eulérienne différente en fait. Parce que vous allez voir des soldes de 17 000 et des milliers. On a une transaction est dense. Encore une fois, la direction du vol est intense, et tous les autres sont par milliers. Ils ont donc des compétences différentes pour différentes variables. Mais tous sont des entiers. Je vais donc utiliser ce jeu de données et créer les clusters que vous allez voir. Depuis que nous avons déjà importé, nous avons vu cette structure. Il y a 3 999 observations, sept variables. Maintenant, jetez rapidement un coup d'œil là-dessus. Quelqu'un, quelqu'un fonctionne. Le DataFrame fait fonctionner quelqu'un et transmettre le DataFrame en tant que paramètre me donnera toutes les statistiques descriptives de ce bloc de données particulier. Ce que nous avons devant nous, c'est maintenant toutes les stratégies descriptives, ce qui signifie que pour toutes les variables, permettez-moi de l'apprendre rapidement. Oui, donc pour toutes les variables, nous avons les statistiques descriptives devant nous. statistiques descriptives signifient donc que nous avons la valeur minimale, le premier quartile, médiane, la moyenne, le troisième quartile et la valeur maximale pour toutes les variables. Ainsi, comme vous pouvez le voir pour l'équilibre, la moyenne est de 70 601 pour la bobine moins la moyenne est 154,1. Et nous avons un bonus moyen off Frances Land 0.6. Et nous avons même écouté la moyenne de vol trans, qui est de 1,274, ce qui signifie que toutes les variables ont des compétences différentes. Je travaille chez quelqu'un des compagnies aériennes. Quelles sont les deux variables selon vous ont en moyenne la valeur la plus faible. Bien sûr, nous avons la plus petite valeur de vol trans, et nous avons les points forts bonus. Jusqu'à présent, ces variables ont la valeur la plus basse, dont deux variables ont en moyenne la valeur la plus élevée. Donc, si vous pouvez voir dans ces données, le solde, qui est le, qui a la moyenne minimale de 72 601. Et nous avons les souris désossées, dont la moyenne est de 17 145. Ces deux variables ont donc la valeur la plus élevée. C'est le jeu de données que nous allons utiliser davantage. Et pour créer les clusters que nous allons voir dans les classes suivantes. 4. K signifie le regroupement: Bonjour et bienvenue. Lors de la session précédente, nous avons vu comment importer le jeu de données dans nos RStudio et VR. Nous avons également vu quelle est la structure générale de notre DataFrame et quel est le résumé de notre bloc de données ? Cela signifie quels sont les chiffres statistiques descriptifs ? Basé sur le bloc de données ? Nous avons le nom du DataFrame. Comme vous le savez, nous travaillons dans le DataFrame appelé compagnies aériennes, qui comporte 3 999 observations et sept variables. Nous voulons maintenant étudier comment clustering peut être effectué pour la segmentation du marché afin que cette compagnie aérienne en particulier puisse en apprendre davantage sur les récompenses et cibler différents segments de clients avec différents types de kilométrage offerts. Nous allons maintenant en apprendre davantage sur le clustering k-means, également appelé algorithme d'apprentissage non supervisé. Chaque client aimerait recevoir une offre personnalisée, sera un lien personnel avec le client afin que chaque client puisse bénéficier d'offres et d'avantages exclusifs en fonction de ses besoins. Il s'agit d'une situation gagnant-gagnant tant pour la compagnie aérienne que pour ses clients, car les deux en bénéficient. K-signifie clustering. Comme je l'ai dit, il s'agit d'un algorithme d'apprentissage non supervisé qui tente regrouper des données en fonction de la similitude. Il s'agit d'un apprentissage non supervisé parce qu' il n'y a aucun résultat à prévoir. Et l'algorithme essaie simplement de trouver des modèles dans les données. Il est vraiment important de comprendre. Parce qu'il n'y a pas de hiérarchie dans aucun des clusters que nous allons créer. À la grappe K-Means. n'y a pas d'ordre. Il s'agit simplement de trouver les schémas dans les données. Dans le regroupement K-Means, nous devons spécifier le nombre de clusters que nous voulons. C'est la condition requise. Chaque fois que vous exécutez un algorithme K-Means que nous devons spécifier au préalable le nombre de clusters que vous souhaitez créer. Cela devient parfois un peu difficile, mais nous n'en parlons pas beaucoup parce qu'à la suite de la session, nous verrons la différence entre les k-moyennes ainsi que clustering hiérarchique et comment et pourquoi cette étape particulière différencie ces deux algorithmes et en quoi elle est différente de la raison. Parfois, la prédiction préalable du nombre de grappes ne sera pas très stable à long terme. Ainsi, comme je l'ai dit, dans le regroupement K-Means, nous devons spécifier le nombre de clusters que nous voulons. L'algorithme attribue chaque observation à un cluster et trouve le centroïde de chaque cluster. Nous parlons maintenant de l'algorithme, la façon dont fonctionne l'algorithme et du fonctionnement de l' algorithme. Cet algorithme attribue donc chaque observation, chaque point de données ou chaque ligne que nous avons dans le DataFrame à un cluster et trouve le centroïde de chaque cluster. Ensuite, l'algorithme effectue une itération en deux étapes. La première étape consiste à réaffecter le point de données au cluster avec le centroïde le plus proche, puis nous le point de données au cluster avec le centroïde le plus proche, calculons le nouveau centroïde pour chaque cluster. Nous avons vu théoriquement ce que signifie exactement k, clustering, et comment cet algorithme s'exécuterait-il et comment ces clusters sont générés sur la base de cet algorithme d'apprentissage non supervisé, qui est le Clustering K-Means. Voyons maintenant comment implémenter cette méthodologie de clustering dans RStudio. Comme je l'ai dit, nous avons deux liquides que nous devons spécifier au préalable le nombre de grappes, ou voulez-vous fabriquer pour cela ? Dans ce K, le codage, dissidents égaux à cinq signifient que nous voulons disposer de cinq grappes de cet ensemble de données. Ok, donc ce paramètre va nous donner cinq grappes. Cela signifie que le centre est égal à cinq. Nous devons préciser qu' il est prêt dès que vous êtes en cours d'exécution. Algorithme K-Means. Doit. Cette partie est l'itération. Quel est le nombre maximum d'itérations que nous allons faire dans ce clustering K-Means ? En gros, nous allons avoir 1000 itérations avant que tous ces clusters ne soient créés. Ce sont les cinq testeurs. Vous savez aussi, c'est un nom de DataFrame et k-means est la fonction. Et ce sont tous les paramètres dont nous avons besoin. Et avant cela, nous devons utiliser la fonction set.seed. Lorsque, euh, quand vous exécutez cet algorithme de clustering K-Means, la graine définie est utilisée pour définir une graine pour la valeur aléatoire avant d' effectuer le clustering. C'est donc très important. Une fois que nous avons mis en place ces codes particuliers. Maintenant, allons le faire. D'accord. Maintenant, permettez-moi de le changer, je crée un DataFrame qui est KMC. Et ce sera le résultat de ce groupement K-Means particulier. Maintenant, si j'exécute cette entrée de contrôle, vous verrez maintenant qu'une liste a été créée. Le nom est KMC, et nous avons ici toutes les valeurs. Commençons par la première chose, savoir le regroupement k moyens avec cinq grappes. Nous avons précisé que nous avons besoin de cinq grappes de taille 2106 pour 48 tous ces nombres, ce qui signifie que pour le premier groupe, il n'y a que 22 observations. Pour le deuxième groupe, il y a 106 observations. Cela spécifie le nombre d'observations ou le nombre d'enregistrements que nous avons pour chaque cluster. Ensuite, nous avons le cluster qui signifie qu'il s'agit d'un chiffre très important, car sur la base de ce client nous allons faire quelques inférences. Vous allez faire une interprétation basée sur ces chiffres. Car enfin, ce que nous faisons, nous effectuons la segmentation en fonction de certains attributs. Ce sont tous mes attributs. Sur la base de ces attributs, je vais prendre une décision fonction des clusters que nous possédons. Jusqu'à présent, chaque cluster a des attributs spécifiques. Et sur cette base, nous allons prendre des décisions. Ce sont des chiffres très importants, qui sont les moyens des grappes. Nous allons revoir ces chiffres. Ensuite, nous avons le vecteur de clustering. Ce chiffre n'est rien, mais disons, par exemple, le premier est quatre. Nous avons toutes les séries de quatre ou 52, ce qui signifie que la première observation ou le premier enregistrement du DataFrame fait partie du quatrième cluster. Idem avec le troisième enregistrement du code secondaire. Et le cinquième point de vue fait partie du cinquième groupe. Tous ces chiffres désignent essentiellement le numéro ou le nom du cluster dans lequel cet enregistrement particulier fait partie. Jusqu'à présent 51e, il s'agit du cinquième groupe de 101e. C'est pour clusterisé. Pour la 401e observation c'est le troisième cluster. Il fait partie du troisième cluster. Il s'agit donc du nom, l'identification du cluster pour chaque enregistrement que nous avons dans le cadre de données. Ensuite, nous avons entre la somme des carrés par la somme totale des carrés, soit 86,6 %. Nous avons ensuite tous les composants disponibles. Pour ce DataFrame. Il s'agit des résultats généraux que nous avons ou que nous obtenons chaque fois que vous apprenez le clustering K-Means. Maintenant, passons une pause encore plus loin. Maintenant. Disons que je veux vous montrer combien de disques sont. Par conséquent, chaque grappes. Je dois utiliser la fonction de sous-ensemble. Et pour cela, je crée un nom de bloc de données en tant que cluster k-means un. Et je le filtre en fonction de chaque cluster. Nom du sous-ensemble du DataFrame, GMC, qui n'est rien d'autre que cette sortie que nous avons déjà générée en exécutant ce clustering K-Means, puis le cluster est égal à un, c'est-à-dire le premier cluster. Donc si je le fais pour tous les clusters, maintenant si j'exécute ce Control Enter, nous aurons la sortie. Comme ça. Tout regroupement plus difficile de k-means vous donnera les chiffres. Mais nous pouvons également tirer tous ces chiffres en utilisant le discours. Nous avons donc tous ces chiffres. Maintenant, si je fais ça, allez dans cette trame de données particulière. Vous pouvez maintenant voir quels enregistrements font partie d'un seul. K-signifie cluster 1. Ensuite, nous avons Gibbons cluster deux. Ainsi, pour chaque cluster, quel est le nombre d' enregistrements que nous possédons et l'observation de chaque enregistrement de la DataFrame d'origine font partie du cluster que nous pouvons facilement voir à l'aide de ce code particulier. C'est très important. Une fois que nous avons bifurqué tous les enregistrements ou que nous avons placé tous les enregistrements dans un cluster particulier. Ils sont désormais regroupés en fonction d'un cluster. Nous pouvons donc maintenant utiliser ces chiffres pour tirer quelques inférences en fonction de nos exigences. Encore une fois, j'utilise cette fonction de flèche juste pour vous montrer les numéros d' enregistrement de chaque cluster. Nous savons déjà qu'il y a 22 observations dans le groupe 1. Dans le groupe deux, il y a 106 observations qui n'ont pas tous les nombres d'observations ou d' enregistrements de chaque cluster. Comme vous pouvez le constater, il y a 2336 observations. Une autre chose à retenir est que dans le regroupement K-Means, nous devons normaliser les données. Cela signifie que les données doivent avoir la moyenne de 0 et un écart type de 1. Si cela n'est pas fait, la sortie ou l' interprétation sera biaisée vers le plus grand nombre ou les valeurs les plus élevées. Parce que les unités seront différentes. Quelle que soit la valeur de l' unité logistique ou des valeurs les plus importantes, l' interprétation des résultats sera biaisée par rapport à ces chiffres. Nous devons faire de la normalisation avant, avant d'opter pour le clustering k-means. Au cours de la prochaine session, nous allons voir une autre méthodologie de regroupement. Et nous allons également voir, sur la base de ces chiffres, comment interpréter ces chiffres. Et nous pouvons tirer quelques inférences en fonction de chaque cluster que nous avons généré. 5. Interprétation de sortie: Bonjour et bienvenue. Au cours de la session précédente, nous avons vu comment implémenter le clustering k-means et comment dériver, générer les clusters en fonction de l'algorithme k-moyennes. Nous avons généré cinq clusters, avons également créé des DataFrame séparément pour chaque cluster. Cela signifie que pour ce cadre de données particulier, laissez-moi l'ouvrir pour vous. Ce DataFrame contiendra donc toutes les observations qui appartiennent au cluster 1. Toutes ces observations proviennent du DataFrame d'origine, mais elles sont désormais en cluster ou peut-être segmentées en fonction du cluster. Donc, le premier groupe, nous avons 22 observations. Et ils proviennent tous du DataFrame d'origine. Donc, celui-ci DataFrame. De même, si nous voulons voir les valeurs t du cluster, toutes les observations qui font partie du cluster trois. Il y a donc 440 observations. Ce sont tous les enregistrements que nous avons dans le cluster trois. C'est important. Maintenant, une fois que nous avons généré tous ces clusters et que nous avons également vu le cluster. Cluster signifie que pour chaque variable, nous avons les moyennes de cluster basées sur chaque cluster. Nous allons maintenant faire une certaine interprétation en utilisant tous ces chiffres parce que, au bout du compte, nous effectuons des clusters pour effectuer une segmentation basée sur ces nombres. Essayons maintenant de faire une certaine interprétation de l' entreprise, des chiffres que nous avons. Donc, par exemple, le cluster un. Comme vous pouvez le constater, toutes ces valeurs sont en fait assez grandes et ce sont les valeurs moyennes de toutes les variables qui sont en fait assez grandes. C'est le plus grand parmi tous ces clusters. Le nombre de clients dans le premier cluster n'est que de 22. Nous allons voir que les côtés ne sont que 22, mais la moyenne moyenne pour toutes les variables est la plus élevée. Nous pouvons dire à juste titre que les clients du premier test, les autres clients les plus importants du réseau, parce qu'ils ont la transaction bonus la plus élevée, ils ont les miles de vol les plus élevés. Ils ont les miles bonus les plus élevés. Mais les chiffres sont assez faibles par rapport aux autres grappes. Cela signifie qu'il s'agit d'un groupe de clients qui sont en fait un réseau assez élevé. Si nous regardons le cluster pour le cluster deux contient un client avec un grand nombre de miles. Vous allez voir qu'il y a beaucoup de kilomètres. Généralement accumulés pour des transactions aériennes. C'est à ce moment que vous pouvez faire des dépôts. a prévu trois. Le client a beaucoup de souris, il y a beaucoup de kilomètres. Vous allez voir ce que toutes ces souris sont gagnées principalement grâce à des transactions bonus. Vous pouvez l'interpréter de manière à ce que toutes ces souris soient principalement accumulées en fonction la transition bonus de la tête. Si vous regardez le cluster pour le client, les valeurs inférieures à la moyenne pour les clients sont toutes les variables. Et le nombre de clients dans ce cluster particulier est également très élevé. Vous pouvez voir que tous les chiffres sont assez bas en fonction de cette moyenne ou de la moyenne du cluster. Si vous regardez le cluster 55, il a une petite valeur de jours depuis l'inscription, mais il accumule un nombre raisonnable de miles. Si vous pouvez voir le nombre de miles. Il est assez important par rapport aux jours qui se sont écoulés depuis l'inscription, ce qui n'est pas le plus bas mais le plus bas que les autres clusters. À part. Si vous maintenez le test à l'écart. Mais selon d'autres clusters, il affiche le nombre de jours le plus bas depuis l'inscription, mais même le nombre de jours de la liste de tests depuis l'inscription. Mais le bonus, les souris bonus, le nombre de miles accumulés est élevé. Cette interprétation que vous pouvez faire pour le cluster cinq. agit d'une interprétation que vous Il s'agit d'une interprétation que vous pouvez également le faire vous-même en fonction votre observation selon laquelle vous pouvez trouver différentes déductions en fonction de tous ces chiffres. 6. Clustering hiérarchique: Bonjour et bienvenue. Au cours de la session précédente, nous avons vu le clustering k-moyennes et comment construire un algorithme K-Means dans demandé à faire, nous avons vu comment trouver différents clusters basés sur l'algorithme k-moyennes. Maintenant, dans cette session, nous allons commencer par une autre méthode ou algorithme de clustering, appelé clustering hiérarchique. clustering hiérarchique est une méthode de clustering alternative qui crée hiérarchie à partir du bas en haut et ne nécessite pas de spécifier le nombre de clusters au préalable. Il existe une nette distinction entre ces deux méthodes qui ne comportaient pas de clusters k signifie, comme vous le savez déjà, nous devons spécifier le nombre de clusters à l'avance. Ainsi, chaque fois que vous exécutez l'algorithme k-means, vous devez spécifier le nombre de clusters que vous souhaitez au préalable. Mais dans le regroupement hiérarchique, cette exigence n'est pas là. Une distinction très importante entre ces deux méthodes, ces deux algorithmes, l'algorithme de clustering hiérarchique fonctionne en plaçant chaque point de données dans son propre cluster. Il y a environ 4 000 clients. Comme vous pouvez le voir ici. Il y aura 4 000 grappes pour commencer. Ensuite, il essaie de trouver les deux clusters les plus proches et de les combiner pour former un seul cluster. Ce processus se poursuit. Supposons, par exemple, que si le premier ordre, les troisième points de données sont les plus proches les uns des autres, ils seront combinés pour former un cluster. Et ce processus se poursuivra jusqu'à ce qu'il n'y ait qu' un seul testeur. Nous utilisons donc la fonction dist, comme vous pouvez le voir ici, vous utilisez la fonction dist pour calculer la distance entre chaque point de données. Donc, fondamentalement, nous calculons en utilisant la distance du collodion. Comme vous pouvez le voir dans la méthode que nous avons mentionnée, distance euclidienne, nous trouvons la distance entre deux points de données à l'aide de cette méthode. Et la deuxième étape consiste à réaliser un regroupement hiérarchique basé sur la distance que nous venons de calculer. Ces données viendront en entrée en tant que paramètre de la deuxième étape, c' est-à-dire en utilisant l' edge, la fonction hclust. Il y a une méthode pour simplement frapper que nous devons l'utiliser qui s' appelle VD point d. Dans le paramètre de méthode, nous devons spécifier cette méthode pour effectuer le clustering élevé. Ensuite, nous allons tracer ce résultat particulier pour voir le dendrogramme qui en résulte. Maintenant, lançons rapidement cela et voyons la sortie. Maintenant, il a été lancé. Comme vous pouvez le constater, une liste a été créée. Et si vous allez dans l'onglet Tracés, vous verrez le dendrogramme. Donc, si je zoome, laissez-moi vous montrer le dendrogramme, qui est l'intrigue. Dans ce cas. Il s'agit du dendogramme du cluster. Il s'agit du dendogramme du cluster. Comme nous le savons, il y a environ 4 000 clients. chaque client aurait été dans commencer, chaque client aurait été dans un cluster particulier. Ensuite, ils se combinent jusqu'à ce qu'une grappe soit formée. Il s'agit d'un cluster. Donc tout ce noir ombré, ne sont rien d'autre que tous vos points de données. Ils continueront donc à se combiner en fonction de la distance que nous avons choisie. C'est la distance euclidienne jusqu'à ce qu'elle soit combinée et qu'elle obtiendra, elle commencera à obtenir testeurs moins importants jusqu'à ce qu'il ne reste qu'un seul cluster. Disons donc, par exemple, cela a commencé avec tous ces points de données. Maintenant, il reste avec, disons 1234. n'y a que quatre grappes ici. L'idée de la stratégie serait de former le cluster de manière à ce qu'il y en ait, qu'ils soient facilement différenciés. Comme vous le savez, pour commencer par la valeur 4 000 clusters pour chaque point de données. Et maintenant, nous ne pouvons pas les différencier parce que, comme vous pouvez le constater ici, c'est tout notre encombrement. Maintenant, c'est le cas. Si vous y allez, si vous suivez le curseur ici , il commence à diminuer. Cela signifie que nous pouvons facilement différencier les grappes. La stratégie idéale devrait être de former le cluster afin qu'il soit facilement différencié. Donc, si vous regardez le dendogramme, vous pouvez facilement différencier les différents clusters que vous souhaitez posséder. Si je dessine une ligne horizontale ici, disons par exemple que je la dessine pas n'a pas appris dans cette partie. Si vous suivez le curseur, deux clusters sont présents. Cela signifie que si je coupe ça, si je dessine une ligne horizontale, elle coupe de deux points. Cela signifie que deux points sont au-dessus de la ligne. Cela signifie qu'il reste deux grappes. De même, si je dessine une ligne horizontale par ici, comme vous pouvez le voir par quatre points, cela signifie que quatre grappes représentent quatre grappes. Chaque fois que nous dessinons une ligne horizontale, nous devons voir combien de divisions sont présentes au-dessus de ces lignes. Si je dessine comment vous soulignez ici, il n'y a que deux divisions. Si je trace une ligne horizontale ici, c'est seulement quatre divisions comme ça. Si je trace une ligne, disons par exemple, ici, comme vous voyez cette coupe en 12345, il y a cinq grappes. date limite a évolué en cinq points. Cela signifie qu'il y a cinq grappes basées sur la ligne horizontale que nous dessinons. Quelles que soient les divisions présentes au-dessus de la ligne. Ces services de justice audio. Cela dépend maintenant de l'organisation, combien de grappes ? Celui et il peut facilement différencier s'ils sont à l'aise avec, disons, par exemple, si je trace une ligne ici, donc seulement quatre grappes sont mortes. Mais si je trace une ligne juste en dessous, elle peut être réduite à cinq grappes, cinq points qui signifient cinq testeurs. Maintenant, si les choses organisatrices qu'ils tracent cette ligne et qu'elles sont à l'aise avec cette distinction ou cette différenciation entre cette ligne. Ils peuvent choisir les grappes en fonction de la dette. Dans notre cas, si nous dessinons une ligne horizontale et coupons et l'utilisons pour cinq grappes, comme je l'ai dit, elle pourrait être facilement visible. Il est également facile de le différencier. C'est bon Retour au code. C'est la raison pour laquelle nous utilisons la fonction cutree. En gros, nous divisons les points de données en cinq clusters. Maintenant, sur la base du dendogramme que nous avons vu en utilisant la fonction cutree. Avant cela, tracons un dendogramme et divisons-le en cinq grappes. J'utilise simplement cette fonction de tracé, fonction rect point h plus, où je spécifie le nombre de clusters que nous avons déjà trouvés dans le dendrogramme. Et je lui donne juste une bordure de couleur rouge. Maintenant, si je fais ça, vous verrez une distinction dans le dendrogramme que nous avons. Ici. Nous l'avons. Laissez-moi le zoomer pour vous. Oui. Ainsi, comme vous pouvez le voir clairement, ils peuvent regrouper des dendogrammes et ces lignes rouges représentant chaque cluster. Par exemple, il s'agit d'un cluster. Il s'agit d'un autre cluster. Ce cluster. Il s'agit du quatrième cluster, et il s'agit du cinquième cluster. Tous les points de données situés en dessous de ces frontières ou limites font donc ces frontières ou limites partie de ce cluster particulier. Comme vous pouvez le constater, il existe 123456 ou cinq groupes de cinq clusters, qui se différencient facilement en appliquant cette couleur de bordure. Non seulement éliminez-le plus loin, comme je vous l'ai dit, vous devez utiliser cette fonction cutree que nous pouvons diviser ces points de données en cinq clusters. Je crée DataFrame qui est un groupe élevé. En même temps. Comme nous avons ces clusters, comme lors de la session précédente dans le clustering K-Means, nous avons pu facilement sous-définir le DataFrame principal fonction des clusters respectifs dans lesquels ils se trouvent. Nous pouvons créer des DataFrames distincts pour chaque plumeau. De même, dans ce cas, nous pouvons également créer, vous pouvez utiliser la fonction de sous-ensemble et créer DataFrame, données séparée pour chaque cluster en utilisant simplement la fonction de sous-ensemble, le nom DataFrame. Et les groupes supérieurs sont égaux à un, quel que soit le numéro Newman des clusters que vous souhaitez spécifier. Maintenant, si j'exécute rapidement tout ce Control Enter, vous verrez que le cadre de données séparé a été créé ici. Si nous suivons simplement le curseur, vous pouvez voir que tous ces blocs données distincts ont été créés. Il s'agit donc du cluster le plus élevé. L'un est le premier cluster, qui contient 1630 observations et sept variables. De même, ce deuxième cluster, qui se compose de cette DataFrame comprend 1408 observations. Il s'agit de mon DataFrame pour le cluster 1. De même, il s'agit de mon DataFrame pour le cluster deux. Comme ça. Nous avons maintenant utilisé ces clusters de haute qualité et nous avons généré cinq clusters. Je peux également utiliser cette fonction Endrew pour vous montrer le nombre d'observations pour chaque cluster. Juste la conformation la plus rapide étudie 1630, le quatrième cluster il a 530. Comme ça. Il s'agit essentiellement de la méthode qui permet d'utiliser cet algorithme de clustering hiérarchique et construire et de construire vos clusters. Nous pouvons également confirmer le nombre d' observations provenant de ce dendrogramme en grappe. Comme vous pouvez le constater dans le dendrogramme, il existe cinq groupes de cinq grappes. Supposons, par exemple, sont tous des points de données qui font partie de ce cluster particulier. Disons, par exemple, dans cette partie, dans ce groupe de clusters, que nous avons tous ces points de données, qui en fait les plus importants de tous ces points. Ou peut-être que c'est le plus grand, quel que soit le plus petit. Nous pouvons voir à partir de ces chiffres, nous savons que le troisième groupe ne contient qu'une observation 111. Cela signifie que cela représente le troisième cluster. Un peu plus que ça, qui est le cinquième testeur. Tous les points de données font partie du cinquième testeur. De même, ces points de données font partie de votre quatrième cluster. De même, ce point de données, tous ces points de données, s'il est plus grand, si vous pouvez simplement le voir visuellement s'il est plus grand qu'il fait partie de votre premier test, et c'est la partie de votre deuxième liste. Tous ces points de données.