Transcription
1. Expectations S7L1: D' accord. Félicitations et bienvenue à la dernière section des études de cas du cours. Et c'est là qu'on va vraiment commencer à s'amuser. Cette section traite de l'utilisation des outils que vous avez appris jusqu'à présent et les
appliquer à différents ensembles de données et défis analytiques. Donc, jusqu'à maintenant, nous nous sommes concentrés exclusivement sur nos données de la BDIM. Mais maintenant, nous allons plonger dans un fichier d'études de cas de tableau croisé dynamique, qui contient un tas de nouveaux ensembles de données qui
vont chercher, des données boursières et des médias sociaux aux enregistrements d'attaques de requin et même aux
classements de burrito . Mais avant de plonger, fixons quelques attentes. Numéro un. L' objectif de ces études de cas est de démontrer comment les concepts couverts peuvent être appliqués
à divers ensembles de données. s'agit pas d'analyses exhaustives, mais simplement de points de départ pour vous aider à utiliser ces outils dans des
contextes nouveaux et différents . Numéro deux, certaines données peuvent avoir été modifiées ou fabriquées pour faciliter les démonstrations, donc la plupart des données que vous voyez sont 100% réelles. Mais gardez à l'esprit que certaines modifications ont été apportées dans certains cas spécifiquement
aux fins de ce cours. Ainsi, par
exemple, certains champs peuvent avoir été nettoyés ou normalisés, ou certains enregistrements peuvent avoir été ajoutés ou supprimés. orteils aident à démontrer certains concepts et,
enfin , des exercices de
devoirs seront fournis après chaque étude de cas. Les exercices suivront donc chacun de mes cas, étudieront les introductions et s'appuieront sur les concepts spécifiques que je couvre. Je donnerai des réponses dans la mesure du possible, mais si vous avez besoin d'un soutien supplémentaire, hésitez pas à contacter soit dans le forum de discussion du cours, soit en m'envoyant un message directement. Et avec ça, allons-y et plongons dedans.
2. Votes aux États-Unis: d' accord. Il a dit que la première étude de cas dans laquelle nous allons plonger est pour nous les électeurs en 2012 maintenant, un résumé rapide des ensembles de données. Il s'agit des données de 2012 sur la population et l'inscription des électeurs provenant États-Unis du Bureau du
recensement des
États-Unis, ventilées par État et par groupe d'âge. Ainsi, vous pouvez voir la capture d'écran de l'ensemble de données ici sur le côté droit de la diapositive. Et ce que j'ai fait ici est en fait formater les en-têtes de colonne pour indiquer ce que nous
travaillons en termes de dimensions ou de mesures. Encore une fois, les
dimensions sont vos champs catégoriques. Les mesures sont vos champs numériques ou quantitatifs. Donc, le N est égal à 2 55 indique juste que nous regardons 255 enregistrements ou lignes de données dans ce cas, donc assez petit ensemble de données pour lancer les choses. En ce qui concerne les dimensions faras. Nous devons indiquer et l'âge et les colonnes A et B, puis pour les mesures. On a la population totale, les électeurs inscrits et les électeurs confirmés. Et les concepts qui couvriront dans cette étude de cas particulier sont les champs calculés et les paramètres de
valeur, particulier le pourcentage de colonne et le pourcentage de parent. Alors avec ça, sautons pour exceller et plongons dans. Bon, alors allez-y et ouvrez le tableau croisé dynamique. Études de cas fichier et sautez dans le premier onglet. L' onglet des électeurs américains 2012. Et à partir de là, nous pouvons contrôler A pour sélectionner Oliver Data. Je vais insérer un nouveau tableau croisé dynamique sur une nouvelle feuille de calcul et avant de plonger,
donnons juste un nom à ce pivot de l'électeur. Et je veux en fait mettre en évidence cet onglet juste une légère nuance de vert. De cette façon,
alors que nous continuons de travailler à travers les études de cas contenues dans ce cahier de travail, il deviendra clair quels onglets sont des données brutes et lesquels sont des pivots. Donc maintenant, en tant qu'analyste, compte tenu des données dont nous disposons, certaines des questions que j'aimerais explorer ici sont des choses comme Comment se
compare la participation électorale entre les États sont certaines tranches d'âge est plus ou moins probable de voter en général. Et ces tendances sont-elles vraies à l'échelle nationale, ou existe-t-il des informations spécifiques à l'État que nous pouvons découvrir ici ? Donc, comme vous le savez, sont toutes des questions auxquelles les tableaux croisés dynamiques font un excellent travail de réponse. Voyons ce qu'on peut trouver, dès
maintenant, tout de suite. Coupons nos données par état comme rose et en tirant quelques-unes des mesures qui nous tiennent à cœur. Pour l'instant, utilisons la population citoyenne. Puisque seuls les citoyens peuvent voter et les électeurs confirmés commencent là. Je vais aller de l'avant et formater ces deux en tant que nombres, avec séparateur de milliers et pas de points décimaux. On y va. Et enfin, je vais trier mes états en descendant par la population citoyenne. Donc, comme prévu, nous voyons de grands États comme la Californie, Texas, la
Floride et New York en haut de notre liste. Et puis en bas, il y a évidemment des états moins densément peuplés comme les Dakotas en Alaska, Vermont et au Wyoming. Donc, pas de surprises là-bas d'ici. Je veux ajouter un champ calculé parce que ce qui m'intéresse n'est pas seulement le
nombre de citoyens et le nombre d'électeurs confirmés, ce qui est intéressant mais pas tout à fait surprenant. Ce que je veux faire, c'est calculer un ratio pour qu'il puisse voir hors de la
population citoyenne . Quel pourcentage de ces électeurs sont devenus des électeurs confirmés. Donc, il va aux outils dans un nouveau champ calculé et nommer ce pourcentage de population électorale et encore une fois, ça va juste égaler le ratio des électeurs confirmés à la presse de population citoyenne OK, nous allons formater ceci comme un pourcentage avec un virgule décimale, sorte que nous pouvons déjà voir un tout nouveau histoires commencent à émerger ici. Et nous ne voyons pas seulement une comparaison état par état en termes de nombre total d' électeurs, mais nous avons également un ratio des populations éligibles. Alors pourquoi ne pas aller de l'avant et trier en fonction de notre nouveau pourcentage de population électorale métrique pour avoir une idée de la proportion la plus importante d'électeurs ? Donc certainement quelques tendances intéressantes ici. Nous voyons le district de Columbia ou D. C. en haut de la liste, avec un pourcentage de population électorale de 76,1 %. C' est logique. Vous savez, c'est la capitale de la nation, le cœur politique du pays. Mais alors vous avez aussi des états comme le Mississippi dans le Wisconsin, ce qui peut venir comme une surprise pour certains maintenant défilant vers le bas à l'autre extrémité du spectre, nous voyons la Virginie occidentale, Hawaii, Oklahoma et Arkansas. Ce n'est pas nécessairement le moment ou l'endroit pour approfondir les raisons pour lesquelles ces tendances sont qu'elles sont. Donc, ce qui fait que la population de Virginie-Occidentale est moins susceptible de se convertir en électeurs que le Massachusetts ou le Colorado, par
exemple. Mais ce qui pourrait être une prochaine étape vraiment intéressante serait d'extraire quelques données supplémentaires du américain recensement
américainque vous pourriez être en mesure de lier ici. Peut-être que des choses comme le revenu par habitant ou le niveau de scolarité ou des données démographiques supplémentaires pourraient aider à fournir un contexte supplémentaire et vous donner des outils pour mieux comprendre les raisons ou les facteurs qui sous-tendent ces taux d'électeurs que nous voyons ici. Mais une autre information que nous avons en main est l'âge. Donc, continuons et retirons l'âge de notre liste de champs et ajoutons votre vue en tant qu'
étiquettes de rôle secondaires . Et maintenant, alors que nous examinons ce point de vue, nous pouvons constater que d'autres tendances commencent à émerger. Ainsi, par
exemple, dans nos États les plus élevés, nous avons tendance à voir taux de population électorale
vraiment forts parmi les populations plus âgées, en particulier le groupe des 65 ans et plus, les tranches d'âge plus jeunes ont tendance à afficher des taux plus faibles, mais ils demeurent relativement forts. Donc, 62% dans D. C dans la gamme des 18 à 24 ans un peu moins de 64% 18 à 24 ans dans le Mississippi, puis défiler jusqu'à l'opposé sous le spectre. Une chose intéressante à voir, c'est qu'on obtient encore des
taux d'électeurs relativement élevés chez les personnes âgées. Pas tout à fait un fort est les États supérieurs, mais encore dans les années cinquante et soixante. Mais quand vous commencez à regarder la démographie plus jeune, les 18 à 20 quatre,
que 25 à 30 quatre, vous voyez beaucoup, des taux
beaucoup plus bas ici dans des états comme la Virginie Occidentale, Hawaii en Oklahoma. Ainsi, par
exemple, les 18 à 24 ans en Virginie-Occidentale, vous savez qu'il y a 100 62 000 citoyens qui sont tombés dans cette tranche d'âge, et seulement 37 000 sont devenus des électeurs confirmés, soit un taux de 22. 8 %. Cas similaire à Hawaï, 26,4 27,2 en Oklahoma, encore plus bas en Arkansas. Donc encore assez directionnel à ce stade, mais un aperçu vraiment intéressant néanmoins. Maintenant, la prochaine chose que j'aimerais explorer un peu plus ici pour lancer les choses est la composition de la population électorale, et pour ce faire, je veux utiliser certaines de nos valeurs de spectacle comme calculs. Alors pourquoi ne pas commencer par un groupe vieilli pour commencer par l'état complet dans les filtres ? Que je suis juste en train de regarder mes données organisées par ces tranches de cinq ans à partir d'ici ? Si nous sommes intéressés à examiner la répartition de la population électorale en particulier, nous
allons trouver un deuxième cas d'électeurs confirmés ici dans la colonne D. Et maintenant, au lieu de simplement les montrer sans calcul, montrons-les comme un pourcentage du total de la colonne. Maintenant, ce que cela me dit est que parmi tous les électeurs confirmés dans ces ensembles de données possèdent l'année 2012. Je sais que la plus grande proportion de ces électeurs se situe dans la fourchette de 45 à 64 ans, suivie de la fourchette de 65 ans et plus (22 %). Et à l'autre extrémité, vous avez votre plus petite proportion, ou part d'électeurs, qui se situe entre 18 et 24 ans. Ainsi, les électeurs les plus jeunes ne représentent que 8,54% du nombre total d'électeurs confirmés dans
tout le pays. Maintenant, il s'agit de glisser l'état en tant que leurs étiquettes de rôle principales, et voyez comment ces tendances se présentent à un niveau plus granulaire. Donc, dans ce cas maintenant, plutôt que de les formater comme un pourcentage de la colonne dans son ensemble, ce
qui est un peu difficile à lire, puisque les pourcentages deviennent
vraiment, vraiment petits ici, je vais changer que le calcul 2% du parent et définir l'état comme mon parent. Et maintenant, nous avons un tout nouveau ensemble d'informations à portée de main pour que nous puissions forer dans l'état par état et voir comment ces proportions par tranche d'âge diffèrent d'un endroit à l'autre. Donc D. C, par
exemple, est une histoire intéressante. Juste que la plus grande part des électeurs confirmés au sein de D. C provient en fait du seau de 25 à 34, alors que la plupart des autres États, comme le Mississippi, Wisconsin, Minnesota, montrent la plus grande proportion d'électeurs venant du seau 45 à 64 ans. Donc,
pour quelque raison que ce soit la population électorale est un peu plus jeune en
D.C . que dans beaucoup de ces autres États, puis fait défiler vers le bas. Un autre aperçu intéressant à voir ici est que pour ces États à faible population électorale comme Oklahoma, Hawaï et la Virginie-Occidentale, parce que
ces proportions sont petites, particulièrement pour le groupe d'âge le plus jeune de 18 à 24 ans. Ainsi, moins de 5% des électeurs à Hawaï sont tombés dans le seau des 18 à 24 ans, et seulement 6% en Oklahoma sont tombés dans cette fourchette. Donc, pour quelque raison que ce soit, les populations plus jeunes de ces États ne semblent pas trop enclines à y aller et voter. Donc certainement une autre histoire intéressante, vraiment juste commencer à gratter la surface dans certains des angles intéressants que nous pouvons prendre avec cet ensemble de données. C' est notre coup d'envoi pour l'étude cas de
cas
des électeurs américains. Allez-y et donnez les exercices de devoirs dans le prochain coup de conférencier et voyez ce que vous
pouvez découvrir d'autre .
3. Salaires San Francisco: sauf que nous avons notre étude de cas de salaire de San Francisco résumé rapide de l'ensemble de données. Nous examinons les informations salariales des employés du gouvernement de San Francisco
entre 2011 et 2013. Donc un peu plus de 24 000 lignes ou enregistrements de données ici, y compris un certain nombre de dimensions et de mesures différentes du côté dimension, nous avons le nom des employés par année, leur employé I d et leur titre de poste. Et pour les mesures, nous avons la rémunération de base, rémunération des
heures supplémentaires et d'autres salaires. Ainsi, les concepts qui couvriront dans cette étude de cas particulier sont le tri et le filtrage, regroupement des champs calculés et les mises en page de tableaux. Alors, nous allons entrer. Bon, donc dans votre cahier d'étude de cas de tableau croisé dynamique, allez de l'avant et sautez à l'onglet salaires de San Francisco. On va contrôler A pour récupérer toutes ces données. Nous allons insérer un nouveau tableau croisé dynamique dans une nouvelle feuille de calcul. Allons de l'avant et simplement renommer ce pivot de salaire de feuille et signer une couleur d'onglet de vert clair à
nouveau juste pour faire la différence entre les données brutes et les robinets de pivot. Tout d'abord, tirons le nom d'un employé juste pour que nous examinions les données au niveau de l'employé pour commencer et que je puisse cocher les cases pour apporter toutes nos mesures de rémunération, de rémunération heures supplémentaires et autres salaires, et Je vais juste entrer et formater ces trois champs a de la monnaie, et je n'ai pas vraiment besoin de points décimaux ici, donc voilà. Bon, maintenant nous sommes formatés. Je veux aussi insérer de nouveaux champs calculés qui appelleront simplement la rémunération totale parce que je
veux voir la somme de ces trois mesures la rémunération de base,
plus toute rémunération au fil du temps que quelqu'un a gagnée plus toute autre rémunération. Donc voilà le salaire total, la base
des Eagles plus les heures supplémentaires, plus d'autres. Et maintenant, je vais aborder cela d'une manière impartiale et juste commencer à explorer un peu la date et voir ce que je trouve. Donc, comme première passe, vous savez, peut-être que nous trions les noms de nos employés en descendant par ce nouveau champ de salaire total que nous venons créer. Nous voulons voir qui ont été les meilleurs gagnants au cours de cette période de trois ans. Judy Melnick a donc gagné 553 000$ en salaire total au cours de cette période. Mike Dreiling a gagné 460 ans et maintenant, au lieu de regarder l'échantillon global, je veux voir les meilleurs gagnants pour une année donnée. Alors apporter l'année dans ma boîte de filtres, disons, juste pour 2013 qui étaient dans le plus. Ainsi, Gary Altenburg, par
exemple, a eu une bonne année en 2013 ici avec un salaire total d'un peu moins de 363 000. Mais ce qui est intéressant chez Gary, c'est qu'il a gagné 100 29 000 salaires de base, puis 221 000 autres au fil du temps,
ce qui représente
une énorme somme d'heures supplémentaires, surtout par rapport à certains de ces autres employés qui n'ont rien gagné. en prolongation comme Amy Heart, par
exemple, ou Sharon ou James Dudley. C' est donc une tendance intéressante. Et c'est quelque chose qui, tant qu'analyste, m'intéresse à plonger un peu plus en profondeur, donc ce qu'on peut faire est de prendre le
titre de travail et de le faire juste pour avoir une idée de ce que font Gary et Amy. Et quand on fait ça, on voit que Gary s'avère qu'il est lieutenant. On dirait le service des pompiers, alors qu'Amy est une sorte de chef de service. Vous savez, quand je suppose que cela est logique si les pompiers ont tendance à gagner plus d'heures supplémentaires juste à cause de la nature de leur travail, vous savez, ajouter par ce genre d'idée intéressante là-bas. Maintenant, si nous retirons le titre du poste, nous pouvons continuer à explorer cette tendance de la rémunération des heures supplémentaires en utilisant un autre champ calculé. Donc, ce que je veux faire maintenant, c'est plutôt d'examiner le volume des heures supplémentaires en termes
de dollars,
je voudrais examiner le de dollars, taux de façon à ce qu'au fil du temps,
ce pourcentage pourrait être calculé comme le salaire des heures supplémentaires sur le total. Et cela me donnera un autre type d'objectif pour regarder mes données à travers. Et faisons juste un pourcentage avec le point décimal et maintenant ce que ce nouveau champ me
permet de faire. C' est trier mes employés qui descendent par ce pourcentage d'heures supplémentaires et voir qui
gagne la plus grosse partie de leur salaire au fil du temps par rapport au salaire de base ou à une autre rémunération. Et dans ce cas, Janey Jennings est en tête de liste. 82,2 % de sa rémunération était classée comme heures supplémentaires, donc 33 000 sur 40 358$. Mais il y a beaucoup de bruit ici dans cette liste. J' ai quelques employés qui ne gagnent que quelques 100 ou quelques 1000$ ce qui signifie qu'il y a probablement des employés à temps partiel ou à contrat afin que nous puissions explorer nos
options de tri et de filtrage . Et ce que je ferais dans ce cas est d'appliquer le filtre de valeur supérieure à et dire OK, salaire
total doit être supérieur à 50.000 Presse. OK, cela va éliminer un peu de bruit et me donner un plus de pommes à pommes comparaison
des employés que je regarde maintenant. Donc une fois que nous avons fait ça maintenant, Kimberly King Stitt est en tête de liste. Elle a gagné 63 % de son salaire au fil du temps, et il y a un bon ami,
Gary, au numéro 2 de la liste. Donc, évidemment, à ce stade, vous savez, le nombre de chemins différents que nous pourrions prendre avec cette analyse est à peu près
infinie . Même le nombre de façons dont nous pouvons filtrer et trier cette liste d'employés sont essentiellement infinies. Donc, par
exemple, si on voulait Onley. Regardez les employés dont le nom commence par Steve. Nous pouvons utiliser un filtre d'étiquette pour le faire de sorte que le filtre d'étiquette commence par Steve. Maintenant, nous ne regardons que les Steve dans notre ensemble de données, mais vous remarquerez peut-être que maintenant mon filtre de 50 000$ a été plus écrit. Donc j'ai des gens ici qui ont gagné 14 000. Vous savez, nos 5000 et encore, c'est comme nous avons parlé plus tôt dans le cours, parce que par défaut, options de tableau
croisé dynamique ne vous permettront d'avoir qu'un seul ensemble de filtres appliqués pour l'appeler. Je peux changer cela dans mes outils, allant dans les totaux d'options et les filtres. Autoriser plusieurs filtres par champ appuyez sur OK, et maintenant nous avons toujours notre filtre d'étiquette Steve. Alors allons de l'avant et réappliquez le filtre supérieur à la valeur et disons que le total paie plus de 50 000 à nouveau. Ok, et maintenant nous avons nos deux filtres appliqués. On regarde le salaire total d'Onley supérieur à 50 et les noms de Lee qui commencent par Steve. Ces deux coches indiquent que les deux valeurs ont été appliquées. Donc à ce stade, je me fiche des employés qui s'appellent Steve, donc je vais effacer tous ces filtres du nom de l'employé. Et regardons les données un peu plus haut niveau. Alors retirez le nom de l'employé. Agrégons les choses par titre de poste. Donc, une chose qui est intéressante ici, c'est que quand on regarde un système métrique comme un salaire basé, tu sais, c'est tentant de regarder ça et de dire, Oh, wow ! Les commis de comptes gagnent beaucoup plus d'argent que les comptables, par
exemple. Mais avant de faire ça, vous devez vraiment penser à ce que vous regardez ici. Dans ce cas,
cette colonne « Certains de la rémunération de base » est une colonne qui résume ou additionne les salaires de base de tous les employés de l'ensemble de données qui se trouve dans chacun de ces compartiments. Donc, mon hypothèse serait qu'il y a beaucoup plus d'employés qui sont étiquetés comme commis aux comptes que comme comptables, c'est pourquoi nous voyons un salaire de base de $974,000 pour les commis aux comptes et seulement 65,000 pour les comptables. Et nous pouvons vérifier cela simplement en faisant glisser le nom de l'employé comme étiquettes de rôle secondaires ici dans notre vue. Et c'est exactement ce qui se passe ici. Donc, on a l'air de 23 employés avec un emploi, titre de commis de comptes. Et on a Onley un comptable, Carlito. Donc, ce chiffre de 973 additionne tous les salaires individuels de chacun de ces 23 employés, alors retirez les employés. Et si nous voulons avoir une meilleure idée des pommes à des gains par titre d'emploi, ce qui est intéressant, Teoh, regardez ici. Ce que je peux faire est de changer le mode de ization d'été d'une moyenne des orteils. Donc plutôt que de modifier celui-ci, je vais tirer une deuxième instance de rythme de base que nous pouvons comparer. Et c'est celui qui va changer l'urbanisation d'été à une moyenne et formaté en devise . Donc maintenant, il prend la moyenne des 23 salaires de ces employés et équivaut à 42 000, ce qui est en fait nettement inférieur au salaire moyen des comptables de 65 392. Donc une sorte d'une clarification subtile mais vraiment, vraiment importante pour vous faire savoir, car vous interprétez des nombres et un tableau croisé dynamique à partir de là. Maintenant que nous avons notre champ moyen en place, nous pouvons trier nos titres en descendant par la moyenne du salaire de base. Et maintenant, nous avons une liste plus propre et
plus précise pour faire ces comparaisons. On voit des titres comme le chef de département, chef adjoint du
médecin légiste en haut de la liste. Et puis en faisant défiler vers le bas, vous commencez à voir plus de titres comme secrétaire général, ouvrier, commis d'
inventaire, caissier sur DSO sur elle ainsi de suite. Donc déjà, des découvertes intéressantes et des idées qui bouillonnent ensuite. Ce que je veux faire, c'est regrouper certains de ces titres, car il y a un certain nombre de domaines de chevauchement. Je vais donc faire défiler par ordre alphabétique pour voir ce que ces titres de travail nous
paraissent. Et vous remarquerez probablement qu'il existe un tas de variantes de types similaires de
titres d'emploi , donc il semble qu'il y ait au moins 10 emplois d'aéroport avec des titres légèrement différents. Donc, ce que je veux faire dans ce cas, c'est créer des regroupements qui retroussent les titres des postes à un niveau
légèrement plus élevé. Appelez ça catégorie d'emploi par opposition au titre du poste. Donc, pour vous donner un exemple, pourquoi ne pas commencer avec certains d'entre eux en haut de la liste peut passer par les titres
liés à un comptable , clic
droit les regrouper ensemble et au lieu de Groupe un, appeler comptabilité. Si vous vous souvenez par défaut. Ce pivot est configuré comme une vue compacte, qui
signifie que mon champ de titre et le nouveau champ de groupe que j'ai créé sont imbriqués dans la même colonne. Je ne veux pas que ce soit le cas. Je veux pouvoir traiter ces deux domaines séparément. Donc, je vais à mes outils de conception des options de rapport mise en page décrit formulaire. Et ça éclate ces deux champs. Maintenant, il peut modifier indépendamment mon travail d'origine, le champ de
titre et mon nouveau champ de groupe. Donc, au lieu du titre 2, appelons cette catégorie d'emploi. Maintenant, nous pouvons continuer le processus comme il l'a fait avec les titres comptables. Vous savez, peut-être que je veux les administrateurs ensemble et que le clic droit les regroupe au lieu du groupe 2. Appelez ça admin, puis faisons un de plus avec ces emplois à l'aéroport. J' ai quelque chose comme 12 titres différents liés à l'aéroport ici. Regroupez-les ensemble et appelons-ça l'aéroport. Là, nous allons et maintenant depuis que j'ai changé le mode contour. Si je veux remonter par niveau de catégorie maintenant, je pourrais simplement retirer le titre du poste et organiser les données par ce nouveau champ que je viens créer. Donc, ajoutez les hommes dans leur ensemble, qui comprennent ceux qui croient que quatre rôles ou titres d'emploi qui en font partie, vous savez, ont généré un salaire de base total de 2,273 millions et une moyenne de 71 000. Maintenant, cette approche manuelle du regroupement fonctionne très bien. Mais comme note de côté pour ceux qui sont intéressés, une solution plus élégante et efficace pour le faire serait en fait de créer une table de
recherche séparée qui correspond à tous ces titres d'emploi à des catégories spécifiques. Et puis, à partir de là, en utilisant soit des fonctions de recherche, soit des outils de modélisation de données, il intègre effectivement ces
catégories d'emplois comme un nouveau champ dans les données brutes elles-mêmes. Et cela m'épargnerait la difficulté de faire défiler manuellement et de regrouper les valeurs ensemble dans le pivot. Mais c'est un sujet pour un autre jour et un autre cours. Donc là, vous l'avez. C' est notre point de départ pour explorer les données salariales de San Francisco. Allez-y et jouez avec. Faites un peu d'exploration, donnez les devoirs de tir et criez moi si vous avez des questions.
4. Enregistrements d'attaque de série: d' accord. Notre prochaine étude de cas est une tonne de plaisir. C' est mon préféré de tous les temps pour celui-là. On va regarder les enregistrements d'attaques de requins enregistrés entre 1 902 016. Vous avez donc un peu moins de 5300 enregistrements ou observations dans notre ensemble de données. Et ce qui est un peu unique dans cet ensemble de données, c'est qu'il ne contient en fait aucune mesure. n'y a donc pas de nouvelles variables miraculeuses ou de champs quantitatifs. C' est toutes les dimensions. Et c'est relativement courant lorsqu'il s'agit de tenir des dossiers, parce que ce qui est le plus pertinent, c'est l'information contenue dans ces documents par opposition à tout domaine quantitatif. Donc, nous avons une tonne de travail de dimensions vraiment fascinantes avec les orteils, commençant par le numéro de cas et la date à laquelle l'attaque a eu lieu. Nous pouvons couper les données selon le type d'attaque, qu'elle ait été provoquée ou non, où elle a eu lieu en termes de zone de pays et d'emplacement spécifique. Quelle activité la victime s'est livrée lorsqu'elle a été attaquée, son nom, son sexe, son âge, quel type de blessure a été subie, si elle a été mortelle, oui ou non. Euh, même comme cette espèce de requin et l'enquêteur et d'où vient la source, tout cela est inclus dans les dossiers d'attaque de requins que nous avons en main. Donc,
vraiment, jeu de données vraiment riche à utiliser pour toutes sortes de différents types d'analyses. Dans ce cas, nous allons faire un coup d'envoi rapide et certains des concepts qui couvriront nos paramètres de
valeur de regroupement de dates et les graphiques croisés dynamiques. Alors, nous allons entrer. Allez-y et dirigez-vous vers l'onglet Records d'attaque de requin dans notre cahier d'étude de cas de tableau croisé dynamique. Et il allait contrôler un pour saisir toutes ces données et insérer un pivot sur une nouvelle feuille de calcul. Allons de l'avant et nommons ce pivot de requin et formater cet onglet avec un joli Phil vert Et mon dieu, où commençons-nous même avec un ensemble de données comme celui-ci ? Il y a tellement d'angles froids que nous pouvons prendre. Mais en fin de compte, en
gros, gros, ce que nous essayons de comprendre, c'est le nombre d'enregistrements ou le nombre d'attaques ventilés toutes sortes de façons intéressantes, vous savez, peut-être par date, par lieu, par activité de genre, vraiment beaucoup d'options à notre disposition ici. Et puisque mes données brutes sont au niveau du cas, ce qui signifie une ligne par attaque enregistrée, cela devrait être relativement simple à faire. Je suis donc que c'est glisser le numéro de cas ici dans notre boîte de valeurs. Comme vous pouvez le voir, il est par défaut compter car ce n'est vraiment pas un champ numérique ou une mesure. Et dans ce cas, le compte est exactement ce que je veux. moment, il me dit qu'il y a 5292 enregistrements apparus dans mon ensemble de données, que j'ai sauté à ma fiche de données réelle. Je peux confirmer s'aligne avec le nombre de lignes, donc c'est exactement ce que je veux. Et maintenant, c'est une fonction de décomposer ce compte et de le trancher et de le couper en dés de différentes manières. Alors pourquoi ne pas commencer par la tendance prendre un rendez-vous, un dragon de
champ et deux rangs ? Comme vous pouvez le voir, c'est le regroupement automatique, ce qui est bon, je vais sortir les quartiers et sortir juste pour que je regarde les attaques par année. Donc, parce que les données sont un peu funky au début du siècle, j'aimerais réellement limiter cette vue à une coupe plus moderne des données. Donc, ce que je vais faire ici, c'est juste sélectionner les 12 dernières années environ. Donc 53 4016 et puis juste clic droit filtre garder seulement les éléments sélectionnés. Et voilà. J' ai ce compte de 12 ans d'attaques de requins par année. Donc 102 attaques en 2503 en 2006. Maintenant, ce que je veux faire est en fait juste tirer dans deux autres instances de ce champ de
numéro de cas afin que nous puissions montrer ces valeurs de différentes manières. Une deuxième colonne, vous savez, peut-être vouloir montrer ceci comme le pourcentage du total de la colonne, qui me dit maintenant que vous savez que les 139 attaques en 2015 ont constitué la plus grande part dans cet échantillon de 12 ans, représentant un peu plus de 10 % de la taxe enregistrée. Vous connaissez ce troisième exemple, je pourrais montrer que comme un total courant avec des années comme champ de base, donc je peux voir comment le total des attaques a augmenté à partir de 2005 en ajoutant jusqu'à 1387 attaques
totales d'ici l'année 2016 donc juste différent façons d'examiner ces données. Je comprends comment la tendance est ressentie au fil du temps, donc c'est assez intéressant. Qu' est-ce qu'il y a des années à sortir maintenant. Mais préservez cette vue de 12 ans, et maintenant nous voulons couper les données d'une manière différente, donc je pense que je vais commencer par le genre. Je veux voir s'il y a des différences notables entre les femmes
et les hommes, et vous verrez que ma troisième colonne, qui montre les valeurs comme un total courant, n'
est plus valide, puisque ce champ de base des années n'existe plus dans mon point de vue, afin que je puisse aller de l'avant. Il suffit de sortir ça. Et ce point de vue est intéressant. Ce qu'il me dit, c'est que c'est une mauvaise nouvelle d'être un gars en ce qui concerne les attaques de requins. Je ne dirais pas qu'ils sont attaqués par des requins parce que leur courrier, c'est probablement à cause des activités dans lesquelles ils sont engagés, mais plutôt fascinant. Dans cette fenêtre de 12 ans, 83% des attaques étaient contre des hommes et un peu moins de 17 sur des femmes, donc une sorte de pépite cool là-bas, et nous pourrions aller encore plus loin, plein sexe dehors et réellement regarder les attaques par âge défilant maintenant par ici. Une chose que j'ai remarqué à la fin est qu'il y a un seau inconnu avec une tonne d'observations , l'air, juste des attaques ou des cas où un âge n'a pas été fourni ou n'a pas été enregistré. Donc je ne veux pas de ce champ. Je peux aller de l'avant et juste de sélectionner inconnu afin que je ne regarde que des âges connus. Et c'est un excellent candidat pour la visualisation, en particulier pour un graphique de style hist un gramme, qui peut vraiment montrer la fréquence des attaques par âge et nous permettre de comprendre quels âges ont tendance à être plus fréquemment impliqués dans le requin attaques. Donc, je vais simplifier un peu cette vue et retirer le pourcentage de
calcul total de la colonne que je suis juste en train de regarder le nombre de cas, seau et par âge. Maintenant, avec l'une de ces cellules sélectionnées aller à mon tableau pivot outils, et cette colonne clusterisée nous donnera un très bon sifflement un effet gramme peut aller dans analyser et se débarrasser de ces boutons de champ ici. Mais jetez un oeil à cette visualisation
vraiment, vraiment claire et puissante qui me montre exactement où les fréquences les plus élevées d'attaques ont lieu en termes de seaux d'âge. Donc, dans ce cas, assez clair que à partir de l'âge de 15 ans ou plus, la
fréquence des attaques est beaucoup plus élevée et tout le chemin vers environ 22 ou plus. Et puis il commence à descendre et à s'envoler un peu une fois que les gens atteignent cinquantaine et la soixantaine. Encore une fois, cela n'aborde pas nécessairement le lien de causalité. Tu sais, pourquoi c'est le cas ? Mais certaines hypothèses que nous pourrions commencer à jeter là-bas sont que les jeunes sont plus
susceptibles d' être engagés dans des activités où ils sont tout simplement plus susceptibles d'être attaqués par un requin , comme le surf ou le corps, l'embarquement ou la natation ou quoi que ce soit. Mais c'est un point de vue vraiment intéressant ici. Et si nous voulons garder cela, une option serait de simplement copier ce pivot et de créer une nouvelle version ailleurs dans la feuille ou sur une autre feuille. Dans ce cas, je vais juste laisser tomber ce graphique et continuer à explorer ces données. Alors supprimons ça. Et maintenant, plutôt que l'âge, je suis un peu intéressé par ce domaine d'activité. Je veux voir ce que faisaient les gens quand ils ont été attaqués, ce qui a conduit au plus grand nombre d'attaques dans l'échantillon. Je vais tirer l'activité est mes étiquettes de rôle. Je vais trier ces envois par numéro de dossier. Donc rien de vraiment surprenant ici. C' est un peu ce que vous attendez. Beaucoup d'attaques se sont produites pendant que les gens surfaient, nageaient ou pêchaient sous-marine. Si nous voulions forer dans une couche plus profonde, nous pourrions aussi tirer dans ce oui fatal, pas de champ, qui est un filtre binaire. Il faut savoir si l'attaque n'a pas été fatale. Oui, si c'était le cas, nous pouvons voir s'il y a des différences entre, vous savez, attaques
mortelles qui se produisent généralement lorsque les gens nagent ou surfer par rapport au genre non fatal de la même histoire ici. Rien de vraiment révolutionnaire là-bas, mais juste une autre façon de couper et de couper en dés ces données, en utilisant les dimensions à portée de main. Maintenant, une dernière chose à appeler ici, c'est que si nous ne filtrons pas la colonne de l'année, vous remarquerez que cette colonne est étirée,
sortie . Il devient vraiment ennuyeux de travailler avec. Je suis donc de corriger que vous pouvez cliquer avec le bouton droit de la souris changer la colonne avec revenir à 20 ou plus pour qu'elle soit retour en vue, et la raison pour laquelle il fait cela est parce qu'il y a certaines activités ici qui ont très , très longtemps et excelle essaierde s'adapter automatiquement pour les appeler avec de sorte qu'aucune de ces chaînes ne soit coupée. Mais le problème est que chaque fois que vous faites un ajustement à votre pivot, il va s'adapter automatiquement encore et encore. Et vous devez continuer à changer la colonne avec encore et encore. Donc, pour corriger cela, je vais juste arriver à pivoter outils de table,
options et juste diesel ECT . Auto FIT COLONNE Wits sur mise à jour presse. OK, et maintenant, lorsque vous apportez des ajustements à votre pivot, cette colonne a restera la même largeur qu'elle est actuellement et ne s'étire pas à chaque fois que
vous apportez une modification afin que je vous recommande fortement d'explorer ces données un peu un peu plus profond sur votre propre. Il y a des disques assez incroyables ici. Je viens de commencer à gratter la surface de cet ensemble de données. Hum, mon préféré jusqu'à présent, si je sors l'activité et que je passe mon nom est ah, homme du nom de Cosimo Pechiney, qui est un cas intéressant parce que, à en juger par l'activité enregistrée, il a attaqué un requin avec ses poings. Mais ne vous inquiétez pas. Il s'est échappé d'une manière ou d'une autre avec un bras lacéré. , Sur cette note, c'est votre intérêt pour notre étude de cas d'attaque de requin.
5. Données du marché marché de stock: d' accord. Notre prochaine étude de cas utilise des données boursières, et nous avons un ensemble de données assez simple à utiliser ici. C' est un échantillon de trois mois de données boursières pour environ 500
sociétés cotées en bourse différentes et en regardant la capture d'écran à droite ici. Nous avons 29 440 observations avec seulement quelques dimensions et mesures simples. Donc, les seules dimensions qui fonctionneront ici sont la date et le symbole, puis, pour les mesures, mesures
assez standard du marché boursier financier. Nous avons des prix ouverts élevés et bas pour la journée. Le prix de clôture et le volume de trading et les concepts qui couvriront dans ce coup d'envoi comprennent un filtrage de tri de base vraiment se concentrer sur le formatage conditionnel ici pour vraiment utiliser les visualisations pour raconter une histoire. pratiquer faits saillants. Les règles de cellule feront des démos vraiment cool avec des barres de données, et ils s'achèveront avec des paramètres de valeur comme la différence de pourcentage à partir de laquelle est un excellent outil pour afficher les gains et les pertes journalières. D' une manière très claire. Donc assez simple, assez rapide. Allons-y et sautons déjà. Donc, avec votre classeur d'étude de cas de tableau croisé dynamique ouvert. Allez de l'avant et accédez à l'onglet Données boursières. Et avant de créer un pivot, une
seule remarque est qu'il s'agit d'un extrait de données assez standard. Et c'est par jour, ce qui
signifie que c'est un bon candidat pour l'analyse que je pourrais revisiter maintes et maintes fois et peut-être empiler plus de données sur comme recueillir plus de données à l'avenir. Donc, puisque c'est le cas, il n'a peut-être pas de sens de sélectionner l'ensemble de données sur Lee jusqu'à la route 29 4 41 parce que cela signifie que si j'ajoute ou empile de nouvelles données en dessous, cela devrait aller dans mes outils de tableau croisé dynamique, changer la source de données, étendez la ligne, faites
référence à n'importe quelle route à laquelle j'ai ajouté des données. Donc, comme, nous avons parlé de deux façons de traiter les données qui pourraient potentiellement croître au fil du temps, dont l'
une est de sélectionner l'ensemble des en-têtes de colonne. Donc, maintenant, cette référence de tableau croisé dynamique n'a pas de références de ligne. Il s'étend sous la dernière ligne de données. De cette façon, nous ajoutons de nouvelles données. Tout ce que nous devons faire est simplement rafraîchir le pivot et la deuxième approche pour convertir cette plage en une table car une caractéristique intéressante des tables est qu'elles peuvent absorber de nouvelles données lorsqu'elles sont ajoutées sous votre plage de données existante. Donc, dans ce cas, allons de l'avant et adoptons cette dernière approche. Tout ce que j'ai besoin de faire sélectionner n'importe quel champ ou n'importe quelle cellule dans ma plage va insérer la table. Vous pouvez le voir sélectionné l'ensemble de la plage contiguë contenant des données à travers la route 29 4 41 Et oui, mes données ont des en-têtes dans les rangées. Cette case devrait être cochée. Appuyez sur OK. Et voilà. Maintenant, si vous voulez formater votre tableau, vous pouvez le faire ici dans les styles de tableau. Mais ce sont mes données brutes. Ça ne se soucie vraiment pas beaucoup de ce que ça ressemble. Mais maintenant, si j'ajoute plus de données plus tard, ce sera beaucoup,
beaucoup plus facile à accommoder. Donc, avec cela, revenons en insert drop dans un tableau croisé dynamique sur une nouvelle feuille de calcul, et nous pouvons nommer ce pivot de stock unique. On y va. Et formons simplement cet onglet avec une nuance vert clair. Et maintenant mon objectif ici en général, est d'analyser les tendances de sorte que la première chose que je peux faire est juste d'aller de l'avant et de saisir la date, le
tirer dans mes étiquettes de rôle. C' est l'auto groupé. Donc, avec le champ de date sélectionné, je ne veux vraiment pas de mois ici. Je veux juste préserver les tendances quotidiennes du niveau afin que je puisse aller dans mes outils analysés et juste appuyer sur le groupe, et cela reviendra au format original de ce champ, qui dans ce cas, est ce que je veux. Allons de l'avant et faites glisser le symbole dans notre boîte de filtres, car finalement voudra plonger dans la performance pour les entreprises individuelles. Ensuite, nous allons faire glisser tous nos champs dans notre boîte de valeurs. Ouvert, haut, bas, fermé et volume. Donc, en général, lorsque vous lancez un tout nouveau pivot, vous devrez passer par une série de mise en forme. Je suis donc allons-y et faisons-le tout de suite. Uniforme à tous ces 1er 45 colonnes que la monnaie eso prix ouvert, prix
élevé, prix
bas et proche. Ceux-ci seront tous formatés, de la même manière que la monnaie sans décimales. Donc, là, nous allons et puis le volume n'est pas des volumes de devises. Juste la quantité de trading qui se déroule format c'est un nombre avec
séparateur de milliers et pas de décimales. Ok, donc c'est un peu plus clair. Pratiquons également nos en-têtes de colonne personnalisés. Donc, si vous voulez vous en débarrasser,
certaines étiquettes peuvent changer cela juste ici dans la barre de formule. Et au lieu de simplement ouvrir, qui est déjà un nom de sensation, je vais utiliser mon astuce de l'espace de fin et formater de cette façon. Donc même chose avec le haut lo proche et le volume. Cela rend juste ma table un peu plus lisible. Et aussi pour aider. Je peux prendre toutes ces colonnes qui vont à la maison et juste centrer l'alignement là. Encore une fois, juste un petit truc de lisibilité ici et gardez à l'esprit que nous regardons toujours l' agrégation ou le fils des prix et du volume à travers tous les symboles de notre ensemble de données, ce
qui dans ce cas n'aide pas beaucoup. Alors au lieu de cela, pourquoi avons-nous exploré un symbole spécifiquement et vous pouvez choisir n'importe qui ? Mais je vais commencer par un pl ou une pomme et maintenant ce genre de a un peu plus de sens. Nous regardons le cours réel des actions Apple jour après jour ainsi que le volume de trading Donc maintenant, j'ai toutes les informations brutes dont j'ai besoin pour comprendre la performance des actions Apple sur cet échantillon de trois ans. Mais il y a certainement quelques travaux qui s'affaiblissent en raison d'ajouter une certaine visualisation et vraiment aider les idées à briller à travers. Alors pourquoi ne pas commencer par mettre vraiment l'accent sur les gains ou les pertes journalières ? Et pour ce faire, je vais vraiment me concentrer sur cette colonne proche, et ce que je veux faire, c'est mettre un second vêtement. Mais pour celui-ci, au lieu de leur montrer aucun calcul, ID aime afficher cette colonne comme la différence de pourcentage par rapport aux dates précédentes sur mon
champ de base , l'élément basé sur l'état est précédent et appuyez sur OK, cela me dit donc comment ce prix fermé a tendance jour après jour. Dans ce cas. Le 24 août, il était en baisse d'un peu moins de centaines de points de pourcentage par rapport au 21
et la raison pour laquelle ils manquent des dates parce que le marché est fermé pendant les week-ends. Donc le 21 était un vendredi. 24e était un lundi quand le marché a ouvert de retour, donc ce champ est certainement utile, mais le problème est que c'est toujours juste beaucoup de chiffres,
et il est un peu difficile de cerner les tendances ou ce qui se passe vraiment et où je devrais Concentrez-vous ici. Donc, l'aide des orteils avec ce formatage conditionnel sera un excellent outil à utiliser. Donc avant nous le faisons, passons juste dans la conception et débarrassons de nos grands totaux Row, puisque nous n'avons pas besoin de cela et vous remarquerez comment chaque fois que nous faisons un changement aux colonnes air sorte de réajustement automatique en fonction des données. Je n'aime pas vraiment ça. Donc, je peux changer cette option ici dans les options de l'outil de tableau croisé dynamique et juste décocher cette colonne avec l'option d'ajustement automatique là appuyez sur. Ok, maintenant je peux juste personnaliser la largeur de mes colonnes, et celles-ci ne changeront plus au fur et à mesure que j'apporterai des mises à jour à mon pivot. Alors appelons ceci au lieu de certains vêtements, appelons-le tous les jours changé pour le rendre un consentement un peu plus clair. Et maintenant, pour appliquer le formatage conditionnel, je vais contrôler, déplacer vers le bas et attraper cette colonne entière de données allant au formatage conditionnel à la maison. Il y a peu d'options qui pourraient utiliser ici. Je pourrais faire des échelles de couleur comme du rouge au vert. Ce cas et lorsque vous utilisez des règles de cellule de surbrillance parce que je veux seulement que ces cellules prennent deux formats soit rouge ou vert, fonction d'un gain ou d'une journée perdue sur la journée. Commencez donc par une règle de cellule supérieure à la surbrillance et dites, chaque fois que cette cellule valeurs supérieures à zéro. Je veux dire, c'est un pourcentage d'augmentation par rapport à la veille. C' est une bonne chose. Donc, quand le formater avec du vert, remplissez avec du texte vert foncé et appuyez sur OK et sans changer la sélection, je vais revenir directement dans mes règles de cellule de surbrillance et j'avais une deuxième règle pour moins de zéro. Et c'est une mauvaise chose. Donc formater toutes les cellules qui sont moins de zéro ou négatif orteil rouge clair, remplir avec des textes rouge foncé et appuyez sur OK, et maintenant c'est très, très clair. Quels jours ont montré un ascenseur pour Apple, dans lequel jour a montré un déclin. Cela me montre, vous savez, des
périodes de temps où ils sont des gains consécutifs ou des pertes consécutives, donc ces histoires viennent à travers beaucoup plus clairement avec quelque chose d'aussi simple qu'une règle de
cellule de surbrillance appliquée dans mon pivot. C' était donc vraiment utile. Ensuite, attirons l'attention sur ce champ de volume ici, car c'est un autre élément vraiment important des données avec lesquelles nous pouvons travailler. Donc, pour montrer les tendances du volume jour après jour, évidemment un tas de différentes façons de le faire, je pourrais utiliser un graphique croisé dynamique avec le graphique en colonnes de charte en ligne. Mais dans ce cas, je veux ajouter mes visuels ici dans la table elle-même. Donc pour faire ça, comme nous l'avons fait avec près, je vais tirer un second volume. Vous appelez cette tendance de volume, développez la largeur de cette colonne un peu. Et maintenant, la même affaire ici. Je vais contrôler le décalage vers le bas pour saisir cette mise en forme conditionnelle de données de colonne entière. Et maintenant, je vais utiliser quelque chose appelé barres de données, qui mettent essentiellement dans un graphique à barres directement dans les cellules du pivot. C' est donc un très joli orteil d'outil. Ajoutez des visualisations sans créer de graphiques secondaires. Donc, nous allons faire une barre de données bleue ici et maintenant il est très, très clair où ces pics et vallées se produisent en termes de volume de trading. Donc, dans ce cas, pour Apple, le jour de volume le plus élevé était le 21e suivi par le 20e. Il y a clairement beaucoup d'activité ces jours-là, pour une raison quelconque, et ensuite comme un dernier ajustement. Remarquez comment les chiffres sont redondants ici. Puisque nous avons déjà du volume dans la colonne G et qu'ils se chevauchent avec les barres, c'est juste un peu laid. Donc peu de numéro de protestation, format personnalisé, trois demi-deux-points consécutifs appuyez sur OK. Et, Walla, vos chiffres deviennent invisibles. Et j'ai cette belle colonne de barre de données
propre sur sa propre. Donc c'est génial à ce sujet. Est-ce que vous savez, maintenant que investi quelques minutes et sorte de construire ce modèle en appliquant ces règles de formatage
conditionnel, je n'ai pas à le faire encore et encore comme je filtrais ou triais ou découpe et découpe ces données . Donc, par
exemple, au lieu d'Apple, peut-être que nous voulons regarder Amazon ensuite. Tu peux appuyer, OK. Notre mise en forme quotidienne de nos barres de données de tendance de volume toutes mises à jour automatiquement très, très facile. Et maintenant ici, je vois une tendance très claire où quelque chose s'est passé le 23 qui a causé prix des actions
Amazon à sauter de près de 27% et le volume des transactions à peu près exploser par rapport à n'importe quel autre jour dans l'échantillon. Maintenant, je sais que les gains ont été libérés le 23 qui étaient vraiment, vraiment positifs pour Amazon, qui a conduit ce jeu que nous voyons ici. Donc, dans l'ensemble, c'était un moyen
très rapide et très facile d'intégrer certaines visualisations et certains outils de style tableau de bord directement dans notre orteil pivot. Aidez-nous à raconter ces histoires et à comprendre exactement ce qui se passe avec les données brutes elles-mêmes. Donc, dans vos exercices de devoirs, vous passerez par un processus similaire. Mais au lieu d'analyser les différences de jour sur jour, vous allez creuser un peu plus dans les écarts de prix par jour. Mais la même logique s'appliquera, et avec cela, c'est son coup d'envoi rapide à l'étude de cas boursière.
6. Statistiques d'équipe de baseball: d' accord. Pour tous les fans de sport là-bas, cette prochaine étude de cas va être amusante. Un. On va regarder les statistiques de l'équipe de baseball, donc le résumé des ensembles de données. Nous examinons les statistiques des équipes des ligues majeures de baseball par saison pour 21 saisons de 1995 à 2015. Donc pas une tonne de lignes de données. Ce ne sont que 624 observations, mais nous avons un grand nombre de dimensions et de mesures avec lesquelles nous devons travailler. Les dimensions comprennent donc la date de début de saison, l'année, la ligue, le nom de l'équipe de division à la fois abrégé et complet. Et puis un binaire. Oui, pas de drapeaux pour indiquer si l'équipe a gagné la division, la wild card, la ligue ou le monde Siri. Donc, ces champs de drapeau binaire seront des outils vraiment utiles que nous pouvons utiliser pour filtrer et trier en termes de mesures. Vous avez toutes vos statistiques de baseball classiques ici. Jeux joués, victoires et défaites si vous atteignez des statistiques comme des points marqués à des chauves-souris, coups, doubles, triples, courses
à domicile, marches, retraits, des bases
volées, a pris voler puis lancer ou des statistiques défensives comme les courses autorisées, lescourses
gagnées, courses
gagnées moyenne de la course
gagnée, parties
complètes, les
exclusions et les arrêts. Donc on va seulement utiliser une petite poignée de ces champs, au
moins dans l'étude de cas, coup d'envoi. Mais ils sont à votre disposition pour que vous puissiez les explorer comme vous le souhaitez. Donc les concepts couverts dans ce coup d'envoi, nous allons parler de tri et de filtrage des trucs assez basiques que nous allons utiliser,
euh, euh, diagrammes de
pivot et des trancheuses et ensuite la pratique de vos champs calculés. Alors allons de l'avant et plongons déjà dans votre classeur d'étude de cas de tableau croisé dynamique ouvert. Allez-y et sélectionnez l'onglet Statistiques de l'équipe de baseball. Et nous avons juste une plage fixe de données ici pour pouvoir appuyer sur le contrôle A pour récupérer toutes ces données. En fait, nous ne voulons pas ces lignes supplémentaires, alors il suffit de sélectionner l'un des champs de la plage, appuyez à nouveau sur le contrôle a, et cela vous amènera juste à la ligne 6 25, ce que nous voulons. La compresse insérer tableau croisé dynamique sur une nouvelle feuille de calcul et allons de l'avant et nommer ce baseball, donner et le formater avec une belle nuance vert clair. Et nous y voilà. Donc tous ces champs avec lesquels travailler à nouveau, nous ne allons pas creuser dans tout, juste commencer à gratter la surface ici. Mais puisque nous examinons les données au niveau de l'équipe par année, allons de l'avant et prenons Year Dragon dans nos étiquettes de rôle. Maintenant, vous pouvez voir cette période de 21 saisons avec laquelle nous avons travaillé. Je vais prendre le nom complet de l'équipe et en faire un filtre ici, donc je me fiche de beaucoup de ces statistiques de composants pour l'instant. Je veux juste commencer par analyser les records de perte de gain. Donc je vais tirer dans W pour les victoires. L pour les pertes. Faites un peu de formatage ici. Donc, format numérique avec séparateur de milliers, pas de décimales, même format exact pour les pertes. On y va. Et faisons des noms d'en-tête personnalisés ici les victoires et les pertes. Et vous vous demandez peut-être pourquoi ces deux champs sont égaux en ce moment. C' est une bonne question, mais quand vous y pensez, nous examinons les données pour toute la saison dans toutes les équipes et pour chaque match donné, une équipe doit gagner, une autre équipe doit perdre, donc chaque match équivaut à une victoire et à une défaite puisqu'il n'y a pas d'égalité au baseball, donc cela n'a pas vraiment de sens quand on regarde la situation dans toutes les équipes . Mais quand on s'intéresse à une équipe particulière comme les Red Sox, par
exemple, on y regarde
maintenant. Des équipes particulières gagnent des records de défaite saison par saison, donc je veux une meilleure façon d'interpréter ces records de défaite gagnante. Donc, ce que je veux faire est d'ajouter le champ calculé que je veux appeler le pourcentage de victoire et qui sera défini simplement comme Vents ou W divisé par G, qui est des jeux joués. Appuyez sur OK, cliquez avec
le bouton droit de la souris et formater ce pourcentage avec un point décimal. On y va. Maintenant, nous avons une seule colonne qui capture l'information dans les
colonnes des vents et des pertes . C' est alors que le pourcentage de victoires des Red Sox était de 59,7 % en 1995. Maintenant, je peux utiliser ce champ pour vraiment commencer à creuser dans les données et à les analyser un niveau plus profond. Donc, par exemple, pour les Red Sox, je peux trier ces saisons en descendant par pourcentage de victoire. Dire que OK 2004 a été la meilleure année des Red Sox dans cet échantillon en termes de perte de gain à 60,5 % 2012 a été la pire année avec un pourcentage de victoire de 42,6. Tu sais,
et il en va de même pour n'importe quelle autre équipe. Je pourrais changer la sélection des Red Sox aux Cubs. Maintenant, je peux voir que l'année la plus forte des Cubs a été 2008 à 60,2, suivie de 2015 vous savez, et ainsi de suite et ainsi de suite. Il peut également prendre équipe drag team dans mes étiquettes de rôle et retirer l'année et appliquer le même genre de logique de tri, descendant par pourcentage de victoire pour avoir une idée des équipes qui ont le
record de perte de victoire le plus fort au cours de la échantillon entier. Donc, nous voyons qu'en général,
les Yankees étaient à peu près l'équipe la plus dominante sur cette période de 21 ans, avec un pourcentage moyen de victoire de 58,7. À l'autre bout du spectre, vous avez des équipes comme les Marlins et augmentez à 43 40% respectivement. Et maintenant, nous regardons juste une sorte de toutes les équipes disposées dans une seule liste. Mais nous pouvons également montrer les hiérarchies ici puisque nous avons les
dimensions de la division et de la ligue travailler avec. Donc, par
exemple, on pourrait mettre en place le chef de division dans les étiquettes de rang et diviser les choses par les équipes de la division
centrale. Les équipes de la Division Est et de la Division Ouest ont également tiré la ligue. Ajoutez un calque supplémentaire. C' est maintenant l'American League Central, la National League Central et
ainsi de suite. Et ce genre de donne juste un contexte différent à nos options de tri. Et nos pourcentages de victoires ici parce que nous examinons maintenant ces équipes classées par
pourcentage de victoires au sein de chaque division particulière. Et ce qui est cool dans cette vue, c'est que maintenant il peut explorer jusqu'à n'importe quelle année particulière ou saison 2015 par exemple, et ce juste visualiser est le classement final réel à la fin de la saison. Les Royals ont gagné l'American League Central, Blue Jays ont gagné l'American League East, les Cardinals ont gagné la National League Central et ainsi de suite. Donc une façon cool d'organiser cette vue en utilisant un tableau croisé dynamique. Mais allons-y et traînons la ligue et la division en arrière. Et pourquoi ne pas jouer avec certains de ces drapeaux binaires dont nous avons parlé pour la
ligue de victoire de division lorsque la victoire de wildcard et la victoire de World Series, qui verront ici dans ces quatre champs. Donc je vais glisser chacun de ces quatre champs dans mes filtres. On y va. Et maintenant ce que je peux faire est de sélectionner mes filtres d'année. Je regarde à nouveau l'échantillon entier et je modifie ces filtres. Vous pouvez voir qu'ils sont tous oui ou non pour dire,
OK, OK, montrez-moi une liste des équipes qui ont gagné leur ligue. Donc la victoire L g est une victoire de ligue. Voici donc une liste des équipes qui ont gagné leur ligue en une saison au sein de cet échantillon. J' ai donc les Braves, White Sox, les Anges ,
les Indiens, etc. Et la même chose vaut avec tout ça. Donc, les World Series gagnent. Montrez-moi toutes les équipes de l'échantillon qui a remporté les World Series dans l'une de ces saisons. Tellement cool. Maintenant, je sais quelles équipes ont remporté les World Series au moins une fois dans ces 21 saisons, mais nous pouvons aussi traîner dans l'année comme ça, pour voir quelles équipes une plus d'une fois et quelles années particulières ils ont gagné Donc braves seulement 11 fois en 95 Angels dans 2002 Yankees nous voyons 15 ans ils ont gagné en 98. 2009 1999. Si je veux trier ça, que se passe-t-il ? Outils concevoir un formulaire de plan de mise en page de rapport, qui divisera ces étiquettes de rouleau. Rendez-le un peu plus lisible aussi. Maintenant une année de consort la plus petite à la plus grande au lieu de classer par pourcentage de victoire et maintenant c'est un peu plus facile à lire. Ainsi, les Yankees ont gagné cinq fois en 96 98 99 2000 et 2009. Red Sox a remporté les World Series trois fois. Marlins deux fois. Géants trois fois, Cardinaux deux fois. Des trucs assez cool que nous pouvons extraire vraiment avec quelques outils de tri
et de filtrage de tableau croisé dynamique très simples . Mais revenons maintenant à notre vue des tendances du pourcentage de victoire d'origine. Donc je vais éliminer l'équipe et le filtre D ou non filtré, ce monde sérieux. Winfield. Et au lieu de montrer à la fois les victoires et les pertes avec le pourcentage de victoire, vraiment seulement besoin de pourcentage de victoire à ce stade. Donc, quand je retirerai les victoires et les défaites et comme nous avons parlé, le pourcentage de victoires sera toujours de 50%. Quand vous regardez toutes les équipes regroupées, je suis donc pourquoi ne pas aller de l'avant et sélectionner une équipe spécifique lorsque nous recherchons les Géants ici ? Filtrer juste sur les Giants de San Francisco ? Et maintenant, ce que j'aimerais faire est d'ajouter un graphique pivot pour aider à visualiser cette tendance et aussi potentiellement analyser certaines corrélations intéressantes. Donc, puisque j'ai ma vue simple configurée ici, je peux aller de l'avant insérer un graphique croisé dynamique directement à partir de mon option d'outils de tableau croisé dynamique et le graphique en colonnes fera très bien. Alors insérez cette colonne, graphique mon onglet analysé. Je ne veux pas de ces boutons de champ qui peuvent juste étaler ça hors de lui. Donc, cela fait un beau travail montrant le pourcentage de victoire des Giants. Comment il est tendance d'année en année pour que nous puissions voir où ils ont eu des saisons fortes, où ils ont eu des saisons faibles où peut-être ils reconstruisent l'équipe, mais une belle sorte de visualisation simple mais claire ici. Mais je veux aller un niveau plus profond et je veux qu'il comprenne ce qui pourrait être corrélé avec le
pourcentage de victoire . Donc, une chose qui vient à l'esprit et que vous pourriez adopter une approche différente, mais dans ce cas, pourquoi ne pas regarder la moyenne de frappe de l'équipe parce que la moyenne de frappeurs est un assez bon indicateur de la capacité de frapper, ce qui devrait, en théorie, se traduire par courir, marqué et donc les vents. Donc, je vais sélectionner un champ de mon tableau croisé dynamique, aller dans mes outils, champs, éléments et ensembles et ajouter un nouveau champ calculé pour un V, G ou moyenne, et qui sera défini comme hits ou H divisé par à chauves-souris ou un B. Donc c'est la moyenne de frappeurs. Lorsque j'appuie sur OK, vous verrez que ce nouveau champ a été ajouté à ma table et à mon graphique croisé dynamique. Et pour visualiser cela un peu plus efficacement, ce que je vais faire est en fait changer cela d'une colonne en cluster, dont il a par défaut un type différent de graphique. Je vais aller jusqu'à Combo, et je veux que mon pourcentage de victoire soit affiché sous forme de colonnes telles quelles, mais je veux que la moyenne soit affichée sous forme de graphique linéaire sur l'axe secondaire. Je choisis l'accès secondaire afin de pouvoir éditer chacun de ces Siri et chacun de ces axes indépendamment. Alors appuyez bien. Nous montrons maintenant nos deux mesures ou deux mesures à la fois, et déjà nous pouvons voir une assez belle corrélation entre la moyenne de frappeurs et le pourcentage de victoires . Maintenant, nous savons que la corrélation ne prouve pas nécessairement la causalité, mais dans ce cas, nous pouvons être assez confiants. Au moins directionnellement, cette performance de frappe est généralement un solide moteur de pourcentage de victoire. Alors maintenant, faisons juste quelques ajustements de formatage ici dans un format de clic droit. Les données Siri sont cette affaire au lieu d'orange. Je veux une belle ligne bleu foncé là-bas, et je préfère la ligne lisse pour pouvoir cocher cette case en bas. Et j'ai ma légende ici qui me montre quelle Siri je visualise sous forme de colonnes dans lesquelles Siri je visualise sous forme de lignes. Donc, ma dernière étape, vous savez, juste pour y ajouter un peu plus d'interactivité est d'insérer une trancheuse aussi bien pour toi et de cette façon. ce moment, je ne regarde que les Géants, que vous pouvez voir si nous faisons défiler vers le bas est le seul élément sélectionné. Mais de cette façon, vous pouvez sélectionner n'importe quelle équipe et avoir une idée de l'apparence de la corrélation et de
la façon dont le pourcentage de victoires et la moyenne de frappeurs ont tendance pour n'importe quelle équipe individuelle. Vous avez peut-être remarqué que ces marqueurs étaient formatés en orange. Pour être honnête, je ne sais pas pourquoi c'est arrivé. Mais si tu es curieux ou si tu ne l'aimes pas, je te montrerai comment changer ça. Vous pouvez revenir aux données de format. Siri va dans ta file d'attente. Il y a cet onglet de marqueur que vous pouvez cliquer sur Percer dans vos options de marqueur, et il a juste ajouté automatiquement ces cercles orange bizarres. Donc je vais dire, faisons des marqueurs intégrés avec ces petits diamants, taille 6 et quoi ? Remplissez-les de blanc et donnez-leur une bordure solide dans ce bleu foncé. Et je fermerais ça. On y va. Cela semble un peu mieux que l'orange aléatoire, et vous vous conformez à tout le reste, un peu comme vous le souhaitez. Vous pouvez mettre l'étiquette avec légende en bas, mais évidemment les options de mise en forme sont essentiellement infinies ici. Donc voilà,
évidemment une tonne de directions que nous aurions pu aller avec cet ensemble de données, mais j'espère que cette approche vous donnera quelques idées et quelques inspirations pour commencer à explorer ces données par vous-même
7. Ratages de San Diego Burrito: Ce prochain cas étudie un autre de mes favoris,
San Diego Burrito Ratings. Ce prochain cas étudie un autre de mes favoris, Donc, Data dit que nous avons ici inclut des notes de burrito et des commentaires Yelp de 65 différents restaurants de San Diego en 2016. Donc 237 observations. Échantillon relativement petit, mais un type vraiment intéressant de dimensions et de mesures inhabituelles que nous devons travailler avec. Dans ce cas, les
dimensions comprennent l'emplacement, le nom du burrito, la date recommandée, qui était l'évaluateur et toutes les notes supplémentaires. Et puis pour les mesures. Nous avons la cote Yelp, le coût du burrito, et puis tout un tas de 0 à 5 évaluations le long des différents éléments du burrito lui-même, sorte que la température de tortilla qui remplit le volume, l'uniformité, synergie de la salsa, quoi que cela signifie sur la qualité de l'emballage. Donc on va couvrir un concept différent ici. L' un des plus importants est le calcul à l'aide des colonnes Count, l'
un des concepts de déclenchement qui est vraiment important pour continuer à s'entraîner. Nous allons pratiquer les valeurs résumées en montrant les valeurs comme rang, puis faire quelques astuces de formatage
conditionnel vraiment agréable pour donner vie à ces données. Alors allons de l'avant pour exceller et sauter à droite dans tout droit. Donc, si vous avez ouvert votre cahier d'étude de cas de tableau croisé dynamique, nous allons travailler avec l'onglet Burrito de San Diego. Et contrôlons A pour tout saisir. Insérez un nouveau tableau croisé dynamique en déposant dans une nouvelle feuille de calcul que nous pouvons nommer burrito pivot, faites clic
droit pour changer la couleur de l'onglet en vert clair. Et nous sommes bien d'aller chercher eso à travers les champs et l'ensemble de données
avec lesquels nous devons travailler ici. Je suis comme nous avons parlé de vous pourriez remarquer que c'est un peu différent de certains des autres ensembles de données avec lesquels nous avons travaillé jusqu'à présent dans ce cas, toutes nos mesures, l'
exception du coût de nos évaluations sur une échelle de 0 à 5. Cela nous donnera donc une très bonne chance de pratiquer certaines techniques, comme les moyennes pondérées et l'utilisation de colonnes de comptage dans les champs sont calculés. Alors commençons cette étude de cas avec une analyse des scores par burrito pour que je puisse prendre burrito, le
glisser ici dans mes étiquettes de rôle, et ensuite tous les scores qui nous intéressent, nous pouvons tirer dans les valeurs. Donc peut-être qu'on n'a pas besoin des huit. Peut-être que nous ne nous soucions que de quelques-unes de ces températures comme la tortilla. Important. Bien sûr, vous avez besoin de bons sentiments et puis allons-y. Synergy semble être une bonne note. Nous avons donc quatre cotes différentes tortilla, garnitures
temp et synergie. Mais maintenant, vous pouvez voir qu'ils évaluent comme des sommes, ce qui n'a pas vraiment de sens ici. Vous savez, si nous devions évaluer un burrito donné pour un champ comme Tortilla et qu'une évaluation était un 41 était un cinq. Nous voulons évaluer cela comme une moyenne de 4,5, non pas la somme de quatre et cinq, qui est un neuf dans ce cas. Donc, il a changé les options de valeurs résumées de certaines moyennes orteils pour chacune de ces valeurs
résument par moyenne, et puis nous allons également faire. Il a changé le format numérique pour le rendre un peu plus lisible ici, donc je vais juste faire un nombre avec deux points décimaux au lieu d'un format général. On y va. Maintenant, nous avons nos quatre scores moyens pour les éléments individuels ou les composants
du burrito, et maintenant je veux créer une sorte de score moyen agrégé unique basé sur ces quatre cotes. Alors pourquoi ne pas jouer un peu avec ça ? Allez dans sont les champs calculés et l'appeler score total moyen. Maintenant, vous pensez que cela pourrait avoir du sens ici en termes de formule, pourrait être d'ouvrir une parenthèse et dire Bon, notre score total moyen devrait être notre score de tortilla, plus notre score de température, plus notre score de remplissage et enfin notre score de synergie. Fermez la division entre parenthèses par quatre pour prendre la moyenne et appuyez sur OK, maintenant, lorsque vous faites cela et qu'il tombe dans ce score total moyen, vous verrez que certains ont du sens. Comme pour 619 burrito original. Je sélectionne juste les quatre scores de composants ici. Je peux voir les moyennes 375 qui sont correctes ici dans la colonne F pour la toxicomanie, les trois moyennes, ce qui est exact. Mais alors j'en ai des comme deux et un où la moyenne devrait être 363 et je reçois 10.88 et ABA daba qui devrait être 355 Je reçois 24.88 maintenant. Je veux que vous preniez une minute et que vous mettiez en pause cette vidéo et réfléchissiez exactement pourquoi cela lieu. Alors pourquoi j'obtiens des scores supérieurs à cinq alors qu'en réalité, ils devraient tous faire la moyenne des quatre champs. Alors prenez une minute, réfléchissez-y, puis appuyez sur Play quand vous pensez avoir une réponse, d'
accord, pour que nous
puissions le comprendre. Cela revient au concept de champ calculé, où toutes les mesures ou mesures incluses dans une colonne calculée doivent être évaluées en tant que fils . Donc maintenant, parce qu'ils sont calculés, Field prend ces quatre scores tortilla temp remplissage et synergie. C' est prendre certains de ces quatre scores et ensuite diviser par quatre. Donc, dans les cas où il n'y a qu'une seule évaluation pour un burrito donné, la somme sera la même que la moyenne, donc un champ calculé nous donnera exactement ce dont nous avons besoin. Le problème réside dans les burritos qui ont plus d'un examen, et nous pouvons réellement voir ce qui se passe là-bas en tirant dans un autre cas de burrito, qui est une dimension et en l'évaluant comme un compte dans notre domaine des valeurs. Et maintenant, puisque c'est compter le nombre de fois que ce burrito est apparu dans l'ensemble de données et parce que leur ensemble de données est au niveau de l'examen. Nous savons que cela indique le nombre d'évaluations pour chaque étiquette de rôle particulière. Donc, les cas qui ont bien évalué sont tous des cas où il n'y a qu'un seul examen. En d'autres termes, il n'y a pas de différence entre évaluer un certain par rapport à une moyenne où nous voyons que les scores totaux moyens
incorrects sont pour tout burrito qui a plus d'un avis, comme deux et un ABA daba l réussi ou Californie et ainsi de suite et ainsi de suite. Et une chose qui est assez intéressante à noter ici est que si on prend, je vais juste effacer la liste des champs de tableau croisé dynamique pendant une seconde pour avoir plus de place. Si nous prenons le score total moyen de sont calculés champ et divisons par cette
colonne de comptage , le nombre d'avis, puis tout d'un coup, nous obtenons les nombres corrects. Donc deux et un, par
exemple, la moyenne à 363 363 Pour la Californie, la moyenne devrait être 365 365 Donc, en divisant le champ calculé que nous avions créé, qui est construit sur des sommes et en divisant ce total moyen score par le nombre d'avis, nous nous retrouvons avec le bon nombre que nous recherchons. Donc, si vous vous souvenez, nous ne pouvons pas ajouter un opérateur appelé Count of Burrito dans le champ sont calculés parce que nous avons encore besoin de sommes que nous ne pouvons pas utiliser de comptes. Donc, comme un travail autour, ce dont nous avons besoin, c'est d'un champ ou d'une colonne dans nos données dont le fils nous donne ces mêmes valeurs. Et puisque Count of burrito compte simplement Rose dans son ensemble de données, nous pouvons simplement créer une nouvelle colonne et attribuer chaque ligne avec une valeur de un afin que nous puissions ensuite certains d'entre eux, selon ces étiquettes réelles, pour donner nous la même réponse. Donc je sais que ça a l'air un peu plus compliqué que ça ne l'est vraiment, mais laissez-moi vous montrer ce que je veux dire. Aller à son burrito notes données brutes. Je vais insérer une nouvelle colonne ici, et nous l'appelons nombre d'avis parce que leurs données sont au niveau de l'examen et juste le type d' un. Appliquez-le vers le bas. Donc chaque ligne est égale à un. Dans ce cas, retour dans notre pivot burrito, il peut changer votre source de données, et comme il regarde seulement être par Q, il pourrait simplement changer ce B en un A ou il pourrait faire glisser manuellement la sélection et appuyer sur. OK, maintenant, si j'ouvre à nouveau mon champ, vous verrez que ce nombre de champs de révision est maintenant disponible pour moi. Donc, quand j'ai traîné cela juste à côté du nombre de burrito, la partie du nombre de critiques est maintenant exactement égale au nombre de la
dimension burrito . Et encore une fois parce que ces deux champs ou juste compter ceux de Rose juste le faire en utilisant une ization de
comptage d'été. L' autre que nous venons de créer, fait au cours d'une certaine période d'été. Et c'est celui que je peux maintenant utiliser dans le cadre de mon champ calculé. Alors sortons le burrito compté. Puisque nous n'avons plus besoin de cela et gardez un oeil sur ce score total moyen que nous allons aller dans le champ sont calculés, nous allons modifier cette définition et fondamentalement ce que nous allons faire est de prendre cette
définition exacte comme nous avons calculé ici et diviser tout cela par le nombre de commentaires qui nous donneront la bonne réponse. Donc, d'abord, les choses entourent tout cela avec un autre ensemble de parenthèses, puis divisez cela par le nombre de critiques, appuyez sur OK et voyez comment ces mises à jour pour nous donner le nombre exact que nous recherchons. Donc maintenant deux et un, 363363 Californie devrait être 365365 et voilà. Maintenant, nous avons la version correcte du score total moyen, que nous avons obtenu en utilisant la colonne comptable dans nos données brutes pour nous permettre de calculer ce champ correctement. Alors allons de l'avant et faites glisser ce score total moyen juste à l'avance après un certain nombre de commentaires. Et maintenant que nous avons une sorte de score total moyen comme notre KP I principal ou métrique clé ici, je veux vraiment attirer l'attention sur cette colonne comme point de comparaison entre les étiquettes de lignes . Donc, une façon de le faire est de tirer dans une deuxième instance de score total moyen. Et au lieu de montrer cela sans calcul, montrons ces valeurs comme un rang de grand à petit, où mon champ de base est le nom burrito. Maintenant, je peux voir le score total moyen sous la forme d'un classement sur toute cette liste. Donc deux et un est classé 17e dans cette liste en termes de score total moyen. Arizona est classé quatrième avec le score pour 13 Californie seul le fromage est classé troisième et ainsi de suite et ainsi de suite. Et maintenant vous savez, Comme toujours, j'ai ces champs disponibles pour les options de tri afin que je puisse trier descendant par ce score
total moyen . Et maintenant mes burritos classés numéro un sont inscrits au top Colima Spirito veg les deux avec des scores de cinq. Et puis à l'autre bout du spectre, mes burritos les moins cotés comme Camp A On et Chicken Asada, qui ont obtenu des scores de 25 et 238 sont listés ici en bas de la liste. Donc, cette colonne de classement est certainement utile. Nous pouvons en fait nommer le rang juste pour le rendre un peu plus clair. Mais maintenant, essayons vraiment de donner vie à ces données en utilisant un formatage conditionnel. Donc je veux déplacer le champ de classement devant mon score total. Je vais contrôler le décalage pour sélectionner cette colonne Total Score, et je ne veux pas le total général. Donc, en allant à la conception, tourner les totaux généraux de juste déplacer les clics, et j'ai sélectionné la colonne entière pour le score total moyen, je vais aller dans mon menu d'accueil , forme
conditionnelle et à une échelle de couleur ici du vert au rouge, parce que je veux mes scores élevés formatés en vert et mes scores bas formatés en rouge. Et lorsque vous faites défiler vers le bas, vous pouvez voir une sorte de ces nuances d'orange et de rouge comme les scores s'aggravent, va jusqu'aux jaunes et aux verts à mesure que les scores s'améliorent. Et maintenant, pour aller plus loin cette visualisation,
va sélectionner une de mes colonnes de score de composant et appliquer une règle de cellule de surbrillance. Et dans ce cas, tout ce que j'essaie de faire. C' est une sorte d'ajouter un peu plus d'informations sur les scores des composants qui déterminent le score total
moyen pour un burrito donné. Donc, au lieu de faire des échelles de couleur pour toutes ces colonnes aussi, ce qui pourrait être un peu occupé, je vais juste faire quelques mises en évidence. Règles cellulaires. Donc, dans les cas où le score est supérieur à quatre, mettons en évidence ces verts. Puisqu' il s'agit d'un score très fort, et ensuite, avec la même sélection en place, faisons une règle moins de surbrillance pour tous les scores inférieurs à trois, ce qui est un mauvais score avec un remplissage rouge et rouge foncé textes. Tout le reste ne sera pas formaté. Donc maintenant, pour cette colonne, il est beaucoup plus facile de voir des
scores exceptionnellement élevés ou anormalement bas et un petit conseil pro ici. Au lieu de passer par ce même processus trois fois de plus, je peux prendre toute cette colonne et utiliser un petit conseil dans le menu d'accueil appelé Format Painter. Si je double-clique sur cet outil maintenant, j'ai copié ce format exact, même s'il s'agit d'un format dynamique et
conditionnel. Et je peux simplement cliquer sur la première cellule de chacune de ces colonnes et appliquer la même logique de
mise en forme conditionnelle à chacune d'entre elles. Et une fois que j'ai fini, appuyez à nouveau sur ce bouton et vous l'avez là. Donc maintenant j'ai un très beau visuel qui me montre le score global ainsi que scores
individuels des composants, vous savez, mettant en évidence des valeurs exceptionnellement élevées ou faibles. Donc quelques tendances intéressantes ici, vous savez, nos meilleurs scores ont tendance à bien se passer à travers le tableau. Nous avons quelques cas où un burrito comme Deborah Special a vraiment bien fait en termes de température, mais pas si bien en termes de remplissage et vice versa. Donc, il y a des tonnes d'histoires différentes que vous pouvez maintenant commencer à extraire simplement en
regardant les visualisations ici maintenant, ajustement
final que je veux faire ici que vous avez peut-être remarqué est que beaucoup de ces burritos seulement avoir une seule évaluation, ce qui n'est pas nécessairement juste lorsque nous comparons la question à d'autres burritos qui pourraient avoir trois, six, 13 ou même 60 avis. Donc, ce que je recommande de faire pour rendre cela un peu plus d'une vue de pommes à pommes serait d'aller de l'avant et d'appliquer un filtre de valeur à la colonne Burritos et de choisir
plus grand que pour que nous puissions dire, regardons Onley les données ou burritos, où le nombre de critiques est supérieur à une presse. Ok, maintenant nous avons réduit notre point de vue pour plus de pommes à pommes comparaison entre tous les burritos qui ont au moins deux cotes. Et puis, bien
sûr, vous pouvez appliquer tous les autres outils de formatage que vous voulez. Vous pourriez centrer l'utilisé pour le rendre un peu plus lisible. Vous pouvez modifier les en-têtes de colonne, quel que soit votre choix. Mais ce qui est génial dans les tableaux croisés dynamiques, c'est que maintenant que j'ai mis dans tout ce travail pour créer cette vue et un modèle vraiment cool. Je peux alors simplement échanger des étiquettes de rouleau, agréger ou découper ou des données de différentes manières sans avoir à recréer l'une de ces règles de
formatage. Donc, par
exemple, c'est
ce que vous ferez dans vos devoirs. Je peux sortir burrito, et au lieu de noter par burrito, je peux évaluer par lieu. Et la seule chose qui doit changer ici est la colonne Rank. Depuis que ça utilise un parent de burrito. Maintenant, mon champ de base est l'emplacement, et nous l'avons là pour que je puisse passer par le même processus que mes emplacements, descendant du score total moyen. Et là, vous l'avez. Donc, tout comme nous avions analysé les burritos au début, maintenant nous avons appliqué très rapidement le même type d'analyse aux emplacements. Donc,
vraiment, des outils vraiment puissants ici pour extraire des tonnes de perspicacité de ces données,
et cela termine son étude de cas. Coup d'envoi. Maintenant, c'est à ton tour de se salir les mains.
8. Conditions météo quotidiennes: d' accord. Notre prochaine étude de cas sur les conditions météorologiques quotidiennes, et l'ensemble de données qui s'y trouvent doivent travailler avec. Voici les données météorologiques quotidiennes de Boston, Massachusetts, de janvier à décembre 2016. Donc, nous avons en fait un peu moins d'une année complète de données 363 lignes avec lesquelles travailler. J' ai des dimensions comme la date et le type de conditions. Pluie claire,
neige, puis quelques mesures pour capturer la température maximale pour la journée. La température moyenne, température
minimale, vitesse
maximale du vent et toute précipitation en pouces. Ainsi, les concepts qui couvriront dans ce coup d'envoi incluent le tri et le filtrage des graphiques croisés dynamiques , regroupement de
dates et le calcul avec le nombre. Alors, nous allons entrer. Donc, dans votre classeur d'étude de cas de tableau croisé dynamique, allez de l'avant et cliquez sur l'onglet Conditions météorologiques quotidiennes et avec l'une de ces valeurs sélectionnées, appuyez
simplement sur la touche Contrôle. A. Pour saisir l'ensemble de la plage de données. Insérez le pivot dans une nouvelle feuille de calcul. Nous appellerons ceci un pivot météo et formater cette couleur d'onglet avec le vert clair, et voilà. Nous avons donc notre point de départ, et maintenant pour lancer les choses, j'aimerais commencer par regarder les températures moyennes moyennes pour voir comment les choses évoluent jour jour et au cours des mois et des saisons. Alors commencez par tirer la date. Vous remarquerez qu'il les regroupe automatiquement deux mois. C' est très bien. Je vais commencer par tirer des mois dans le champ des filtres pour que je regarde juste par jour pour commencer. Et puis, en termes de valeurs, saisissons la température moyenne tombant en valeurs. Je remarquerai qu'il est par défaut au soleil, qui parce que leurs données sont au niveau quotidien. Cela nous donnerait la bonne réponse, mais nous ne voulons pas. Certaines de ces températures lorsque nous regardons les données par mois ou par année ou à n'importe quel
niveau ou vue agrégé afin que nous puissions faire est de changer l'estimation estivale à la moyenne. Comme vous pouvez le voir, c'est exactement la même chose que certains au niveau quotidien, mais maintenant va prendre la moyenne quand nous roulons cela deux mois, années ou
autre chose . Donc, avec la température moyenne ici pour m'aider à visualiser comment les choses bougent, je peux sélectionner cette colonne entière, en fait me débarrasser des totaux généraux et juste sélectionner les données elles-mêmes, et à partir d'ici, ce que je veux faire est insérer une échelle de couleurs, donc je vais aller dans les formats conditionnels à la maison échelles de couleur et j'aime ce rouge au
bleu parce que le genre de bleu se sent froid et Redfield est chaud. Je vais choisir cette échelle de couleurs spécifiquement et déjà au fur et à mesure que
vous faites défiler, vous pouvez voir comment elle passe du bleu au rouge puis au bleu alors que nous allons
au printemps, en été, été, automne et en hiver. C' est donc assez cool en soi, juste comme une astuce de visualisation. Évidemment, je peux aussi appliquer des options de tri ici, donc OK, descendant par temp moyenne me dira le jour le plus chaud de l'année, qui était le 12 août. Avec une température moyenne de 86 degrés. Je pourrais soit faire défiler tout le chemin vers le bas ou tout simplement changer mes options de tri pour voir l'état le plus froid de l'année, qui était la Saint-Valentin 2016 vraiment froid. La température moyenne était de zéro degré, ce qui est en fait 11 degrés plus froid. Puis le deuxième jour le plus froid, qui était le 15. Et au fur et à mesure que vous faites défiler, il est plutôt cool de voir ces échelles de couleur se déplacer progressivement au fur et à mesure que les valeurs changent. Alors, voilà. C' est une belle façon d'explorer les températures au niveau quotidien. Mais maintenant, faisons sortir la date, tirez le mois dans l'image. Donc, cela nous raconte la même histoire exacte ici, juste à un niveau plus élevé de granularité. Donc maintenant, nous pouvons voir la tendance de niveau plus élevé par mois, où Janvier et Février sont
très, très froid commence à se réchauffer en Avril, Mai ,
Juin, puis vous avez Juillet et Août, qui sont les plus chaudes et commence ensuite à se refroidir à l'automne en direction de décembre . Donc, cette échelle de couleurs n'est pas vraiment agréable de visualiser les changements mensuels de température . Mais j'aimerais également ajouter un graphique linéaire pour vous aider à visualiser cette tendance ou à la montrer encore plus clairement. Donc, nous allons faire pivoter les outils de tableau
croisé dynamique, et sélectionnons la ligne ici et appuyez sur OK, je ne peux pas me débarrasser de certaines de ces fonctionnalités. Vous n'avez pas besoin des boutons de champ. Je n'ai pas vraiment besoin d'une légende ici, puisque nous ne regardons qu'un seul Siri et pour le titre, nous pourrions juste appeler ça temp moyen par mois. Rendez ce titre en gras, étalez-le un peu et là vous allez et vous savez juste en termes de formatage est un peu pointilleux
nit. Mais dans un cas comme celui-ci,
ce que j'aimerais faire est d'ajouter des étiquettes de données, puis de les formater un peu. Je veux les montrer en haut donc au-dessus des points de données, et je veux changer un peu le format de nombre, faire un nombre avec peut-être un point décimal, et ensuite nous pouvons fermer cela. Donc, cela aide juste un peu plus de voir la tendance et aussi formater les données que Siri
va remplir et aligner. J' aime utiliser une ligne lisse. Ici, c'est bien à nouveau. C' est juste une sorte de ma préférence. Tu n'as pas à faire ça si tu n'aimes pas, mais voilà. Maintenant, nous voyons une forme très nette de bosse en juin, juillet ,
août, puis une étude en octobre, novembre, décembre. Donc, à partir de là, nous pourrions aussi aller de l'avant et ajouter une chronologie. Puisque nous avons un champ de date et que nous déposons une chronologie aussi,
essentiellement, essentiellement, ce que cela va faire, c'est qu'il nous donnera une sorte d'outil que nous pouvons utiliser pour couper cette vue Donc moment, nous regardons tous les 12 mois. Mais si nous nous soucions seulement de la première moitié de l'année, par
exemple, nous pouvons utiliser la chronologie pour une sorte de point de vue, vous savez, peut-être que pour le second semestre de l'année. Voilà, tu y vas. Et vous pouvez voir à la fois la table et le graphique se mettre à jour en conséquence. Si joli petit outil de visualisation que nous pouvons regarder orteils, analyser les températures par mois. Évidemment, nous pourrions faire exactement la même chose avec la température maximale min, précipitations de vitesse
du vent. Donc, je recommande d'explorer cela et peut-être de tester des visualisations similaires avec différents champs. Donc la prochaine chose que je veux démontrer juste dans cette étude de cas coup d'envoi est que maintenant que j'
ai un bon sens des températures moyennes par mois maintenant, je suis curieux de creuser un peu plus profondément dans le Max et Min Temps, et plus précisément, je veux regarder la température répandre par jour. Je veux donc voir quels jours ont vu les plus grandes différences entre la température Max et la
température de menthe . Donc, au lieu de manipuler ce pivot et de ruiner mon graphique, en fait, vais
juste sélectionner tout ce tableau croisé dynamique, le
copier et ensuite le coller ici. Donc préservé le travail que nous avons fait. Il suffit d'avoir une deuxième instance de la table croisée dynamique à travailler ici. Alors allons-y et sortons des mois. Il est de revenir au niveau quotidien maintenant, glisser dans la température minimale et la température maximale à nouveau. Depuis que je suis niveau quotidien, il n'a vraiment pas d'importance ce que l'été ization Modi utiliser, mais parce que je sais que je vais rouler ces jusqu'à mensuellement. À un moment donné, je vais changer ça des moyennes des orteils. Et je veux créer un champ calculé pour me donner cette propagation dont je parlais. Je vais aller dans les outils de tableau croisé dynamique, les champs, les éléments et les ensembles. Appelons ça les tentent de se propager. Et vraiment, la seule chose qui a du sens ici est de prendre Max moins. Les hommes appuient sur OK, et cela semble être évalué correctement, au moins au niveau quotidien. Donc, pour n'importe quel jour ou date, je peux voir la propagation. Le 14 février, le plus bas était négatif. Neuf. Le haut était 12 qui est étendu de 21 15e propagation était de 4 à 35 ce qui était une temp 31 et je peux utiliser ce champ de propagation temp maintenant comme une option de tri. Alors, quel tri descendant par propagation de température pour voir quel jour dans notre échantillon a montré la plus grande différence entre temps élevé et temps bas. s'avère que c'était le 9 mars, où il avait une température basse de 40 et un sommet de 77, ce qui équivaut à la propagation de 37 degrés. Donc, c'est cool, et c'est utile. Mais maintenant, disons que je veux voir ce temps moyen se répandre par mois plutôt que par jour. Vous savez, pour voir s'il y a un écart plus important pour certaines saisons ou s'il y a une tendance qui pourrait être intéressante à voir au niveau mensuel. Alors échangeons la date avec des mois, et ici nous voyons que notre temps s'est propagé tout à coup est totalement fou. Donc, nous voyons une propagation de la tentative de 433 degrés en janvier, et à ce stade, vous devriez commencer à comprendre pourquoi ce type d'erreur se produit, et c'est parce que le temps spread est un champ calculé. Les champs calculés doivent utiliser des sommes pour tous les champs en entrée qui entrent dans la formule, et dans ce cas, les champs en entrée sont la température minimale et la température maximale. Donc, ce que je veux de façon réaliste, c'est une formule qui dit : Soustraire la température minimale moyenne de la température maximale moyenne et me donner cette différence. Donc, dans ce cas, vraiment, ce que je veux est 39.484 moins 25.516 Donc, cela devrait vraiment être évalué à 13.97 au lieu de 4 33 Mais comme nous avons parlé,
nous ne pouvons pas entrer dans le champ sont calculés va essayer de se propager. Et nous ne pouvons pas dire Donnez-moi la température maximale moyenne moins la tente minimale moyenne. Ça ne marche pas. Donc, ce dont nous avons besoin est une colonne d'aide ou une nouvelle colonne et son ensemble de données réelles qui prendra le compte et évalué comme un fils que nous pouvons utiliser dans notre formule. Alors allons de l'avant dans les conditions météorologiques quotidiennes. Il suffit d'ajouter une nouvelle colonne après un nous l'appellerons un certain nombre de jours. Puisque nos données sont au niveau quotidien, ça va prendre une valeur de 1. Voyez qu'il est par défaut un format de date, alors modifions simplement cela en un nombre. Appliquez-le vers le bas. Donc maintenant, nous avons une valeur d'un dans chaque ligne pour ce nouveau nombre de jours dans mon pivot, vous pouvez aller de l'avant et actualiser ce pivot. Il y a un nombre de jours, et maintenant ce que nous devons faire est de convertir la formule que nous avions écrite à partir de la
température maximale et de la température de menthe, qui est la valeur par défaut. La seule option. Nous devons changer cela au maximum moyen chez les hommes moyens. Donc, pour évaluer la température maximale moyenne, puis-je prendre le tempérament max la somme de la température Max et divisée par le nombre de jours ? C' est la même chose que de prendre la tente maximale moyenne. Je vais faire la même chose ici avec une parenthèse d'ouverture de température minimale divisée par le nombre de jours et la fermer. Donc maintenant cela se traduit par la température maximale moyenne moins la température moyenne des hommes. La presse. OK, voilà. Donc 13.967 Je pourrais juste ajouter ce calcul manuel dans une vérification ponctuelle à nouveau, le
faire glisser vers le bas et c'est juste sur le point. Donc, cette nouvelle formule que nous avions écrite en utilisant cette colonne de comptage dans nos données brutes a fait exactement ce que nous voulions faire. Et à partir d'ici, nous pouvons simplement former à ce que vous savez, un moyen plus convivial. On peut même sortir les hommes et Max si on le choisit. Mais maintenant, comme toujours, affaiblir tri basé sur ce nouveau champ, pour dire ok en général, Février au moins en 2016 a été l'année avec la plus grande propagation de température moyenne d'un peu plus de 18 degrés. Auras Décembre a eu la plus petite propagation moyenne de la température de 13,36 Donc genre d'intéressant . Je ne suis pas sûr qu'il y ait beaucoup de tendance ici. On dirait que les mois d'été sont comme Juin Juillet 10 Août. Pour montrer assez grandes étendues de température ici sur les mois les plus froids ont tendance à montrer plus petites. Bonjour, Février ressemble à une exception à cette règle. , Quoi qu'il en soit, juste un autre angle intéressant que nous pouvons utiliser pour analyser ces données météorologiques. Il y a donc notre coup d'envoi pour l'étude de cas de météo quotidienne. Donnez une photo aux questions de devoirs et faites-moi savoir si vous avez des questions
9. Posts Facebook Spartan: d' accord. Notre prochaine étude de cas est amusante, et il est en fait en regardant les données Facebook de la course Spartan. Donc, dans ce cas, nous avons 393 rangées de données qui montrent réellement les messages Facebook de la course Spartan d'août à octobre 2016. Maintenant, nous avons des dimensions vraiment intéressantes à travailler avec. Ici, nous avons le nom de la page, qui est la course Spartiate, la date de la copie de la Poste, un lien vers le post lui-même. Quel type de poste il s'agissait, il
s'agisse d'une photo de l'état de la vidéo ou d'un événement, l'heure où le message a été publié et de l'heure de la journée. Alors après-midi, soir, matin, etcetera. En ce qui concerne les mesures,
vous disposez de vos mesures d'engagement standard sur les réseaux sociaux, telles que les partages, les
réactions, réactions, goûts et les commentaires. Nous allons donc aborder quelques concepts différents dans cette étude de cas. Nous allons faire un examen rapide des valeurs d'affichage, comme avec le pourcentage de colonne, va dans les champs calculés, puis faire quelques démonstrations avec des
calculs légèrement plus avancés en utilisant des colonnes de comptage dans les données brutes. Alors allons de l'avant pour exceller et plonger déjà dans le cahier d'étude de cas de tableau croisé dynamique , Allez-y et trouvez l'onglet Post Facebook de la course Spartan. Et avec l'une de ces mesures ou cellules sélectionnées, appuyez
simplement sur la touche Contrôle. R. Pour saisir toutes ces données, nous allons insérer un tableau croisé dynamique sur une nouvelle feuille de calcul et appelons-le Spartan Pivot et lorsque vous êtes droit, cliquez et changez simplement cette couleur d'onglet en vert clair. Et maintenant, avant de plonger,
faisons semblant d'être l'analyste marketing de Spartan Race, et nous avons été chargés de mieux comprendre les courses Spartan, performances
Facebook et la stratégie d'affichage. Maintenant, si c'est les mesures de cas qui m'intéressent vraiment en termes d'yeux KP, voici ces mesures d'engagement comme les partages, les
réactions, réactions, goûts et les commentaires. Et comme nous avons des dimensions vraiment intéressantes et
intéressantes à travailler, ce que j'aimerais savoir, c'est comment ces mesures d'engagement ou les taux d'engagement diffèrent-ils selon les copies postales, types de
poste ou les courses Wen Spartan certaines choses si j'espère que je peux utiliser des tableaux croisés dynamiques
et des graphiques croisés dynamiques pour extraire quelques informations intéressantes de ses données et les utiliser pour aider Spartan course à optimiser sa stratégie Facebook. Donc, avec cela, commençons assez haut niveau et utilisons simplement compte de l'ization estivale pour avoir une idée de la façon dont les messages des courses Spartan ont tendance à être distribués de différentes manières. Donc, si je cherche un compte, je peux tirer l'une de ces dimensions ici. Utilisons Post copy, par
exemple, et quand je le fais glisser dans des valeurs, car ce n'est pas une mesure numérique, il sera par défaut, dont
compte simplement la rose. Donc 393 il y a le nombre total de lignes dans mon ensemble de données, qui est exactement ce que je veux. Gardez à l'esprit que je pourrais tirer n'importe quoi ici date de la page de poste, et j'obtiendrais le même nombre de métriques parce que nous comptons juste Rose ici. Très simple. Et maintenant, ce que je peux faire avec ce compte, c'est ensuite tirer un autre champ dans mes étiquettes de route pour
briser ce compte à rebours. Commençons donc par les photos de lien d'événement de type post, l'état ou la vidéo. Et ce que cela me dit, c'est le nombre de fois où chaque type de messages est apparu dans notre ensemble de données afin que nous puissions trier ces messages descendant par le nombre et voir que les messages vidéo étaient les plus courants . Il y avait 195 messages spécifiques à la vidéo dans cet échantillon, suivi d'une photo à 1 56 et puis vraiment pas beaucoup de messages d'événement de lien ou d'état du tout. Et une chose que nous pouvons faire est très simple. Juste pour visualiser cette tendance un peu mieux à un graphique croisé dynamique, jetez quelque chose comme une tarte ou un beignet ici aussi. Juste pour visualiser ces chiffres que nous regardons dans notre tableau. Et je vais juste me débarrasser de ces boutons de champ et je vais faire un clic droit sur Siri. Je veux rendre le tout un peu plus petit, préférence
totalement personnelle. Donc, pour vous, j'ai été changer le titre de ce nombre de messages. Depuis n'oubliez pas, le compte compte compte. Les lignes et les lignes représentent des publications individuelles. Donc essentiellement, ce que nous examinons ici est le nombre de publications qui tombent dans chaque compartiment d'une
étiquette de ligne . Donc, je peux voir ici que la vidéo représente à peu près la moitié des messages, et la photo représente un grand pourcentage qui ne sont vraiment pas beaucoup de ces autres types de poste ici. Et maintenant que j'ai ce graphique en beignes en place, je peux simplement échanger dans différentes dimensions sans avoir à reconstruire mon graphique. Donc, par
exemple, sortons le type de poste et tirons l'heure de la journée dans et trions à nouveau ces décroissant par le nombre. Lorsque nous le faisons, nous pouvons voir que plus de la moitié des messages ont été affichés le soir,
suivi de tard dans la nuit, puis de l'après-midi. Et vraiment pas beaucoup de messages le matin du tout. Vous pouvez même creuser plus profondément que cela pourrait prendre du temps de la journée, en fait faire notre de post et trier ceux qui descendent par le compte. Et ici, vous pouvez voir que 23 heures en début d'après-midi est un moment assez courant pour poster. Et puis je sais que c'est un peu difficile à lire. Toutes ces étiquettes ne recommanderaient pas d'utiliser des beignets ou des tartes lorsque vous avez ces coupes d'
argent de vos données. Mais juste Teoh illustrer ce que je veux dire. Vous avez des temps de volume très bas à 2347 , ce qui est tout à fait logique. Donc maintenant que nous savons genre de la distribution des postes, nous savons quand la course Spartiate a tendance à poster le plus souvent, et quels types de postes ont tendance à être le plus commun maintenant, tant qu'analyste, le prochain niveau de perspicacité que j'ai besoin pour arriver à la façon dont les taux d'engagement se décomposent réellement en fonction de ces différentes dimensions. Donc, je veux vraiment commencer avec le type de poste. Alors allons de l'avant et sortons notre poste d'ici. Vous pouvez vous débarrasser de notre tableau de donut, et nous pouvons juste tirer le type de post dans nos étiquettes de rôle sorte de l'endroit où nous avons commencé. Et maintenant, puisque nous voulons commencer à regarder l'engagement réel, puisons dans certains de ces domaines. Les deux actions, réactions, les goûts et les commentaires. Vous remarquerez que les actions sont par défaut en compte. C' est probablement parce qu'il y a au moins une ligne vide dans la colonne. Donc, tant que je suis conscient de ce n'est pas une grosse affaire, nous pourrions juste changer le mode d'ization d'été à un certain, puis les réactions, goûts et les commentaires tous évalués à certains. Donc tout est prêt maintenant. Allons-y et changeons le format de nombre pour ajouter un séparateur de milliers là-dedans, vraiment, juste pour le rendre un peu plus lisible. Vous n'avez pas vraiment à faire ça, mais j'aime garder tout cohérent et poli autant que possible. Alors on y va maintenant. C' est intéressant. J' ai ces quatre indicateurs de composants, mais je veux vraiment qu'une mesure me donne des engagements totaux. Et puisque les likes sont un sous-ensemble de réactions, il n'y a vraiment que trois composants ici que je me soucie des actions, des réactions et des commentaires. Nous allons donc aller de l'avant dans les outils, les champs, les éléments et les ensembles créer un champ calculé appelé Total des engagements. Et la formule est un simple que prendre les actions, plus les réactions plus les commentaires. Whoops, plus les commentaires. Et on y va. On est prêts à y aller. Il y a donc des engagements totaux. Et tout de suite,
nous pouvons voir que les photos ou la deuxième ligne ici ont tendance à générer une tonne d'engagements totaux, particulier beaucoup de réactions et de goûts Les vidéos Where génèrent également beaucoup d'
engagements totaux . Ils génèrent plus d'actions et de commentaires en général. Donc quelques tendances intéressantes commencent à émerger ici déjà. Mais une chose à retenir est que c'est un volume pur que nous examinons les sommes , et il est agrégé entre les publications. Donc, ce n'est pas vraiment une comparaison juste sans tenir compte du nombre réel de messages qui tombent dans chaque catégorie, qui capturaient ici et la colonne B. Donc,par
exemple, par
exemple, parce que les messages de lien seulement conduit 9000 engagements au total. Cela ne signifie pas nécessairement qu'il y a des artistes moins performants que les photos ou les vidéos, car il n'y a que 31 postes qui tombent dans cette catégorie, contre 156 pour la photo sur 195 pour la vidéo. Alors, ce qui serait un plus approprié plus de pommes aux pommes ? La mesure du rendement ou de l'engagement relatif est les engagements par poste. Donc, ce que cela signifie, c'est que nous avons besoin d'une colonne comptable que nous pouvons utiliser dans notre formule de
champ calculé . Puisque nous ne pouvons pas prendre notre calcul de l'engagement total et diviser par le nombre de copies postales, ce serait exactement ce
que nous voudrions faire. Mais malheureusement, nous sommes limités à Lee à utiliser la somme d'un champ donné donc nous ne pouvons pas diviser par le nombre de quoi que ce soit d'autre. Donc nous avons pratiqué ça quelques fois. Ça devrait devenir une sorte de seconde nature maintenant. Nous pouvons revenir dans nos données brutes. Il suffit d'insérer une nouvelle colonne ici. On l'appellera nombre de messages. Depuis leur date est au niveau de la poste, a dit qu'il égal orteil un. Appliquez-le. Assurez-vous juste qu'il est allé jusqu'au fond. Doux et retour à notre pivot et rafraîchir. Maintenant, une chose à appeler, vous verrez que notre colonne de fiançailles totales a été déchirée. Il y a cette erreur de nom maintenant. Parfois, ça arrive. Parfois, cela ne le fait pas quand cela arrive,
cela signifie simplement qu'il est lancé une erreur de référence après avoir actualisé un pivot afin que nous puissions aller dans une formule d'engagement total et voir qu'il a perdu la référence à ces champs, probablement parce que ces colonnes se sont décalées lorsque j'ai ajouté mon nouveau nombre de colonne Post dans les données brutes. Donc pas une grosse affaire. Nous pouvons simplement redéfinir ce champ comme nous l'avions auparavant, comme des actions plus des réactions plus des commentaires. Donc juste une tête en haut. Parfois, ça arrive. D' autres fois, ce n'est pas le cas. Je ne sais pas pourquoi. Cela n'arrive que parfois, mais c'est une solution assez facile à faire. Donc maintenant que nous avons notre colonne de nombre de messages ici, nous pouvons comparer cela avec Count of Post Copy et confirmer que certains nous donnent les mêmes valeurs que le nombre. Donc, ce champ est celui que nous pouvons utiliser dans notre calcul. Il peut extraire le nombre de copies postales, et maintenant c'est la tête de retour dans les champs, les éléments et les ensembles. Nous allons créer un nouveau champ calculé appelé engagements par poste, et cela va simplement égaler le sentiment d'engagement total que nous avions calculé divisé par la nouvelle colonne que nous venons de créer appelée Nombre de messages et de presse. OK, c'est formater ça en un nombre. Je n'ai pas vraiment besoin de points décimaux ici et maintenant nous avons des engagements par poste qui tiennent
compte du nombre de publications, et cela nous donne le montant moyen d'engagement pour chacun de ces compartiments. Donc, maintenant, lorsque nous trions en fonction de ces nouveaux engagements de colonne par poste, nous avons maintenant une sorte de mesure plus précise et
plus réaliste de l'engagement relatif. Donc, pour les messages photo, le post moyen génère 945 vidéos d'engagement sur Lee 7 34 et alors nous voyons effectivement le même genre de messages à faible volume également sous-performants en termes d'engagements par poste. C' est une découverte intéressante, vous savez, dans un aperçu que je pourrais garder à l'esprit, ce qui a beaucoup de sens. Et, vous savez, cela aide également à valider pourquoi nous voyons tant d'attention accordée aux messages photo et vidéo parce que, comme nous pouvons le voir ici, ont tendance à générer une quantité d'engagement beaucoup plus élevée que les autres types de poste. Ce n'est pas le cas. Nous pouvons continuer cette analyse en retirant le type de poste et l'heure de la journée et en triant l'heure de la journée par engagement par poste. Maintenant, nous voyons ce matin Onley avait environ 16 postes dans l'échantillon, notre poste le matin. Mais parmi ces 16, les engagements pour le poste étaient vraiment, vraiment forts. 909, ce qui est plus élevé que la moyenne pour l'après-midi, tard la nuit ou le soir. Si nous voulons forer encore plus profond, affaiblir, prendre la copie postérieure traîné que dans son rôle secondaire Able changeur conception plan de mise en page de rapport Et maintenant, nous pouvons voir quels messages réels ont conduit. Une telle performance de ce sont les 16 poteaux qui sont tombés dans ce seau du matin. Et si nous trions ces au niveau de la poste, descendant par engagements par poste maintenant, nous pouvons voir le droit se débarrasser de ma liste de champs juste pour rendre un peu plus visible. Maintenant, nous classons essentiellement nos postes par engagement par poste, qui à ce niveau est exactement le même que les engagements totaux, et nous pouvons voir que ce poste, qui est un poste de transformation spartiate, vraiment surperformé contre les autres ont capturé 2500 engagements totaux, ce qui a vraiment aidé les orteils à relever la moyenne globale au niveau du moment de la journée. Un aperçu vraiment intéressant. Une fois que vous effectuez une exploration vers le bas jusqu'au niveau de publication réel et que vous pouvez même revenir à votre liste de
champs, vous pouvez extraire les heures de sortie de la journée. Maintenant, nous examinons tous les messages individuels de notre échantillon, triés par engagement par poste juste pour voir quel type de flotteurs jusqu'au sommet de notre liste. Donc nous avons cette copie qui dit que nous ne sommes pas sûrs à 100% qu'il effectue une
poussée complète bla, bla, bla, bla. Si nous apportons un lien aussi bien, nous pouvons effectivement copier ce lien et le coller dans un navigateur pour voir ce que Post c'était dans ce cas. C' était un ours polaire qui faisait des Burpees. Donc nous l'avons là. C' est notre coup d'envoi à la course Spartan Facebook Data étude de cas beaucoup de
façons vraiment intéressantes de creuser dans ces données, et nous avons vraiment commencé à gratter la surface ici. Alors allez-y, explorez ces données, jouez avec, essayez les exercices de devoirs et donnez-moi une chance. Si vous avez des questions
10. Réalisation et prochaines étapes: D' accord. Félicitations. Vous êtes arrivé jusqu'à la fin du cours. Joliment fait. J' espère que vous avez appris de nouvelles choses. J' espère que vous avez ramassé quelques trucs et astuces et outils en cours de route. J' ai eu beaucoup de plaisir à enseigner ça. J' espère que vous avez ressenti la même chose au sujet de l'apprentissage et que vous voulez juste couvrir une ressource rapide est et les prochaines étapes pour vous aider à décider où aller d'ici. Donc numéro un, si vous cherchez à devenir une star du rock Excel absolu, recommande de compléter la pile analytique complète avec mes deux autres cours. Obtient des formules et des fonctions Excel avancées. J' ai des données viz avec des graphiques Excel et des graphiques, la fois un très complet, vraiment complet. Si vous pouvez passer à travers les trois, alors vous serez un expert Excel certifié et une rock star. Alors, regarde ceux qui suivent. Voici quelques ressources suivantes est si vous avez besoin de quelques questions de support supplémentaires. Le site Web de point de bureau de support est vraiment utile, en particulier avec les choses de base comme la syntaxe de formule. Vous pouvez également y aller pour consulter Office 3 65 que je recommande fortement. Fondamentalement, c'est un service basé sur un abonnement d'environ 15 dollars par mois. Il vous donnera accès à tous les produits de bureau les plus récents en temps réel au fur et à mesure qu'ils sortent . Donc encore une fois, fortement recommandé Office 3 65 Next up Stack Overflow est un site vraiment utile, vraiment formidable pour des questions plus avancées ou des questions spécifiques au projet. Et enfin, Power Query et Power bi I. C'est un livre de Rob Kali. Vous pouvez l'acheter sur Amazon, et pour ceux d'entre vous qui ne connaissent pas Power Query et Power pivot Power Bi I l'air des vraiment, outils et des capacités
vraiment,vraiment puissants que Microsoft a commencé à intégrer dans Excel , en particulier ces dernières années. Et ils ont ouvert un tout nouveau monde de capacités de modélisation et d'analyse de données que vous ne pouvez pas faire avec les formules cellulaires traditionnelles. Tableaux croisés dynamiques. Donc, si vous voulez amener vos analyses et vos compétences B I à un niveau complètement différent, consultez ce livre. Voyez de quoi il s'agit. Recommander fortement de commencer là et puis dernier mais pas le moindre, vous savez que les notes de forage et les commentaires sont ce qui maintient des cours comme celui-ci en vie. Alors s'il vous
plaît, faites-moi savoir ce que vous en pensez. J' adorerais entendre parler de vous. Dernier point, mais pas le moindre, une finale. Énorme. Merci. Vous êtes les meilleurs. Merci d'avoir choisi ce cours. Merci de rester à travers tout le chemin jusqu'à la fin. Vraiment ? J' apprécie que vous preniez le temps, soyez fiers de ce que vous avez accompli. Et j'espère vous voir dans la prochaine.