Sciences appliquées des données - 1 : Vue d'ensemble

Kumaran Ponnambalam, Dedicated to Data Science Education

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

- 1.
  
  À propos de la science de données appliquées
  
  8:12
- 2.
  
  Qu'est-ce que la science de données
  
  11:51
- 3.
  
  Qu'est-ce que la science de données
  
  10:44
- 4.
  
  Qu'est-ce que la science de données
  
  12:55
- 5.
  
  Qu'est-ce que la science de données
  
  9:31
- 6.
  
  Cas d'utilisation de la science des données
  
  7:47
- 7.
  
  Cycle de vie de données - Configuration
  
  11:46
- 8.
  
  Cycle de vie de données - Data Science
  
  11:57
- 9.
  
  Cycle de vie de science des données : analyse et production
  
  19:16

Niveau débutant

Niveau intermédiaire

Niveau avancé

Tous niveaux

1 127

apprenants

projets

À propos de ce cours

Ce cours fait partie de la série « Appliquée Data Science S » sur SkillShare par V2 Maestros. Si vous souhaitez passer dans tout le curriculum de cours, veuillez suivre tous les autres cours et les suivre dans la séquence spécifiée.

Ce cours se concentre sur les données de la science de données. Il explique comment la science de données à partir d'éléments de données, à partir de relations et de prépositions. Il passe ensuite les étapes d'un projet de science de données

Rencontrez votre enseignant·e

Kumaran Ponnambalam

Dedicated to Data Science Education

Enseignant·e

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Voir le profil complet

Compétences associées

Développement Plus en développement Science des données

Projet de cours pratique

Trouver un cas d'utilisation dans votre domaine

En termes de votre travail ou d'expérience éducative, trouvez un cas d'utilisation dans laquelle la science des données peut être appliquée pour améliorer le résultat des entreprises. Préparer un rapport qui explique les éléments suivants

Le problème d'entreprise à résoudre
Données requises
Les éléments de données et leurs relations
Un plan étape par étape pour réaliser un projet de science de données.

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. À propos de la science de données appliquées: Hey, bienvenue au cours sont joués signes de données avec notre Ceci est votre instructeur, Cameron Parnham appartiennent à la vidéo de Mastro Let's Go Through et comprendre ce que ce cours est tout au sujet. L' objectif du cours est de former les étudiants à devenir des praticiens des données à part entière. Nous nous concentrons donc sur la création de praticiens de personnes qui peuvent exécuter dans les données d'événements depuis le projet, depuis le début de l'acquisition de données jusqu'à la transformation, en chargeant dans une finale ultérieure notre destination et en effectuant des analyses d'organes sur eux enfin atteindre certains résultats d'affaires de cette analyse, que faites-vous Ce que vous en prenant ce cours est que vous comprenez le concept et les concepts de signes de données, vous comprenez les différentes étapes dans le cycle de vie d'une science des données vous développez la compétence pour utiliser notre utilisation ANDI sont à toutes les étapes de ANALITICO, de l'analyse de données exploratoire à la directive d'une heure. Il faut à la modélisation de l'orteil. Enfin faire la prédiction à l'aide d'algorithmes d'apprentissage automatique a appris les différents outils et techniques d' ingénierie de données sur l'acquisition de données et le nettoyage des données sur la transformation des données. Connaissances acquises sur les techniques d'apprentissage automatique ami également apprendre comment vous pouvez les utiliser et aussi le plus important, alors vous pouvez les utiliser devenir un praticien de la science des données à part entière et qui est peut immédiatement contribuer à données de la vie réelle. Les projets scientifiques ne mentionnent pas que vous voulez apporter ces connaissances à votre entrevue afin que vous puissiez obtenir un poste dans le domaine de la science des données. Terry était cette pratique que nous voulions aborder cette chose particulière hors théorie par rapport pratique, les données, les signes, les principes, les outils et les techniques. Image provenant de différents signes et disciplines d'ingénierie. Non, ils viennent de l'informatique, de l'ingénierie informatique, de l' information, information, probabilité Terry et commencé bâtons, intelligence artificielle et ainsi de suite sur l'étude théorique des signes de données, il se concentre sur ces la base scientifique et le raisonnement des différents jardins d'apprentissage de la mission. Il se concentre sur essayer de comprendre comment cette mission apprendre le travail de Salgado dans un sens profond sur être en mesure de développer vos propres algorithmes sur. Développer votre propre implémentation de ces algorithmes pour prédire un vrai problème de balle. Juste un habite beaucoup dans nos équations et formelle sur les privations et le raisonnement. Alors que le pacte est sur la hausse tardive à une partie des données, la science se concentre sur un jeu des outils, principes et des techniques afin de résoudre les problèmes d'affaires obtenir l'accent sur essayer utiliser les techniques et outils existants et les bibliothèques sur comment vous pouvez prendre ces et un jeu les problèmes de travail vraiment et sortir avec les affaires mérite. Celui-ci se concentre sur une compréhension adéquate des concepts et une connaissance des outils et des bibliothèques disponibles sur la façon dont vous pouvez utiliser ces outils et bibliothèques pour résoudre des problèmes réels. Ce cours est donc axé sur la pratique hors des signes ultérieurs, et c'est pourquoi il est appelé Inclination des sciences des données appliquées des cours. Cette science des données est un sujet de discipline trans, et c'est un sujet complexe. Il ne s'agit pas principalement de trois domaines techniques sur lesquels se concentrer. Il y a donc des mathématiques et des statistiques qui sont l'apprentissage de la mission. Et il ya la programmation sur ce cours est orienté vers. Vous savez, la programmation est orientée vers les professionnels du logiciel existants. Il est fortement axé sur la programmation et le développement de solutions. Il a limité et demandé l'exposition à l'explosion. Les mathématiques et les statistiques sur elle couvre aperçu Off machine learning concepts vous donne articuler la compréhension de la façon dont ces machine learning tous gardé les livres. Mais l'accent est mis sur l'utilisation de l'outil existant pour développer une solution dans le monde réel. En fait, 90 95% autres travaux que plus tard le temps de la science. Juste faire dans le monde réel est la pratique de la science des données. Pas vraiment, Terry, de plus grande science et ce cours s'efforce de garder les choses simples et très faciles à comprendre. Donc, nous avons certainement rendu cela très simple. Nous sommes restés loin de certains des concepts complexes. Nous ou ils ont essayé de tonifier les orteils. Ces concepts complexes sont juste restés loin d'eux afin qu'il facilite la compréhension pour les gens de tous les niveaux hors connaissance dans le domaine de la science des données. C' est donc une sorte de cours d'infirmière. Si je puis dire que la structure de base qu'elle est passe par les concepts de plus grand sens pour commencer, quel est leur assigné exactement ? Comment fonctionne la science des données ? Il examine le cycle de vie des saints des données avec leurs différentes étapes du cycle de vie. Il va ensuite dans quelques bases de bâtons démarrés qui sont nécessaires pour faire des signes de données. Il entre ensuite dans notre programmation. Il s'interroge sur de nombreux exemples de la façon dont vous utiliseriez notre programmation pour diverses étapes dans le projet de science des données. Les différentes étapes dans les données envoyées blessés ingénierie des données, effort partiel. Ce que vous faites généralement là, c'est-à-dire l'ingénierie de l'une des meilleures pratiques en ondulation de données, couvre ces domaines. Enfin, il y a la partie de modélisation et d'analyse prédictive où nous intégrons dans la mission Apprentissage ou Dieu Adams. Nous examinons également Endo et les cas d'utilisation pour ces algorithmes d'apprentissage automatique, et il y a aussi quelques sujets avancés que nous abordons. Enfin, il y a un bundle de ressources qui vient dans le cadre de ce cours, et ce bundle de résultats contient essentiellement tous les ensembles de données. Les données ont déposé l'exemple de la cour manteau sur ce genre de choses que nous enseignons réellement dans le cadre de ce cours qui est couvert dans les exemples tous sont donnés dans le paquet de ressources. Je ne connais pas le bundle de ressources qui a toutes les données dont vous avez besoin et tout l' échantillon de base dont vous avez besoin pour expérimenter les mêmes choses vous-même. Lignes directrices pour les élèves, le jeûne cet orteil comprendre leurs données. Les saints sont un sujet complexe. Il a besoin d'efforts considérables pour le comprendre. Alors assurez-vous que si vous êtes coincé, ne passez en revue et vous soulager les vidéos et les exercices fait. Il a appelé l'aide d'autres livres sur les recommandations foncières et forums de soutien. Si vos requêtes 1000 préoccupations le fait, et c'est un message privé, notre ne a posté cette question, et nous serons vraiment heureux. Toe a répondu que le plus tôt possible. Nous cherchons constamment à améliorer nos cours, donc tout type de feedback que vous avez est le bienvenu. S' il vous plaît ne fournir des commentaires par des messages privés sont deux courriels à la fin du cours . Si vous aimez le cours, ne donner laisser un avis. Les commentaires sont utiles pour d'autres nouveaux étudiants potentiels à suivre ce cours et pour attendre Maxim disque d'autres cours futurs de We Do Mastro, nous voulons rendre cela facile pour nos étudiants relation avec l'autre. Nous faisons des cours de Master sont des cours sont axés sur la science des données, vraiment un sujet fondamentalement, technologies, les processus, les outils et les techniques de saints de données sur. Nous voulons que nos cours soient autosuffisants autant que possible, hein ? Donc, ce que cela signifie, c'est si vous êtes un étudiant existant que nous faisons Master, vous ferez voir quelques contenus et exemples répétés à travers les cours. Nous voulons nous faire une vision Alors, plutôt que de le dire, est-ce qu'il y a lieu de le dire ? Ok, ma fille, regarde despotic comme les autres cours. Inscrivez-vous à l'autre cours et apprenez-en plus à ce sujet. Nous voulons plutôt nous concentrer sur ce cours lui-même. Gardez deux choses dans le même cours lui-même. A moins que cet autre concept ne soit un concert énorme. Que leur propre bien sûr séparé. Nous voulons les Inde dans le cadre de ce cours lui-même. Vous pouvez donc voir du contenu qui est répété à travers les cours. Enfin, nous espérons que ce cours vous aidera à faire progresser votre carrière. Donc meilleure chance. Happy learning sur Ne restez pas en contact. Merci. 2. Qu'est-ce que la science de données: Bonjour. Voici votre instructeur, Cameron, dans cette section. Nous allons voir ce que sont les signes de données. La science des données est quelque chose dont nous avons beaucoup entendu parler. Mais en quoi consiste exactement la science des données ? Quoi ? De quoi s'agit-il vraiment ? Nous allons donc voir deux choses au cours de la session à ce moment-là. La première chose concerne les données sur les eaux, et le 2ème 1, c'est le désir, c'est l'apprentissage. Donc, nous allons voir quelques définitions hors de l'eau. Les choses constituent une science des données. Donc, certaines des choses que vous allez voir dans cette session sont peut-être des choses que vous pourriez dire sont des choses évidentes inhérentes. Je pense que vous avez été habitué à, mais c'est bon orteil. Jetez un second coup d'oeil aux définitions de chacun d'eux parce qu'ils signifient beaucoup à un signe de données . En fait, ils forment le fondement même de la science des données. Examinons donc toutes ces définitions ici. La première chose à propos de ce qui est Data Saints, David Signs est la compétence d'extraire des connaissances à partir de données. Nous avons quelque chose qu'on appelle des données. Et puis il y a quelque chose de si brut et puis vous regardez les données et vous extrayez la connaissance , connaissance pourrait être pensé à cette information à l'intérieur sur son signal. Il y a différents termes utilisés pour la connaissance des personnes sourdes, mais fondamentalement peut quelque chose que vous extrayez de données qui est utile. Et puis vous utilisez cette connaissance pour prédire l'inconnu. Ainsi, vous apprenez quelque chose sur le passé à partir des données, puis vous utilisez ces informations pour prédire ce qui va se passer à l'avenir. Et c'est ce que sont les signes de données. David Sames. L' une des filles est d'améliorer les résultats de l'entreprise avec la puissance des données, vous pouvez faire des prévisions, mais quelle est l'utilisation hors ? Vous voulez utiliser les signes de données pour améliorer les résultats de l'entreprise, et vous allez améliorer les résultats de l'entreprise en utilisant les données. Et c'est ce qu'est la science des données. Il n'y en a pas. Les employés sont des technologies. théories sont tirées de divers domaines vastes qui ne sont pas limités à un seul domaine. Vous avez donc des mathématiques dans leurs statistiques, des données de la technologie de l' information. Si les technologies intelligentes langages de programmation, nous utilisons effectivement une foule de différentes techniques et théories et domaines. Quand il s'agit de la science des données et qu'est-ce qu'un scientifique des données ? Un autre scientifique est un praticien hors des signes de données. Quand un praticien est-il absent ? Leur Depuis que nous parlons de quelqu'un qui utilise les théories et les théories et toutes les technologies et les compétences des signes de données pour produire un meilleur résultat d'affaires Andan attribué cela généralement a ah, ou devrait avoir une expertise dans un connaissances en ingénierie des données coche les statistiques sur DA tout autre dans le domaine de l'entreprise. Également sur les données généralement signées. Cela permet d'étudier les problèmes complexes de l'entreprise et d'utiliser les données pour fournir des solutions. Donc, la chose la plus importante ici est utilisé ODA pour fournir des solutions ou des données est le moteur pour un chercheur de données. Passons donc à certaines définitions des données. De quoi parlons-nous exactement ? Lorsque nous parlons de données, quelles sont les différentes choses que vous apprenez lorsque vous parlez de données. Nous allons donc passer à une série de définitions ici encore. Ils sont peut-être évidents pour vous, mais il va vous dire, jetez un second coup d'œil à tous. La première chose dont nous allons parler, c'est ce qu'on appelle un NPD. Une entité est une chose qui existe qui recherche et prédit dans la science des données. Donc, une entité est une chose, un objet, quelque chose qui existe dans le monde réel sur lequel nous allons travailler. Donc, vous avez un problème de science des données dans les envois de données problème. Vous avez un ensemble d'entités sur lesquelles vous allez cara. Tu fais des recherches sur eux. Vous obtenez des données sur ces entités, puis travaillez dessus pour vous faire des prédictions. Les entités ont toujours un contact professionnel. Il y a un contexte commercial, qui est le problème commercial que vous essayez de résoudre dans lequel l'indé existe. Ainsi, exemple d'une entité comme un client, un client hors d'une entreprise est une entité. client est une entité la plus populaire entré A. Je verrais sur qui nous faisons beaucoup de recherches et de faire des prédictions. Une personne dans un hôpital est une autre entité. Maintenant, vous voyez que le client d'une entreprise et le patient de l'hôpital peuvent en fait pointer vers la même personne, mais ils ont des contacts professionnels différents. Donc différents contacts professionnels signifie la même personne. Nous nous inquiétons des informations différentes sur la personne que la personne pourrait faire différentes choses en tant que client, par opposition à ce qu'elle ferait en tant que patient. Les entités peuvent aussi être des choses non vivantes . Comme, par exemple, une voiture. Donc, la carte est sur le genre qui ne sont pas hors des choses non vivantes sur lesquelles vous collectez également informations et vous prédites choses qui se passent à l'élément suivant. Ce sont les caractéristiques qui sont les caractéristiques. Chaque entité a un ensemble de caractéristiques, donc ce sont des propriétés offertes entité qui est des informations sur l'identité nous. On les appelle peut-être des informations statiques parce qu'elles sont en quelque sorte limitées à l'entité comme le nom, numéro de téléphone, l'âge. Ce sont toutes les caractéristiques, souvent entité sur les propriétés ont également à nouveau un contexte d'entreprise à faire différents contacts d'affaires . Vous quadra sur les différentes caractéristiques pour la même entité ou la personne en particulier place dans ce contexte commercial donné. Par exemple, si les caractéristiques du client vous dérangez au sujet de notre groupe de revenu d'âge éducation de sexe pour un patient, votre corps double à nouveau sur le sida, sorte que la caractéristique appelée âge se répète. Mais maintenant, vous avez un ensemble différent de caractéristiques, en particulier d'être un patient comme la pression artérielle, le poids, poids, antécédents familiaux. Encore une fois, il y a un contexte commercial de l'exigence commerciale, qui dicte les caractéristiques que vous dérangez à bord d'une entité à nouveau. Des voitures. Quand vous regardez les voitures, vous parlez de faire l'année modèle du type de moteur de moteur comme quatre cylindres ou six cylindres sur le numéro de vent de la voiture. Donc, ce sont tous des exemples hors caractéristiques. Vous pourriez aussi les appeler pièce appropriée américaine. Par exemple, propriétés dont je pensais que l'un d'entre vous s'inquiétait est de ce qu'est l'environnement ? environnement pointe vers l'écosystème dans lequel les exes d'entité sont fonctions. L' entité n'existe pas dans le vide. Il existe un environnement dans lequel une entité existe. Donc, dans cet environnement ou d'autres entités, d'autres entités du même type d'autres entités d'un type différent, comme un patient et d'être à l'hôpital, avec d'autres entités hors du même DeBlanc avec d'autres patients. Cela peut également être d'autres types d'entités, comme les médecins et les infirmières, des entités qui sont des choses non vivantes, comme les ambulances, un enregistrement d'entité. Un système utilisé pour surveiller les patients peut être une entité. Donc, sous ces entités, toutes ces entités existent dans un environnement donc environnement. Les immunités d'ombre sur plusieurs entités existent dans le même environnement, l' environnement affecte un dans le comportement d'aujourd'hui, de sorte que c' est la chose la plus importante. La même entité pourrait se comporter différemment dans différents environnements sont même pour le même environnement dans des conditions différentes, expérience dans l'environnement. La même entité pourrait être ici aussi. Exemples amicaux d'ail ointment pour un client, le pays, la ville, le monde proche. Le client réside en persan à nouveau que peut-être la ville le climat avec l'hôpital où le patient est actuellement dans une voiture. Il l'est. Mais la carte est utilisée principalement pour la conduite en ville sur la route qui devient l' environnement que les voitures climatiques fonctionnent différemment dans différentes conditions météorologiques comme cœur. Que ce n'était pas des conditions de neige, les voitures ont un comportement différent. Donc tout ce cas est ce que vous voyez est que l'environnement affecte la façon dont l'indé se comporte maintenant et même ce qui est inégal, inégal. Il y a une activité commerciale importante à laquelle l'entité participe. Les entités ne s'assoient pas simplement là. Ça fait quelque chose. Si quelqu'un fait quelque chose à l'identité, c'est ce que vous appelez même une activité commerciale et même se produire encore à l'exception de l'environnement. Toi, une entité comme un persan, va à l'hôpital et à l'hôpital. L' entité est traitée pour sont il n'y a pas de décompte s qui sont administrés du patient donné sur. Ensuite, vous avez quelques résultats à sortir de ces tests. Tous ces éléments sont égaux. Exemple hors inégale. Peut être le client naviguant sur un site Web client faisant un magasin, visiter un client recevant un appel de vente d'une entreprise pour vendre quelque chose. Tous ces sont égaux dans les filles hors portions. C' est comme les docteurs. C' était un test sanguin pour une voiture ? Le smart fait cela Selon va le test de comparaison. Comme si vous allez à l'un de ces sites Web liés à la voiture, vous voyez qu'ils aiment les tests de comparaison. Tous sont égaux dans lesquels une entité participe au comportement. Donc même fait quelque chose là sur l'entité participe. Mais qu'est-ce que le comportement ? Que fait l'entité dans le donné ? Même cela est le comportement des entités. Donc même une entité va, fait quelque chose sur l'eau. Le meilleur en cela, étant donné même est ce qu'il a appelé le comportement de l'entité terminée. Il peut avoir un comportement différent dans différents environnements et situations différentes sur , par exemple, dans le cas, hors d'un client, un appel téléphonique dans un appel téléphonique eau où le client parle est le comportement des clients. La salle de clics pour une visite du site Web comme qui liens les visiteurs du site personnalisé particulier en cliquant quand il navigue sur le site Web Qui a un autre type de comportement ? Non, la réponse. Le client doit dire son offre. Je voyais des années. Non, le client a dit heureux. Tous sont des comportements différents sur les patients du client pas cr éclairé et crampes infirmières les potions se plaindre de quelque chose. Les patients, vous savez, s'endorment, montrant n'importe quel type de B, n'importe quel symptôme. Tous sont des comportements du patient et les voitures aiment une bonne accélération, les distances d'arrêt, tous représentent comme une forme de comportement hors des entités. Non, sont tout ce que ces choses que vous voyez dans le monde réel, comme les entités égales et le comportement sur Maintenant vient l'introduction des données orteil 3. Qu'est-ce que la science de données: introduction des données orteils. Non, il y a quelque chose qu'on appelle un résultat. Alors, quel est le résultat ? Le résultat est souvent considéré comme important par l'entreprise. Donc, vous avez des événements dans les soirées. Il y a des entités et il se comporte différemment dans des paires différentes. Mais toutes ces paires ont généralement une certaine forme hors résultat qui est important avec l' entreprise sur le résultat est un résultat souvent l'activité le résultat d'une activité commerciale,par exemple, par exemple, donc sur les résultats peuvent être de la valeur. Les résultats sont des valeurs, n'est-ce pas ? Donc les valeurs de résultat peuvent être soit des lingots comme oui, non, que quelqu'un en particulier a fait un test. Ils ont réussi notre échec. C' est un lingot. Berlin est fondamentalement oui ou non sur bande de données. L' ancien peut être comme une valeur continue comme une valeur numérique. Quelqu' un a fait un test de tension artérielle. La valeur est une valeur continue. Peut aller de, vous savez, 100$ de moins. C' est une valeur continue ou il peut s'agir d'une forme quelconque de classification. Des cours. Fondamentalement, quelqu'un a retiré un avis. Un examen d'un film Onda relatif que vous avez donné pourrait être une classe comme excellente, très bonne foire de groupe. Mais c'est une sorte de classification sont de type qui, comme les résultats peuvent être hors de l'une de ces bandes différentes. Exemples de résultats chez les filles du client où le client fait une vente est un lingot à la valeur de vente. Combien ils l'ont acheté comme une valeur continue continue, ce qui signifie que la valeur ou que vous êtes un cadeau est fondamentalement n'importe où de 0 à 100 ou 2000. C' est un patient de valeur continue, les filles du patient. Le résultat peut être la lecture de la pression artérielle, ce qui est un résultat continu sur la pipe du diabète. La dépression est identifiée nous dans la classe comme le régime alimentaire A sont le diabète de type B mourir, mais ceux-ci il est une classe. Dans le cas des voitures, les niveaux de smog sont une classification. Le niveau de petits globules comme ABC. Il y a une classification qui arrête les entreprises. Cela arrive parce que vous faites un test pour une voiture, ce qui est un pair sur eux. Dans ce cas, vous mesurez les distances d'arrêt lorsque vous bloquez les freins et la distance qu' il faudrait pour s'arrêter à un arrêt complet. C' est un résultat continu. Le passé intelligent, nos échecs il y a un intimidateur et un résultat. Le type de voiture. Disons qu'un coin sport de berline familiale qui est une sorte de classifications, Donc ce sont des résultats différents qui se produisent à la suite de certains. Malgré cela, les résultats sont désactivés. Mais ce qui est important dans la science des données, parce que généralement attribue ce que vous essayez de prédire comme des résultats à l'avenir. Tu en as jamais vu plus à ce sujet ? Plus tard ? Maintenant vient ce qu'on appelle comme une observation. Qu' est-ce qu'une observation ? Une observation est une mesure. C' est souvent sur mon président. Même ainsi, vous mesurez quelque chose à propos d'un même considéré comme important par l'entreprise. Donc, vous mesurez et même mesurez des choses importantes et inégales qui sont importants orteil de l'entreprise dont nous parlons. Il capture des informations sur les entités et la balle. Donc, étant donné même mon aucune entité multiple impliqué les caractéristiques des entités, la BA curieuse des entités, l'information sur l'environnement dans lequel le même se produit sur les résultats. Donc, sur l'observation est des informations sur toutes ces choses qui se passent et inégales. Vous allez essentiellement et recueillir toutes ces informations et enregistrées sous une forme quelconque sur l'observation est généralement appelé le système hors enregistrement. Donc, où que vous alliez, vous voyez que les gens enregistrent des informations les autres jours pour les enregistrer dans des journaux, des journaux bord et des trucs comme ça. Non, tout est automatisé, informatisé. Il y a des scanners qui scannent ces informations automatiquement si quelqu'un entre dans l'ordinateur, qui sont pour des meurtres. Il est appelé le système hors enregistrement sur exemple d'observations sont, dans le cas des clients, il ya une carte téléphonique Rikard. C' est aussi appelé cdss dans le service téléphonique. À la transaction comme une transaction d'achat, quelqu'un va au magasin sur fantôme par quelque chose qu'il va au comptoir de point off vente sur la transaction est enregistrée là. Notre offre email. Un e-mail vous parvient, offrant un produit à une certaine valeur. Pas excitant. Vous achetez quelque chose donc tous sont des observations. Si vous regardez un patient, le Dr Bissett revient au résultat du test, une capture de données à partir d'un dispositif de surveillance. Toutes ces observations sont des observations, différents types d'observations. Et enfin, regardons la voiture. Dans le cas d'une voiture, un Ricard sauvage est une observation. La voiture va pour les enquêtes et la fin. Leurs conclusions à l'extérieur du mécanicien sont consignées dans le dossier de service. Un intelligent en conséquence, est une observation. Donc, tous ces un RAB détournements capturés sous une forme et enregistreur et magasin. Donc, enfin, nous arrivons aux données qu'est-ce qu'un ensemble de données ? Adela a dit, comme une collecte hors observation. Ainsi, chaque observation, enregistrement et même sur le centre des entités, une collection d'observations pour une entreprise devient un ensemble de données. Huit. L' observation dans un ensemble de données est généralement un enregistrement cette semaine. Appelez cela enregistrement logique inférieur qui regardent l'enregistrement physique peut être donné. L' observation peut être enregistrée sous plusieurs formes. Interfaces utilisateur multiples qui peuvent être comme des relations de détail maître. Tout ça va bien, mais nous parlons ici d'un enregistrement logique qui représente une observation. Typiquement, vous auriez des observations ayant un lierre comme une idée de transaction, numéro de série d'idée de test, quelque chose comme ça. Donc, un jour, j'ai dit que la collection d'observations lâches chaque enregistrement a un ensemble d' attributs qui pointent les caractéristiques, les résultats de comportement. Donc, si vous regardez la feuille de calcul Excel, vous verrez que généralement chaque règle représente comme un enregistrement sur une observation. La feuille de calcul Excel elle-même est, une donnée dit. Sur chaque porte était une observation sur chaque colonne est fondamentalement attribut qui pointe à l'une des caractéristiques des entités. Les comportements sont tous vient adresse qui peut être structuré lecteur Expedia, dossiers de police, feuilles de calcul Il peut être non structuré. De plus, les flux Twitter sont un exemple de données non structurées sur les articles de journaux. Ils ne sont pas appelés à être semi structurés comme des courriels. Ainsi, un spécialiste des données, vous traitez généralement différents types de données, comme les données de structure. Les données non structurées sont quelqu'un des données de structure et éleveur SanDisk choisir et travailler sur les données dit que c'est le pain et le beurre pour un scientifique de données est données de données et plus de données sur sont collectées comme ensembles de données collectées, stockées, travaillés sur les prévisions sont faites à partir des ensembles de données. Donc, ils ont dit, est le noyau de la science des données. Ah, qu'est-ce que les données structurées ? L' exemple que vous voyez sur le côté droit est un exemple de données de structure où les attributs sont étiquetés et clairement visibles. Vous voyez que chaque attribut dans ce particulier que vous les gars étiqueter séparément, comme quand il est prêt lorsque le nom de la monnaie que je d regarder le numéro. Tout est Lobel. Il est clairement visible s'il est utilisé dans l'U. Y. Y. S'il a été stocké dans la base de données. Il y a ce que vous appelez des données de structure étiquetées et stockées séparément. Il était facilement consultable dans, en outre, outre, crédible parce qu'ils avaient étiqueté séparément, même dans le nouveau stockage faire dans une base de données, leur étudiant, différentes colonnes. Il s'agit donc d'un droit vital et SQL requête orteil Cette donnée. Cela peut être, bien sûr, votre histoire facilement dans les tables de Terrible, peut-être, peut-être, comme les tables de base de données ou les feuilles de calcul Excel, il est facile de stocker les données de structure en général. , les données non structurées Par contre, les données non structurées ne sont pas étiquetées. Donc il va y avoir comme un Tex continu comme vous voyez sur le côté droit est un pays de texte sur un maître trois par voiture. Il s'agit donc des stocks continus dans lesquels les attributs ne sont pas étiquetés de manière distante, mais leur présence dans les données. Donc, les choses qui sont mis en évidence, un ardent que vous voyez, sont différents attributs comme compact est le type des sacs de hodge de voiture, un type de la voiture. Une transmission à six vitesses est la transition du palais de justice, donc tous sont présents à l'intérieur des données, mais pas distinctement étiqueté. Donc c'est comme ça que tu nous appelles. données non structurées continuent les bâtons. n'y a pas loin, mais sur votre fille est cachée sont intégrés à l'intérieur de cette prochaine. Et calmer, bien sûr, ne va pas être facile quand il est en train d'acquérir. Nous parlons plus de l'inspection visuelle, mais nous parlons d'écrire des programmes informatiques pour extraire des informations. Ça ne va pas être facile. Maintenant vient la troisième ferme avec seulement des données semi-structurées. Ce que vous voyez ici, un exemple ici est un e-mail. Donc, ce qui est dans l'e-mail est une partie des données est structurée et une partie des données est dans la structure. Donc, dans les e-mails, vous voyez que certains de mes hommages sont distinctement étiquetés. Comme, vous savez, l'adresse 200 cc sujet de leur meilleur dans Lobel et disponible sous forme de colonnes séparées sont des éléments d'information séparés, alors que d'autres peut-être qu'il ne l'a pas fait dans l'utilisation textée endear non plus. Donc, vous êtes à la fois structuré et structuré un qui mélangé dans le cas d'une donnée semi-structurée . Quelques exemples de données d'instructeur pourraient également être comme exemple. Les documents sont des données semi-structurées. Certaines informations sont disponibles en attribut certaines informations dans la partie syrienne des documents externes . Ce sont tous des exemples de données de structure de quelqu'un donc en résumé. Quoi ? Qu' est-ce que nous avons vu ? Avec les données de respect, nous avons vu une entité caractéristiques, l'environnement, même les résultats de comportement sur les observations et enfin, ensemble de données. Donc, ce sont les fondations clés Donc sur lesquelles les données et il y a et juste construire sur. Il est donc bon pour vous de connaître et de comprendre chacun d'eux. Donc, cela complète cette partie de la section. Nous continuerons sur d'autres A. Aucun de la présentation. Merci. 4. Qu'est-ce que la science de données: Bonjour. Voici votre instructeur Cameron ici une poursuite sur les panneaux de données de l'eau. Nous allons parler de ce que l'on apprend dans le langage de la science des données. Qu' est-ce que l'apprentissage sur lequel découvre les connaissances à partir des données ? La première chose que nous voulons noter que ce qui est une relation de relation constitue à nouveau l'un des fondements de la science des données sur quand nous parlons de relations avec parler relations entre attributs. Donc, après les buttes dans une donnée dit exposition relations, qui est, vous avez une non-observation. Vous avez un ensemble de données sur les attributs que vous voyez dans ces observations montrent ce qu'on appelle relations, relations, modéliser observations montrent ce qu'on appelle relations, relations, relations, le monde réel et n'ont pas d'explication logique. Quand on parle de modèle, les relations du monde réel sont fondamentalement quelque chose qui se passe dans le monde réel. Ce n'est pas quelque chose de bizarre que vous voyiez quelque chose dans l'ensemble de données. Les données ont dit. Quelles que soient les données que vous possédez, la relation qui s'affiche est quelque chose qui existe dans le monde réel. Par exemple, l'âge et les niveaux de pression artérielle. La relation entre eux est qu'à mesure que l'âge augmente, la propension à une pression artérielle élevée continue d'augmenter. Plus votre âge est élevé. Plus vos niveaux de pression artérielle sont élevés. Il y a toujours une explication logique associée à cela sur. La raison dans le domaine médical, disent-ils, est que si vous êtes plus de poids, évidemment vous permettre plus de graisse vous Larmore obstrué artères, ce qui conduirait à une pression artérielle plus élevée. Il y a donc quelque chose qui se passe dans le monde réel, et il y a une explication logique à cela. Une explication est une partie très importante de la science des données. Quand vous voyez votre relation, vous devriez être en mesure d'expliquer pourquoi cela se produit, parce que c'est là que nous pouvons dire si la relation est accessoire ou si c'est arrivé par hasard. Il existe quelque chose comme ça. Pour les attributs A et B, la relation peut être comme lorsqu'un se produit également. Vous avez deux attributs et être ainsi chaque fois qu'une abeille actuelle est également d'accord, Disons, chaque fois qu'une vente se produit, quelque chose d'autre arrive aussi comme quand une voile sur un téléphone cellulaire se produit. Une voile sur une couverture de téléphone portable s'est également produite. Donc, les choses qui se sont produites ensemble quand a parce que B ne se produit pas n'aiment pas la relation négative . Lorsque vous et être votre genre d'exclusivité mutuelle mutuellement exclusive est à nouveau une sorte de relation. Le 3ème 1 a été très monte, être monte aussi. Donc, c'est sous ce type de relation et où une augmentation être diminue. Donc c'est comme une autre relation négative. Ainsi, lorsque vous êtes deux attributs, les valeurs de ces attributs, les valeurs qui sont vues dans ces attributs affichent n'importe quel type de relation. Toutes les entités ne présenteront pas une relation qui sera toujours certaines entités où vous verrez certaines relations quelqu'un qu'il est, ne présentent aucune relation du tout. Autre Golden Learning est de rechercher des entités qui, ensemble, présentent une forme de relation sur les relations peuvent impliquer plusieurs attributs à aimer. Quand un est présent et être augmente voir diminuera de sorte que plusieurs activités ensemble peuvent présenter une certaine forme de relation. Donc, c'est une sorte de vue d'ensemble. Les relations hors de l'eau sont maintenant. Allons voir quels sont certains des exemples de relations comme n'importe quel. Prenez un client comme l'âge augmente, capacité de dépenser augmente, il y a donc une relation. Il vieillit sur les revenus du client, donc en âge augmente, capacité de dépenser augmente. Il y a une explication logique qu'au fur et à mesure que l'âge augmente, la personne gagne peut-être plus d'argent, de sorte que la capacité de dépenser est également élevée. Maintenant, quand on parle de relations et de science des données, ce ne sont pas des relations très concrètes. Tu sais, ce n'est pas littéralement comme un garçon de ferme qu'ils arrivent tout le temps. Maintenant, ce genre de choses, comme la relation à 100% gentille est bonne. Mais ce que nous voyons ici est globalement, en général, genre de relations, comme quand l'âge en raison de la capacité de dépenser. Koza. Pas tous les clients, pas tous les clients de moules vont envoyer plus, mais la plupart d'entre eux, c'est ce dont nous parlons comme une relation. L' autre est notre chignon. Les clients achètent plus de bande passante Internet Il existe une relation entre l'emplacement du client sur les patchs de bande passante, mais un client à nouveau, peut-être parce qu'ils font plus de navigation et que vous regardez à nouveau le patient. Il y a beaucoup de relations que vous pouvez voir. Comme tous les Perses ont plus de prévalence du diabète. Il y a toute la relation entre l'âge et le niveau de maladie. Les patients ont généralement des taux de cholestérol plus élevés. Autrement dit, la relation entre le poids et la tête. Encore une fois, il y a des raisons scientifiques pour lesquelles ces choses se produisent. Tu prendrais une voiture. La relation entre le nombre de cylindres et le kilométrage qu'il donne donc plus de Linda, moins que le kilométrage. Parce qu'il y a plus de brûlures qui se produisent quand il y a plus de cylindres. Les voitures de sport ont maintenant des taux d'assurance plus élevés. Ce n'est pas une relation d'accélération, mais vous verrez cela comme une relation d'affaires comme une carte de sport. Chaque fois que les voitures hors d'un type de malgré une voiture de sport, il est les taux d'assurance sont généralement plus élevés. Donc, il y a une lotion entre le type de la voiture sur les taux d'assurance, quelque peu des choses sur les relations. L' une des choses que vous voulez déranger est la relation Benussi entre deux attributs. La relation est-elle cohérente ? Sont les relations accessoires peut également être dit comme des modèles, modèles ce que vous voyez dans les modèles de données de comportement. Parfois, le modèle de comportement peut être cohérent car cela se produit tout le temps. Vous pouvez à plusieurs reprises, quand cela arrive tout le temps, vous pouvez réellement prédire un tel comportement à l'avenir. Mais comme il pourrait y avoir des schémas accessoires, incident cette relation. Aussi, quand c'est d'ailleurs, c'est arrivé par hasard. Cela pourrait ne pas être une explication logique pour un incident que le comportement est un modèle d'incident . Donc, chaque fois que vous voyez une relation, il est très important pour vous de vous assurer que la relation est cohérente. Était est accessoire. Des relations cohérentes sont ce dont vous avez besoin pour la science des données. Les relations sont également appelées nous corrélations qui est, le terme technique que vous verrez sont utilisés. La corrélation entre deux sont des entités sont deux attributs est quand avec ce que vous voyez comme quand un monte et être monte, Il monte. Et Biscoe n'est pas Austin C'est un corps appelé corrélations de corrélation. C' est le terme mathématique dont vous parlez quand vous parlez de relation ? C' est et enfin vous pourriez être les gens parlent de signaux et de bruit Quand il vient à la science des données , les signaux ne sont rien, mais des modèles cohérents sont cohérents. Les relations que vous voyez dans les données Narcisse. Les tendances fortuites sont les relations d'incident. Vous journée dans les données. Donc, si vous avez entendu parler de ces termes, signal et bruit là-bas, rien sur les relations, les relations qui sont significatives était ses relations qui se sont produites par hasard, qui ne sont pas prévisibles, qui sont juste accessoires. C' est donc la différence. Mais étant des signaux et agréable vient maintenant, qu'est-ce que l'apprentissage Nous prenons parler de l'apprentissage de la mission et de cet apprentissage et que l'apprentissage et toutes les formes d'apprentissage. Alors, qu'est-ce que c'est exactement apprendre ? L' apprentissage implique l'apprentissage des relations. C' est la chose la plus importante que vous voulez savoir sur les saints des données. Leurs saints ont l'apprentissage de la mission. Apprendre ici signifie que vous essayez simplement d'en apprendre davantage sur les relations entre ces attributs. C' est ça qu'il s'agit d'apprendre. Il implique de prendre un domaine comme une entreprise de domino de jambe de l'hôpital. Ne vous dérange pas de comprendre les entités et les attributs qui peuvent représenter le domaine collectant des données à leur sujet sur la compréhension des relations. Étant ces attributs, cette compréhension des relations entre ces attributs est ce qu'est l'apprentissage. Les modèles sont donc le résultat de l'apprentissage. Alors que faites-vous après avoir appris quelque chose, c'est que vous construisez un modèle à ce sujet maintenant ? Cet apprentissage quand vous parlez d'apprendre ici se produit tout le temps à l'intérieur du cerveau humain a été constamment recueillir des données à l'intérieur d'un cerveau humain humain, constamment apprendre sur les choses et construire continuellement des modèles sur. Nous avons utilisé ce modèle tout l'avion à notre insu. Inconsciemment, nous apprenons continuellement des choses sur ce dont nous parlons ici en termes de science des données est juste apprendre ce genre hors fait en un processus approprié sur l'apprentissage se passe dehors du cerveau humain dans les missions. C' est ce qui, comme une petite différence entre l'apprentissage qui se passe à l'intérieur du cerveau humain, et l'apprentissage qui se produit avec les missions est comme un processus plus à attendre. Il y a plus de données en dehors, et il y a plus de le faire. Alors, qu'est-ce qu'un moderne ? Un modèle est une représentation simplifiée et approximative d'un phénomène du monde réel. Il y a donc un phénomène très bien. Ça se passait. Et quand vous faites un modèle, vous essayez d'abord de construire une morale simplifiée. Vous n'essayez pas de mettre trop de choses dans le modèle. Vous essayez juste de prendre les choses les plus importantes sur le phénomène du monde réel alors, construction d'une représentation de combat simplement sur la présentation approximative re sur le phénomène du monde réel . Vous pouvez en fait aller sur facture aussi des modèles complexes qu'il voulait une personne tenant, mais généralement épingler les gens construire des modèles. Ils voulaient être simplifiés, donc cela fait ressortir tous les facteurs importants que vous voulez déranger jamais et ignore tout ce que vous ne voulez pas déranger. Donc, il est tout simplement un fait approximé la présentation d'un phénomène du monde réel. Il capture les attributs clés, les attributs clés des entités sur leurs relations sur Let's Say, un exemple de modèle pourrait être d'être un modèle mathématique. Un modèle mathématique est quelque chose qui représente les relations comme une équation. Ainsi, vous pouvez écrire une équation qui présente une relation entre les attributs comme par exemple , vous pouvez venir. Mais c'est un formel que j'ai obtenu de quelque part dans le monde. Tu es une ferme. Aimez comment vous pouvez faire l'esprit. Tension artérielle. C' est une équation. Donc, un record de pression noire de 56 plus l'âge d'une personne dans le 560,8 plus le poids de l' oppression en 2,14 plus le niveau d'oppression d'Israël en 2.9 Alors que voyez-vous ici est que vous essayez de calculer la pression artérielle à partir d'un attribut de la pression artérielle trois autres attributs H poids et LDL. Maintenant, c'est une compétition approximative de la pression artérielle. Il ne vous donnera jamais la valeur exacte d'un haut, mais il pourrait l'être. Il pourrait être à peu près proche de la valeur réelle Alors voici une formule qui présente un modèle mathématique sur la façon dont une pression artérielle peut être liée orteil. Trois autres attributs. Poids, âge et niveaux Ellie. Il peut s'agir d'un autre modèle, qui est de cliquer sur un modèle d'arbre de décision. C' est comme un modèle logique où vous posez une série de questions sur la série de questions que vous posez. Vous incluez des questions sur divers attributs et puis, sur la base de cela, obtenez un résultat comme vous voulez être, vous voulez voir. Vous voulez prédire quelque chose comme l'achat d'une ville de musique et pour cette pensée que vous pouvez trouver un modèle de décision comme celui-ci si l'âge des clients. Légende 25 sur le genre des clients envoyé par Beyonce Une ville appelée Oui, Donc, vous avez utilisé pour attribuer le sexe et l'âge sur la base d'eux, vous essayez de prédire avec le résultat, qui est avec le client calendrier par de Beyonce CDR. Non, c'est un autre type de mortels. Chez Acura. Vos modèles dépendent de la force des relations entre les attributs. Parfois, la relation entre les attributs sont très forts, sorte que vous pouvez prédire, comme avec 100% garantie que Ok, si je vois cela. Je suis sûr que ce sera le résultat. Parfois, la précision n'est pas tellement. Donc, dans ce cas, vous pouvez combiner plusieurs attributs CN si vous pouvez augmenter le niveau de précision. Parfois, il n'y a pas de relation du tout, hein ? Donc, il peut être sous n'importe quelle forme ou n'importe quel type d'échelle variable que vous pourriez y arriver. Mais le modèle global est un simplifié approximé la présentation de quelque chose qui se passe dans le monde réel. 5. Qu'est-ce que la science de données: Une fois que vous avez un modèle, ce que vous pouvez faire est de prédire, sorte qu'un modèle peut être utilisé pour prédire des attributs inconnus. Exemple simple. Cette année, nous avons déjà vu qu'il y a une formule. pression artérielle égale le 56 plus agent 2.8 plus en attente, 2.14 plus tôt, Linda a pointé un +09 Donc, vous avez ici une formule qui se rapporte pour les attributs de la pression artérielle, âge grand et LDL savoir ce que cela signifie est que si vous savez trois sur cette pour les attributs, vous pouvez prédire le pied, donc c'est ce que nous appelons. Prédiction. Donc, quand vous savonnez un ordinateur, vous pouvez dire calcul sont vous pouvez dire prédire quand il est un calcul, vous garantissez 100% de précision que vous savez, c'est la formule lorsque vous peignez votre plus approximatif. Donc, vous avez quatre attributs trois ou quatre attributs ici. Si je connais trois d'entre eux, je peux vraiment avoir cet orteil. Calculer n'importe qui après, mais je veux Oh, si nous en connaissons trois, je peux prédire le 4ème 1 C'est ce que vous appelez la prédiction. La prédiction à partir d'une double équation de modèle peut être considérée comme un algorithme de prédiction simple. Chose simple sur la dilatation. Les sauts peuvent être beaucoup plus complexes, conduisant à des modèles plus complexes et à un algorithme de prédiction. Donc, ce que vous voyez en ce que les équations sont très simplement trouver modèle de nous ou quelque chose de vraiment simple comme un problème devient plus complexe, chacun un peu plus tard, plus complexe, l'apprentissage des modèles plus complexes sur plus complexes algorithme de prédiction. C' est donc ce que nous avons appris tout cela. L' apprentissage est axé sur les données, ensembles, les relations, modélisation et la prévision. Parlons donc de ce que je prédis le nôtre sur les résultats. Donc, quand vous êtes chaque fois que nous parlons de nos données 100, je sens que vous parlez de prédicteurs et de résultats. Alors, qu'est-ce qu'ils sont ? Les résultats sont des attributs que vous souhaitez prédire. Donc, quels que soient les attributs que vous voulez prédire, ils sont appelés résultats, comme dans la formule de l'année précédente. Nous voulons prédire la tension artérielle. C' est ce qu'on appelle le résultat. Les sénateurs sont des attributs que vous voulez utiliser pour prédire le résultat, sorte que vous avez un ensemble d'attributs. Qu' est-ce que tu veux prédire ? Le résultat ? Tout le reste que vous utilisez pour prédire le résultat, nos prédicteurs de voiture de sorte que vous pourriez avoir 10 attributs dans vos données, a dit que l'un d'entre eux peut être votre résultat, et trois autres peuvent être votre pratique. Je veux dire, tous les attributs n'ont pas de rapport avec le résultat. Attribuez seulement ceux qui ont une bonne relation avec le résultat. Les variables deviendront évidemment des prédicteurs, de sorte que les prédicteurs et les résultats et évidemment les prédicteurs et les résultats montreront une certaine forme de relation parce que c'est tout ce que vous pouvez prédire les résultats à partir de ces prédicteurs. L' apprentissage consiste donc à construire des modèles qui peuvent être utilisés pour prédire les résultats, c' est-à-dire la sortie à l'aide des prédicteurs, c' est-à-dire le nourrisson. Voici quelques exemples que nous allons revenir aux trois mêmes exemples. Dans le cas d'un client, les prédicteurs sont l'âge, le revenu, revenu, fourchette et l'emplacement sur. Le résultat peut être le client va-t-il acheter votre protection ou pas un patient ? Les imprimantes peuvent être l'âge, la pression artérielle et le poids sur l'organe peuvent être. C' est le patient qui meurt ? Mais ils ne pouvaient pas sur l'exemple d'une voiture pourrait être comme les prédicteurs, peut-être utiliser des choses comme cylindre, nombre de cylindres et l'accélération sur. Vous voudrez peut-être prédire où sera la voiture. Une voiture de sport est une voiture familiale. Voilà donc ce que vous nous appelez des prédicteurs et des résultats. L' une des choses les plus importantes que vous voulez savoir sur les humains étaient les soumissions. Les humains comprennent les relations et prédisent tout le temps qui se passe dans le cerveau humain sans semaine, nous étant conscients, avortés. Nous continuons à recueillir des données, nous gardons, Nous continuons à comprendre les relations. Nous continuons à construire des modèles dans nos têtes. Nous continuons à prédire tout le temps, chaque fois que vous produisez, vous prédites. Ok, je pense que ça va arriver. Cela signifie que vous utilisez un modèle que vous avez construit à l'intérieur de votre tête pour prédire quelque chose que vous dites. Je pense que ça peut arriver. C' est un modèle de semaine. Dites que je suis sûr à 100% que ça va arriver. C' est un moderne très fort, mais l'être humain ne peut gérer que la quantité de données nocturnes, accord. Mais, par exemple, je garderai les commerçants. Vous les avez vus. Ils connaissent leur meilleur client des clients de longue date. Ils savent ce que leurs clients aiment et ce que les clients veulent. Andi, chaque fois qu'un client arrive, ils s'adressent habituellement à eux. Mon nom et le savoir immédiatement ce que ces clients veulent. Même si le client demande ça, ils vont devenir gros, mourir. Hum, et ce serait eux. Mais l'être humain ne peut gérer le remplissage dans la quantité de données afin qu'ils puissent connaître les préférences de 100 clients. Pas à 10 millions d'entre eux. Que se passe-t-il alors ? C' est à ce moment que les ordinateurs entrent en jeu, n'est-ce pas ? Nous voulons stocker tout cela général dans les informations des clients dans les ordinateurs. Andi Laissez les ordinateurs apprendre sur les préférences sur vous aider. Les missions viennent à entrer en jeu lorsque le nombre d'entités sur l'ennui des données est grand sont énormes et leurs revenus mission apprentissage lorsque vous 100 ou travailler avec l' orteil de votre ordinateur , recueillir toutes les données, faire tout l'apprentissage, construire tous les modèles. Ondo. La prédiction. C' est là que nous venons, devient l'apprentissage de la mission. C' est à ce moment qu'il devient l'apprentissage de la mission, l' analyse prédictive et les signes de données. Alors, qu'est-ce que les saints de données, entités, les relations, la modélisation et la prédiction. Alors, qu'est-ce que les cents de données ? Il s'agit de choisir un problème dans un domaine spécifié. Comprendre le domaine du problème, les entités et les attributs et le comportement et les ensembles de données de collecte uniforme qui représentent les entités que nous allons collecter toutes les données dont vous avez besoin, puis vous découvrez la relation à partir de la Reiter. C' est ce que vous appelez l'apprentissage lorsque les ordinateurs le font. Ça s'appelle Mission Dunning. Autorisation. Apprendre n'est pas quelque chose, bien que le monde ne soit rien. Tout est à bord des missions. Apprendre à propos de certaines choses consiste à découvrir des relations à partir de la lecture huit comme, puis construire des modèles. La relation avec le président. Le mortel peut être comme un modèle mathématique. Il peut s'agir d'un modèle d'arbre de décision. Il peut y avoir d'autres types de modèles complexes à, et ce que nous faisons dans vraiment construire des modèles est que nous utilisons les données passées Lorsque vous connaissez les manifestations . Tu connais l'auto, les résultats. Vous connaissez donc les valeurs des cratères. Vous connaissez les valeurs des résultats. Andan en utilisant ces valeurs, établissez des relations à partir des relations que vous construisez des modèles. Et une fois que vous construisez un moderne, vous pouvez alors commencer à prédire Vous pouvez commencer à prédire pour les données actuelles ou futures lorsque vous connaissez les prototypes. Mais vous ne connaissez pas les résultats, alors utilisez le passé pour apprendre les modèles de construction, puis vous prédites les futurs lorsque vous ne connaissez pas les résultats. Voici un exemple de ce que le client de site Web ferait dans le cas de signes plus importants. Ce n'est pas un exemple, le problème serait de prédire que le client va acheter votre smartphone sur ce qu'ils vont faire à ce sujet. Vous avez tous les portraits passés de tous les acheteurs, non ? Vous collectez des caractéristiques de l'acheteur comme l'âge, un niveau de revenu de sexe. Vous recueillez des renseignements saisonniers quand ils achètent, comme le genre de choses qu'ils achètent pendant l'hiver était un été. C' était Halloween ? C' est quoi une houle de mercredi ? Vous collectez les 11 données qui sont là. Ensuite, vous construisez des modèles. Vous construisez des modèles qui parlent de relations, ce qui monte ou de ce qui vient le ton. Lorsque le client achète, le client n'achète pas. Donc, vous avez essentiellement essayé de laisser les autres attributs que vous connaissez de sorte que le résultat. Donc, vous regardez toutes les valeurs hors des autres attributs lorsque les clients achètent, Qu'est-ce que les valeurs des attributs lorsque les clients n'achètent pas ? Donc vous voyez qu'une dame la valeur hors sur un âge d'hommage c'est plus de 25 ans. Le client achète la valeur de l'âge plomb inférieur à 25. Le client ne mord pas. Il y a une relation. Essayons d'utiliser cette relation pour construire un modèle Et puis vous essayez de prédire, qui est chaque fois que vous voyez un client qui a plus de 25 ans. Oui, ce type va l'acheter. Donc, vous faites des prédictions. Donc, quand un acheteurs de bombes nucléaires navigation prédit, le client achètera, vous utilisez le modèle et prédire en temps réel. Mais le client va acheter un produit ou pas sur. Ok, ce que je vais faire de la production maintenant que vous savez que les clients vont acheter ne vont pas acheter , c'est que vous pouvez faire des actions comme vous voulez offrir Childhelp ces jours-ci, chaque fois que vous allez sur n'importe quel site, Vous voyez qu'un petit pop-up arrive et vous dit, Voulez-vous parler à votre agent en direct ? Les agents vivants sont donc coûteux. Ce sont des êtres humains. Vous leur payez beaucoup d'argent, de sorte que vous voulez seulement offrir en direct, l'âge et de l'aide. Donc, les acheteurs qui vous pensez vont acheter votre produit afin que vous puissiez prendre une décision intelligente quant au client que vous voulez. Je veux quitter l'agent en direct. Sur la base de cette prédiction, il s'agit d'un exemple de la façon dont les signes de données fonctionneraient pour vous. Merci 6. Cas d'utilisation de la science des données: Alors bonjour. Voici votre instructeur Cameron. Et nous allons examiner certains cas d'utilisation de la science des données. Ils ne voient pas comment le monde profite de la science ultérieure. L' utilisation de la science des données augmente de façon exponentielle. Chaque jour a connu une croissance exponentielle depuis quelques années. Je me répandais sur plusieurs domaines et, comme les signes commerciaux, c'est la finance et la vie impersonnelle. Également sur une récente avancée de la puissance de calcul. En termes de matériel, en termes, hors logiciel, beaucoup de off ouvre ou jusqu'à présent vient dans le monde comme l'ensemble sont l'écosystème dope sur algorithmes prédictifs. La combinaison de tous ces éléments a rendu très rentable pour vous d'appliquer la science des données dans un usage commercial ces jours-ci. Ok, voyons quelques exemples d'utilisation de la science des données. La première lettre commence par le financement des finances. Tous à bord de gagner de l'argent en économisant de l'argent. Donc réduction de la fraude. La réduction de la fraude par carte de crédit est une application très importante de nos données. La science est utilisée. Donc, ce qui se passe dans la fraude par carte de crédit, c'est que la fraude par carte de crédit montre à teinte certains modèles dans lesquels ils se produisent chaque fois que vous examinez des transactions liées à la fraude par carte de crédit . Ils présentent un modèle, une sorte de relation entre les différentes entités et leurs attributs. Et ce sont ces modèles qui sont fondamentalement capturés dans l'historique plus tard. Ils sont utilisés pour construire des modèles à partir de fertiles et de transactions. Donc, les données historiques ont de bonnes transactions et transactions frauduleuses, et là, puis utilisé pour construire des modèles sur la façon dont une transaction frauduleuse va ressembler. Donc, chaque fois qu'une nouvelle section criminelle se produit, cette transaction est immédiatement élevée. En utilisant des ordinateurs, en utilisant le modèle pour trouver ce qu'il a appelé un score de fraude. Une école de tribunal de la fraude vous indique essentiellement si la transaction en question est une fraude, transaction frauduleuse ou non. C' est une école, peut-être à partir de 1 200 à chaque fois qu'il a marqué des causes, en particulier le seuil. Il est immédiatement signalé comme un accessoire. Transaction frauduleuse possible Il est. Ensuite, certaines mesures sont prises comme les appels sont faits au propriétaire de la carte de crédit comme orteil demandant. Que ce ne soit pas faire toutes ces transactions. Parfois, la carte de crédit est immédiatement bloquée pour d'autres transactions jusqu'à ce qu'elle effectue la vérification. Il y a donc des mesures comme celle-là Jusqu'à présent, la direction est une application très importante pour la science ultérieure dans le monde financier. La deuxième application que vous verrez concerne la vente au détail, Donc, vous verrez que chaque fois que vous allez sur un site Web et faire vos achats et mettre quelques articles dans votre panier immédiatement, vous voyez quelques recommandations à venir. Comme dans le cas d'une Maison, vous verrez immédiatement une recommandation comme des articles fréquemment rassemblés. Comment fait-il ces recommandations est à nouveau ? Les objets présentent des modèles sur la façon dont leur monstre a rassemblé, comme les téléphones cellulaires et les livres d'accessoires, certains articles qui sont souvent achetés ensemble. Ils présentent ces modèles d'affinité. Donc, sur la base de ce que le projet de loi, ce que l'on appelle affinités cours entre les éléments. Donc, entre n'importe quel paragraphe cinq tentatives, c'est un score d'affinité attribué. Plus le nom est élevé, défini, plus ces éléments ont été rassemblés fréquemment. Alors que se passe-t-il ensuite ? Chaque fois qu'un de ceux que j'ai essayé d'acheter immédiatement par un nouveau client, les articles avec des scores d'affinité élevés orteils cette commande d'article comme eux sont immédiatement recommandés. Donc, vous avez utilisé le cours de vidéos pour recommander plus d'articles à la Sharper, avec l'idée que si les acheteurs de puissance ont acheté les orteils ensemble. Peut-être que c'est comme ça que la prochaine boutique. Mais il va aussi faire et cette valeur pour faire plus de vente croisée et absolument centre de contact . Nous avons donc des centres de contact, qui ont été traditionnellement utilisés pour le service à la clientèle. L' utilisation des contacts et il y a eu aujourd'hui plus de succès, plus de ventes et de support haut de gamme, et ils ont également commencé à utiliser des signes de données pour améliorer leurs performances. Et comment ont fait ou ont-ils fait cela est cela Ils ont commencé à marquer des couleurs. En ce qui concerne moins d'agents, donc les interactions passées sont utilisées pour marquer les couleurs éclatent sur leur valeur en termes de combien la valeur commerciale était, ah, type de couleur de guerre. Ils sont combien d'affaires ils ont déjà fait avec l'entreprise qu'ils utilisent. C' était ce qu'on appelait les couleurs. Ils excusent également apporte cours pour les agents basés sur la capacité de vendre des organes à forte vente . Était un agent ou des agents à faible vente qui sont la capacité de gérer un type spécifique de problème , comme les agents qui peuvent gérer des problèmes dans le produit spécifique sont type spécifique de let et problème de réseau était un problème de téléphone que des choses comme Donc, ce qui a fait alors est qu'ils essaient de mak les bonnes couleurs avec le bon agent. Sur la base de ce cours sur l'idée est, une fois que vous avez raison, appelez-nous avec les bons agents. Il va optimiser vos résultats d'affaires, puis appeler des enregistrements avec si voiture. Vous voyez que chaque fois que vous parlez à un centre de contact, ils vont toujours dire que votre appel peut être enregistré à des fins de qualité et ce qu'ils font avec ces enregistrements d'appel, c'est qu'ils vont jouer des algorithmes d'apprentissage automatique sur ces pour comprendre la qualité de l'appel sur les résultats et les utiliser pour des améliorations futures . Et enfin, nous regardons les soins de santé maintenant prédire que les opérateurs de maladies ont été un ami. La chose de dépoussiérage qui s'est produite est que vous pouvez prédire les épidémies de maladie en regardant ce que les gens recherchent dans Google et ce qu'ils tweetent et Twitter. Donc, ensemble de données ce collecteur de domaines publics comme les recherches Google et les flux Twitter et choses comme ça sur ces données est toujours lié aux informations de localisation. Donc, à chaque fois que tu gooches quelque chose, tu sais où tu mets quelque chose. L' emplacement de Mario faire qui est toujours collecté, puis cette information est ensuite recueillie. Comme ce que vous mettez à propos de notre eau que vous êtes Googling aéroglisseur avec l' orteil de localisation, venez avec Pat. Et les gens font ce genre de requêtes sur une maladie spécifique d'une localité spécifique . Cet article voulait que plus au moment où vous commencez à voir certains modèles hors des orteils, les gens tweetent plus sur un endroit spécifique spécifique à la maladie. est possible qu'il y ait une éclosion dans ce pays. Ce type d'information est maintenant utilisé pour commencer à prédire qu'il s'agit d'objets. Ce qu'il est bon de prévoir au sujet des éclosions de maladies, c'est que le gouvernement peut créer de façon plus proactive. Vous voyez qu'il s'agit de commencer orteil ou de casser une localité spécifique. Le gouvernement peut immédiatement commencer à mobiliser ses ressources pour commencer à envoyer des soins préventifs. Um, ou beaucoup envoient plus de médecins. Des trucs comme ça, il peut organiser, comme quelques jours à l'avance sur prévenir plus ou accolade qui se passe dans la même zone. Donc, ne pas assigner est aider à prévenir notre au moins gérer ces épidémies de maladie. Donc, ce sont quelques-unes des applications intéressantes dans les scientifiques de données est comme une application très peu populaire. C' est, en fait, beaucoup de choses qui se passent là-bas sur duh. J' espère que vous serez en mesure de faire plus de lecture, d'industrie et de tous. Ah, et dans un proche avenir, merci. 7. Cycle de vie de données - Configuration: Bonjour. C' est votre instructeur commun ici. Je suis dans cette section. Nous allons voir ce qu'est le cycle de vie des projets Signs de données. Donc, nous allons parler des projets de science des données sur leurs activités, comment elles sont séquencées. Commençons par quelques notes d'introduction. efforts de science des données sont généralement des projets ex Uranus. Ainsi, lorsque l'une des nombreuses entreprises veut faire autre chose que des signes de données, elles créent généralement des projets comme ceux qui veulent construire des logiciels. Ils créent des projets logiciels sur pour le projet. Ils ont fixé un objectif, un peu d'or et ils vont ensuite les exécuter. Semblable à cela, ils avaient d'autres signes. Les efforts sont également exécutés en tant que projets. Donc, une chose à noter ici est que le projet de science des données devrait être considéré comme des projets de recherche . Ils ne sont pas comme des projets de construction. Ils n'ont pas des choses vraiment certaine pierre que vous pouvez simplement aller et exécuter et s'en éloigner . Ce sont des projets de recherche. Il y a beaucoup de réflexion en jeu. Il y avait beaucoup hors planche de retravail et jusqu'à ce que vous atteigniez l'objectif afin qu'ils soient considérés comme des projets de recherche, pas comme la construction de logiciels et l'exploitation de types de projets. Les projets commencent à inonder comme tous les autres projets qu'ils font sur les projets. Avoir des visages et des activités sur la transition se passe entre les visages et les activités, et il a envoyé des projets impliquent beaucoup d'aller-retour entre les visages. Ensuite, c'est l'étoile du matin, comme vraiment le modèle de cascade. C' est plus comme un modèle itératif si vous voulez associer cela à quelque chose lié au développement logiciel. Donc, dans cette section, nous allons parler de ce que sont les saints de données, visages de projet et les activités. Quelle est l'importance de chacune de ces activités sur la façon dont leur transition de l'une à l'autre, ainsi que sur certaines des meilleures pratiques ? On va juste en parler ? Voici donc un aperçu du lecteur. Les projets scientifiques et les activités que vous y verrez, il y a, comme des catégories complètes, larges ou des étapes dans le lecteur. Depuis le projet qui est l'ensemble de la phase sur, il y a l'ingénierie des données face à la face analytique sur la phase de production dans la phase centrale , vous venez de préparer l'équipe avec donc ce qu'ils ont à faire. Les données qui blessent depuis des années sont tout au sujet de l'obtention de données et de la formation de données sur le bon fonctionnement des données. Barre de forme. Vous pouvez faire la troisième étape, qui est l'étape analytique. Alex veut donc explorer les données et obtenir des informations significatives ou la Fed . Donc, tout est sur l'apprentissage et la prévision sur Une fois que vous faites le visage analytique et que vous venez avec une sorte de recommandations, vous pouvez ensuite passer à la phase de production où je construis des produits de données qui font ensuite tout ce que vous juste fait d'une manière automatisée et d'une manière répétable sur continue de vous produire des résultats que vous désirez. Je vais seulement au premier visage d'activité, qui est l'ensemble de la phase. La première chose que vous voulez aller dans n'importe quel projet d'innocence est ce que vous appelez la définition d'objectifs pour le projet Innocence. Chaque jour, le projet essence aura et devrait avoir un or. Si quelqu'un le veut. Quel projet de dizaines, qui est comme, Ok, regardons les données et voyons ce que vous pouvez en tirer. Ce projet est voué à l'échec. Data Science Project devrait avoir une médaille d'or spécifique que je fais pour que l'équipe puisse poursuivre. Donc, les efforts de l'équipe seront tous axés sur l'atteinte de cet objectif, et les activités seront également basées sur ce que vous voulez atteindre cette marge de manœuvre. Mais il y a que les projets sans objectifs sont des pilotes, nos voitures sans chauffeur. Donc si quelqu'un veut venir te dire ça, Ok, ça, Ok, on va faire ce qu'il a depuis tragique. Regardez les données et voyez ce que nous pouvons trouver. Ce projet ne va nulle part. Cela a été l'expérience de beaucoup, beaucoup de gens qui essaient de faire. Ils ne projettent pas certains des exemples de l'or qui nous donne la jambe. n'y a pas de prédiction des clients qui se désactiveront au cours des trois prochains mois. C' est un groupe d'objectif qui traite que nous obtenons au sujet de notre entreprise, puis les regrouper fonction du sentiment hors des tweets sont identifier les patients qui ont une possibilité d' avoir une crise cardiaque dans les trois prochains mois. Alors tu vas prédire les clients, Joan, tu vas prédire le sentiment des tweets ? Tu vas prédire les patients qui vont avoir des crises cardiaques ? Les filles peuvent être quelque chose comme ça, mais le plus important est d'avoir un objectif bien défini avant de commencer votre projet. La deuxième chose très importante sur laquelle vous voulez vous concentrer est de comprendre le domaine du problème . Contrairement aux projets logiciels, même dans les projets logiciels, je dirais que comprendre le domaine de l'entreprise est un zoo. Bonne chose dans le cas du projet de science des données, il est nécessaire pour tous les membres de l'équipe d'avoir une compréhension de base de ce qui reste du problème d'entreprise. Donc, quand nous disons que nous devons le faire, nous parlions d'un problème à venir. Nous parlons des bases de l'entreprise comme vous êtes dans la sensation financière de la Sierra ou dans le domaine médical, comprenez quelques notions de base sur l'entreprise, vous savez ? C' est quoi cette affaire ? Comment cette entreprise gagne-t-elle de l'argent ? L' un des processus métier impliqués dans le flux de travail de certaines des mesures de performance clés de l'entreprise ? Et c'est très même dans une plus grande équipe de science des données. Il y a toujours quelqu'un qui nous appelle, ça ne dérange pas l'exportation. Ça ne me dérange pas. L' exportation est un très critique. Mon expertise est une partie critique d'une équipe de science des données, donc les grandes équipes peuvent généralement avoir un expert de domaine qui peut ne pas être un gars technique n'est pas un assis statique en tant que gars, pas un gars de programmation, est juste quelqu'un qui connaît l'entreprise. Gardez-le dans l'équipe pour vous aider à comprendre le problème. Soumissions de domaine ? Non, c'est une chose importante. Missions seulement des nombres nobles et des cordes. Ils ne font que des ordures dans les ordures. Ils ont besoin que les humains associent n'importe quel sens à ces nombres et à leur force. La mission Ne pas les missions ne comprennent pas les affaires. Les êtres humains comprennent les affaires dans le domaine de la science des données. Il est important pour vous de comprendre et de valider tout ce qui va arriver et qui ne peut être fait que par les humains et pour que les humains le fassent, ils ont besoin de comprendre le problème. La connaissance du domaine aide les équipes à comprendre les entités impliquées dans la relation, les modèles, tout type de découverte de connaissances dont vous avez besoin pour les valider. Et la violation ne peut être faite que si vous savez ce que le problème ne dérange pas est tout au sujet d'un adulte. Sur cette compréhension du problème, domaine vous aide à valider toutes les hypothèses. Plus important encore, est-ce que vous identifiez l'erreur Donc les données ont quelques questions. Comment le savez-vous ? Que faire si Par exemple, vous regardez un jour Dan, et disons que l'âge de la personne apparaît jusqu'à 600 ans. Au moment où vous le regardez, vous savez que l'extension n'est pas un mauvais numéro parce qu'il n'y a personne qui a 600 ans. Mais vous ne pouvez le faire que parce que vous savez, l'âge du domaine est un terme très couramment utilisé. Tout le monde comprend de quoi il s'agit. Quoi ? Et quelque chose comme le taux de cholestérol ? Comment savez-vous ce qu'est un taux de cholestérol valide ? Qu' est-ce qui n'est pas valable discutable ? Si quelqu'un a une illégalité hors 1000 est-ce possible ? Est-ce un nombre normal dans le nombre élevé N'est-ce pas un nombre invité ? Vous ne pouvez dire que si vous connaissez le domaine, et c'est pourquoi un expert de domaine est nécessaire pour vous après avoir compris le domaine. La phase suivante consiste à comprendre les données associées aux données. Nous en avons vu assez sur les données et certaines autres sections. Donc, ici, revenons-y, les processus métier sur les flux de livres génèrent des données. Beaucoup de données, certaines capturées, autres non capturées. Mais partout où les données sont capturées, il y a plusieurs choses comme les données d'application 100 que vous faites dans diverses applications d'entrée qui sont des rapports Il y a des visualisations. Il y a des données automatisées provenant de Depuis nos flux de données, il y a des clics Web que vous obtenez dans un navigateur. Chaque clic est également l'un des pieds de données que notre point de vente transaction qui ont été enregistrés et il ya des médias sociaux nos flux de données. En outre, ce sont toutes des données d'entreprise qui sont générées par plusieurs sources. Ils ont été stockés dans plusieurs systèmes. Certains sont sur le réseau coopératif. L' été sur se développe. Il y a des données partout que vous pourriez vouloir utiliser. Les données, bien sûr, peuvent être structurées, non structurées ou semi-structurées. Encore une fois, nous l'avons vu avant sur les données ont des origines différentes. Y a-t-il une sorte de violoncelles différentes et ils pourraient avoir beaucoup de relations logiques, relations, de relations,bien sûr, ou la clé de tout type de compréhension de la gestion des restaurants, données Comprendre quelles données vous avez est un chose très importante pour les scientifiques de données. Qu' est-ce que tu veux ? Comprendre les données ? Vous ne comprendrez pas la source des données. Comment est-ce que les données sont réétiquetées sont elles sont générées par la machine ou sont-elles entrées par les humains ? Les êtres humains, c'est une possibilité de quelqu'un ? L' homme ? Le téléchargement de l'entrée de données met des données de dessin et s'en éloigne parce que notre qualité des données que vous allez utiliser pour votre analyse est ce qui va dans la mine, à quel point vos prévisions vont être bonnes. Donc les données doivent être valides pour vous assurer que ces données ne sont pas exploitées par quelqu'un. Pour d'autres raisons, vous devez comprendre quel type d'étapes de traitement et de transformation sont effectuées sur les données. Amore aurait des données qui ont été rejetées par quelqu'un pendant le passage parce qu'ils pensaient que ce n'est pas important que certaines données en double faisant son être pour le traitement. Perdez-vous des données parce que vous faites une synthèse ou non ? Toutes ces choses que vous devez comprendre de vieux Lolita comment les leaders vers d'autres bases de données d' entreprise étudiants nuages Neuf ces flux comment les données sont synchronisées entre ces différentes sources de données. Tu sais, quand quelqu'un et comme données en place un jour, il pourrait aussi être en place alors quoi ? Ils sont vraiment synchronisés les uns entre les autres. Quelle est la relation qui existe dans les données ? Je sais. Voyons quel genre de choses ? Comme la relation de clé étrangère entre les données, le i d ici devrait correspondre à l'I d là et des trucs comme ça. Commander la création quand est l'ordre, vous savez, utiliser comme la première commande quelque chose comme, Ok, sur l'agent va d'abord et entrez quelque chose dans le système peut. Puis il va, et les enfants sont selon système être. Puis il fait quelque chose d'insistant. Steve, c'est là que la compréhension de votre processus métier vous aide à comprendre comment les données sont créées dans l'ordre de création. Également sur la compréhension des données aide l'équipe à identifier les sources possibles de vos modèles prédictifs . Et où obtenez-vous ces modèles de Rio toujours violer chaque fois que vous voyez une partie sur si il est valide ou non. Il est donc important pour vous de comprendre comment vient le jour et comment il a été créé. Comprenez vos modèles eux-mêmes. Parfois, les motifs peuvent être créés à cause du bâtiment. Il a également été créé. Donc, les choses qui sont vraiment complexes à ce stade à expliquer. Mais une compréhension des données en général est une bonne chose à avoir pour un spécialiste des données 8. Cycle de vie de données - Data Science: La prochaine phase dont nous allons parler est le visage durable des données où vous configurez votre installation toujours faite et l'ingénierie des données. C' est tout le sale travail que vous avez à faire pour obtenir les données de divers aujourd'hui à la forme que nous voulions être. Donc, il y en a partout partout. Thérapie non gérée. Tu dois rassembler ces données. Obtenez votre acte ensemble, rassemblez toutes les données ensemble, battez-les, mettez-les toutes à une seule destination logique agréable où vous pouvez ensuite faire n'importe quelle autre analyse. La première étape de l'ingénierie des données est l'acquisition de données. Donc, où votre travail est d'acquérir une fille à partir de différentes sources de données qu'ils peuvent être base de données d' entreprise, Comme peut-être assis dans une base de données d'article sur mes bases de données de suite, il pourrait maintenant être fait à travers des piles nuageuses. Il y a beaucoup d'obligations sur le cloud. Ils vous donnent un P. A est sur le cloud comme salesforce, par exemple, vous devez aller et obtenir des données via l'AP. Les yeux lisent. Je pourrais venir à un scanner alimente les flux de capteurs comme les scanners de codes à barres. Il peut arriver sur les réseaux sociaux, vous pouvez avoir un téléchargement. Les médias sociaux comme Twitter et Facebook. Tous sont des sources de données. Chacun d'eux présente un cas différent hors utilisation dans un type différent de défi pour vous . Parfois, les ajustements des données peuvent également arriver en temps réel. Il peut arriver en vrac. Ça pourrait venir, introverti. Une donnée aussi. Donc tout cela crée des problèmes différents pour vous. L' une des choses les plus importantes au sujet de l'acquisition de données est la santé mentale. Vérifiez la vérification, en assurant que vous avez toutes les données dont vous avez besoin. Et il n'y a pas de données perdues dans la couche de transport. Eso la tannerie. La vérification des tests est un élément important de l'acquisition des données. C' est une étape la plus lourde et la plus longue pour définir pourquoi elle est encombrante. Un temps fastidieux à mettre en place sur ne pas dire toe acquis à configurer est parce que lorsque vous avez toutes ces sources de données, ce qui vient mais c'est des choses comme la sécurité. Il y a des gens qui possèdent ces bases de données. Il y a des politiques de sécurité en jeu. Il y a des politiques de partage en jeu. Donc tu vas passer beaucoup de temps à établir des liens avec les missions impliquées sur les êtres humains qui contrôlent les missions sur ça peut être vraiment frustrant. Parce que je suppose que les scientifiques des données, si vous êtes vraiment proche, à droite, plus grand que nous aimons le ciel. Si vous êtes déjà inculpés département à la porte. Esos C'est aussi 90 département. Peut-être que vous n'avez pas beaucoup de problèmes, mais vous n'êtes pas dans le département de l'énergie, vous ou peut-être un concert et vous êtes dans un département différent sur vos données est assis là et base de données d'entreprise. Il est assis dans le nuage. Ensuite, il devient d'autant plus encombrant parler à toutes les personnes dans Wall leur a expliqué pourquoi quelles données vous avez besoin, ce que vous avez besoin des données et ce que les anciens éditeurs de guerre et de les amener à partager les données sur le passage à travers tous les La merde organisationnelle va nécessiter beaucoup de temps et d'efforts . Donc, c'est un très lourd, frustrant C'est le jour où ils ont travaillé à votre pour faire le nettoyage des données. Une fois que vous avez obtenu les données, vous avez dû les nettoyer. Pourquoi avez-vous le nettoyant ? Parce que les données ont différents degrés de propreté et d'exhaustivité. Toutes les données que vous allez obtenir ne sont pas des données de structure propres et complètes provenant d'applications d'entreprise comme, vous savez, assis dans la base de données sont réellement propres et complètes, donc vous n'avez pas le plus à ce sujet . Ce déjà propre, déjà complet déjà dans l'ancien. Tu veux qu'ils soient ? Pas de problème, mais les données que vous obtenez d'Internet à partir des médias sociaux de Voice Transcript peuvent toutes avoir besoin d'un nettoyage important. Vous savez, il y a sale incomplète sur toutes sortes de formats multiples sur Disons, si vous regardez l'un des flux Twitter, vous savez, ne sont pas des phrases complètes, que beaucoup d'abréviations et Parkins des choses que Junkin assis là, ils ont tous besoin d'être nettoyés, examinés et manquant des données. C' est un autre point important. Qu' en est-il des données manquantes ? Il se peut que vous manquiez des attributs pour certains. Collins sont peut-être des valeurs manquantes pour certains attributs. Comment allez-vous les gérer ? Allez-vous leur donner une valeur ? Parce que si vous mettez quelque chose comme un principal là, par exemple, votre algorithme d'apprentissage de la mission ne comprend pas qu'il va penser que les détenus sous cette valeur si vous mettez zéro comme valeur pour un certain nombre. Ton jardin allait prendre. Ok, zéro, c'est une valeur. Comment vous le dites ? Mission Learning algorithme zéro signifie et non disponible Un autre où dit qu'il a une certaine valeur. Ce n'est pas facile à faire. Beaucoup de fois, vous devez mettre un remplaçant et avant qu'ils meurent là-dedans et ils ont fait affecter vos algorithmes d'apprentissage de la mission. Le traitement des données manquantes est donc une décision clé à prendre ici. Les exemples de nettoyage sont comme si vous normalisiez les formats de date juste là. Parfois réaliser un imam dd dd mm Huile sur mm vraiment connaître toutes sortes d'anciens. Vous voulez une facilité normale et les normes orteil 14 mois avant de pouvoir commencer à les utiliser en normalisant sur les décimales. Parfois, les données arrivent sur 1.23 Parfois, il est utilisé pour utiliser le format exponentiel pour un nombre. Et tout ce qui doit être la stratégie est une fois de plus sous le classique. L' un est le nom de famille. Le prénom était le prénom nom de famille. Comment un nom représenté dans les données. Donc vous savez quels sont les agriculteurs qu'ils sont. Tous doivent être normalisés. Il y a une partie du processus de nettoyage sur. Plus important encore, si vous obtenez comme des flux de texte de quelque part, vous devez faire beaucoup de nettoyage pour le texte que c'est tout un déminage lui-même. Que faites-vous avec le nettoyage de texte ? C' est tout ce qu'il faut faire avant de commencer à utiliser les données pour toute autre analyse. Les données de transformation des données après un nettoyage peuvent devoir être des pinces sur les orteils. Un ancien différent sont de forme différente avant de commencer à l'utiliser. Donc, la raison de la transformation des données est extrait des informations des données tout en rejetant les bagages inutiles. Qu' est-ce que les bagages inutiles est contre l'esprit par la fille avec ce que vous cherchez les données. Donc, si vous n'avez pas besoin de certaines données, nous n'avons pas besoin de certains niveaux de détails. Vous pouvez les résumer et découvrir tous les bagages inutiles qui sont leur traitement et la synthèse de Moore aidés typiques . Vous essayez d'être associés à des activités logiques d'été. Les niveaux sur les transformations aident à réduire la journée. Il y a des signes sur de nombreux labyrinthes pour l'idée de traitement utilisée. Pourquoi voulez-vous Oh, donc une certaine transformation est que vous le voulez avec ces données dans une forme que vous vous demandez peut mieux comprendre, comme vous pouvez réduire un nombre hors du cours en un seul enregistrement logique qui représente le tout ce qui est arrivé à partir d'exemples que vous pourriez vouloir voir ici, c'est que le visiteur vient à un site Web et qu'il clique un numéro sur les pages du site Web. Vous pourriez vous demander que quelqu'un soit tous dans un seul disque. Mais si c'est tout le niveau dont nous avions besoin, vous voudrez peut-être faire des traductions linguistiques entre plusieurs langues. S' il y a un capteur médical qui arrive, disons qu'il y a un capteur qui capture votre tension artérielle à chaque seconde et vous envoie une lecture de la pression artérielle. Peut-être que vous voulez le résumer par intervalle. Vous pouvez prendre un intervalle de 30 minutes, puis des résumés et dire dans cet intervalle de 30 minutes, quel est le trading maximum ? Quelle est la note minimale ? Quelle est la moyenne des choses de lecture comme ça et de le résumer. En outre, il je peux dépendre quelqu'un de votre cas d'utilisation, quel type de transformation vous voulez faire et le résumer. Dans ce cas, résumés Après transformation vient données et Dishman. L' embellissement consiste à ajouter des attributs supplémentaires ultérieurement, ce qui améliore la qualité de l' information. Vous voulez ajouter des informations supplémentaires à vos données qui peuvent améliorer votre analyse. Alors, quel type d'information que vous pouvez ajouter ? Ah, par exemple, vous pouvez obtenir des informations, les informations démographiques d'une base de données client à un enregistrement de transaction de point de vente . Donc, le dossier de transaction au point de vente va juste avoir votre nom de client, votre numéro de carte de crédit client et quels produits il a apportés. Maintenant, vous pouvez obtenir les informations démographiques des clients de 1/3 partie que je suis comme l'un de ces clients aide, vous savez, vous savez, état matrimonial, l'éducation, l'éducation, les niveaux de revenu. Et vous pouvez l'attacher à ces données. Une fois que vous avez eu, j'ai dit qu'aux données que ce qu'il peut faire est que vous pouvez faire une analyse les produits que les gens achètent comme les gens. Disons que le lait, qui achète du lait d'autres personnes qui sont des hommes ou des femmes est les personnes qui sont plus de 20 juste en dessous 25. Vous pouvez faire toutes ces analyses hors de ce genre une fois que vous le pouvez. données de corvées sans fin à notre tradition. Information. Des choses comme vous ne pouvez pas groupements logiques de patients selon les antécédents médicaux passés, comme vous pouvez joindre les antécédents médicaux d'un patient à sa visite actuelle. Ensuite, vous pouvez regarder et voir, vous savez comment les gens ont des antécédents médicaux passés. Différents types d'antécédents médicaux, effectuer, sont, sont marcher hors de choses que vous leur faites. Les données encourageantes sont donc une étape très importante. En ajoutant davantage de données, des données plus significatives vous donnent de meilleures informations sur les données que vous y possédez. Et une fois que tu en auras fini, tu seras aux pieds. Maintenez vos données, mais vous enregistrez vos données dans un certain besoin. Un processus de mode sensé. Les données sont stockées dans une synchronisation de données fiable et récupérable. Donc, vous voulez traiter toute votre fille et les mettre dans une belle rebaptisée données récupérables . Synchronisez autant que possible toutes les informations hépatiques capturées dans un seul enregistrement. Vous avez des données provenant de plusieurs sources différentes. La meilleure chose à faire est si vous pouvez obtenir tous les organistes comme enregistrement logique comme un seul long enregistrement qui contient toutes les informations dont vous avez besoin. Tu ne devrais pas faire beaucoup de choses de clé étrangère. Vous voulez plutôt que toe de les normaliser et les mettre tous dans le même dossier et les mettre tous ensemble. Donc, d'autres questions et analyses sont vraiment faciles pour vous. Un exemple, serait comme une petite transaction d'âmes. Vous pouvez prendre les données du point de vente. Sont les informations démographiques du client sur les caractéristiques de l'article à lui, comme vous avez l'article qui est acheté, vous pouvez dire type d'article. C' est journal dans un travail, mis à jour Fait des choses comme ça et vous pouvez également ajouter, comme des informations de performance de l'association de ventes à elle afin que vous puissiez être alors nouvelle analyse d'une performance Sales Associates basée sur le produit vendu basé sur la démographie des clients et d'autres choses comme ça. Donc vous pouvez les mettre tous ensemble en un seul disque et les stocker. C' est l'étape qui a appelé la persistance des données et, enfin, sont la mise à l'échelle des performances d'enquête sont des facteurs assez importants. Bien sûr. Il y a du bon en remorquage. Domaine d'architecture de données dans lequel se trouve les Architectes de données. Le travail, c'est pour les architectes. Le travail est de concevoir vos données, chanter de telle sorte qu'il puisse contenir toutes les données que vous avez et a obtenu une mise à l' échelle raisonnable . Il a obtenu de bonnes performances de qualité et tout cela pour vous aider dans l'étape suivante, qui est les données d'étapes analytiques bien sûr, vous pouvez les stocker sous forme de fichiers plats, bases de données SQL traditionnelles. Et puis, bien sûr, aujourd'hui, vous avez toutes les technologies Big Data comme Hadoop sur Hard Open ses bases de données, comme hedge base que vous voulez stocker vos données. Donc, cela complète la deuxième face d'un projet de science des données. 9. Cycle de vie de science des données : analyse et production: Bonjour. Voici votre instructeur Cameron ici continuent sur le cycle de vie de la science des données. Cette phase de pensée est un narcotique où vous essayez d'apprendre des données et de faire vos prédictions. La première étape de l'analyse est ce qu'on appelle l'exploration de trois analyses de données R E d A. sous forme de tir. Une forme abrégée très célèbre en science des données. Qu' est-ce que tu vas faire quand le c'est lecas ? Vous souhaitez comprendre les modèles d'attributs individuels que vous prenez un âge comme attributs . Vous ne comprendrez pas des choses comme les valeurs minimales de plage, les valeurs maximales, la distribution de fréquence, moi, des choses comme ça. La prochaine chose que vous vouliez un était de comprendre la relation entre les attributs comme ce que fait la relation entre l'âge et vous achetez la relation de modèle entre le revenu sur le sexe da, des choses comme ça. Comment un changement dans l'un affecte-t-il l'autre ? En d'autres termes, vous tournez tout sur les relations dans ce visage que vous essayez de faire. Certains graphiques tentent de faire une analyse et de mieux comprendre ce que vous voyez dans les données. Alors tu le fais. Le raisonnement est-il explicable ? Quelles que soient les relations dans les modèles que vous voyez dans les données, y a-t-il une explication pour pourquoi c'est si ce n'est pas le cas. Si vous ne trouvez pas d'explication que possible, il y a une possibilité. Souvent mieux. Ou peut-être que c'est un nouveau modèle. C' est quelque chose que tu veux discuter et comprendre que tu l'es. Regardez nos joueurs et puis décider ce que vous voulez aller avec eux que vous voulez, que soit les inclure ou exclure, um, sont dépend de l'os. Qu' est-ce que l'Outlier Valley Ouest. Et c'est une base de cas d'utilisation par cas. Vous décidez de ce que vous voulez faire sans joueurs. Erreurs possibles dans le traitement, vous ne pouvez trouver mais l'exploiter et l'écouter. C' est une très bonne utilisation du processus. Prenons un exemple à nouveau sur les attentes des patients. On vient de parler de quelques esclaves. Au moment où vous voyez de huit heures comme 600, vous savez immédiatement qu'il y a quelque chose qui ne va pas avec ça. Il y a une erreur possible. C' était aussi ce que vous appelez les joueurs supposent qu'il ya un couple de patients qui ont 70 75 ans. Tout le monde est comme 40 leçon pour 40 ans que peut-être vous voulez décider et éliminer ces deux records sans joueurs. C' est un traitement possible de nos clients. Tu veux aller sur toi ? Bien sûr, vous voulez comprendre la relation entre le patient Attendez et sur le niveau du diabète , le taux de cholestérol sur les antécédents familiaux et des trucs comme ça. Et enfin, vous violez vos conclusions avec les experts du domaine quand disons, Hey, c'est ce que je vois dans les données. Est-ce que ce gel avec ce que vous savez déjà sur quelque chose de nouveau, vous voulez leur parler et comprendre comment les choses sont. L' étape suivante est l'analyse inférentielle. Que faites-vous dans l'analyse inférentielle, c'est chercher des signaux. Tu sais, tu cherches des modèles, tu cherches la cohérence dans le dos et tu cherches des corrélations. Vous cherchez un raisonnement. C' est une sorte de chevauchement avec explorer un traité vers le bas. Sauf si c'est, c'est plus en profondeur et plus concentré et plus méthodique que vous faites ici en français en analyse, alors vous vérifiez et voyez si les modèles sont cohérents et reproductibles. Ce que vous voulez dire par cohérence, c'est que vous voyez la même partie chaque mois après mois ? Vous voyez que c'est un A mesure que le taux augmente, vous voyez que le taux de cholestérol augmente est-ce que cela arrive pour vos patients ? Chaque mois, chaque mois, vous obtenez un nouveau groupe de patients et vous continuez à voir le même schéma. Voyez-vous le même motif en travers ? Voyons les villes à travers les pays à travers différentes races, tout cela dans le cadre d'une analyse inférentielle. Et puis vous faites un test statistique pour voir que les résultats que vous voyez avec les données que vous avez. Est-ce que cela peut être extrapolé à la population indienne comme vous avez des données de San Francisco peut la même chose, et ce est avec les résultats, être le même si vous extrapolez afin qu'ils et leur nous hors du monde entier sont ils va être différent ? C' est tout ce que vous faites juste dans le cadre de l'analyse de contrefaçon à nouveau. Et prenons un exemple de patient. Attends, c'était le diabète. Vous faites tout cela en français dans l'analyse comme vous pourriez prendre rapidement des données d'un état que la Californie fait l'analyse et ensuite voir comment la Californie se compare à New York voir R Calif. Sont les alors vous regardez les courses. Regardez les Asiatiques Américains aux Asiatiques Américains en Californie a montré le même emplacement de modèle Américains dans le New York. Notre don américain a montré la même tendance que les Afro-Américains. Pire, c'est les autres. Donc, vous faites tout ce genre de segmentation et ensuite vous faites tout ce profilage pendant l' analyse inférentielle sur vous en sortiez et appréciez toutes vos conclusions au cours de ce processus ? Une fois que vous savez, analyse inférentielle la modélisation des étapes suivantes. C' est là que toute votre mission apprendre tous les gardes vient coup de pied en jeu sont vous jouez l'immersion précoce apprendre tous les jardins pour construire des modèles sur ce que vous faites dans la construction de modèles est votre typiquement essayé de construire plusieurs modèles en utilisant différents algorithmes sur différents ensembles de données. C' est toutes les techniques qui sont là et l'apprentissage de la mission. Il existe certaines techniques sur la façon dont vous pouvez segmenter vos ensembles de données et la substance multiple , puis les utiliser pour construire des modèles et tester des modèles. Ensuite, comment différents algorithmes peuvent être utilisés sur ce sujet est tout le domaine hors mission learning est tout au sujet. Si vous suivez un cours d'apprentissage en mission, c'était juste une ligne qui a des haricots exploser à travers tout le cours. Vous, bien sûr, avez à tester vos mannequins étaient un fou à nouveau. Leurs méthodes pour la façon dont vous faites cela dans l'apprentissage automatique vous Enfin, je le suis. Si je vos modèles les plus performants quand nous disons les plus performants, nous parlons de précision. Nous parlons du temps de réponse et des ressources utilisées, donc vous devez à nouveau faire quelques compromis. Pour ce qui est de votre modèle le plus performant, disons un modèle contre vous. 80% de précision sur elle prend une minute de course. C' est un autre modèle qui vous donne 85 % de précision, mais il faut une heure de torrent. Lequel est le plus important pour vous ? Est-ce que le plus raccroché pour les 85 ou 80 ? Étrange. Est-il correct pour vous d'avoir une précision de 80 % mais avoir un temps de réponse raisonnable ? Donc on en a entendu parler. Regardez toutes ces trois choses, comme la précision, le temps de réponse et les ressources utilisées. La puissance de calcul requise. Un modèle de bâtiment Andi. Ensuite, pour dire, quel sera votre meilleur modèle afin que le modèle que vous construisez à la fin puisse être aussi simple qu' un arbre de décision ou une équation. On peut lui demander des complexes. Le réseau neuronal pour dépend du problème et des données en question. Donc, mais à la fin du processus, vous avez un modèle que vous sélectionnez en fonction des différents algorithmes et des différents essais que vous connaissez affray, 1 000 000 000 modèles. Ensuite, vous allez aller et faire toutes vos productions en utilisant de nouvelles données à nouveau que adverse ont vous pouvez tester la prédiction, tester vos modèles à nouveau, une partie des cours d'apprentissage de mission que vous verrez. Vous devez continuer à valider la précision de votre modèle. Donc, vous venez de rejoindre construire un modèle testé une fois et de vous en éloigner. Mais tu vas essayer. Les modèles Befriend sont parfois même combinaison de différents modèles et ensuite voir lequel vous donne la meilleure précision possible. Vous allez essayer que mon peuple soit des pneus et des variations dans ce processus d'essai . Maris encore le meilleur moment que vous pouvez utiliser votre Il y a beaucoup de ce est pourquoi je l'appelle le projet de recherche. Au début, vous allez faire beaucoup de bac d'année de recherche de différentes choses et voir lequel fonctionne mieux pour votre projet spécifique, un temps de réponse, des recherches sur les ressources, tous les mécanique, surtout quand vous devez faire des prédictions en temps réel comme une recherche sur le Web. Sharper vient d'entrer dans votre site Web et navigue à travers votre site en faisant des clics, et vous voulez une prédiction en temps réel. Mais les acheteurs vont acheter ne le sont pas. Ces décisions ont été prises comme en temps réel, vous savez, en une seconde avec des résultats aussi minimes que possible. Donc, vous êtes un choix de vos algorithmes. Sur cette base, vous voulez continuer à mesurer les améliorations. Donc, comme vous continuez à travailler ou des combinaisons différentes hors de la production des gardiens des gouvernements traditionnels ont deux parties. L' une est la partie de construction du modèle et la seconde est la partie de prédiction. Donc, vous devez les regarder tous les deux et voir s'il y a mieux à eux deux. Parfois, une certaine production de fichu prend plus et le modèle de construction, mais ils peuvent être très rapides à faire les pièces de production de différentes choses là-bas. Donc, encore une fois, vous devez continuer à mesurer tous vos algorithmes comment ils fonctionnent, puis ils continuent de les comparer et de voir lequel est le meilleur que vous voulez choisir . Vous pourriez même avoir des simulations. L' assimilation peut être aussi simple que des simulations mathématiques, ou vous pouvez créer des logiciels qui peuvent similaires à certains cas d'utilisation. assimilation est utilisée pour valider si l'eau supprime votre jardin disait que dans cette situation donnée, cela pourrait être le résultat. Donc l'unité est similaire là qui peut, même, cet environnement. Cela peut faire la même chose que le NPD fait dans son environnement et voir ensuite si le résultat que vous prédites est ce que vous allez obtenir. simulations sont donc un logiciel complexe. Parfois, les gens ne les construisent pas pour valider les prédictions. Une fois que vous faites tous ces modèles de construction sur la production, la dernière étape que vous faites dans ce cas est venu avec une série de recommandations. Que faites-vous ici ? Est-ce qu'à la fin de ce projet, une recommandation doit être fournie aux propriétaires du projet OK, sur ce que vous avez fait, quels sont les algorithmes à utiliser et quels sont les avantages escomptés ? Donc tous d'entre eux, si vous mettez ensemble dans une belle présentation et présenter leur orteil les propriétaires de produits et ici vient pour attraper un autre projet scientifique fait n'ont pas de recommandations pour en faire les données qui ne présentent pas de motifs explicables. Nous avons parlé de l'essence même de tirer des leçons des relations. Si les données que vous avez ne présentent aucun motif, importe quel motif entre le résultat sur une autre variable. Si le résultat n'est pas prévisible à partir des données que vous possédez, il n'y a rien que vous puissiez prédire Desai. Simple que ça. Cela ne signifie pas que les données depuis le projet est un échec. Vous pouvez avoir un produit avec des frissons. Examinons notre base de données clients et voyons si nous pouvons prédire le désabonnement des clients à la fin du projet. Pour que vous puissiez venir dire, sur la base des données que nous possédons, nous ne pouvons pas prédire le client Chung que cela ne signifie pas que le projet Essence est un échec . Le projet de neurosciences ne fonctionnera que si les données ont un fardeau, sorte qu'il ne s'agit pas par défaut des données. Les scientifiques, si vos données ne sont pas en faute, sont des modèles, bien sûr, est le père de données Scientist est les données a des modèles et le scientifique de données ne parvient pas à les trouver. Mais les données n'ont pas de modèles. Ce n'est pas la faute des scientifiques de données, donc c'est une autre chose importante à noter. Parfois, des modèles inattendus sont découverts qui ont conduit à d'autres avantages, sorte que vous pourriez être à la recherche du Dodi avec un but particulier à l'esprit. Comme si vous étiez en train de regarder le désabonnement du client de crédit. Mais vous pouvez voir ça. Ok, je vois de jolis motifs. Ces modèles peuvent être utilisés pour prédire autre chose. Comme vous pourriez utiliser ces données pour prédire les bouleversements, par exemple. Donc, un projet de science des données pourrait avoir ce site tirer un avantage secondaire. Donc vous pourriez dire, OK, je vois ce joli modèle ici. Peut-être qu'on doit creuser plus profondément. Ensuite, vous allez créer un autre jour, des dizaines de projets pour cela, puis continuer vers le bas que les parties de la porte. Un projet scientifique apporterait également ces avantages. En fait, beaucoup d'entre eux peuvent apparaître pendant le processus une fois que vous commencez à regarder les données. Et, bien sûr, vous faites enfin une présentation sur les recommandations. Dit aux parties prenantes la dernière des choses que vous voulez n'a pas. Voici les itérations qui sont nécessaires, même si les étapes sont moins qu'ici, elles sont censées être faites dans l'ordre. Vous allez continuer à aller et en arrière entre ces étapes sur que peut-être éclater sur intermédiaire ou à la fin, analyse et retour d'information Donc, après avoir fait toute votre analyse, vous avez crié avec l'expert du domaine. Vous avez crié avec les autres intervenants du projet. Ils peuvent revenir avec des commentaires qui peuvent vous forcer à revenir, puis refaire l'éclatement de l'analyse sur une nouvelle lumière qui a été partagée sur les données que vous possédez. Ainsi, les gens peuvent avoir des objectifs différents, différents prospecteurs qui pourraient vous donner de nouveaux déclencheurs pour revenir en arrière et regarder les données qui est un commentaire. Inde signe le produit en ce que leur réponse aux conclusions dans les données sur puis il peut le prendre en plusieurs parties d'analyse. Si vous l'avez fait, alors vient la face finale qui est la face de production ou la face de givrage de production. Nous mettons en œuvre des processus continus que vous deux avocats êtes tout le travail que vous avez fait dans les visages précédents. Ondo commencer à faire quelque chose sur une base continue année. Voici donc ce qu'on appelle des produits de date de construction. Alors, quelle est la date ? Un produit et le produit est une application qui fonctionne sur les données, extrait quelque chose des données et l'utilise pour atteindre un certain objectif. C' est simple que cette commande produit plus tard. Donc, une fois une modélisation des données et la prévision. Ill s'est gardé, s'est raffermi. Tu sais, qu' est-ce que tu as à faire, alors tu ferais mieux d'obtenir un produit. Donc, quel est le meilleur produit est essentiellement la production, vous savez, ce qui rend le tribunal les quartiers pas plus et pas de tourner de 80. Tu ne peux rien. Tu fais 1/4. Cette qualité de production sera toute la vérification des erreurs en place avec toute la gestion et surveillance en place qui peut le faire fera toutes les étapes dont nous avons parlé. Toutes les étapes d'injection de données. Vous nous donnez donc automatiser l'obtention de flux de données à partir de toutes vos sources de données et ensuite vous devez automatiser ces applications pour qu'elles s'exécutent régulièrement. Regardez les données qui entrent et il commence à nettoyer les données, à les transformer, à les conserver. Ensuite, tout votre code d'analyse va entrer. Andre commencera à regarder les données régulièrement et commencera à construire des modèles. Donc, tous sont des produits fille en un mot, ils doivent fonctionner régulièrement et continuer à produire, obtenir des données et à produire ces modèles. Et, bien sûr, la partie production Après les marques en temps réel, vous savez, bash pour n'importe quelle façon il a à fonctionner. Et c'est encore une fois un autre produit de données que les parents utilisent régulièrement. Plus le modèle qui a été construit pour faire des prévisions quand et où il est nécessaire. Donc, construire il y a de la protection de l'air, la dernière partie qui est plus comme ça est très c'est plus comme un logiciel originaire de ce projet de logiciel de moteur. En fait, si vous voulez dire parce que vous savez exactement le département qu'ils sont sur les convertit déjà en un produit logiciel, vous seriez juste un besoin d'avoir une rigueur logicielle de qualité dans le développement et les tests sur elle peut être le déploiement de modèles d'entreprise et de cloud dépend de la frontière produit plus tard est censé faire. Bien sûr, la chose la plus importante ici est également que vous devez obtenir des flux de données opérationnalisés. Les données proviennent de toutes les sources radar. Non, ils doivent être continués. Quand je dis continu, c'est instantané. Vous continuez à les avoir comme ils se produisent. Parfois, tu reçois ça tous les jours. Fais ça, Adams. Parfois, vous savez, une fois un V 15 minutes et Voyage 30 minutes de défense imprimable dépend de votre cas d'utilisation, mais il doit être opérationnalisé de sorte que là qui continue à venir régulièrement. Vous n'avez pas les orteils travailler avec quelqu'un tous les jours pour obtenir les données. Tout est automatisé ici. Et bien sûr, nous avons parlé. Comme nous médecin bordé, il s produits effectuent toute la transformation de nettoyage en déclarant chaque déclaration est une chose clé que vous voulez faire ici et enfin retirer toutes les données pourrait être nécessaire. Tu sais, fur et à mesure que tu commences Gator, ça va être beaucoup de données, surtout une fois que tu transformeras le droit au formulaire, tu veux toutes les données brutes. Tu sais, tu voudras peut-être les garder pendant 10 jours, 15 jours et les jeter dehors. Donc, cela complète toutes les étapes que vous avez à faire dans un projet typique de la science des données. Mais il y a toujours quelque chose appelé, ah amélioration continue. Une fois que vous déployez un produit de données, il s'agit toujours de changements dans l'environnement d'entreprise qui peuvent affecter l'ensemble de votre apprentissage en production. Donc c'est quelque chose à rêver. Rappelez-vous tout ce que vous avez construit en tant que produit de données. Pas d'algorithmes, les algorithmes aux modèles qu'ils ont fait que leur précision pourrait baisser parce que hors changements dans l'environnement de l' entreprise et aussi les choses d'apprentissage et de production doit être la valeur qui périodiquement à des intervalles approximatifs pour s'assurer qu'ils continuent à montrer leurs niveaux de carrière qu'ils ont d'origine sur Minto ont sur la revalidation besoin se produire lorsque leur gène de processus d'entreprise , Vous savez qu'il ya un changement quelque chose dans le processus de projet d'entreprise qui où le entités se comportent est en train de changer le monde, l'environnement. Et Richard va nous faire changer. Donc, évidemment, vous avez un très, très fait tout ce que vous faites ici. Donc, cela pourrait avoir à être sous le projet enfant qui a été Maker fait dans son projet sont un projet d' amélioration qui doit venir périodiquement pour valider. Ce que tu as fait est très bien. Un meilleur modèle d'ordre du jour de la force devrait être en cours. Non, c'est important. On ne peut pas vouloir et s'arrêter là, on doit être continu. Donc, chez quelqu'un pour ce que nous avons vu jusqu'à présent, les projets de science des données suivent un cycle de vie. projets de science des données sont des recherches de leurs projets. Il y a beaucoup d'expérimentation et parfois pas de compréhension. Donc c'est quelque chose. C' est pour ça qu'on l'appelle. C' est un signal de projet de type recherche dans les résultats de leur père, pas le garde vient. Duda est plus important que les algorithmes eux-mêmes. Des itérations multiples peuvent être nécessaires avant d'obtenir des résultats raisonnables. C' est une autre chose dont vous voulez vous souvenir. Donc, il n'y a pas une étape très sérieuse dans un projet de science des données où pense que c'est fait ou devrait être fait. Alors aidez. Cela vous a été utile. Merci de votre écoute, mais

Sciences appliquées des données - 1 : Vue d'ensemble

Kumaran Ponnambalam, Dedicated to Data Science Education

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

À propos de la science de données appliquées

8:12

2.

Qu'est-ce que la science de données

11:51

3.

Qu'est-ce que la science de données

10:44

4.

Qu'est-ce que la science de données

12:55

5.

Qu'est-ce que la science de données

9:31

6.

Cas d'utilisation de la science des données

7:47

7.

Cycle de vie de données - Configuration

11:46

8.

Cycle de vie de données - Data Science

11:57

9.

Cycle de vie de science des données : analyse et production

19:16

À propos de ce cours

Rencontrez votre enseignant·e

Kumaran Ponnambalam

Compétences associées

Projet de cours pratique

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Apprenez, où que vous soyez

Cours apparentés

Transcription